Correlação no Python
Você poderá baixar (downloding) desta página em (download)
Uma grande quantidade............
#Para calculara CORRELAÇÃO entre 2 variáveis em Python, vamos usar # a função CORRCOEF() do Numpy. import numpy as np np.random.seed(100) #Crie um array de 50 números inteiros aleatórios entre 0 e 10. var1 = np.random.randint(0,10,50) #Crie um array correlacionado positivamente com alguma aleatoriedade var2 = var1 + np.random.normal(0,10,50) #Calcule a correlação entre os dois arrays no formato de matriz. np.corrcoef(var1,var2)
array([[1. , 0.3350184],
[0.3350184, 1. ]])
XXXXXXXXXXXXXXXXXX
#Se quisermos retornar o coeficiente de correlação entre as 2 variáveis, poderemos usar a sintaxe: np.corrcoef(var1, var2)[0,1]
0.3350183976385703
XXXXXXXXXXXXXXXXXXXXXXXXXXXX
#Para testar se esta correlação é estatisticamente significante, #podemos calcular o p-value associado com o coeficiente de correlação de Pearson # usando a função pearsonr(), que retorna o coeficiente de correlação de Pearson # com o p-value two-tailed. from scipy.stats.stats import pearsonr pearsonr(var1, var2)
(0.3350183976385702, 0.01739755808778291)
#O coeficiente de correlação é 0,335 e o p-value é 0,017. Como este p-value é menor do que 0,05, concluímos # que há uma correlação estatisticamente significante entre as 2 variáveis
# Se vc tiver interesse em calcular a correlação entre várias variáveis num Pandas DataFrame, # você pode simplesmente usar a função .CORR(). import pandas as pd data = pd.DataFrame(np.random.randint(0,10, size=(5,3)), columns=['A', 'B', 'C']) display(data)
#Calcule o coeficiente de correlação para todos os pares de combinação data.corr()
#Se vc estiver somente interessado no cálculo da correlação entre 2 variáveis específicas no DataFrame, vc pode especificar as variáveis: data['A'].corr(data['B'])
-0.7755667343294814
Calculadora de Juros Simples
Dashboards são ferramentas.............