Correlação no Python

Você poderá baixar (downloding) desta página em (download)

Uma grande quantidade............

 #Para calculara CORRELAÇÃO entre 2 variáveis em Python, vamos usar
# a função CORRCOEF() do Numpy.

import numpy as np

np.random.seed(100)

#Crie um array de 50 números inteiros aleatórios entre 0 e 10.
var1 = np.random.randint(0,10,50)

#Crie um array correlacionado positivamente com alguma aleatoriedade
var2 = var1 + np.random.normal(0,10,50)

#Calcule a correlação entre os dois arrays no formato de matriz.
np.corrcoef(var1,var2)

array([[1. , 0.3350184],

[0.3350184, 1. ]])

XXXXXXXXXXXXXXXXXX

#Se quisermos retornar o coeficiente de correlação entre as 2 variáveis, poderemos usar a sintaxe:

np.corrcoef(var1, var2)[0,1]

0.3350183976385703

XXXXXXXXXXXXXXXXXXXXXXXXXXXX

#Para testar se esta correlação é estatisticamente significante,
#podemos calcular o p-value associado com o coeficiente de correlação de Pearson
# usando a função pearsonr(), que retorna o coeficiente de correlação de Pearson
# com o p-value two-tailed.

from scipy.stats.stats import pearsonr

pearsonr(var1, var2)

(0.3350183976385702, 0.01739755808778291)


 #O coeficiente de correlação é 0,335 e o p-value é 0,017. Como este p-value é menor do que 0,05, concluímos 
# que há uma correlação estatisticamente significante entre as 2 variáveis

# Se vc tiver interesse em calcular a correlação entre várias variáveis num Pandas DataFrame, 
# você pode simplesmente usar a função .CORR().

import pandas as pd

data = pd.DataFrame(np.random.randint(0,10, size=(5,3)), columns=['A', 'B', 'C'])
display(data)
 #Calcule o coeficiente de correlação para todos os pares de combinação

data.corr()
 #Se vc estiver somente interessado no cálculo da correlação entre 2 variáveis específicas no DataFrame, vc pode especificar as variáveis:

data['A'].corr(data['B'])

-0.7755667343294814

link interessante

Calculadora de Juros Simples

Dashboards são ferramentas.............