In [None]:
import pandas as pd
import numpy as np
from google.colab import files  # para download no Colab

# Leitura do arquivo original
file_path = "/content/resultado_sorteios.csv"
df = pd.read_csv(file_path, sep="\t", engine="python")

# Renomeia as colunas como Sorteio 1, Sorteio 2, ..., Sorteio n
df.columns = [f"SORTEIO {i-2}" for i in range(1, df.shape[1] + 1)]

# Converte para numérico (força coercion para evitar erros)
df_numeric = df.apply(pd.to_numeric, errors='coerce')

# Seleciona apenas colunas de sorteios (a partir da terceira coluna)
sorteios = df_numeric.iloc[:, 2:]

# Calcula a matriz de correlação de Pearson
correlacoes = sorteios.corr(method='pearson')

# Substitui a diagonal por "X"
for i in range(correlacoes.shape[0]):
    correlacoes.iat[i, i] = np.nan
correlacoes = correlacoes.fillna("X")

# Exporta para CSV com separador TAB
output_path = "/content/correlacoes_sorteios.csv"
correlacoes.to_csv(output_path, sep='\t', index=True)

# Download do arquivo no Google Colab
files.download(output_path)

# (opcional) Exibe parte da matriz
print(correlacoes.head())



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

          SORTEIO 1 SORTEIO 2 SORTEIO 3 SORTEIO 4 SORTEIO 5 SORTEIO 6  \
SORTEIO 1         X -0.089971  0.013925  0.162698  0.115079  0.130736   
SORTEIO 2 -0.089971         X -0.097186  0.027056  0.024531  0.112987   
SORTEIO 3  0.013925 -0.097186         X -0.034271  0.044733 -0.278571   
SORTEIO 4  0.162698  0.027056 -0.034271         X -0.228283  0.017532   
SORTEIO 5  0.115079  0.024531  0.044733 -0.228283         X -0.069769   

          SORTEIO 7 SORTEIO 8 SORTEIO 9 SORTEIO 10  ... SORTEIO 535  \
SORTEIO 1  -0.08658  0.172727 -0.253968  -0.228283  ...   -0.084488   
SORTEIO 2    0.2443  0.157287  0.081746  -0.002958  ...   -0.113636   
SORTEIO 3 -0.122222  0.009957 -0.134055   0.067316  ...    0.044589   
SORTEIO 4  0.112771  0.213131 -0.098629    0.04632  ...    0.032684   
SORTEIO 5 -0.059957 -0.119841  0.222006  -0.026984  ...   -0.015657   

          SORTEIO 536 SORTEIO 537 SORTEIO 538 SORTEIO 539 SORTEIO 540  \
SORTEIO 1   -0.072367    0.160967    0.021068    0.131025   -

In [1]:
import pandas as pd
import numpy as np

# Dados de exemplo
a = [
    [1, 2, 3],
    [5, 6, 9],
    [5, 6, 11],
    [5, 6, 13],
    [5, 3, 13]
]

# Criar DataFrame e calcular a correlação com Pandas
df = pd.DataFrame(data=a, columns=["A", "B", "C"])
correlacoes_pandas = df.corr()
print("Correlação com Pandas:")
print(correlacoes_pandas)

# Função manual de correlação com NumPy
def corr(data1, data2):
    """
    Calcula a correlação de Pearson entre dois arrays NumPy.
    """
    mean1 = data1.mean()
    mean2 = data2.mean()
    std1 = data1.std()
    std2 = data2.std()

    # Fórmula da correlação de Pearson
    corr_val = ((data1 * data2).mean() - mean1 * mean2) / (std1 * std2)
    return corr_val

# Conversão das colunas para arrays NumPy
x = df["A"].to_numpy()
y = df["B"].to_numpy()
z = df["C"].to_numpy()

# Calculando as correlações manualmente
print("\nCorrelação manual com NumPy:")
print(f"Corr(A, B): {corr(x, y)}")
print(f"Corr(A, C): {corr(x, z)}")
print(f"Corr(B, C): {corr(y, z)}")

# Fonte https://www.google.com.br/books/edition/Lecture_Notes_in_Computational_Intellige/KRjzDwAAQBAJ?hl=pt-BR&gbpv=1&dq=pandas.corr&pg=PA388&printsec=frontcover
# Sergii Babichev, Volodymyr Lytvynenko, Waldemar Wójcik · 2020
#

Correlação com Pandas:
          A         B         C
A  1.000000  0.745601  0.916579
B  0.745601  1.000000  0.544248
C  0.916579  0.544248  1.000000

Correlação manual com NumPy:
Corr(A, B): 0.745601135079325
Corr(A, C): 0.916578572229226
Corr(B, C): 0.5442477655948234
