In [6]:
import pandas as pd
import numpy as np
import warnings
from google.colab import files  # Para download no Colab

pd.options.display.float_format = '{:.4f}'.format
warnings.filterwarnings("ignore")

file_path = "2-resultados_sorteios.csv"
output_path = "5-correlacoes_sorteios.csv"

try:
    df = pd.read_csv(file_path, sep="\t", engine="python")

    # Renomeia as colunas (assumindo que as 2 primeiras não são sorteios)
    df.columns = [f"SORTEIO {i-2}" if i > 2 else df.columns[i-1] for i in range(1, df.shape[1] + 1)]

    # Converte para numérico, forçando erros para NaN
    df_numeric = df.apply(pd.to_numeric, errors='coerce')

    # Seleciona apenas as colunas de sorteios (a partir da terceira coluna)
    sorteios = df_numeric.iloc[:, 2:]

    # Calcula a matriz de correlação de Pearson
    correlacoes = sorteios.corr(method='pearson')

    # Substitui a diagonal por "X"
    for i in range(correlacoes.shape[0]):
        correlacoes.iat[i, i] = np.nan
    correlacoes = correlacoes.fillna("X")

    # Exporta para CSV com separador TAB
    correlacoes.to_csv(output_path, sep='\t', index=True)

    # Faz o download se estiver no Colab
    #files.download(output_path)

    # Exibe parte da matriz
    print("Matriz de correlação gerada com sucesso:")
    #print(correlacoes.head())

except FileNotFoundError:
    print(f"Arquivo '{file_path}' não encontrado.")

except pd.errors.EmptyDataError:
    print(f"Erro: o arquivo '{file_path}' está vazio ou mal formatado.")

except Exception as e:
    print(f"Ocorreu um erro ao processar os dados: {e}")


Matriz de correlação gerada com sucesso:


In [None]:
import pandas as pd
import numpy as np

# Dados de exemplo
a = [
    [1, 2, 3],
    [5, 6, 9],
    [5, 6, 11],
    [5, 6, 13],
    [5, 3, 13]
]

# Criar DataFrame e calcular a correlação com Pandas
df = pd.DataFrame(data=a, columns=["A", "B", "C"])
correlacoes_pandas = df.corr()
print("Correlação com Pandas:")
print(correlacoes_pandas)

# Função manual de correlação com NumPy
def corr(data1, data2):
    """
    Calcula a correlação de Pearson entre dois arrays NumPy.
    """
    mean1 = data1.mean()
    mean2 = data2.mean()
    std1 = data1.std()
    std2 = data2.std()

    # Fórmula da correlação de Pearson
    corr_val = ((data1 * data2).mean() - mean1 * mean2) / (std1 * std2)
    return corr_val

# Conversão das colunas para arrays NumPy
x = df["A"].to_numpy()
y = df["B"].to_numpy()
z = df["C"].to_numpy()

# Calculando as correlações manualmente
print("\nCorrelação manual com NumPy:")
print(f"Corr(A, B): {corr(x, y)}")
print(f"Corr(A, C): {corr(x, z)}")
print(f"Corr(B, C): {corr(y, z)}")

# Fonte https://www.google.com.br/books/edition/Lecture_Notes_in_Computational_Intellige/KRjzDwAAQBAJ?hl=pt-BR&gbpv=1&dq=pandas.corr&pg=PA388&printsec=frontcover
# Sergii Babichev, Volodymyr Lytvynenko, Waldemar Wójcik · 2020
#

Correlação com Pandas:
          A         B         C
A  1.000000  0.745601  0.916579
B  0.745601  1.000000  0.544248
C  0.916579  0.544248  1.000000

Correlação manual com NumPy:
Corr(A, B): 0.745601135079325
Corr(A, C): 0.916578572229226
Corr(B, C): 0.5442477655948234
