# Parte I: Avaliação das Diferenças entre Safras (Cerrado Mineiro)

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt
import seaborn as sns

# Carregar os dados
dadoscafe= pd.read_excel("Dados_disciplina.xlsx")
dadoscafe=dadoscafe.iloc[:,1:]
dadoscafe = pd.DataFrame(dadoscafe)
dadoscafe



In [None]:
from sklearn.preprocessing import StandardScaler

# Converta todos os nomes das colunas para string
dadoscafe.columns = dadoscafe.columns.astype(str)

scaler = StandardScaler()
dadospp = scaler.fit_transform(dadoscafe)
dadospp = pd.DataFrame(dadospp, columns=dadoscafe.columns)
dadospp

In [None]:
comprimentos_onda = np.linspace(450, 231, dadoscafe.shape[1])

In [None]:
# Criar a lista com os rótulos
classes = ['Safra 2018'] * 45 + ['Safra 2019'] * 52

# Criar o DataFrame
df_safra = pd.DataFrame(classes, columns=['Safra'])

# Visualizar
print(df_safra)


## PCA colorido por safra

In [None]:
# Corrigido: usar PCA diretamente, sem reimportar módulos já importados

# Preencher NaNs com a média de cada coluna
dadospp_sem_nan = dadospp.fillna(dadospp.mean())

modelo_pca = PCA(n_components=2)
X_pca = modelo_pca.fit_transform(dadospp_sem_nan)

# Variância explicada
var_explicada = modelo_pca.explained_variance_ratio_ * 100
print(f'Variância explicada: PC1 = {var_explicada[0]:.2f}%, PC2 = {var_explicada[1]:.2f}%')

# Criar vetor de safra para colorir os pontos
safras = ['2018'] * 45 + ['2019'] * 52
safras = np.array(safras)

plt.figure(figsize=(8,6))
for safra, cor in zip(['2018', '2019'], ['blue', 'green']):
    plt.scatter(X_pca[safras == safra, 0], X_pca[safras == safra, 1], label=f'Safra {safra}', alpha=0.7, c=cor)
plt.xlabel(f'PC1 ({var_explicada[0]:.2f}%)')
plt.ylabel(f'PC2 ({var_explicada[1]:.2f}%)')
plt.title('PCA - Safras 2018 vs 2019')
plt.legend()
plt.grid(True)
plt.show()



In [None]:
# Obter os loadings do PCA
loadings = modelo_pca.components_.T  # Transposta para ficar variáveis x PCs

# Plot dos loadings para PC1
plt.figure(figsize=(10,6))
plt.plot(comprimentos_onda,loadings[:, 0])
plt.title('Loadings do PC1')
plt.xlabel('Variáveis (comprimentos de onda)')
plt.ylabel('Contribuição')
plt.grid(True)
plt.show()

# Plot dos loadings para PC2
plt.figure(figsize=(10,6))
plt.plot(comprimentos_onda,loadings[:, 1])
plt.title('Loadings do PC2')
plt.xlabel('Variáveis (comprimentos de onda)')
plt.ylabel('Contribuição')
plt.grid(True)
plt.show()


## Dendrograma (HCA) com safra nos rótulos

In [None]:
# Preencher NaNs com a média de cada coluna
dadospp_sem_nan = dadospp.fillna(dadospp.mean())

# Calcular linkage (ward é o mais usado)
linked = linkage(dadospp_sem_nan, method='ward')

# Plot do dendrograma
plt.figure(figsize=(10, 7))
dendrogram(linked, labels=safras, leaf_rotation=90)
plt.title('Dendrograma')
plt.xlabel('Amostras')
plt.ylabel('Distância')
plt.show()
