# Explica√ß√£o dos c√≥digos utilizados para a cria√ß√£o da Rede Neural 

## Explica√ß√£o do C√≥digo ‚Äì Pr√©-processamento da Planilha de Dados

O trecho de c√≥digo a seguir foi desenvolvido com a linguagem **Python**, utilizando as bibliotecas **Pandas** e **NumPy**, com o objetivo de realizar o pr√©-processamento dos dados contidos em uma planilha `.xlsx`, preparando-os para a etapa de modelagem preditiva.

```python
import pandas as pd
import numpy as np

file_path = "planilha2.xlsx"
data = pd.read_excel(file_path)
```

## Transforma√ß√£o de colunas categ√≥ricas em valores num√©ricos

```python
data['Ploidia'] = data['Ploidia'].replace({'EuploÃÅide': 0, 'AneuploÃÅide': 1})
```

A vari√°vel alvo Ploidia, originalmente categ√≥rica (com valores 'Euploide' e 'Aneupl√≥ide'), √© convertida para valores bin√°rios (0 e 1, respectivamente), facilitando sua interpreta√ß√£o por modelos de aprendizado de m√°quina.

```python
data['Est√°gio'] = data['Est√°gio'].str.replace("D", "", regex=False)
data['Est√°gio'] = pd.to_numeric(data['Est√°gio'], errors='coerce')
```

A coluna Est√°gio, que representa o dia de desenvolvimento embrion√°rio, possui um caractere D (ex.: "D5"). Este caractere √© removido, e o valor restante √© convertido para tipo num√©rico (inteiro), garantindo compatibilidade com algoritmos que exigem dados quantitativos.

In [None]:
import pandas as pd
import numpy as np

file_path = "planilha2.xlsx"

data = pd.read_excel(file_path)

# Substituindo os valores da coluna 'Ploidia' de 'euploide' e 'aneuploide' para 0 e 1
data['Ploidia'] = data['Ploidia'].replace({'EuploÃÅide': 0, 'AneuploÃÅide': 1})

# Removendo a letra D da coluna Est√°gio para ficar somente n√∫meros representado o dia
data['Est√°gio'] = data['Est√°gio'].str.replace("D", "", regex=False)
data['Est√°gio'] = pd.to_numeric(data['Est√°gio'], errors='coerce')

# Substituindo a classifica√ß√£o Morfo pelo seu grupo de 1 a 4
def classificar_morfo(valor):
    prefixo = valor[0]
    sufixo = valor[1:]

    if sufixo == "AA" and prefixo in "3456":
        return 1  # Excelente
    elif sufixo in ["AB", "BA"] and prefixo in "3456":
        return 2  # Bom
    elif sufixo in ["BB", "AC", "CA"] and prefixo in "3456":
        return 3  # M√©dio
    else:
        return 4  # Ruim

# Aplicar a fun√ß√£o diretamente na coluna 'Morfo'
data['Morfo'] = data['Morfo'].apply(classificar_morfo)

# Selecionando apenas as colunas num√©ricas
numeric_columns = data.select_dtypes(include=[np.number])

# Salvando em uma nova planilha
output_file = "PlanilhaNumerica2.xlsx"
numeric_columns.to_excel(output_file, index=False)

print(f"Planilha somente com dados num√©ricos salva como: {output_file}")

---------------------------------------------------------------------------------------------------------------

## üß† Explica√ß√£o do C√≥digo ‚Äì Avalia√ß√£o do Modelo MLP e Gera√ß√£o de Predi√ß√µes

Este script em Python tem como objetivo **carregar um modelo de Rede Neural Multilayer Perceptron (MLP)** previamente treinado, aplicar esse modelo a novos dados e calcular as principais **m√©tricas de desempenho**, al√©m de gerar **visualiza√ß√µes e salvar os resultados finais** em uma nova planilha.

---

### üìö Bibliotecas Utilizadas

```python
import pandas as pd
import joblib
import numpy as np
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score, classification_report, roc_curve
import matplotlib.pyplot as plt
import seaborn as sns
```

Essas bibliotecas s√£o usadas para:
* Manipula√ß√£o de dados (pandas, numpy)
* Carregamento de modelo e scaler (joblib)
* C√°lculo de m√©tricas (sklearn.metrics)
* Visualiza√ß√£o gr√°fica (matplotlib, seaborn)

In [None]:
import pandas as pd
import joblib
import numpy as np
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score, classification_report, roc_curve
import matplotlib.pyplot as plt
import seaborn as sns

# === 1. Carrega os dados ===
df = pd.read_excel("PlanilhaNumerica2.xlsx")

# === 2. Carrega o modelo e o scaler treinados ===
modelo = joblib.load("melhor_modelo_mlp_20250610_113659.pkl")
scaler = joblib.load("scaler_mlp_20250610_113659.pkl")

# === 3. Prepara os dados ===
X = df.drop(columns=["Ploidia"], errors="ignore")
y_true = df["Ploidia"]

# Verifica e preenche colunas faltantes
colunas_treinadas = scaler.feature_names_in_
for col in colunas_treinadas:
    if col not in X.columns:
        X[col] = 0

# Garante a ordem correta
X = X[colunas_treinadas]

# === 4. Aplica o scaler ===
X_scaled = scaler.transform(X)

# === 5. Faz a classifica√ß√£o bin√°ria ===
classes_preditas = modelo.predict(X_scaled)

# === 6. Obt√©m a probabilidade da classe positiva (euploide) ===
probabilidades = modelo.predict_proba(X_scaled)[:, 1]
porcentagem_euploidia = (probabilidades * 100).round(2)

# === 7. Adiciona as predi√ß√µes ao dataframe ===
df["Classe_Prevista"] = classes_preditas
df["Porcentagem_Euploidia_Preditiva"] = porcentagem_euploidia

# === 8. M√âTRICAS DE DESEMPENHO ===
acc = accuracy_score(y_true, classes_preditas)
auc = roc_auc_score(y_true, probabilidades)

cm = confusion_matrix(y_true, classes_preditas)
tn, fp, fn, tp = cm.ravel()

recall_euploide = tp / (tp + fn) if (tp + fn) > 0 else 0
recall_aneuploide = tn / (tn + fp) if (tn + fp) > 0 else 0

print("\n=== M√âTRICAS DE DESEMPENHO ===")
print(f"Acur√°cia: {acc:.3f}")
print(f"AUC: {auc:.3f}")
print(f"Recall Euploide (Sensibilidade): {recall_euploide:.3f}")
print(f"Recall Aneuploide (Especificidade): {recall_aneuploide:.3f}")

print("\n=== Classification Report ===")
print(classification_report(y_true, classes_preditas))

# === 9. Matriz de Confus√£o ===
plt.figure(figsize=(5, 4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Aneuploide (0)", "Euploide (1)"],
            yticklabels=["Aneuploide (0)", "Euploide (1)"])
plt.xlabel("Predito")
plt.ylabel("Real")
plt.title("Matriz de Confus√£o")
plt.tight_layout()
plt.show()

# === 10. Curva ROC ===
fpr, tpr, thresholds = roc_curve(y_true, probabilidades)
plt.figure()
plt.plot(fpr, tpr, label=f"ROC Curve (AUC = {auc:.2f})")
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel("Falso Positivo (1 - Especificidade)")
plt.ylabel("Verdadeiro Positivo (Sensibilidade)")
plt.title("Curva ROC")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# === 11. Salva a planilha final com tudo ===
df.to_excel("Planilha_Com_Classificacao_e_Porcentagem.xlsx", index=False)

print("\nConclu√≠do com sucesso!")
print("Arquivo salvo como: Planilha_Com_Classificacao_e_Porcentagem.xlsx")

---------------------------------------------------------------------------------------------------------------

## Explica√ß√£o da Integra√ß√£o do LIME no Pipeline de Predi√ß√£o

Inicialmente, foi desenvolvido um pipeline tradicional de predi√ß√£o utilizando uma Rede Neural Artificial do tipo Multilayer Perceptron (MLP), treinada com dados morfocin√©ticos de embri√µes. Esse pipeline inclui as etapas de pr√©-processamento, normaliza√ß√£o dos dados com StandardScaler, carregamento do modelo treinado (joblib), predi√ß√£o das classes (euploide ou aneuploide), c√°lculo da probabilidade da classe positiva (euploidia) por meio do m√©todo predict_proba, e gera√ß√£o de m√©tricas de desempenho como acur√°cia, AUC, sensibilidade (recall) e matriz de confus√£o. Os resultados, incluindo a classe prevista e a porcentagem de euploidia, s√£o salvos em uma planilha Excel para posterior an√°lise.

No entanto, apesar de fornecer predi√ß√µes quantitativas precisas, esse modelo opera como uma "caixa-preta", sem transpar√™ncia sobre os fatores que influenciam suas decis√µes. Diante dessa limita√ß√£o, foi incorporada ao pipeline a biblioteca LIME (Local Interpretable Model-Agnostic Explanations), com o objetivo de fornecer explica√ß√µes locais para cada predi√ß√£o realizada.

A abordagem com LIME utiliza o LimeTabularExplainer, que gera interpreta√ß√µes individualizadas ao perturbar levemente os dados de entrada e observar como o modelo responde a essas varia√ß√µes. Dessa forma, o LIME aproxima o comportamento do modelo em torno de uma inst√¢ncia espec√≠fica utilizando um modelo linear local, revelando quais atributos mais contribu√≠ram para a classifica√ß√£o de cada embri√£o.

No c√≥digo final, para cada embri√£o avaliado, o LIME √© executado por meio do m√©todo explain_instance, fornecendo n√£o apenas a probabilidade de euploidia, mas tamb√©m a estrutura explicativa associada √† predi√ß√£o. Embora neste est√°gio as explica√ß√µes tenham sido computadas, elas ainda n√£o foram exportadas em formato visual (por exemplo, .html), o que est√° previsto como uma etapa adicional para facilitar a an√°lise interpretativa dos resultados.

A integra√ß√£o do LIME representa um passo fundamental na dire√ß√£o da intelig√™ncia artificial explic√°vel (XAI), permitindo que os profissionais envolvidos em processos de decis√£o cl√≠nica compreendam melhor o racioc√≠nio do modelo. Essa transpar√™ncia √© especialmente relevante no contexto da fertiliza√ß√£o in vitro, onde decis√µes baseadas em aprendizado de m√°quina podem impactar diretamente a sele√ß√£o embrion√°ria e, consequentemente, os desfechos reprodutivos.

In [None]:
import pandas as pd
import joblib
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score, classification_report, roc_curve
import matplotlib.pyplot as plt
import seaborn as sns
import lime
import lime.lime_tabular
import numpy as np

df = pd.read_excel("PlanilhaNumerica.xlsx")
modelo = joblib.load("melhor_modelo_mlp_20250610_113659.pkl")
scaler = joblib.load("scaler_mlp_20250610_113659.pkl")

X = df.drop(columns=["Ploidia"], errors="ignore")
y_true = df["Ploidia"]

colunas_treinadas = scaler.feature_names_in_
for col in colunas_treinadas:
    if col not in X.columns:
        X[col] = 0  

X = X[colunas_treinadas]
X_scaled = scaler.transform(X)

classes_preditas = modelo.predict(X_scaled)

explainer = lime.lime_tabular.LimeTabularExplainer(
    training_data=X_scaled,
    feature_names=colunas_treinadas,
    mode='classification',
    discretize_continuous=True,
    random_state=42
)

print("üîé Calculando LIME + Probabilidades para cada embri√£o...")
prob_euploidia = []

for i in range(len(X_scaled)):
    _ = explainer.explain_instance(X_scaled[i], modelo.predict_proba, num_features=len(colunas_treinadas))
    
    prob = modelo.predict_proba(X_scaled[i].reshape(1, -1))[0][1]
    prob_euploidia.append(round(prob * 100, 2))

df["Classe_Prevista"] = classes_preditas
df["Prob_Euploidia_LIME"] = prob_euploidia

prob_raw = modelo.predict_proba(X_scaled)[:, 1]
acc = accuracy_score(y_true, classes_preditas)
auc = roc_auc_score(y_true, prob_raw)

cm = confusion_matrix(y_true, classes_preditas)
tn, fp, fn, tp = cm.ravel()
recall_euploide = tp / (tp + fn) if (tp + fn) > 0 else 0
recall_aneuploide = tn / (tn + fp) if (tn + fp) > 0 else 0

print("\n=== M√âTRICAS DE DESEMPENHO ===")
print(f"Acur√°cia: {acc:.3f}")
print(f"AUC (baseado na sigmoid): {auc:.3f}")
print(f"Recall Euploide (Sensibilidade): {recall_euploide:.3f}")
print(f"Recall Aneuploide (Especificidade): {recall_aneuploide:.3f}")
print("\n=== Classification Report ===")
print(classification_report(y_true, classes_preditas))

plt.figure(figsize=(5, 4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Aneuploide (0)", "Euploide (1)"],
            yticklabels=["Aneuploide (0)", "Euploide (1)"])
plt.xlabel("Predito")
plt.ylabel("Real")
plt.title("Matriz de Confus√£o")
plt.tight_layout()
plt.show()

fpr, tpr, thresholds = roc_curve(y_true, prob_raw)
plt.figure()
plt.plot(fpr, tpr, label=f"ROC Curve (AUC = {auc:.2f})")
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel("Falso Positivo (1 - Especificidade)")
plt.ylabel("Verdadeiro Positivo (Sensibilidade)")
plt.title("Curva ROC")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

df.to_excel("Planilha_Com_LIME_Porcentagem.xlsx", index=False)

print("\n Conclu√≠do com sucesso!")
print("Arquivo salvo como: Planilha_Com_LIME_Porcentagem.xlsx")