<a href="https://colab.research.google.com/github/cibelerusso/Aprendizado_de_Maquina/blob/main/Codigos%20em%20Python/PIPGES/04_Simula%C3%A7%C3%A3o_de_dados_bin%C3%A1rios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# EST5534 Aprendizado de Máquina Estatístico


por **Cibele Russo**

**ICMC/USP - São Carlos SP**


## Programa

- Simulação de dados com resposta binária
- Ajuste por Regressão logística e Naive Bayes

# Simulação de dados com resposta binária

In [38]:
import numpy as np
import pandas as pd
from scipy.stats import logistic
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, roc_curve, auc
import matplotlib.pyplot as plt

In [39]:
# Define a semente aleatória para reprodutibilidade
np.random.seed(123)

# Tamanho de cada amostra
tamanho_amostra = 100

# Número de amostras
num_amostras = 1000

# Para armazenar as métricas de desempenho
precisao_log=[]
taxa_erro_log = []
auc_log = []
precisao_nb=[]
taxa_erro_nb = []
auc_nb = []

# Loop for para realizar a simulação 1000 vezes
for _ in range(num_amostras):

  # Gere covariáveis para todas as amostras
  covariaveis = np.random.rand(tamanho_amostra, 2)

  # Defina os coeficientes para as covariáveis e o intercepto
  coef_covariavel1 = 2.0
  coef_covariavel2 = -1.5
  intercepto = 0.5

  # Calcule os log-odds para todas as amostras
  log_odds = intercepto + coef_covariavel1 * covariaveis[:, 0] + coef_covariavel2 * covariaveis[:, 1]

  # Calcule as probabilidades usando a função logística
  probabilidades = logistic.cdf(log_odds)

  # Gere dados binários para todas as amostras comparando as probabilidades com valores aleatórios
  dados_binarios = np.random.rand(tamanho_amostra) < probabilidades

  # Redimensione os dados binários para ser um array 1D de tamanho (tamanho_amostra)
  dados_binarios = dados_binarios.reshape(-1)

  # Crie um DataFrame com os dados binários e covariáveis
  dados = {
    'Covariavel1': covariaveis[:, 0].reshape(-1),
    'Covariavel2': covariaveis[:, 1].reshape(-1),
    'Dados Binarios': dados_binarios
  }
  df = pd.DataFrame(dados)

  # Divida os dados em conjuntos de treinamento e teste
  X = df[['Covariavel1', 'Covariavel2']]
  y = df['Dados Binarios']
  X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=42)

  # Treine um modelo de Regressão Logística
  modelo_logistico = LogisticRegression()
  modelo_logistico.fit(X_treino, y_treino)

  # Faça previsões usando o modelo de Regressão Logística
  previsoes_logisticas = modelo_logistico.predict(X_teste)

  # Calcule a precisão
  precisao_logistica = accuracy_score(y_teste, previsoes_logisticas)
  precisao_log.append(precisao_logistica)

  # Calcule a taxa de erro da Regressão Logística
  taxa_erro_logistica = 1 - precisao_logistica
  taxa_erro_log.append(taxa_erro_logistica)

  # Calcule a curva ROC e a AUC para a Regressão Logística
  probabilidades_logisticas = modelo_logistico.predict_proba(X_teste)[:, 1]
  fpr_logistico, tpr_logistico, _ = roc_curve(y_teste, probabilidades_logisticas)
  auc_logistico = auc(fpr_logistico, tpr_logistico)
  auc_log.append(auc_logistico)



  # Treine um modelo Naive Bayes (Gaussiano)
  modelo_naive_bayes = GaussianNB()
  modelo_naive_bayes.fit(X_treino, y_treino)

  # Faça previsões usando o modelo Naive Bayes
  previsoes_naive_bayes = modelo_naive_bayes.predict(X_teste)

  # Calcule a precisão
  precisao_naive_bayes = accuracy_score(y_teste, previsoes_naive_bayes)
  precisao_nb.append(precisao_naive_bayes)

  # Calcule a taxa de erro do Naive Bayes
  taxa_erro_naive_bayes = 1 - precisao_naive_bayes
  taxa_erro_nb.append(taxa_erro_naive_bayes)

  # Calcule a curva ROC e a AUC para o Naive Bayes
  probabilidades_naive_bayes = modelo_naive_bayes.predict_proba(X_teste)[:, 1]
  fpr_naive_bayes, tpr_naive_bayes, _ = roc_curve(y_teste, probabilidades_naive_bayes)
  auc_naive_bayes = auc(fpr_naive_bayes, tpr_naive_bayes)
  auc_nb.append(auc_naive_bayes)






In [40]:
print("Precisão Média da Regressão Logística:", np.mean(precisao_log))
print("Taxa de Erro Médio da Regressão Logística:", np.mean(taxa_erro_log))
print("AUC Médio da Regressão Logística:", np.mean(auc_log))

print("\nPrecisão Média Naive Bayes:", np.mean(precisao_nb))
print("Taxa de Erro Média Naive Bayes:", np.mean(taxa_erro_nb))
print("AUC Média Naive Bayes:", np.mean(auc_nb))




Precisão Média da Regressão Logística: 0.6768500000000001
Taxa de Erro Médio da Regressão Logística: 0.32315
AUC Médio da Regressão Logística: nan

Precisão Média Naive Bayes: 0.6761500000000001
Taxa de Erro Média Naive Bayes: 0.32384999999999997
AUC Média Naive Bayes: nan


In [41]:
print("Precisão Média da Regressão Logística:", np.mean(precisao_log))
print("Taxa de Erro Médio da Regressão Logística:", np.mean(taxa_erro_log))
print("AUC Médio da Regressão Logística:", np.nanmean(auc_log, axis=0))

print("\nPrecisão Média Naive Bayes:", np.mean(precisao_nb))
print("Taxa de Erro Média Naive Bayes:", np.mean(taxa_erro_nb))
print("AUC Média Naive Bayes:", np.nanmean(auc_nb, axis=0))


Precisão Média da Regressão Logística: 0.6768500000000001
Taxa de Erro Médio da Regressão Logística: 0.32315
AUC Médio da Regressão Logística: 0.6801597059792795

Precisão Média Naive Bayes: 0.6761500000000001
Taxa de Erro Média Naive Bayes: 0.32384999999999997
AUC Média Naive Bayes: 0.6741916312827047
