In [None]:
# Importando as bibliotecas necessárias
import pandas as pd  # Manipulação de dados
from sklearn.model_selection import train_test_split  # Dividir os dados em treino e teste
from sklearn.preprocessing import LabelEncoder, StandardScaler  # Pré-processamento dos dados
from sklearn.ensemble import RandomForestClassifier  # Algoritmo de classificação Random Forest
from sklearn.metrics import classification_report, accuracy_score  # Avaliação do modelo
from sklearn.ensemble import RandomForestRegressor  # Para o modelo de regressão Random Forest
from sklearn.metrics import mean_absolute_error, mean_squared_error  # Para avaliar o modelo
from xgboost import XGBRegressor

In [2]:
# Carregando o dataset de câncer de mama
df_cancer = pd.read_csv("wisconsin.csv")

# Removendo colunas desnecessárias
# A coluna 'id' é apenas um identificador e 'Unnamed: 32' está vazia
df_limpo = df_cancer.drop(columns=['id', 'Unnamed: 32'])

# Codificando a variável alvo (diagnóstico)
# A coluna 'diagnosis' contém 'M' para maligno e 'B' para benigno
# Vamos convertê-los para valores numéricos: M -> 1 e B -> 0
le = LabelEncoder()
df_limpo['diagnosis'] = le.fit_transform(df_limpo['diagnosis'])  # M -> 1, B -> 0

# Separando as features (características) e o alvo (diagnóstico)
# 'X' são todas as colunas de características e 'y' é a coluna alvo 'diagnosis'
X = df_limpo.drop(columns='diagnosis')
y = df_limpo['diagnosis']

# Dividindo o dataset em conjuntos de treino e teste
# Usamos 80% dos dados para treino e 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Padronizando as features para melhorar a performance do modelo
# É importante que os dados estejam na mesma escala para algoritmos como o Random Forest
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Calcula a média e o desvio padrão e transforma os dados de treino
X_test = scaler.transform(X_test)  # Transforma os dados de teste usando a mesma média e desvio padrão

# Inicializando e treinando o classificador Random Forest
# Random Forest é um algoritmo baseado em árvores de decisão, que combina várias árvores para melhorar a precisão
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)  # Treinando o modelo com os dados de treino

# Fazendo previsões com o conjunto de teste
y_pred = model.predict(X_test)

# Avaliando o modelo
# Calculando a acurácia e gerando um relatório de classificação
accuracy = accuracy_score(y_test, y_pred)  # Acurácia: porcentagem de previsões corretas
classification_rep = classification_report(y_test, y_pred)  # Relatório detalhado: precisão, recall e F1-score para cada classe

# Exibindo os resultados
print("Acurácia do Modelo:", accuracy)
print("Relatório de Classificação:\n", classification_rep)

Acurácia do Modelo: 0.9649122807017544
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.96      0.99      0.97        71
           1       0.98      0.93      0.95        43

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114



In [3]:
# Carregando o dataset de expectativa de vida
df_expec = pd.read_csv("expectancy.csv")

# Removendo colunas irrelevantes
# 'Country' e 'Year' não são relevantes para o modelo, então vamos removê-las
df_expec_limpo = df_expec.drop(columns=['Country', 'Year'])

# Codificando a variável categórica "Status"
# Convertendo 'Status' (desenvolvido ou em desenvolvimento) em valores numéricos
df_expec_limpo['Status'] = LabelEncoder().fit_transform(df_expec_limpo['Status'])

# Removendo linhas com valores ausentes
# Para simplificar, vamos descartar qualquer linha que tenha valores faltantes
df_expec_limpo = df_expec_limpo.dropna()

# Separando as features (características) e a variável alvo (expectativa de vida)
# 'X' contém todas as colunas de características, enquanto 'y' é a coluna alvo 'Life expectancy '
X = df_expec_limpo.drop(columns='Life expectancy ')
y = df_expec_limpo['Life expectancy ']

# Dividindo o dataset em conjuntos de treino e teste
# Usamos 80% dos dados para treino e 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Padronizando as features para melhorar a performance do modelo
# Colocando todas as variáveis na mesma escala para que o modelo funcione melhor
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Calcula média e desvio padrão e transforma os dados de treino
X_test = scaler.transform(X_test)  # Transforma os dados de teste com a mesma escala

# Inicializando e treinando o modelo de regressão Random Forest
# RandomForestRegressor é adequado para prever valores numéricos contínuos, como a expectativa de vida
regressor = RandomForestRegressor(random_state=42)
regressor.fit(X_train, y_train)  # Treinando o modelo com os dados de treino

# Fazendo previsões com o conjunto de teste
y_pred = regressor.predict(X_test)

# Avaliando o modelo
# Calculando o erro absoluto médio (MAE), o erro quadrático médio (MSE) e a raiz do erro quadrático médio (RMSE)
mae = mean_absolute_error(y_test, y_pred)  # MAE: média da diferença absoluta entre valores reais e previstos
mse = mean_squared_error(y_test, y_pred)  # MSE: média da diferença ao quadrado entre valores reais e previstos
rmse = mse ** 0.5  # RMSE: raiz quadrada do MSE, facilitando a interpretação em termos da unidade original

# Exibindo os resultados
mae, rmse

(1.1219969696969752, 1.9121251282436036)

In [4]:
# Carregando o dataset e removendo colunas irrelevantes
df_expec = pd.read_csv("expectancy.csv")
df_expec_limpo = df_expec.drop(columns=['Country', 'Year'])

# Codificando a variável categórica "Status" (Desenvolvido ou Em Desenvolvimento)
df_expec_limpo['Status'] = LabelEncoder().fit_transform(df_expec_limpo['Status'])

# Removendo linhas com valores faltantes
df_expec_limpo = df_expec_limpo.dropna()

# Reduzindo o dataset para 10% dos dados originais
# Isso cria uma amostra menor para simplificar o treinamento do modelo
data_sampled_smaller = df_expec_limpo.sample(frac=0.1, random_state=42)

# Separando características (X) e variável alvo (y) com a amostra menor
X_sampled_smaller = data_sampled_smaller.drop(columns='Life expectancy ')
y_sampled_smaller = data_sampled_smaller['Life expectancy ']

# Dividindo o conjunto de dados reduzido em treino e teste
# Aqui, 80% dos dados são usados para treino e 20% para teste
X_train_sampled_smaller, X_test_sampled_smaller, y_train_sampled_smaller, y_test_sampled_smaller = train_test_split(
    X_sampled_smaller, y_sampled_smaller, test_size=0.2, random_state=42
)

# Inicializando e treinando o modelo XGBoost com configuração simplificada na amostra menor
xgb_model_sampled_smaller = XGBRegressor(random_state=42, objective='reg:squarederror', n_estimators=50, max_depth=3)
xgb_model_sampled_smaller.fit(X_train_sampled_smaller, y_train_sampled_smaller)

# Fazendo previsões com o conjunto de teste
y_pred_xgb_sampled_smaller = xgb_model_sampled_smaller.predict(X_test_sampled_smaller)

# Avaliando o modelo XGBoost treinado na amostra menor
mae_xgb_sampled_smaller = mean_absolute_error(y_test_sampled_smaller, y_pred_xgb_sampled_smaller)
rmse_xgb_sampled_smaller = mean_squared_error(y_test_sampled_smaller, y_pred_xgb_sampled_smaller) ** 0.5

# Exibindo MAE e RMSE para o modelo XGBoost com a amostra reduzida
mae_xgb_sampled_smaller, rmse_xgb_sampled_smaller

# Configuração ainda mais simplificada do XGBoost com menos estimadores e profundidade menor
# Isso torna o modelo mais leve e rápido, ideal para testes rápidos
xgb_model_minimal = XGBRegressor(random_state=42, objective='reg:squarederror', n_estimators=10, max_depth=2)
xgb_model_minimal.fit(X_train_sampled_smaller, y_train_sampled_smaller)

# Fazendo previsões com o conjunto de teste para o modelo minimalista
y_pred_xgb_minimal = xgb_model_minimal.predict(X_test_sampled_smaller)

# Avaliando o modelo XGBoost minimalista
mae_xgb_minimal = mean_absolute_error(y_test_sampled_smaller, y_pred_xgb_minimal)
rmse_xgb_minimal = mean_squared_error(y_test_sampled_smaller, y_pred_xgb_minimal) ** 0.5

# Exibindo MAE e RMSE para o modelo XGBoost minimalista
mae_xgb_minimal, rmse_xgb_minimal

(2.005518988407021, 2.744254698741196)