In [None]:
## Exercício 1 - Dataset "car_crashes" do seaborn

# 1) Carregar o dataset "car_crashes"do seaborn
# 2) Dropar a coluna "abbrev"
# 3) Separar o dataframe, deixando a coluna 'total' para o target (coluna objetivo - y) e o restante para o X
# 4) Normalizar todo o X

# df = X.values
# min_max_scaler = preprocessing.MinMaxScaler()
# x_scaled = min_max_scaler.fit_transform(df)
# X = pd.DataFrame(x_scaled)

# 5) Separar os dados em treinamento e teste
# 6) Treinar um modelo linear
# 7) Treinar uma árvores de regressão
# 8) Treinar um KNN para regressão
# 9) Apresentar os resultados dos erros usando: MSE, MAE e RMSE para os 3 modelos

In [1]:
# Importação das bibliotecas necessárias
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
import numpy as np

# Carregamento do dataset de acidentes de carro do Seaborn
dataset_acidentes = sns.load_dataset('car_crashes')

# Remove a coluna 'abbrev' (abreviação dos estados) pois não é útil para a predição
dataset_limpo = dataset_acidentes.drop(columns=['abbrev'])

# Separação das variáveis dependente (target) e independentes (features)
variavel_target = dataset_limpo['total']  # Total de acidentes (variável a ser predita)
variaveis_independentes = dataset_limpo.drop(columns=['total'])  # Todas as outras colunas

# Normalização dos dados usando MinMaxScaler
# Transforma os valores para uma escala entre 0 e 1, melhorando o desempenho dos algoritmos
valores_originais = variaveis_independentes.values
normalizador = preprocessing.MinMaxScaler()
dados_normalizados = normalizador.fit_transform(valores_originais)

# Criação de um DataFrame com os dados normalizados, mantendo os nomes das colunas originais
features_normalizadas = pd.DataFrame(dados_normalizados, columns=variaveis_independentes.columns)

# Divisão dos dados em conjuntos de treino (80%) e teste (20%)
# random_state=42 garante reprodutibilidade dos resultados
X_treino, X_teste, y_treino, y_teste = train_test_split(
    features_normalizadas,
    variavel_target,
    test_size=0.2,
    random_state=42
)

# === TREINAMENTO DOS MODELOS ===

# 1. Modelo de Regressão Linear
modelo_regressao_linear = LinearRegression()
modelo_regressao_linear.fit(X_treino, y_treino)

# 2. Modelo de Árvore de Decisão
modelo_arvore_decisao = DecisionTreeRegressor(random_state=42)
modelo_arvore_decisao.fit(X_treino, y_treino)

# 3. Modelo K-Nearest Neighbors (KNN)
modelo_knn = KNeighborsRegressor()
modelo_knn.fit(X_treino, y_treino)

# === PREDIÇÕES NOS DADOS DE TESTE ===

predicoes_regressao_linear = modelo_regressao_linear.predict(X_teste)
predicoes_arvore_decisao = modelo_arvore_decisao.predict(X_teste)
predicoes_knn = modelo_knn.predict(X_teste)

# === FUNÇÃO PARA CALCULAR MÉTRICAS DE ERRO ===

def calcular_metricas_erro(valores_reais, valores_preditos):
    """
    Calcula três métricas de erro para avaliar a performance do modelo:
    - MSE (Mean Squared Error): Erro quadrático médio
    - MAE (Mean Absolute Error): Erro absoluto médio
    - RMSE (Root Mean Squared Error): Raiz do erro quadrático médio
    """
    mse = mean_squared_error(valores_reais, valores_preditos)
    mae = mean_absolute_error(valores_reais, valores_preditos)
    rmse = np.sqrt(mse)
    return mse, mae, rmse

# === AVALIAÇÃO DOS MODELOS ===

# Cálculo das métricas de erro para cada modelo
metricas_regressao_linear = calcular_metricas_erro(y_teste, predicoes_regressao_linear)
metricas_arvore_decisao = calcular_metricas_erro(y_teste, predicoes_arvore_decisao)
metricas_knn = calcular_metricas_erro(y_teste, predicoes_knn)

# Exibição dos resultados
print("=== RESULTADOS DOS MODELOS ===")
print("\n1. Regressão Linear:")
print(f"   MSE: {metricas_regressao_linear[0]:.4f}")
print(f"   MAE: {metricas_regressao_linear[1]:.4f}")
print(f"   RMSE: {metricas_regressao_linear[2]:.4f}")

print("\n2. Árvore de Decisão:")
print(f"   MSE: {metricas_arvore_decisao[0]:.4f}")
print(f"   MAE: {metricas_arvore_decisao[1]:.4f}")
print(f"   RMSE: {metricas_arvore_decisao[2]:.4f}")

print("\n3. K-Nearest Neighbors:")
print(f"   MSE: {metricas_knn[0]:.4f}")
print(f"   MAE: {metricas_knn[1]:.4f}")
print(f"   RMSE: {metricas_knn[2]:.4f}")

=== RESULTADOS DOS MODELOS ===

1. Regressão Linear:
   MSE: 2.1862
   MAE: 1.0921
   RMSE: 1.4786

2. Árvore de Decisão:
   MSE: 3.4755
   MAE: 1.5364
   RMSE: 1.8643

3. K-Nearest Neighbors:
   MSE: 6.5678
   MAE: 1.9909
   RMSE: 2.5628


In [None]:
## Exercício 2 - Dataset Parkinsons (dataset com 2 classes)

# 1) Carregar o dataset "parkinsons" pela URL abaixo:

# url = "https://raw.githubusercontent.com/tmoura/machinelearning/master/parkinsons.data"

# 2) Separar os dados y e X. A coluna y é a coluna 0 (zero)
# 3) Normalizar todas as colunas de X (usando o mesmo código da questão anterior)
# 4) Separar oa dados em treinamento e teste
# 5) Treinar um modelo de regressão logística
# 6) Treinar uma árvore de decisão
# 7) Treinar um KNN para classificação
# 8) Apresentar os resultados de acurácia em percentual

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregamento dos dados do dataset de Parkinson
url_dataset = "https://raw.githubusercontent.com/tmoura/machinelearning/master/parkinsons.data"
dataset_parkinsons = pd.read_csv(url_dataset)

# Visualização inicial dos dados
print("=== INFORMAÇÕES DO DATASET ===")
print(f"Dimensões do dataset: {dataset_parkinsons.shape}")
print(f"\nPrimeiras 5 linhas:")
print(dataset_parkinsons.head())
print(f"\nColunas disponíveis:")
print(dataset_parkinsons.columns.tolist())

# Separação das variáveis dependente (target) e independente (feature)
# Assumindo que a primeira coluna é o target (status de Parkinson: 0=saudável, 1=Parkinson)
variavel_target = dataset_parkinsons.iloc[:, 0]  # Primeira coluna (diagnóstico)
feature_selecionada = dataset_parkinsons.iloc[:, [1]]  # Segunda coluna como feature única

print(f"\nVariável target: {dataset_parkinsons.columns[0]}")
print(f"Feature selecionada: {dataset_parkinsons.columns[1]}")
print(f"Distribuição do target:")
print(variavel_target.value_counts())

# Normalização dos dados usando MinMaxScaler
# Transforma os valores para uma escala entre 0 e 1, importante para algoritmos sensíveis à escala
normalizador = preprocessing.MinMaxScaler()
feature_normalizada = normalizador.fit_transform(feature_selecionada)

# Criação de um DataFrame com os dados normalizados, mantendo o nome da coluna original
features_normalizadas = pd.DataFrame(feature_normalizada, columns=feature_selecionada.columns)

# Divisão dos dados em conjuntos de treino (70%) e teste (30%)
# random_state=42 garante reprodutibilidade dos resultados
X_treino, X_teste, y_treino, y_teste = train_test_split(
    features_normalizadas,
    variavel_target,
    test_size=0.3,
    random_state=42
)

print(f"\n=== DIVISÃO DOS DADOS ===")
print(f"Dados de treino: {X_treino.shape[0]} amostras")
print(f"Dados de teste: {X_teste.shape[0]} amostras")

# === TREINAMENTO DOS MODELOS DE CLASSIFICAÇÃO ===

# 1. Modelo de Regressão Logística
# Algoritmo linear que usa função logística para classificação binária
modelo_regressao_logistica = LogisticRegression(random_state=42)
modelo_regressao_logistica.fit(X_treino, y_treino)

# 2. Modelo de Árvore de Decisão
# Algoritmo baseado em regras que cria uma árvore de decisões
modelo_arvore_decisao = DecisionTreeClassifier(random_state=42)
modelo_arvore_decisao.fit(X_treino, y_treino)

# 3. Modelo K-Nearest Neighbors (KNN)
# Algoritmo que classifica baseado na classe dos k vizinhos mais próximos
modelo_knn = KNeighborsClassifier(n_neighbors=5)  # Usando 5 vizinhos como padrão
modelo_knn.fit(X_treino, y_treino)

# === PREDIÇÕES NOS DADOS DE TESTE ===

predicoes_regressao_logistica = modelo_regressao_logistica.predict(X_teste)
predicoes_arvore_decisao = modelo_arvore_decisao.predict(X_teste)
predicoes_knn = modelo_knn.predict(X_teste)

# === AVALIAÇÃO DOS MODELOS ===

# Cálculo da acurácia para cada modelo
acuracia_regressao_logistica = accuracy_score(y_teste, predicoes_regressao_logistica)
acuracia_arvore_decisao = accuracy_score(y_teste, predicoes_arvore_decisao)
acuracia_knn = accuracy_score(y_teste, predicoes_knn)

# === EXIBIÇÃO DOS RESULTADOS ===

print("\n=== RESULTADOS DOS MODELOS ===")
print(f"Acurácia Regressão Logística: {acuracia_regressao_logistica:.2%}")
print(f"Acurácia Árvore de Decisão: {acuracia_arvore_decisao:.2%}")
print(f"Acurácia KNN: {acuracia_knn:.2%}")

# Identificação do melhor modelo
modelos_resultados = {
    'Regressão Logística': acuracia_regressao_logistica,
    'Árvore de Decisão': acuracia_arvore_decisao,
    'KNN': acuracia_knn
}

melhor_modelo = max(modelos_resultados, key=modelos_resultados.get)
melhor_acuracia = modelos_resultados[melhor_modelo]

print(f"\n🏆 Melhor modelo: {melhor_modelo} com {melhor_acuracia:.2%} de acurácia")

# === ANÁLISE DETALHADA DO MELHOR MODELO ===

print(f"\n=== ANÁLISE DETALHADA - {melhor_modelo.upper()} ===")

# Seleciona as predições do melhor modelo
if melhor_modelo == 'Regressão Logística':
    melhores_predicoes = predicoes_regressao_logistica
elif melhor_modelo == 'Árvore de Decisão':
    melhores_predicoes = predicoes_arvore_decisao
else:
    melhores_predicoes = predicoes_knn

# Relatório de classificação detalhado
print("\nRelatório de Classificação:")
print(classification_report(y_teste, melhores_predicoes))

# Matriz de confusão
print("\nMatriz de Confusão:")
print(confusion_matrix(y_teste, melhores_predicoes))

# === OBSERVAÇÕES IMPORTANTES ===
print("\n=== OBSERVAÇÕES ===")
print("⚠️  Este modelo usa apenas UMA feature para classificação.")
print("💡 Para melhor desempenho, considere usar múltiplas features relevantes.")
print("📊 A normalização MinMaxScaler é especialmente importante para KNN.")
print("🔬 Para diagnóstico médico, considere métricas além da acurácia (sensibilidade, especificidade).")

Acurácia Regressão Logística: 0.85%
Acurácia Árvore de Decisão: 0.71%
Acurácia KNN: 0.78%


In [None]:
## Exercício 3 - Dataset attention do seaborn

# 1) Carregar o dataset "attention" do seaborn
# 2) Fazer um LabelEncoder na coluna "attention"
# 3) Separar o dataframe, deixando a coluna 'attention' para o target (coluna objetivo - y) e as colunas "solutions" e "score" para o X
# 4) Normalizar todo o X usando o mesmo código da questão 1
# 5) Separar os dados em treinamento e teste
# 6) Treinar um modelo de regressão logística
# 7) Treinar uma árvore de decisão
# 8) Treinar um KNN para classificação
# 9) Apresentar os resultados de acurárica em percentual

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
import numpy as np

# Carregamento do dataset de atenção do Seaborn
dataset_atencao = sns.load_dataset('attention')

# Verificação inicial dos dados
print("=== INFORMAÇÕES INICIAIS DO DATASET ===")
print(f"Dimensões do dataset: {dataset_atencao.shape}")
print(f"\nPrimeiras 5 linhas:")
print(dataset_atencao.head())
print(f"\nInformações sobre as colunas:")
print(dataset_atencao.info())
print(f"\nEstatísticas descritivas:")
print(dataset_atencao.describe())

# Verificação da distribuição da variável target antes da codificação
print(f"\nDistribuição original da variável 'attention':")
print(dataset_atencao['attention'].value_counts())

# === PREPARAÇÃO DOS DADOS ===

# Codificação da variável categórica 'attention' para valores numéricos
# LabelEncoder converte categorias em números (ex: 'high' -> 1, 'low' -> 0)
codificador_target = LabelEncoder()
dataset_codificado = dataset_atencao.copy()
dataset_codificado['attention'] = codificador_target.fit_transform(dataset_atencao['attention'])

# Mostra o mapeamento das categorias
print(f"\nMapeamento das categorias após codificação:")
categorias_originais = codificador_target.classes_
for i, categoria in enumerate(categorias_originais):
    print(f"  {categoria} -> {i}")

print(f"\nDistribuição após codificação:")
print(dataset_codificado['attention'].value_counts().sort_index())

# Separação das variáveis independentes (features) e dependente (target)
variavel_target = dataset_codificado['attention']  # Variável a ser predita
features_selecionadas = dataset_codificado[['solutions', 'score']]  # Features para predição

print(f"\n=== INFORMAÇÕES DAS VARIÁVEIS ===")
print(f"Target: 'attention' (níveis de atenção)")
print(f"Features: {list(features_selecionadas.columns)} (soluções e pontuação)")
print(f"Formato das features: {features_selecionadas.shape}")
print(f"Formato do target: {variavel_target.shape}")

# Normalização das features usando MinMaxScaler
# Transforma os valores para escala 0-1, importante para algoritmos sensíveis à escala (especialmente KNN)
normalizador = MinMaxScaler()
features_normalizadas_array = normalizador.fit_transform(features_selecionadas)

# Criação de DataFrame com dados normalizados, preservando nomes das colunas
features_normalizadas = pd.DataFrame(
    features_normalizadas_array,
    columns=features_selecionadas.columns
)

print(f"\n=== NORMALIZAÇÃO DOS DADOS ===")
print("Estatísticas antes da normalização:")
print(features_selecionadas.describe())
print("\nEstatísticas após normalização:")
print(features_normalizadas.describe())

# Divisão dos dados em conjuntos de treino (70%) e teste (30%)
# random_state=42 garante reprodutibilidade dos resultados
X_treino, X_teste, y_treino, y_teste = train_test_split(
    features_normalizadas,
    variavel_target,
    test_size=0.3,
    random_state=42,
    stratify=variavel_target  # Mantém proporção das classes nos conjuntos
)

print(f"\n=== DIVISÃO DOS DADOS ===")
print(f"Dados de treino: {X_treino.shape[0]} amostras")
print(f"Dados de teste: {X_teste.shape[0]} amostras")
print(f"Distribuição no treino:")
print(y_treino.value_counts().sort_index())
print(f"Distribuição no teste:")
print(y_teste.value_counts().sort_index())

# === TREINAMENTO DOS MODELOS DE CLASSIFICAÇÃO ===

print("\n=== TREINAMENTO DOS MODELOS ===")

# 1. Modelo de Regressão Logística
# Algoritmo linear que usa função logística para classificação
modelo_regressao_logistica = LogisticRegression(random_state=42, max_iter=1000)
modelo_regressao_logistica.fit(X_treino, y_treino)
print("✓ Regressão Logística treinada")

# 2. Modelo de Árvore de Decisão
# Algoritmo baseado em regras que cria uma estrutura de árvore
modelo_arvore_decisao = DecisionTreeClassifier(random_state=42)
modelo_arvore_decisao.fit(X_treino, y_treino)
print("✓ Árvore de Decisão treinada")

# 3. Modelo K-Nearest Neighbors (KNN)
# Algoritmo que classifica baseado na classe dos k vizinhos mais próximos
modelo_knn = KNeighborsClassifier(n_neighbors=5)
modelo_knn.fit(X_treino, y_treino)
print("✓ KNN treinado")

# === PREDIÇÕES NOS DADOS DE TESTE ===

predicoes_regressao_logistica = modelo_regressao_logistica.predict(X_teste)
predicoes_arvore_decisao = modelo_arvore_decisao.predict(X_teste)
predicoes_knn = modelo_knn.predict(X_teste)

# === AVALIAÇÃO DOS MODELOS ===

# Cálculo da acurácia para cada modelo
acuracia_regressao_logistica = accuracy_score(y_teste, predicoes_regressao_logistica)
acuracia_arvore_decisao = accuracy_score(y_teste, predicoes_arvore_decisao)
acuracia_knn = accuracy_score(y_teste, predicoes_knn)

# === EXIBIÇÃO DOS RESULTADOS ===

print("\n" + "="*50)
print("           RESULTADOS DOS MODELOS")
print("="*50)
print(f"🤖 Regressão Logística: {acuracia_regressao_logistica*100:.2f}%")
print(f"🌳 Árvore de Decisão:   {acuracia_arvore_decisao*100:.2f}%")
print(f"👥 KNN (k=5):           {acuracia_knn*100:.2f}%")

# Identificação do melhor modelo
modelos_resultados = {
    'Regressão Logística': acuracia_regressao_logistica,
    'Árvore de Decisão': acuracia_arvore_decisao,
    'KNN': acuracia_knn
}

melhor_modelo_nome = max(modelos_resultados, key=modelos_resultados.get)
melhor_acuracia = modelos_resultados[melhor_modelo_nome]

print(f"\n🏆 MELHOR MODELO: {melhor_modelo_nome}")
print(f"📊 ACURÁCIA: {melhor_acuracia*100:.2f}%")

# === ANÁLISE DETALHADA DO MELHOR MODELO ===

print(f"\n" + "="*50)
print(f"      ANÁLISE DETALHADA - {melhor_modelo_nome.upper()}")
print("="*50)

# Seleciona as predições e o modelo do melhor resultado
if melhor_modelo_nome == 'Regressão Logística':
    melhores_predicoes = predicoes_regressao_logistica
    melhor_modelo_obj = modelo_regressao_logistica
elif melhor_modelo_nome == 'Árvore de Decisão':
    melhores_predicoes = predicoes_arvore_decisao
    melhor_modelo_obj = modelo_arvore_decisao
else:
    melhores_predicoes = predicoes_knn
    melhor_modelo_obj = modelo_knn

# Relatório de classificação com métricas detalhadas
print("\n📋 RELATÓRIO DE CLASSIFICAÇÃO:")
nomes_classes = [f"Classe_{i} ({cat})" for i, cat in enumerate(codificador_target.classes_)]
print(classification_report(
    y_teste,
    melhores_predicoes,
    target_names=nomes_classes
))

# Matriz de confusão
print("\n🎯 MATRIZ DE CONFUSÃO:")
matriz_confusao = confusion_matrix(y_teste, melhores_predicoes)
print("   Pred:  ", end="")
for i in range(len(codificador_target.classes_)):
    print(f"{codificador_target.classes_[i]:>8}", end="")
print()
for i, linha in enumerate(matriz_confusao):
    print(f"Real {codificador_target.classes_[i]:>4}: ", end="")
    for valor in linha:
        print(f"{valor:>8}", end="")
    print()

# Análise de importância das features (se disponível)
if hasattr(melhor_modelo_obj, 'feature_importances_'):
    print(f"\n📈 IMPORTÂNCIA DAS FEATURES:")
    importancias = melhor_modelo_obj.feature_importances_
    for feature, importancia in zip(features_selecionadas.columns, importancias):
        print(f"  {feature}: {importancia:.4f} ({importancia*100:.1f}%)")
elif hasattr(melhor_modelo_obj, 'coef_'):
    print(f"\n📈 COEFICIENTES DO MODELO:")
    coeficientes = melhor_modelo_obj.coef_[0]
    for feature, coef in zip(features_selecionadas.columns, coeficientes):
        print(f"  {feature}: {coef:.4f}")

# === INSIGHTS E RECOMENDAÇÕES ===
print(f"\n" + "="*50)
print("           INSIGHTS E RECOMENDAÇÕES")
print("="*50)
print("💡 OBSERVAÇÕES:")
print("  • Dataset de atenção com features 'solutions' e 'score'")
print("  • Normalização MinMaxScaler aplicada (importante para KNN)")
print("  • Divisão estratificada mantém proporção das classes")
print("  • LabelEncoder usado para converter categorias em números")

print("\n🔧 POSSÍVEIS MELHORIAS:")
print("  • Testar diferentes valores de k para KNN")
print("  • Aplicar validação cruzada para resultados mais robustos")
print("  • Considerar feature engineering adicional")
print("  • Avaliar outras métricas além da acurácia")
print("  • Testar algoritmos ensemble (Random Forest, etc.)")

print(f"\n⚠️  LIMITAÇÕES:")
print("  • Apenas 2 features utilizadas")
print("  • Avaliação baseada somente em acurácia")
print("  • Sem otimização de hiperparâmetros")

X shape: (60, 2)
y shape: (60,)
Acurácia Regressão Logística: 83.33%
Acurácia Árvore de Decisão: 72.22%
Acurácia KNN: 61.11%
