In [None]:
# @title Diagnóstico de Obesidade com IA | Contexto e Importação
# Neste projeto,# nós, como pós-graduandas de Data Analytics contratadas por um hospital,
# temos um objetivo: prever o nível de obesidade de pacientes com alta precisão,
# apoiando diagnósticos clínicos.
# A primeira etapa é importar os dados e realizar uma leitura inicial.

import pandas as pd

# Carregamos o dataset entregue pela instituição de saúde
obesidade = pd.read_csv('/content/Obesity.csv')

# Inspeção 1: conhecendo as primeiras entradas do banco
obesidade.head()


In [34]:
# @title # Antes de propor um modelo preditivo | Inspeção dos dados.
# Fundamental conhecer os dados disponíveis: tipos, ausência de valores, estrutura geral.

# Tipos de dados e presença de nulos
obesidade.info()

# Estatísticas descritivas para variáveis numéricas
obesidade.describe()

# Verificação de valores nulos por coluna
valores_nulos = obesidade.isnull().sum()
print("Valores nulos por coluna:\n", valores_nulos)


<class 'pandas.core.frame.DataFrame'>
Index: 2087 entries, 0 to 2110
Data columns (total 18 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Gênero                              2087 non-null   int64  
 1   Idade                               2087 non-null   float64
 2   Altura (m)                          2087 non-null   float64
 3   Peso (kg)                           2087 non-null   float64
 4   Histórico Familiar de Obesidade     2087 non-null   int64  
 5   Consome Alimentos Calóricos         2087 non-null   int64  
 6   Consome Vegetais                    2087 non-null   float64
 7   Refeições por Dia                   2087 non-null   float64
 8   Lanches entre Refeições             2087 non-null   object 
 9   Fuma                                2087 non-null   int64  
 10  Água Diária                         2087 non-null   float64
 11  Controla Calorias                   2087 non-nul

In [None]:
# @title Transformação de dados comportamentais em valores numéricos
#Muitos dos dados comportamentais foram coletados como 'sim' ou 'não'.
#Para que o algoritmo consiga compreender essas informações, precisamos transformá-las em valores numéricos.
#como por exemplo, transformar 'sim' em 1 e 'não' em 0. Isso é uma etapa básica na preparação de dados para ML.

# Convertendo variáveis booleanas de comportamento para formato numérico

obesidade['Gender'] = obesidade['Gender'].replace({'Female': 0, 'Male': 1}).astype(int)  # Gênero codificado
obesidade['family_history'] = obesidade['family_history'].replace({'no': 0, 'yes': 1}).astype(int)  # Histórico familiar
obesidade['FAVC'] = obesidade['FAVC'].replace({'no': 0, 'yes': 1}).astype(int)  # Alimentos calóricos
obesidade['SMOKE'] = obesidade['SMOKE'].replace({'no': 0, 'yes': 1}).astype(int)  # Fuma
obesidade['SCC'] = obesidade['SCC'].replace({'no': 0, 'yes': 1}).astype(int)  # Controla calorias


In [None]:
# @title  Verificação e remoção de duplicatas nos dados dos pacientes
# **na ausência de um ID de paciente**, para evitar viés.

# Verificando duplicatas no DataFrame
print("Duplicatas antes:", obesidade.duplicated().sum())

# Removendo registros duplicados
obesidade = obesidade.drop_duplicates()

# Verificando após remoção
print("Duplicatas após:", obesidade.duplicated().sum())


In [None]:
# @title Tradução das colunas do conjunto de dados
# Adequando ao jargão de ambientes hospitalares. Aqui renomeamos as variáveis para português, respeitando os nomes usuais utilizados por médicos e nutricionistas.

obesidade.rename(columns={
    'Gender': 'Gênero',
    'Age': 'Idade',
    'Height': 'Altura (m)',
    'Weight': 'Peso (kg)',
    'family_history': 'Histórico Familiar de Obesidade',
    'FAVC': 'Consome Alimentos Calóricos',
    'FCVC': 'Consome Vegetais',
    'NCP': 'Refeições por Dia',
    'CAEC': 'Lanches entre Refeições',
    'SMOKE': 'Fuma',
    'CH2O': 'Água Diária',
    'SCC': 'Controla Calorias',
    'FAF': 'Frequência de Atividade Física',
    'TUE': 'Tempo com Dispositivos Eletrônicos',
    'CALC': 'Consumo de Álcool',
    'MTRANS': 'Meio de Transporte',
    'Obesity': 'Nível de Obesidade'
}, inplace=True)


In [None]:
# @title Tradução dos rótulos da variável alvo para o português
#Para facilitar a leitura e a comunicação com os profissionais da saúde, traduzimos os rótulos da variável alvo para o português.

traducoes_obesidade = {
    "Insufficient_Weight": "Abaixo do Peso",
    "Normal_Weight": "Peso Normal",
    "Overweight_Level_I": "Sobrepeso I",
    "Overweight_Level_II": "Sobrepeso II",
    "Obesity_Type_I": "Obesidade Tipo I",
    "Obesity_Type_II": "Obesidade Tipo II",
    "Obesity_Type_III": "Obesidade Tipo III"
}

# ✅ Aplicando a tradução diretamente na coluna correta
obesidade["Nível de Obesidade"] = obesidade["Nível de Obesidade"].replace(traducoes_obesidade)

# Verificando o resultado
obesidade["Nível de Obesidade"].value_counts()


In [32]:
# @title
obesidade.head()

Unnamed: 0,Gênero,Idade,Altura (m),Peso (kg),Histórico Familiar de Obesidade,Consome Alimentos Calóricos,Consome Vegetais,Refeições por Dia,Lanches entre Refeições,Fuma,Água Diária,Controla Calorias,Frequência de Atividade Física,Tempo com Dispositivos Eletrônicos,Consumo de Álcool,Meio de Transporte,Nível de Obesidade,IMC
0,0,21.0,1.62,64.0,1,0,2.0,3.0,Pouco,0,2.0,0,0.0,1.0,Nunca,Transporte Público,Peso Normal,24.386526
1,0,21.0,1.52,56.0,1,0,3.0,3.0,Pouco,1,3.0,1,3.0,0.0,Pouco,Transporte Público,Peso Normal,24.238227
2,1,23.0,1.8,77.0,1,0,2.0,3.0,Pouco,0,2.0,0,2.0,1.0,Frequentemente,Transporte Público,Peso Normal,23.765432
3,1,27.0,1.8,87.0,0,0,3.0,3.0,Pouco,0,2.0,0,2.0,0.0,Frequentemente,Caminhando,Sobrepeso I,26.851852
4,1,22.0,1.78,89.8,0,0,2.0,1.0,Pouco,0,2.0,0,0.0,0.0,Pouco,Transporte Público,Sobrepeso II,28.342381


In [None]:
# @title Traduções para uniformizar e tornar o painel analítico mais intuitivo.
# Tradução de categorias
obesidade["Lanches entre Refeições"] = obesidade["Lanches entre Refeições"].replace({
    "Sometimes": "Pouco", "Frequently": "Frequentemente", "Always": "Sempre", "no": "Nunca"
})

obesidade["Consumo de Álcool"] = obesidade["Consumo de Álcool"].replace({
    "Sometimes": "Pouco", "Frequently": "Frequentemente", "Always": "Sempre", "no": "Nunca"
})

obesidade["Meio de Transporte"] = obesidade["Meio de Transporte"].replace({
    "Walking": "Caminhando", "Bike": "Bicicleta", "Motorbike": "Motocicleta",
    "Public_Transportation": "Transporte Público", "Never": "Nunca", "Automobile": "Automóvel"
})

In [None]:
# @title
obesidade.head()

In [None]:
# @title Visualização Exploratória: Entendendo o Perfil dos Pacientes

# Limpamos e traduzimos os dados.
# Agora, é hora de ajudar a equipe médica a visualizar os padrões presentes na base:
# Qual o perfil predominante? Existe correlação entre variáveis como IMC, idade, sedentarismo?
# Essa exploração visual serve como base para decisões clínicas e para o desenho do modelo preditivo.

import matplotlib.pyplot as plt
import seaborn as sns

# Contagem de registros por classe
distribuicao_obesidade = obesidade["Nível de Obesidade"].value_counts()

# Exibindo em formato de tabela para referência rápida
print("\n🎯 Distribuição de Níveis de Obesidade:")
print(distribuicao_obesidade)

# Gráfico de barras horizontais
plt.figure(figsize=(10, 6))
sns.countplot(
    y="Nível de Obesidade",
    hue="Nível de Obesidade",
    data=obesidade,
    order=distribuicao_obesidade.index,
    palette="viridis",
    legend=False  # Evita legenda redundante
)

plt.title("Distribuição dos Níveis de Obesidade na Base de Pacientes")
plt.xlabel("Número de Pacientes")
plt.ylabel("Nível de Obesidade")
plt.tight_layout()
plt.show()

In [None]:
# @title Mapa de Correlação entre variáveis numéricas

# Aqui buscamos identificar relações fortes entre variáveis como peso, altura, idade e IMC.
# Essas correlações serão fundamentais para a engenharia de features e para a seleção de variáveis no modelo.
# Selecionar apenas colunas numéricas

numerical_cols = obesidade.select_dtypes(include=['float64', 'int64'])

# Matriz de correlação
plt.figure(figsize=(12, 8))
sns.heatmap(numerical_cols.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Correlação entre variáveis numéricas")
plt.show()

In [None]:
# @title Cálculo do IMC

# O Índice de Massa Corpórea (IMC) é uma métrica amplamente utilizada por profissionais de saúde
# para avaliar a proporção entre peso e altura de um paciente.
# Ao incluir essa feature, traduzimos uma relação fisiológica conhecida em uma variável
# que pode ser diretamente interpretada e usada pelo modelo preditivo.

obesidade["IMC"] = obesidade["Peso (kg)"] / (obesidade["Altura (m)"] ** 2)

# Exibir as primeiras linhas com a nova coluna
obesidade[["Peso (kg)", "Altura (m)", "IMC"]].head()

In [None]:
#@title Análise Visual: Distribuição do IMC por Nível de Obesidade

# Esta visualização é valiosa para os profissionais de saúde e para nós, como cientistas de dados:
# mostra como o IMC varia entre as diferentes classificações clínicas de obesidade.
# O boxplot nos permite identificar sobreposição entre classes, outliers e possíveis pontos de corte.

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,6))
sns.boxplot(
    x="Nível de Obesidade",
    y="IMC",
    hue="Nível de Obesidade",        # necessário para uso de palette sem warning
    data=obesidade,
    palette="viridis",
    legend=False                     # evita legenda repetida
)

plt.xlabel("Nível de Obesidade")
plt.ylabel("Índice de Massa Corpórea (IMC)")
plt.title("IMC por Classe de Obesidade")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# @title Preparação para Modelagem: Separando Variáveis
# Agora que enriquecemos e limpamos os dados, vamos separar:
# X: variáveis de entrada (idade, IMC, hábitos, etc.)
# y: variável alvo — o nível de obesidade do paciente.
#
# Essa separação prepara os dados para um modelo de aprendizado supervisionado,
# um tipo de Machine Learning no qual o algoritmo aprende com exemplos rotulados —
# ou seja, já sabemos a resposta correta durante o treinamento.
#
# Depois de treinado, o modelo poderá prever o nível de obesidade para novos pacientes
# com base apenas nas informações de entrada (X).

X = obesidade.drop(columns=["Nível de Obesidade"])  # ou selecionar apenas colunas numéricas relevantes
y = obesidade["Nível de Obesidade"]


In [None]:
#@title Divisão Treino/Teste com reprodutibilidade

# Para garantir que o modelo aprenda de forma equilibrada,
# Separamos os dados em treino e teste mantendo a proporção entre as classes (estratificação),
# o que garante uma avaliação justa do modelo.
# Usamos uma seed fixa para que os resultados sejam reprodutíveis e consistentes,
# permitindo validação confiável por outros profissionais ou instituições.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    stratify=y,
    random_state=161651  # Garantindo reprodutibilidade e consistência nos testes
    # o uso de um número fixo, garante que todos os processos que envolvem sorteios ou aleatoriedade sempre retornem os mesmos resultados.
    # Sem o random_state=161651, a divisão muda a cada execução. Com ele, a divisão dos dados será sempre igual, o que permite:
    # Comparar modelos de forma justa// Replicar seus experimentos depois// Compartilhar seu código com alguém e garantir os mesmos resultados
)

In [None]:
# @title Pipeline de Transformação: OneHot + MinMaxScaler

# As variáveis categóricas, como "Meio de Transporte" e "Lanches entre Refeições",
# precisam ser codificadas para que possam ser entendidas pelo modelo.
# Já as variáveis numéricas, como "Idade", "IMC" e "Água Diária", devem ser normalizadas para manter proporções compatíveis.
# Aqui usamos um ColumnTransformer para automatizar esse pipeline.

from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer

# Identificando colunas categóricas e numéricas
colunas_categoricas = X.select_dtypes(include='object').columns.tolist()
colunas_numericas = X.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Criando o pipeline de pré-processamento
preprocessador = ColumnTransformer(transformers=[
    ('cat', OneHotEncoder(handle_unknown='ignore'), colunas_categoricas),
    ('num', MinMaxScaler(), colunas_numericas)
])

# Ajustando aos dados de treino
preprocessador.fit(X_train)


In [None]:
# @title Transformação e Visualização dos Dados Processados

# Após aplicar as transformações, criamos um novo DataFrame com os nomes finais das colunas.
# Isso nos permitirá treinar modelos com dados já preparados e inspecionar como ficaram as representações
# após codificação e normalização.

# Obtendo nomes das novas colunas
nomes_cat = preprocessador.named_transformers_['cat'].get_feature_names_out(colunas_categoricas)
nomes_finais = list(nomes_cat) + colunas_numericas

# Transformando os dados
X_train_transformado = preprocessador.transform(X_train)

# Convertendo para array denso, se necessário
if hasattr(X_train_transformado, "toarray"):
    X_train_transformado = X_train_transformado.toarray()

# Criando o DataFrame final
import pandas as pd
df_transformado = pd.DataFrame(X_train_transformado, columns=nomes_finais)

# Exibindo amostra
print("\n Amostra dos dados transformados:")
df_transformado.head()


In [30]:
# @title Modelagem Preditiva com Random Forest

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
from sklearn.model_selection import cross_val_score
import joblib
import numpy as np

# Transformar os dados de teste com o mesmo pipeline de pré-processamento
X_teste_transformado = preprocessador.transform(X_test)

# Converter para array denso, se necessário
if hasattr(X_teste_transformado, "toarray"):
    X_teste_transformado = X_teste_transformado.toarray()

# Treinamento do modelo preditivo
modelo_obesidade = RandomForestClassifier(random_state=42)
modelo_obesidade.fit(X_train_transformado, y_train)

# Previsão com os dados de teste
y_predito = modelo_obesidade.predict(X_teste_transformado)

# Avaliação do modelo
print("Acurácia no conjunto de teste:", accuracy_score(y_test, y_predito))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_predito))
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_predito))

# Validação cruzada (5 folds) para avaliar robustez
acuracias_cv = cross_val_score(modelo_obesidade, X_train_transformado, y_train, cv=5)
print("Acurácias (Validação Cruzada):", acuracias_cv)
print("Acurácia Média na CV:", acuracias_cv.mean())

# Salvamento do modelo e do pré-processador para uso no Streamlit
joblib.dump(modelo_obesidade, 'modelo_obesidade.pkl')
joblib.dump(preprocessador, 'preprocessador.pkl')


Acurácia no conjunto de teste: 0.9856459330143541

Relatório de Classificação:
                     precision    recall  f1-score   support

    Abaixo do Peso       0.98      1.00      0.99        53
  Obesidade Tipo I       0.97      1.00      0.99        70
 Obesidade Tipo II       1.00      1.00      1.00        60
Obesidade Tipo III       1.00      1.00      1.00        65
       Peso Normal       0.97      0.98      0.97        57
       Sobrepeso I       0.98      0.96      0.97        55
      Sobrepeso II       1.00      0.95      0.97        58

          accuracy                           0.99       418
         macro avg       0.99      0.98      0.99       418
      weighted avg       0.99      0.99      0.99       418

Matriz de Confusão:
 [[53  0  0  0  0  0  0]
 [ 0 70  0  0  0  0  0]
 [ 0  0 60  0  0  0  0]
 [ 0  0  0 65  0  0  0]
 [ 1  0  0  0 56  0  0]
 [ 0  0  0  0  2 53  0]
 [ 0  2  0  0  0  1 55]]
Acurácias (Validação Cruzada): [0.99700599 0.98203593 0.98802395 0.

['preprocessador.pkl']

Modelagem preditiva com Regressão Logísitca

In [None]:
# @title Modelagem Preditiva com Regressão Logística
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import joblib
import numpy as np

# Transformar os dados de teste com o mesmo pipeline de pré-processamento
X_teste_transformado = preprocessador.transform(X_test)

# Converter para array denso, se necessário
if hasattr(X_teste_transformado, "toarray"):
    X_teste_transformado = X_teste_transformado.toarray()

# Treinamento do modelo preditivo com Regressão Logística
modelo_obesidade = LogisticRegression(
    random_state=42,
    max_iter=1000,
    solver='lbfgs'  # padrão eficiente: l2 regularization
)
modelo_obesidade.fit(X_train_transformado, y_train)

# Previsão com os dados de teste
y_predito = modelo_obesidade.predict(X_teste_transformado)

# Avaliação do modelo
print("Acurácia no conjunto de teste:", accuracy_score(y_test, y_predito))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_predito))
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_predito))

# Validação cruzada (5 folds) para avaliar robustez do modelo
acuracias_cv = cross_val_score(
    modelo_obesidade,
    X_train_transformado,
    y_train,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)
print("Acurácias (Validação Cruzada):", acuracias_cv)
print("Acurácia Média na CV:", acuracias_cv.mean())


In [None]:
# @title Modelagem Preditiva com Árvore de Decisão
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import numpy as np
import joblib

# Transformar os dados de teste com o pipeline de pré‑processamento
X_teste_transformado = preprocessador.transform(X_test)
if hasattr(X_teste_transformado, "toarray"):
    X_teste_transformado = X_teste_transformado.toarray()

# Treinamento do modelo com Decision Tree
modelo_obesidade = DecisionTreeClassifier(
    criterion='gini',        # critério de divisão (padrão: gini ou 'entropy')
    max_depth=None,          # profundidade máxima (None = sem limitação)
    min_samples_split=2,     # mínimo de amostras para dividir
    min_samples_leaf=1,      # mínimo de amostras em uma folha
    random_state=42          # semente para reprodutibilidade
)
modelo_obesidade.fit(X_train_transformado, y_train)

# Previsão nos dados de teste
y_predito = modelo_obesidade.predict(X_teste_transformado)

# Avaliação do modelo
print("Acurácia no conjunto de teste:", accuracy_score(y_test, y_predito))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_predito))
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_predito))

# Validação cruzada (5 folds) para medir robustez
acuracias_cv = cross_val_score(
    modelo_obesidade,
    X_train_transformado,
    y_train,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)
print("Acurácias (Validação Cruzada):", acuracias_cv)
print("Acurácia Média na CV:", acuracias_cv.mean())


from sklearn.model_selection import GridSearchCV

param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 5, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 5]
}

grid = GridSearchCV(
    estimator=DecisionTreeClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=1
)
grid.fit(X_train_transformado, y_train)

print("Melhores parâmetros:", grid.best_params_)
print("Melhor acurácia (CV):", grid.best_score_)
modelo_obesidade = grid.best_estimator_


In [None]:
# @title Modelagem Preditiva Gradient Boosting Classifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import numpy as np
import joblib

# Transformar os dados de teste com o pipeline de pré-processamento
X_teste_transformado = preprocessador.transform(X_test)
if hasattr(X_teste_transformado, "toarray"):
    X_teste_transformado = X_teste_transformado.toarray()

# Treinamento do modelo com Gradient Boosting
modelo_obesidade = GradientBoostingClassifier(
    loss='log_loss',         # usa log loss (classificação multiclasse ou binária)
    learning_rate=0.1,       # taxa de aprendizado (shrinkage)
    n_estimators=100,        # número de árvores
    max_depth=3,             # profundidade máxima das árvores
    random_state=42
)
modelo_obesidade.fit(X_train_transformado, y_train)

# Previsão com os dados de teste
y_predito = modelo_obesidade.predict(X_teste_transformado)

# Avaliação do modelo
print("Acurácia no conjunto de teste:", accuracy_score(y_test, y_predito))
print("\nRelatório de classificação:\n", classification_report(y_test, y_predito))
print("Matriz de confusão:\n", confusion_matrix(y_test, y_predito))

# Validação cruzada (5 folds) para avaliar robustez
acuracias_cv = cross_val_score(
    modelo_obesidade,
    X_train_transformado,
    y_train,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)
print("Acurácias (Validação Cruzada):", acuracias_cv)
print("Acurácia Média na CV:", acuracias_cv.mean())


In [None]:
# @title Comparando cada Modelo
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score

# ... (pré-processamento e definição dos dados conforme antes)

# Transformação dos dados
X_train_tr = preprocessador.transform(X_train)
X_test_tr = preprocessador.transform(X_test)
if hasattr(X_train_tr, "toarray"):
    X_train_tr = X_train_tr.toarray()
if hasattr(X_test_tr, "toarray"):
    X_test_tr = X_test_tr.toarray()

# Definição dos modelos
modelos = {
    'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(random_state=42)
}

nomes = []
medias_cv = []
acc_tests = []

for nome, modelo in modelos.items():
    scores = cross_val_score(modelo, X_train_tr, y_train, cv=5, scoring='accuracy', n_jobs=-1)
    modelo.fit(X_train_tr, y_train)
    acc_test = accuracy_score(y_test, modelo.predict(X_test_tr))
    nomes.append(nome)
    medias_cv.append(scores.mean())
    acc_tests.append(acc_test)

# Plot com layout ajustado e anotações centralizadas
fig, ax = plt.subplots(figsize=(9, 5), layout='constrained')

x = np.arange(len(nomes))
width = 0.35

bars_cv = ax.bar(x - width/2, medias_cv, width, label='CV Mean Accuracy')
bars_test = ax.bar(x + width/2, acc_tests, width, label='Test Accuracy')

ax.set_xlabel('Modelos')
ax.set_ylabel('Acurácia')
ax.set_title('Comparação de modelos: Acurácia CV vs Teste', pad=20)
ax.set_xticks(x)
ax.set_xticklabels(nomes, rotation=30, ha='right')
ax.set_ylim(0, 1)
ax.legend(loc='upper left')

# Adicionar etiquetas sobre as barras
ax.bar_label(bars_cv, fmt='%.2f', padding=3)
ax.bar_label(bars_test, fmt='%.2f', padding=3)

plt.show()


In [33]:
!pip show scikit-learn


Name: scikit-learn
Version: 1.6.1
Summary: A set of python modules for machine learning and data mining
Home-page: https://scikit-learn.org
Author: 
Author-email: 
License: BSD 3-Clause License

 Copyright (c) 2007-2024 The scikit-learn developers.
 All rights reserved.

 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are met:

 * Redistributions of source code must retain the above copyright notice, this
   list of conditions and the following disclaimer.

 * Redistributions in binary form must reproduce the above copyright notice,
   this list of conditions and the following disclaimer in the documentation
   and/or other materials provided with the distribution.

 * Neither the name of the copyright holder nor the names of its
   contributors may be used to endorse or promote products derived from
   this software without specific prior written permission.

 THIS SOFTWARE IS PROVIDED BY THE COPYR