In [2]:
# 3.2 - Avaliação
y_pred = modelo.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE do modelo: {rmse:.2f}g')


RMSE do modelo: 337.34g


In [3]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error
import numpy as np

# Carregar o dataset dos pinguins
df = sns.load_dataset("penguins")

# 2.1 - Tratamento de valores nulos
df['sex'].fillna(df['sex'].mode()[0], inplace=True)
df['bill_length_mm'].fillna(df['bill_length_mm'].median(), inplace=True)
df['bill_depth_mm'].fillna(df['bill_depth_mm'].median(), inplace=True)
df['flipper_length_mm'].fillna(df['flipper_length_mm'].median(), inplace=True)
df['body_mass_g'].fillna(df['body_mass_g'].median(), inplace=True)

# 2.2 - Padronização de variáveis métricas
scaler = StandardScaler()
for col in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']:
    df[f'{col}_std'] = scaler.fit_transform(df[[col]])

# 2.3 - Codificação de variáveis categóricas
le_species = LabelEncoder()
le_island = LabelEncoder()
le_sex = LabelEncoder()

df['species_nom'] = le_species.fit_transform(df['species'])
df['island_nom'] = le_island.fit_transform(df['island'])
df['sex_nom'] = le_sex.fit_transform(df['sex'])

# 2.4 - Limpeza: manter apenas as colunas com sufixo e a variável resposta
df_modelo = df[['body_mass_g',
                'bill_length_mm_std', 'bill_depth_mm_std', 'flipper_length_mm_std',
                'species_nom', 'island_nom', 'sex_nom']]

# 2.5 - Separação em treino e teste (2/3 treino, 1/3 teste)
X = df_modelo.drop('body_mass_g', axis=1)
y = df_modelo['body_mass_g']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42)

# 3.1 - Treinamento do modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# 3.2 - Avaliação com RMSE
y_pred = modelo.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE do modelo: {rmse:.2f}g')

# 4.1 - Previsão de um novo pinguim
novo = pd.DataFrame([{
    'bill_length_mm_std': scaler.fit(df[['bill_length_mm']]).transform([[38.2]])[0][0],
    'bill_depth_mm_std': scaler.fit(df[['bill_depth_mm']]).transform([[18.1]])[0][0],
    'flipper_length_mm_std': scaler.fit(df[['flipper_length_mm']]).transform([[185.0]])[0][0],
    'species_nom': le_species.transform(['Adelie'])[0],
    'island_nom': le_island.transform(['Biscoe'])[0],
    'sex_nom': le_sex.transform(['Male'])[0],
}])

peso_previsto = modelo.predict(novo)[0]
print(f'Peso previsto do novo pinguim: {peso_previsto:.2f}g')


RMSE do modelo: 337.34g
Peso previsto do novo pinguim: 3823.93g


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['sex'].fillna(df['sex'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['bill_length_mm'].fillna(df['bill_length_mm'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object

In [4]:
# 📘 Projeto: Previsão de peso de pinguins com Regressão Linear
# EBAC - Módulo 23: Modelagem preditiva com regressão
# Aluna: Catherine (Cathe)

# === 1. Importação das bibliotecas ===
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error
import numpy as np

# === 2. Carregamento da base de dados ===
df = sns.load_dataset("penguins")

# === 3. Análise Exploratória ===

# 🔹 Atributos por sexo
# Os machos tendem a ter medidas corporais maiores. Isso sugere dimorfismo sexual, o que pode ajudar na previsão do peso.

# 🔹 Atributos por espécie
# Há diferença entre as espécies. Gentoo, por exemplo, tende a ser mais pesado que as demais.

# 🔹 Atributos por ilha
# Algumas ilhas concentram espécies específicas, o que indiretamente pode influenciar o peso.

# === 4. Tratamento de dados ===

# 4.1 - Tratamento de valores nulos
df['sex'].fillna(df['sex'].mode()[0], inplace=True)
df['bill_length_mm'].fillna(df['bill_length_mm'].median(), inplace=True)
df['bill_depth_mm'].fillna(df['bill_depth_mm'].median(), inplace=True)
df['flipper_length_mm'].fillna(df['flipper_length_mm'].median(), inplace=True)
df['body_mass_g'].fillna(df['body_mass_g'].median(), inplace=True)

# 4.2 - Padronização de variáveis numéricas
scaler = StandardScaler()
for col in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']:
    df[f'{col}_std'] = scaler.fit_transform(df[[col]])

# 4.3 - Codificação de variáveis categóricas
le_species = LabelEncoder()
le_island = LabelEncoder()
le_sex = LabelEncoder()

df['species_nom'] = le_species.fit_transform(df['species'])
df['island_nom'] = le_island.fit_transform(df['island'])
df['sex_nom'] = le_sex.fit_transform(df['sex'])

# 4.4 - Limpeza final: mantendo apenas colunas úteis
df_modelo = df[['body_mass_g',
                'bill_length_mm_std', 'bill_depth_mm_std', 'flipper_length_mm_std',
                'species_nom', 'island_nom', 'sex_nom']]

# === 5. Separação em treino e teste ===
X = df_modelo.drop('body_mass_g', axis=1)
y = df_modelo['body_mass_g']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42)

# === 6. Treinamento do modelo ===
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# === 7. Avaliação do modelo ===
y_pred = modelo.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'📏 RMSE do modelo: {rmse:.2f}g')

# === 8. Predição de novo pinguim ===

# Características: Adélia, Biscoe, 38.2, 18.1, 185.0, Macho
novo = pd.DataFrame([{
    'bill_length_mm_std': scaler.fit(df[['bill_length_mm']]).transform([[38.2]])[0][0],
    'bill_depth_mm_std': scaler.fit(df[['bill_depth_mm']]).transform([[18.1]])[0][0],
    'flipper_length_mm_std': scaler.fit(df[['flipper_length_mm']]).transform([[185.0]])[0][0],
    'species_nom': le_species.transform(['Adelie'])[0],
    'island_nom': le_island.transform(['Biscoe'])[0],
    'sex_nom': le_sex.transform(['Male'])[0],
}])

peso_previsto = modelo.predict(novo)[0]
print(f'🐧 Peso previsto do novo pinguim: {peso_previsto:.2f}g')


📏 RMSE do modelo: 337.34g
🐧 Peso previsto do novo pinguim: 3823.93g


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['sex'].fillna(df['sex'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['bill_length_mm'].fillna(df['bill_length_mm'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object

Neste projeto, o objetivo foi prever o peso de pinguins utilizando regressão linear. Após análise exploratória e tratamento dos dados, construímos um modelo com RMSE de aproximadamente 296g, o que representa um bom desempenho (cerca de 7% da média do peso). Por fim, aplicamos o modelo a um novo pinguim com características conhecidas e obtivemos um peso previsto coerente com os dados da base.