# Preparació de les dades - Dataset Pingüins Palmer

Aquest notebook prepara el dataset de pingüins de l'arxipèlag Palmer per entrenar models de classificació.

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

# Carregar el dataset
df = sns.load_dataset("penguins")
print(f"Dataset carregat amb {len(df)} files")
df.head()

In [None]:
# Informació del dataset
print("\nInformació del dataset:")
df.info()
print("\nEstadístiques:")
df.describe()

In [None]:
# Comprovar valors nuls
print("\nValors nuls per columna:")
print(df.isnull().sum())

In [None]:
# Eliminar files amb valors NA
df_clean = df.dropna()
print(f"\nFiles després d'eliminar NA: {len(df_clean)} (eliminades: {len(df) - len(df_clean)})")
df_clean.head()

In [None]:
# Convertir noms de columnes a minúscules i substituir espais per guions baixos
replacer = lambda s: s.lower().replace(' ', '_')
df_clean.columns = [replacer(col) for col in df_clean.columns]

# Convertir valors categòrics a minúscules
categorical_cols = df_clean.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols:
    if col != 'species':  # No convertim la variable objectiu encara
        df_clean[col] = df_clean[col].astype(str).str.lower().str.replace(' ', '_')

print("\nNoms de columnes normalitzats:")
print(df_clean.columns.tolist())
df_clean.head()

In [None]:
# Analitzar la distribució de les espècies
print("\nDistribució d'espècies:")
print(df_clean['species'].value_counts())
print("\nPercentatge per espècie:")
print(df_clean['species'].value_counts(normalize=True) * 100)

In [None]:
# Guardar el dataset net
df_clean.to_csv('../datasets/penguins_clean.csv', index=False)
print("\nDataset net guardat a: ../datasets/penguins_clean.csv")