# Preparació de les dades - Dataset Pingüins Palmer

Aquest notebook prepara el dataset de pingüins de l'arxipèlag Palmer per entrenar models de classificació.

In [17]:
import pandas as pd
import seaborn as sns
import numpy as np

# Carregar el dataset
df = sns.load_dataset("penguins")
print(f"Dataset carregat amb {len(df)} files")
df.head()

Dataset carregat amb 344 files


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [18]:
# Informació del dataset
print("\nInformació del dataset:")
df.info()
print("\nEstadístiques:")
df.describe()


Informació del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB

Estadístiques:


Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [19]:
# Comprovar valors nuls
print("\nValors nuls per columna:")
print(df.isnull().sum())


Valors nuls per columna:
species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
dtype: int64


In [None]:
# Eliminar files amb valors NA
df_clean = df.dropna().copy()
print(f"\nFiles després d'eliminar NA: {len(df_clean)} (eliminades: {len(df) - len(df_clean)})")
df_clean.head()

In [None]:
# Convertir noms de columnes a minúscules i substituir espais per guions baixos
replacer = lambda s: s.lower().replace(' ', '_')
df_clean.columns = [replacer(col) for col in df_clean.columns]

# Convertir valors categòrics a minúscules
categorical_cols = df_clean.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols:
    if col != 'species':  # No convertim la variable objectiu encara
        df_clean.loc[:, col] = df_clean[col].astype(str).str.lower().str.replace(' ', '_')

print("\nNoms de columnes normalitzats:")
print(df_clean.columns.tolist())
df_clean.head()

In [22]:
# Analitzar la distribució de les espècies
print("\nDistribució d'espècies:")
print(df_clean['species'].value_counts())
print("\nPercentatge per espècie:")
print(df_clean['species'].value_counts(normalize=True) * 100)


Distribució d'espècies:
species
Adelie       146
Gentoo       119
Chinstrap     68
Name: count, dtype: int64

Percentatge per espècie:
species
Adelie       43.843844
Gentoo       35.735736
Chinstrap    20.420420
Name: proportion, dtype: float64


In [23]:
# Guardar el dataset net
df_clean.to_csv('../datasets/penguins_clean.csv', index=False)
print("\nDataset net guardat a: ../datasets/penguins_clean.csv")


Dataset net guardat a: ../datasets/penguins_clean.csv
