## 1. Càrrega de Llibreries

In [1]:
# Llibreries de dades
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Llibreries de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Serialització
import pickle
import os

# Configuració de visualització
plt.style.use('seaborn-v0_8-whitegrid')
%matplotlib inline

## 2. Càrrega i Exploració de les Dades (EDA)

### 2.1 Carregar el Dataset

In [2]:
# Carregar dataset des de Seaborn
df = sns.load_dataset("penguins")

# Guardar còpia local al directori datasets
df.to_csv("../datasets/penguins.csv", index=False)
print("✓ Dataset guardat a ../datasets/penguins.csv")

# Mostrar primeres files
df.head(10)

✓ Dataset guardat a ../datasets/penguins.csv


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,


In [3]:
# Informació del dataset
print("="*50)
print("INFORMACIÓ DEL DATASET")
print("="*50)
df.info()

INFORMACIÓ DEL DATASET
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [4]:
# Estadístiques descriptives
print("="*50)
print("ESTADÍSTIQUES DESCRIPTIVES")
print("="*50)
df.describe()

ESTADÍSTIQUES DESCRIPTIVES


Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [5]:
# Distribució de la variable objectiu (species)
print("="*50)
print("DISTRIBUCIÓ D'ESPÈCIES")
print("="*50)
print(df['species'].value_counts())
print("\nProporció:")
print(df['species'].value_counts(normalize=True).round(3))

DISTRIBUCIÓ D'ESPÈCIES
species
Adelie       152
Gentoo       124
Chinstrap     68
Name: count, dtype: int64

Proporció:
species
Adelie       0.442
Gentoo       0.360
Chinstrap    0.198
Name: proportion, dtype: float64


In [6]:
# Valors nuls
print("="*50)
print("VALORS NULS PER COLUMNA")
print("="*50)
null_counts = df.isnull().sum()
print(null_counts)
print(f"\nTotal de files amb algun valor nul: {df.isnull().any(axis=1).sum()}")
print(f"Total de files: {len(df)}")

VALORS NULS PER COLUMNA
species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
dtype: int64

Total de files amb algun valor nul: 11
Total de files: 344


In [7]:
# Valors únics de columnes categòriques (important per al client!)
print("="*50)
print("VALORS ÚNICS DE VARIABLES CATEGÒRIQUES")
print("="*50)
print(f"species: {df['species'].unique().tolist()}")
print(f"island: {df['island'].unique().tolist()}")
print(f"sex: {df['sex'].dropna().unique().tolist()}")

VALORS ÚNICS DE VARIABLES CATEGÒRIQUES
species: ['Adelie', 'Chinstrap', 'Gentoo']
island: ['Torgersen', 'Biscoe', 'Dream']
sex: ['Male', 'Female']
