In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Charger les données
df = pd.read_csv('../data/raw/pet_adoption_data.csv')

# Supprimer la colonne 'PetID' qui est une variable d'identification
df = df.drop('PetID', axis=1)

# Variables catégorielles
categorical_columns = ['PetType', 'Breed', 'Color', 'Size', 'Vaccinated', 'HealthCondition', 'PreviousOwner']
# Variables numériques
numeric_columns = ['AgeMonths', 'WeightKg', 'TimeInShelterDays', 'AdoptionFee']

# Transformation des variables catégorielles.
# S'assurer que les variables binaires sont dans le bon format (0 ou 1)
binary_columns = ['Vaccinated', 'HealthCondition', 'PreviousOwner']
df[binary_columns] = df[binary_columns].astype(int)

# Application du « One-Hot Encoding » aux variables nominales
df = pd.get_dummies(df, columns=['PetType', 'Breed', 'Color', 'Size'], drop_first=True)

# --- 2. Normalisation des variables numériques ---
scaler = StandardScaler()
df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

# Visualiser les premières lignes du DataFrame transformé
print(df.head())

# Si vous voulez sauvegarder les données transformées
df.to_csv('../data/processed/pet_adoption_transformed.csv', index=False)
