In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Carregar os dados (substitua pelo caminho correto do seu arquivo)
df = pd.read_csv('../data/raw/pet_adoption_data.csv')

# Retirar a coluna 'PetID' que é uma variável identificadora
df = df.drop('PetID', axis=1)  # Remover a coluna 'PetID'

# Variáveis categóricas
categorical_columns = ['PetType', 'Breed', 'Color', 'Size', 'Vaccinated', 'HealthCondition', 'PreviousOwner']
# Variáveis numéricas
numeric_columns = ['AgeMonths', 'WeightKg', 'TimeInShelterDays', 'AdoptionFee']

# --- 1. Transformação de Variáveis Categóricas ---
# Garantindo que as variáveis binárias estão no formato correto (0 ou 1)
binary_columns = ['Vaccinated', 'HealthCondition', 'PreviousOwner']
df[binary_columns] = df[binary_columns].astype(int)

# Aplicando One-Hot Encoding para variáveis nominais
df = pd.get_dummies(df, columns=['PetType', 'Breed', 'Color', 'Size'], drop_first=True)

# --- 2. Normalização das Variáveis Numéricas ---
scaler = StandardScaler()
df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

# Visualizar as primeiras linhas do DataFrame transformado
print(df.head())

# Caso queira salvar os dados transformados
df.to_csv('../data/processed/pet_adoption_transformed.csv', index=False)
