In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv("weatherAUS.csv")
df

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44.0,W,...,71.0,22.0,1007.7,1007.1,8.0,,16.9,21.8,No,No
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44.0,NNW,...,44.0,25.0,1010.6,1007.8,,,17.2,24.3,No,No
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46.0,W,...,38.0,30.0,1007.6,1008.7,,2.0,21.0,23.2,No,No
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24.0,SE,...,45.0,16.0,1017.6,1012.8,,,18.1,26.5,No,No
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41.0,ENE,...,82.0,33.0,1010.8,1006.0,7.0,8.0,17.8,29.7,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145455,2017-06-21,Uluru,2.8,23.4,0.0,,,E,31.0,SE,...,51.0,24.0,1024.6,1020.3,,,10.1,22.4,No,No
145456,2017-06-22,Uluru,3.6,25.3,0.0,,,NNW,22.0,SE,...,56.0,21.0,1023.5,1019.1,,,10.9,24.5,No,No
145457,2017-06-23,Uluru,5.4,26.9,0.0,,,N,37.0,SE,...,53.0,24.0,1021.0,1016.8,,,12.5,26.1,No,No
145458,2017-06-24,Uluru,7.8,27.0,0.0,,,SE,28.0,SSE,...,51.0,24.0,1019.4,1016.5,3.0,2.0,15.1,26.0,No,No


## Análise Rápida
- Verificar dados ausentes, nulos ou inconsistências 
- Analisar informações estatísticas.
- Deduzir a necessidade dos próximos passos.
- Detecção de tipos diferentes no DataFrame

In [4]:
print("Verificando quantidade de dados ausentes por coluna:")
nulos = df.isnull().sum()
taxa_nulos = (nulos / len(df)) * 100

# Exibindo o resultado
resultado = pd.DataFrame({'Nulos': nulos, 'Taxa de Nulos (%)': taxa_nulos})
print(resultado)

Verificando quantidade de dados ausentes por coluna:
               Nulos  Taxa de Nulos (%)
Date               0           0.000000
Location           0           0.000000
MinTemp         1485           1.020899
MaxTemp         1261           0.866905
Rainfall        3261           2.241853
Evaporation    62790          43.166506
Sunshine       69835          48.009762
WindGustDir    10326           7.098859
WindGustSpeed  10263           7.055548
WindDir9am     10566           7.263853
WindDir3pm      4228           2.906641
WindSpeed9am    1767           1.214767
WindSpeed3pm    3062           2.105046
Humidity9am     2654           1.824557
Humidity3pm     4507           3.098446
Pressure9am    15065          10.356799
Pressure3pm    15028          10.331363
Cloud9am       55888          38.421559
Cloud3pm       59358          40.807095
Temp9am         1767           1.214767
Temp3pm         3609           2.481094
RainToday       3261           2.241853
RainTomorrow    3267       

In [5]:
colunas_nulas = ['Evaporation', 'Sunshine', 'Cloud9am', 'Cloud3pm']
linhas_com_nulos = df[colunas_nulas].isnull().any(axis=1).sum()
print(f"Linhas com pelo menos um valor nulo nessas colunas: {linhas_com_nulos}")

linhas_todas_nulas = df[colunas_nulas].isnull().all(axis=1).sum()
print(f"Linhas onde todas essas colunas são nulas: {linhas_todas_nulas}")

print(f"Quantidade de linhas totais: {len(df)}")

Linhas com pelo menos um valor nulo nessas colunas: 82894
Linhas onde todas essas colunas são nulas: 40615
Quantidade de linhas totais: 145460


In [6]:
print("\n Informações estatísticas sobre as colunas numéricas:")
df.describe()


 Informações estatísticas sobre as colunas numéricas:


Unnamed: 0,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm
count,143975.0,144199.0,142199.0,82670.0,75625.0,135197.0,143693.0,142398.0,142806.0,140953.0,130395.0,130432.0,89572.0,86102.0,143693.0,141851.0
mean,12.194034,23.221348,2.360918,5.468232,7.611178,40.03523,14.043426,18.662657,68.880831,51.539116,1017.64994,1015.255889,4.447461,4.50993,16.990631,21.68339
std,6.398495,7.119049,8.47806,4.193704,3.785483,13.607062,8.915375,8.8098,19.029164,20.795902,7.10653,7.037414,2.887159,2.720357,6.488753,6.93665
min,-8.5,-4.8,0.0,0.0,0.0,6.0,0.0,0.0,0.0,0.0,980.5,977.1,0.0,0.0,-7.2,-5.4
25%,7.6,17.9,0.0,2.6,4.8,31.0,7.0,13.0,57.0,37.0,1012.9,1010.4,1.0,2.0,12.3,16.6
50%,12.0,22.6,0.0,4.8,8.4,39.0,13.0,19.0,70.0,52.0,1017.6,1015.2,5.0,5.0,16.7,21.1
75%,16.9,28.2,0.8,7.4,10.6,48.0,19.0,24.0,83.0,66.0,1022.4,1020.0,7.0,7.0,21.6,26.4
max,33.9,48.1,371.0,145.0,14.5,135.0,130.0,87.0,100.0,100.0,1041.0,1039.6,9.0,9.0,40.2,46.7


In [7]:
print("\n Analisando a distribuição das cidades:")
df['Location'].value_counts()  



 Analisando a distribuição das cidades:


Location
Canberra            3436
Sydney              3344
Darwin              3193
Melbourne           3193
Brisbane            3193
Adelaide            3193
Perth               3193
Hobart              3193
Albany              3040
MountGambier        3040
Ballarat            3040
Townsville          3040
GoldCoast           3040
Cairns              3040
Launceston          3040
AliceSprings        3040
Bendigo             3040
Albury              3040
MountGinini         3040
Wollongong          3040
Newcastle           3039
Tuggeranong         3039
Penrith             3039
Woomera             3009
Nuriootpa           3009
Cobar               3009
CoffsHarbour        3009
Moree               3009
Sale                3009
PerthAirport        3009
PearceRAAF          3009
Witchcliffe         3009
BadgerysCreek       3009
Mildura             3009
NorfolkIsland       3009
MelbourneAirport    3009
Richmond            3009
SydneyAirport       3009
WaggaWagga          3009
Williamtown     

In [8]:
print("\n Analisando os Tipos das Colunas:")
df.info()


 Analisando os Tipos das Colunas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 145460 entries, 0 to 145459
Data columns (total 23 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Date           145460 non-null  object 
 1   Location       145460 non-null  object 
 2   MinTemp        143975 non-null  float64
 3   MaxTemp        144199 non-null  float64
 4   Rainfall       142199 non-null  float64
 5   Evaporation    82670 non-null   float64
 6   Sunshine       75625 non-null   float64
 7   WindGustDir    135134 non-null  object 
 8   WindGustSpeed  135197 non-null  float64
 9   WindDir9am     134894 non-null  object 
 10  WindDir3pm     141232 non-null  object 
 11  WindSpeed9am   143693 non-null  float64
 12  WindSpeed3pm   142398 non-null  float64
 13  Humidity9am    142806 non-null  float64
 14  Humidity3pm    140953 non-null  float64
 15  Pressure9am    130395 non-null  float64
 16  Pressure3pm    130432 non-null  float64

In [9]:
## Detecção de tipos diferentes no DataFrame
for coluna in df.columns:
    tipos = df[coluna].apply(type).unique()
    if len(tipos) > 1:
        print(f"Coluna '{coluna}' contém múltiplos tipos: {tipos}")

Coluna 'WindGustDir' contém múltiplos tipos: [<class 'str'> <class 'float'>]
Coluna 'WindDir9am' contém múltiplos tipos: [<class 'str'> <class 'float'>]
Coluna 'WindDir3pm' contém múltiplos tipos: [<class 'str'> <class 'float'>]
Coluna 'RainToday' contém múltiplos tipos: [<class 'str'> <class 'float'>]
Coluna 'RainTomorrow' contém múltiplos tipos: [<class 'str'> <class 'float'>]


In [10]:
df[df.duplicated(subset=['Date', 'Location'])]

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RainTomorrow


## Resultado da analize rápida:
Como base nas informações analizadas, é possivel notar que muitas colunas estão com dados vazios, e algumas dessas colunas chegam perto ou ultrapassando 40% de dados nulos(Evaporation, Sunshine, Cloud9am, Cloud3pm), por meio dessa pequena analise podemos decidir como iremos tratar esses dados nulos. Além disso, é possivel notar que não há linhas duplicadas, porém tem colunas com dados com tipo errados, e que deve ser tratado.

#### Por meio da analize irei fazer isso:
- < 5%	Preencher com média, mediana ou moda
- 5-15%	Preencher com interpolação ou moda, se necessário
- '> 30%	Considerar remoção das colunas ou previsão com Machine Learning caso a coluna for importante

## Limpeza dos Dados
- Remover valores ausentes ou tratá-los por imputação de valores por meio da estatística.
- Remover duplicatas.
- Corrigir inconsistências nos dados.

In [13]:
# Converter todas as colunas problemáticas para string
colunas_categoricas = ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday', 'RainTomorrow']

for coluna in colunas_categoricas:
    df[coluna] = df[coluna].astype('string') 

In [14]:
# < 5%	Preencher com média, mediana ou moda
df.loc[:, 'MinTemp'] = df['MinTemp'].fillna(df['MinTemp'].median())
df.loc[:, 'MaxTemp'] = df['MaxTemp'].fillna(df['MaxTemp'].median())
df.loc[:, 'Rainfall'] = df['Rainfall'].fillna(df['Rainfall'].median())
df.loc[:, 'WindSpeed9am'] = df['WindSpeed9am'].fillna(df['WindSpeed9am'].median())
df.loc[:, 'WindSpeed3pm'] = df['WindSpeed3pm'].fillna(df['WindSpeed3pm'].median())
df.loc[:, 'Humidity9am'] = df['Humidity9am'].fillna(df['Humidity9am'].median())
df.loc[:, 'Humidity3pm'] = df['Humidity3pm'].fillna(df['Humidity3pm'].median())
df.loc[:, 'Temp9am'] = df['Temp9am'].fillna(df['Temp9am'].median())
df.loc[:, 'Temp3pm'] = df['Temp3pm'].fillna(df['Temp3pm'].median())

df.loc[:, 'RainToday'] = df['RainToday'].fillna(df['RainToday'].mode()[0])
df.loc[:, 'RainTomorrow'] = df['RainTomorrow'].fillna(df['RainTomorrow'].mode()[0])

# 5-15%	Preencher com interpolação ou moda, se necessário
df.loc[:, 'WindGustDir'] = df['WindGustDir'].fillna(df['WindGustDir'].mode()[0])
df.loc[:, 'WindDir9am'] = df['WindDir9am'].fillna(df['WindDir9am'].mode()[0])
df.loc[:, 'WindDir3pm'] = df['WindDir3pm'].fillna(df['WindDir3pm'].mode()[0])

df.loc[:, 'WindGustSpeed'] = df['WindGustSpeed'].interpolate(method='linear')
df.loc[:, 'Pressure9am'] = df['Pressure9am'].interpolate(method='linear')
df.loc[:, 'Pressure3pm'] = df['Pressure3pm'].interpolate(method='linear')

# '> 30%	Considerar remoção das colunas ou previsão com Machine Learning caso a coluna for importante
df.drop(columns=['Evaporation', 'Sunshine', 'Cloud9am', 'Cloud3pm'], inplace=True)

# Se quissese excluir linha com valor nulo em determinada coluna:
# df.dropna(subset=['Nome'], inplace=True)  

# Se houvesse linha duplicada:
# df.drop_duplicates(inplace=True)

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 145460 entries, 0 to 145459
Data columns (total 19 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Date           145460 non-null  object 
 1   Location       145460 non-null  object 
 2   MinTemp        145460 non-null  float64
 3   MaxTemp        145460 non-null  float64
 4   Rainfall       145460 non-null  float64
 5   WindGustDir    145460 non-null  string 
 6   WindGustSpeed  145460 non-null  float64
 7   WindDir9am     145460 non-null  string 
 8   WindDir3pm     145460 non-null  string 
 9   WindSpeed9am   145460 non-null  float64
 10  WindSpeed3pm   145460 non-null  float64
 11  Humidity9am    145460 non-null  float64
 12  Humidity3pm    145460 non-null  float64
 13  Pressure9am    145460 non-null  float64
 14  Pressure3pm    145460 non-null  float64
 15  Temp9am        145460 non-null  float64
 16  Temp3pm        145460 non-null  float64
 17  RainToday      145460 non-nul

In [16]:
df

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,WindGustDir,WindGustSpeed,WindDir9am,WindDir3pm,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Temp9am,Temp3pm,RainToday,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,W,44.0,W,WNW,20.0,24.0,71.0,22.0,1007.7,1007.1,16.9,21.8,No,No
1,2008-12-02,Albury,7.4,25.1,0.0,WNW,44.0,NNW,WSW,4.0,22.0,44.0,25.0,1010.6,1007.8,17.2,24.3,No,No
2,2008-12-03,Albury,12.9,25.7,0.0,WSW,46.0,W,WSW,19.0,26.0,38.0,30.0,1007.6,1008.7,21.0,23.2,No,No
3,2008-12-04,Albury,9.2,28.0,0.0,NE,24.0,SE,E,11.0,9.0,45.0,16.0,1017.6,1012.8,18.1,26.5,No,No
4,2008-12-05,Albury,17.5,32.3,1.0,W,41.0,ENE,NW,7.0,20.0,82.0,33.0,1010.8,1006.0,17.8,29.7,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145455,2017-06-21,Uluru,2.8,23.4,0.0,E,31.0,SE,ENE,13.0,11.0,51.0,24.0,1024.6,1020.3,10.1,22.4,No,No
145456,2017-06-22,Uluru,3.6,25.3,0.0,NNW,22.0,SE,N,13.0,9.0,56.0,21.0,1023.5,1019.1,10.9,24.5,No,No
145457,2017-06-23,Uluru,5.4,26.9,0.0,N,37.0,SE,WNW,9.0,9.0,53.0,24.0,1021.0,1016.8,12.5,26.1,No,No
145458,2017-06-24,Uluru,7.8,27.0,0.0,SE,28.0,SSE,N,13.0,7.0,51.0,24.0,1019.4,1016.5,15.1,26.0,No,No


In [17]:
## Detecção de tipos diferentes no DataFrame
for coluna in df.columns:
    tipos = df[coluna].apply(type).unique()
    if len(tipos) > 1:
        print(f"Coluna '{coluna}' contém múltiplos tipos: {tipos}")

In [18]:
# Função para gerar gráficos de inconsistências
def visualizar_inconsistencias(df):
    # Número de colunas
    num_cols = df.shape[1]
    fig, axes = plt.subplots(num_cols, 2, figsize=(12, 5 * num_cols))

    for i, coluna in enumerate(df.columns):
        # Gráfico de valores ausentes
        sns.countplot(x=df[coluna].isnull(), ax=axes[i, 0])
        axes[i, 0].set_title(f'Valores Ausentes em {coluna}')
        axes[i, 0].set_xlabel('Ausente (True/False)')
        axes[i, 0].set_ylabel('Contagem')

        # Gráfico de tipo de dado
        sns.histplot(df[coluna], kde=True, ax=axes[i, 1])
        axes[i, 1].set_title(f'Distribuição de Dados de {coluna}')
        axes[i, 1].set_xlabel(f'{coluna}')
        axes[i, 1].set_ylabel('Contagem')

    plt.tight_layout()
    plt.show()

# Exemplo de como usar a função
#visualizar_inconsistencias(df)

## Transformação dos Dados
- Normalização ou padronização (caso os dados numéricos precisem ser ajustados).
- Conversão de tipos de dados (ex.: string para numérico).
- Codificação de variáveis categóricas (One-Hot Encoding, Label Encoding).

In [20]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

# 🎯 1. Normalização e Padronização
scaler_minmax = MinMaxScaler()  # Normalização (0 a 1)
scaler_standard = StandardScaler()  # Padronização (Z-score)

colunas_numericas = [
    'MinTemp', 'MaxTemp', 'Rainfall', 'WindGustSpeed', 'WindSpeed9am', 
    'WindSpeed3pm', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 
    'Pressure3pm', 'Temp9am', 'Temp3pm'
]

df[colunas_numericas] = scaler_minmax.fit_transform(df[colunas_numericas])  # Aplica normalização
# df[colunas_numericas] = scaler_standard.fit_transform(df[colunas_numericas])  # Alternativa para padronização

# 🎯 2. Conversão de Tipos de Dados
colunas_categoricas = ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday', 'RainTomorrow']
df[colunas_categoricas] = df[colunas_categoricas].astype("category")  # Converte para categórico

# 🎯 3. Codificação de Variáveis Categóricas
# One-Hot Encoding (gera colunas binárias para cada categoria)
df = pd.get_dummies(df, columns=['WindGustDir', 'WindDir9am', 'WindDir3pm'], drop_first=True)

# Label Encoding (converte para números inteiros)
label_encoder = LabelEncoder()
df['RainToday'] = label_encoder.fit_transform(df['RainToday'])
df['RainTomorrow'] = label_encoder.fit_transform(df['RainTomorrow'])

df.head()

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,...,WindDir3pm_NNW,WindDir3pm_NW,WindDir3pm_S,WindDir3pm_SE,WindDir3pm_SSE,WindDir3pm_SSW,WindDir3pm_SW,WindDir3pm_W,WindDir3pm_WNW,WindDir3pm_WSW
0,2008-12-01,Albury,0.516509,0.523629,0.001617,0.294574,0.153846,0.275862,0.71,0.22,...,False,False,False,False,False,False,False,False,True,False
1,2008-12-02,Albury,0.375,0.565217,0.0,0.294574,0.030769,0.252874,0.44,0.25,...,False,False,False,False,False,False,False,False,False,True
2,2008-12-03,Albury,0.504717,0.57656,0.0,0.310078,0.146154,0.298851,0.38,0.3,...,False,False,False,False,False,False,False,False,False,True
3,2008-12-04,Albury,0.417453,0.620038,0.0,0.139535,0.084615,0.103448,0.45,0.16,...,False,False,False,False,False,False,False,False,False,False
4,2008-12-05,Albury,0.613208,0.701323,0.002695,0.271318,0.053846,0.229885,0.82,0.33,...,False,True,False,False,False,False,False,False,False,False


## Redução de Dimensionalidade (Opcional)
- Seleção de variáveis mais relevantes.
- PCA (Principal Component Analysis) ou técnicas similares para reduzir a complexidade dos dados.

In [22]:
# Mantém apenas colunas numéricas
df_numeric = df.select_dtypes(include=['number'])

# Agora a correlação pode ser calculada sem erro
correlacao = df_numeric.corr()

# Remove colunas com correlação maior que 0.9
def remove_colunas_correlacionadas(df, threshold=0.9):
    corr_matrix = df.corr().abs()
    upper = corr_matrix.where(
        np.triu(np.ones(corr_matrix.shape), k=1).astype(bool)  # Substitua pd.np por np
    )
    colunas_para_remover = [column for column in upper.columns if any(upper[column] > threshold)]
    return df.drop(columns=colunas_para_remover)

df_top = remove_colunas_correlacionadas(df_numeric)
df_top

Unnamed: 0,MinTemp,MaxTemp,Rainfall,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Temp9am,RainToday,RainTomorrow
0,0.516509,0.523629,0.001617,0.294574,0.153846,0.275862,0.71,0.22,0.449587,0.508439,0,0
1,0.375000,0.565217,0.000000,0.294574,0.030769,0.252874,0.44,0.25,0.497521,0.514768,0,0
2,0.504717,0.576560,0.000000,0.310078,0.146154,0.298851,0.38,0.30,0.447934,0.594937,0,0
3,0.417453,0.620038,0.000000,0.139535,0.084615,0.103448,0.45,0.16,0.613223,0.533755,0,0
4,0.613208,0.701323,0.002695,0.271318,0.053846,0.229885,0.82,0.33,0.500826,0.527426,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
145455,0.266509,0.533081,0.000000,0.193798,0.100000,0.126437,0.51,0.24,0.728926,0.364979,0,0
145456,0.285377,0.568998,0.000000,0.124031,0.100000,0.103448,0.56,0.21,0.710744,0.381857,0,0
145457,0.327830,0.599244,0.000000,0.240310,0.069231,0.103448,0.53,0.24,0.669421,0.415612,0,0
145458,0.384434,0.601134,0.000000,0.170543,0.100000,0.080460,0.51,0.24,0.642975,0.470464,0,0


In [23]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Padroniza os dados (PCA é sensível à escala)
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df_top)

# Aplica PCA para reduzir para 2 componentes principais
pca = PCA(n_components=2)
df_pca = pca.fit_transform(df_scaled)

# Cria um novo DataFrame com os componentes principais
df_pca = pd.DataFrame(df_pca, columns=['PC1', 'PC2'])

df_pca

Unnamed: 0,PC1,PC2
0,1.134785,-0.069233
1,0.908246,-1.190803
2,2.188025,-0.291256
3,0.655733,-2.415735
4,1.180426,-0.589692
...,...,...
145455,-0.887432,-2.215615
145456,-0.870802,-2.500379
145457,-0.270025,-2.094576
145458,0.067899,-2.193120


Conforme as analises a seleção de variáveis mais relevantes é a melhor opção para fazer nesse pre-processamento de dados


## Engenharia de Atributos (Feature Engineering)
- Criar novas variáveis derivadas de variáveis existentes.
- Agregações e estatísticas derivadas dos dados brutos.

Não achei necessário para fazer nesse pre-processamento de dados

## Divisão do Conjunto de Dados
- Separar os dados em treino, validação e teste (ex.: 70% treino, 20% validação, 10% teste).

In [28]:
from sklearn.model_selection import train_test_split

# Separar features e target
X = df_top.drop(columns=['RainTomorrow'])  # Features
y = df_top['RainTomorrow']  # Target

# 🎯 2. Divisão do Conjunto de Dados (70% treino, 20% validação, 10% teste)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)  # Mantém proporção original

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=1/3, random_state=42, stratify=y_temp)

print(f"Treino: {len(X_train)} | Validação: {len(X_val)} | Teste: {len(X_test)}")

Treino: 101822 | Validação: 29092 | Teste: 14546


## Balanceamento dos Dados (se necessário)
- Aplicação de técnicas como oversampling ou undersampling para balancear classes desproporcionais.

In [30]:
from imblearn.over_sampling import SMOTE
from collections import Counter
from imblearn.under_sampling import RandomUnderSampler

# Verificar Balanceamento
print("Distribuição da variável alvo antes do balanceamento:", Counter(y_train))

# Aplicar SMOTE (Oversampling)
smote = SMOTE(random_state=42)
X_train_bal, y_train_bal = smote.fit_resample(X_train, y_train)

print("Distribuição após SMOTE:", Counter(y_train_bal))

# Alternativa: Undersampling
# undersample = RandomUnderSampler(random_state=42)
# X_train_bal, y_train_bal = undersample.fit_resample(X_train, y_train)
# print("Distribuição após Undersampling:", Counter(y_train_bal))

Distribuição da variável alvo antes do balanceamento: Counter({0: 79508, 1: 22314})
Distribuição após SMOTE: Counter({1: 79508, 0: 79508})


### Vantagens do Balanceamento com SMOTE
- Evita que o modelo aprenda apenas a classe majoritária → Se não balancear, o modelo pode prever "0" para tudo e ter alta acurácia sem realmente aprender o padrão.
- Útil para modelos lineares e redes neurais → Modelos como Regressão Logística, SVM e Redes Neurais são sensíveis a desbalanceamento.
- Melhora recall da classe minoritária (1 - Chuva Amanhã) → Mais chances de detectar dias de chuva corretamente

### Possíveis Problemas
- Overfitting → Como o SMOTE gera dados sintéticos, pode acontecer do modelo "memorizar" padrões artificiais, reduzindo sua generalização.
- Pode não ser necessário para modelos de árvores → Algoritmos como Random Forest e XGBoost já lidam bem com dados desbalanceados, então pode ser melhor usar class_weight='balanced' em vez de SMOTE.

In [32]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Treinamento do Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_bal, y_train_bal)

# Treinamento do Random Forest sem balanceamento
rf_model2 = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model2.fit(X_train, y_train)

# Treinamento do SVM
svm_model = SVC(kernel='rbf', probability=True, random_state=42)
svm_model.fit(X_train_bal_scaled, y_train_bal)

# Avaliação dos Modelos
def avaliar_modelo(modelo, X_test, y_test, nome_modelo):
    y_pred = modelo.predict(X_test)
    print(f"\n🔹 {nome_modelo} 🔹")
    print("Acurácia:", accuracy_score(y_test, y_pred))
    print("Métricas de Classificação:\n", classification_report(y_test, y_pred))
    print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))

# Avaliar Random Forest
avaliar_modelo(rf_model, X_test, y_test, "Random Forest")

# Avaliar Random Forest
avaliar_modelo(rf_model2, X_test, y_test, "Random Forest Sem Balanceamento")

# Avaliar SVM
avaliar_modelo(svm_model, X_test_scaled, y_test, "SVM")

NameError: name 'X_train_bal_scaled' is not defined