<center><h1> Projeto de Machine Learning </h1><center>
<center><h1>Previsão de Chuvas na Austrália</h1><center>

------------------------------------------------
<center>Eduardo Selber, Henrique Badin e Luca Caruso<center>

## Preparando o ambiente

In [None]:
#Importando as bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import sweetviz as sv
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import root_mean_squared_error
#Carregando o dataset
df = pd.read_csv("weatherAUS.csv")
df.head(5)

In [None]:
#Gerando um relatorio de analise exploratoria
report = sv.analyze(df)
report.show_notebook()

## Data Wrangling
Primeiro vamos formatar os dados da base de dados para prepará-lo para o modelo preditivo

In [None]:
#Tratamento de valores ausentes: Deletando as linhas com os valores ausentes das colunas "Raintoday" e "RainTomorrow"
df = df.dropna(subset=["RainToday", "RainTomorrow"])

#Deixando apenas as colunas Date, Location, MinTemp, MaxTemp, Humidity9am, Humidity3pm, Pressure9am, Pressure3pm, Temp9am, Temp3pm, RainToday, RainTomorrow
df = df[["Date", "Location", "MinTemp", "MaxTemp", "Humidity9am", "Humidity3pm", "Pressure9am", "Pressure3pm", "Temp9am", "Temp3pm", "RainToday", "RainTomorrow"]]
df = df.dropna()

# #Tratamento dos outliers e features engineering:
#MinTemp
df = df[(df["MinTemp"] >= -10) & (df["MinTemp"] <= 30)]

#MaxTemp
df = df[(df["MaxTemp"] >= 5) & (df["MaxTemp"] <= 40)]

#Humidity9am não possui outliers
#Humidity3pm não possui outliers

#Pressure9am
df = df[(df["Pressure9am"] >= 1000) & (df["Pressure9am"] <= 1035)]

#Pressure3pm
df = df[(df["Pressure3pm"] >= 1000) & (df["Pressure3pm"] <= 1035)]

#Temp9am
df = df[(df["Temp9am"] >= 5) & (df["Temp9am"] <= 30)]

#Temp3pm
df = df[(df["Temp3pm"] >= 8) & (df["Temp3pm"] <= 35)]

#Tratamento de variaveis categoricas 
df["RainToday"] = df["RainToday"].map({"Yes":1, "No":0})
df['RainTomorrow'] = df['RainTomorrow'].replace({'Yes': 1, 'No': 0})

## EDA - Exploratory Data Analysis
Primeiro vamos analisar os dados que são fornecidos pela base de dados

### Colunas do dataset
- **Date** - A data da observação (formato: yyyy-mm-dd)
- **Location** - A localização da estação meteorológica (Nome da cidade - string)
- **MinTemp** - A temperatura mínima em graus Celsius (float)
- **MaxTemp** - A temperatura máxima em graus Celsius  (float)
- **Rainfall** - A quantidade de chuva medida em mm (float)
- **Evaporation** - A taxa de evaporação medida em mm (float)
- **Sunshine** - O número de horas de sol (float)
- **WindGustDir** - A direção da rajada de vento mais forte (string)
- **WindGustSpeed** - A velocidade (em km/h) da rajada de vento mais forte (float)
- **WindDir9am** - A direção do vento às 9am (string)
- **WindDir3pm** - A direção do vento às 3pm (string)
- **WindSpeed9am** - A velocidade do vento às 9am (em km/h) (float)
- **WindSpeed3pm** - A velocidade do vento às 3pm (em km/h) (float)
- **Humidity9am** - A umidade relativa às 9am (em %) (float)
- **Humidity3pm** - A umidade relativa às 3pm (em %) (float)
- **Pressure9am** - A pressão atmosférica reduzida ao nível do mar às 9am (em hpa) (float)
- **Pressure3pm** - A pressão atmosférica reduzida ao nível do mar às 3pm (em hpa) (float)
- **Cloud9am** - A fração de cobertura de nuvens às 9am (em oitavos) (float)
- **Cloud3pm** - A fração de cobertura de nuvens às 3pm (em oitavos) (float)
- **Temp9am** - A temperatura às 9am em graus Celsius (float)
- **Temp3pm** - A temperatura às 3pm em graus Celsius (float)
- **RainToday** - Se choveu (precipitação acima de 1mm) ou não (string)
- **RainTomorrow** - A variável alvo. Se choverá ou não amanhã (string)


In [None]:
# Verificando as métricas do dataset
df.describe().transpose()

In [None]:
# Estatísticas descritivas do DataFrame
df.describe()

print("VARIÁVEIS NUMÉRICAS")
# Distribuição das variáveis numéricas
df.hist(bins=30, figsize=(20, 15), layout=(6, 4))
plt.tight_layout()
plt.show()

# print("VARIÁVEIS CATEGÓRICAS")
# # Contagem das variáveis categóricas do DataFrame
# plt.figure(figsize=(20, 15))
# for i, column in enumerate(df.select_dtypes(include='object').columns, 1):
#     plt.subplot(3, 3, i)
#     sns.countplot(data=df, y=column)
#     plt.title(f'{column} Count')
#     plt.xticks(rotation=45)

In [None]:
df.shape


In [None]:
df.head()

In [None]:
locations_unicos = df['Location'].unique()
print(locations_unicos)

In [None]:
df.columns

In [None]:
dates = df['Date']

locations = df['Location']

#Qtd de features
n_features = df.shape[1]

#tamanho do dataset de treino
n_samples = df.shape[0] * 0.6

n_locations = len(locations_unicos)

n_linhas = len(df['Date'].unique())

n_linhas_train  = n_linhas * 0.6
#Go through each Date and put group by all the features of each location by the date and save them in a new dataframe
df_grouped = pd.DataFrame()
 


In [None]:
# features = df[['MinTemp', 'MaxTemp', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm', 'Temp9am', 'Temp3pm', 'RainToday']]
# features.shape

In [None]:
features.dtypes

In [None]:
# Inicializando x_train e y_train


In [None]:


# Iterando sobre cada cidade e preenchendo x_train e y_train
for idx, location in enumerate(locations_unicos):
    # Filtrando os dados da cidade atual
    df_location = df[locations == location]
    
    # Preenchendo x_train com as features da cidade atual
    x_train[:, idx * n_features:(idx + 1) * n_features] = df_location.iloc[:n_samples_location, :-1].values
    
    # Preenchendo y_train com a variável alvo da cidade atual
    y_train[:, idx] = df_location.iloc[:n_samples_location, -1].values

# Convertendo x_train e y_train para DataFrame para melhor visualização
x_train = pd.DataFrame(x_train, columns=[f'{location}_{feature}' for location in locations_unicos for feature in df.columns[:-1]])
y_train = pd.DataFrame(y_train, columns=locations_unicos)

print(x_train.head())
print(y_train.head())

In [None]:



window = 7
x = []
y = []

for i in range(x_train.shape[0] - window):
    x.append(x_train[i:i+window, :].reshape(1,-1))
    y.append(y_train[i+window, :])

x = np.array(x)
y = np.array(y)

In [None]:
features_c["RainToday"].describe()

In [None]:
features_c['RainToday'] = features_c['RainToday'].map({'Yes': 1, 'No': 0})


In [None]:
df = df.sort_values('Date')

# Separando o DataFrame
n = len(df)
train_end = int(0.6 * n)
test_end = int(0.8 * n)

# Definindo as variáveis de treino, teste e validação
x_train = df.iloc[:train_end].drop(columns=['RainTomorrow', 'Date', 'Location'])
y_train = df.iloc[:train_end]['RainTomorrow']

x_test = df.iloc[train_end:test_end].drop(columns=['RainTomorrow', 'Date', 'Location'])
y_test = df.iloc[train_end:test_end]['RainTomorrow']

x_val = df.iloc[test_end:].drop(columns=['RainTomorrow', 'Date', 'Location'])
y_val = df.iloc[test_end:]['RainTomorrow']


In [None]:
x_train.shape, y_train.shape, x_test.shape, y_test.shape, x_val.shape, y_val.shape

In [None]:

model = LogisticRegression(max_iter=1000000000000)


In [None]:
model.fit(x_train, y_train)


In [None]:
y_pred = model.predict(x_test)


In [None]:
accuracy_score(y_test, y_pred)

In [None]:
import matplotlib.pyplot as plt

# Contagem de corretos e incorretos
certo = 0
total = 0
for i in range(len(y_pred)):
    if y_pred[i] == y_test.iloc[i]:
        certo += 1
    total += 1

errado = total - certo

# Dados para o gráfico
labels = ['Correto', 'Incorreto']
values = [certo, errado]

# Criando o gráfico de barras
plt.bar(labels, values, color=['green', 'red'])
plt.xlabel('Previsões')
plt.ylabel('Quantidade')
plt.title('Quantidade de Previsões Corretas e Incorretas')
plt.show()
print(f'Acurácia: {certo/total*100}%')

In [None]:
features_c = pd.get_dummies(features_c, columns=['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm'], drop_first=True)

In [None]:
features_c.dtypes

In [None]:
target = target.map({'Yes': 1, 'No': 0})
target.value_counts()

In [None]:
# Adicionando a variável target ao DataFrame de features
features_c['RainTomorrow'] = target

# Calculando a correlação apenas com a variável target
correlation_with_target = features_c.corr()['RainTomorrow'].drop('RainTomorrow')

# Criando um DataFrame para o heatmap e ordenando pela correlação
correlation_df = correlation_with_target.to_frame().reset_index()
correlation_df.columns = ['Feature', 'Correlation']

# Ordenando pela correlação
correlation_df = correlation_df.sort_values(by='Correlation', ascending=False)

# Criando o heatmap sem números
plt.figure(figsize=(6, 6))  # Define o tamanho da figura
sns.heatmap(correlation_df.set_index('Feature'), annot=False, cmap='coolwarm', 
            linewidths=.5, cbar_kws={"shrink": .8})

plt.title('Correlação das Features com RainTomorrow (Ordenado)')
plt.show()