# Projeto: Previsão de Fenômenos Climáticos

##### URL para download dos dados
https://www.ncei.noaa.gov/access/search/data-search/global-summary-of-the-month?bbox=70.088,-168.376,62.664,-143.987&pageNum=1

### 1 - Explique a motivação de uso da base escolhida. 

- Desenvolver um modelo de aprendizado de máquina para prever a ocorrência de fenômenos climáticos tempestades com base em variáveis climáticas e meteorológicas.

### 2 - Descreva as variáveis presentes na base. Quais são as variáveis? Quais são os tipos de variáveis (discreta, categórica, contínua)? Quais são as médias e desvios padrões?

1. Temperatura Média (TAVG)

    - Tipo de Variável: Contínua

    - Descrição: A temperatura média registrada durante um período específico.

    - Média: 7.600328

    - Desvio Padrão: 11.726153

    - Mínimo: -17.130000

    - Primeiro Quartil (Q1): -2.950000

    - Mediana (Q2): 9.060000

    - Terceiro Quartil (Q3): 18.825000

    - Máximo: 25.620000

2. Temperatura Máxima (TMAX)

    - Tipo de Variável: Contínua

    - Descrição: A temperatura máxima registrada durante um período específico.

    - Média: 12.797264

    - Desvio Padrão: 12.277433

    - Mínimo: -12.560000

    - Primeiro Quartil (Q1): 1.510000

    - Mediana (Q2): 14.860000

    - Terceiro Quartil (Q3): 24.455000

    - Máximo: 32.530000

3. Temperatura Mínima (TMIN)

    - Tipo de Variável: Contínua

    - Descrição: A temperatura mínima registrada durante um período específico.
    
    - Média: 2.402585

    - Desvio Padrão: 11.218634

    - Mínimo: -21.940000

    - Primeiro Quartil (Q1): -7.265000

    - Mediana (Q2): 3.370000

    - Terceiro Quartil (Q3): 13.035000

    - Máximo: 20.090000

4. Precipitação (PRCP)

    - Tipo de Variável: Contínua

    - Descrição: A quantidade total de precipitação registrada durante um período específico.

    - Média: 64.462137

    - Desvio Padrão: 52.486282

    - Mínimo: 0.000000

    - Primeiro Quartil (Q1): 23.125000

    - Mediana (Q2): 51.250000

    - Terceiro Quartil (Q3): 93.425000

    - Máximo: 305.800000
    

### 3 - Em relação à base escolhida:

a. Você irá comparar alguns modelos para prever as classes. Descreva como a validação cruzada pode ser usada para comparar modelos de maneira justa. Descreva o procedimento e como a métrica final é calculada.

A validação cruzada é uma técnica poderosa para avaliar a performance de modelos de aprendizado de máquina de maneira justa e robusta. Ela permite que você avalie como um modelo generaliza para dados não vistos, dividindo o conjunto de dados em um número específico de "folds" ou subconjuntos. O modelo é então treinado e testado várias vezes, cada vez em um conjunto diferente de folds, e os resultados são médios para obter uma estimativa mais precisa da performance do modelo.

##### Os procedimentos da Validação Cruzada:

1 - Divisão dos Dados: O conjunto de dados é dividido em k subconjuntos (ou "folds"). Normalmente, k é escolhido como 5 ou 10, mas pode ser qualquer número.

2 - Treinamento e Teste: O modelo é treinado k vezes, cada vez usando k-1 dos folds como conjunto de treinamento e um fold diferente como conjunto de teste. Isso é feito para cada fold, de modo que cada fold seja usado uma vez como conjunto de teste.

3 - Médias dos Resultados: As métricas de performance (como precisão, recall, F1-score, etc.) são calculadas para cada uma das k execuções. Em seguida, essas métricas são médias para obter uma estimativa mais precisa da performance do modelo.


##### Métrica Final:

A métrica final é calculada com base nas médias das métricas de performance obtidas nas k execuções da validação cruzada. A escolha da métrica final depende do objetivo do modelo.

 - Acurácia: A acurácia é uma métrica simples que indica a proporção de previsões corretas feitas pelo modelo. É útil para ter uma visão geral do desempenho do modelo.

 - Precisão: A proporção de previsões positivas corretas entre todas as previsões positivas. É útil quando a importância é dar prioridade às previsões positivas.

 - Recall: A proporção de previsões positivas corretas entre todas as previsões positivas reais. É útil quando a importância é detectar todas as instâncias positivas.

 - F1-Score: A média harmônica da precisão e do recall. É uma métrica equilibrada que considera tanto a precisão quanto o recall, sendo particularmente útil em situações onde é importante equilibrar essas duas métricas..

b. A base se encontra com as classes balanceadas? Cite uma maneira de resolver no caso das classes estarem desbalanceadas.

- Se a base de dados estiver desbalanceada, ou seja, se uma das classes (neste caso, a ocorrência de tempestades) tiver significativamente mais exemplos do que a outra, isso pode afetar negativamente o desempenho do modelo de aprendizado de máquina, fazendo com que ele tenha dificuldade em aprender a importância da classe minoritária. Existem várias estratégias para lidar com conjuntos de dados desbalanceados:

1. Amostragem:
    - Oversampling: Aumentar o número de exemplos da classe minoritária através da criação de cópias (ou "amostragem duplicada") ou da geração de novos exemplos (por exemplo, usando técnicas de aumento de dados).
    - Undersampling: Reduzir o número de exemplos da classe majoritária para que o número de exemplos de ambas as classes seja igual.

2. Ponderação de Classes:
    - Ponderação de Classes: Ajustar os pesos das classes durante o treinamento do modelo para dar mais importância à classe minoritária. Isso pode ser feito através do parâmetro class_weight em muitos algoritmos de aprendizado de máquina no scikit-learn.

3. Validação Cruzada:
    - Validação Cruzada com Estratificação: Ao realizar a validação cruzada, garantir que cada fold contenha uma proporção representativa de ambas as classes. Isso pode ser feito usando a opção stratify no scikit-learn.

4. Métricas de Avaliação
    - Métricas Ajustadas: Além da acurácia, usar métricas que levem em conta o desbalanceamento das classes, como a área sob a curva ROC (AUC-ROC), precisão, recall e F1-score.

### 4 - Qual a diferença entre uma regressão linear e a regressão logística?

- Tipo de Variável Dependente: A principal diferença entre a regressão linear e a regressão logística é o tipo de variável dependente que elas preveem. A regressão linear preve valores contínuos, enquanto a regressão logística preve valores categóricos.

- Função de Modelo: A regressão linear usa uma linha ou plano para modelar a relação entre as variáveis, enquanto a regressão logística usa uma função logística para modelar a probabilidade de uma variável categórica.

- Interpretação dos Coeficientes: Os coeficientes da regressão linear indicam o efeito de uma unidade de mudança na variável independente na variável dependente, enquanto os coeficientes da regressão logística indicam o efeito de uma unidade de mudança na variável independente na mudança log-odds da probabilidade da variável categórica ser um dos possíveis valores.

### 5 - Com a base escolhida:

a. Descreva as etapas necessárias para criar um modelo de classificação eficiente.

1. Entendimento do Problema:

    - Definição do Problema: Compreender claramente o problema que você está tentando resolver. Isso inclui entender o contexto, os objetivos e as restrições.

    - Definição dos Objetivos: Definir claramente o que você quer alcançar com o modelo. Isso pode incluir a previsão de uma variável categórica, a classificação de dados em grupos, entre outros.

2. Preparação dos Dados:

    - Coleta de Dados: Coletar os dados necessários para treinar e testar o modelo. Isso pode envolver a coleta de dados existentes ou a criação de um conjunto de dados através de simulações ou coleta de dados.

    - Limpeza de Dados: Remover ou preencher valores ausentes, lidar com outliers e garantir que os dados estejam no formato correto.

    - Divisão dos Dados: Dividir o conjunto de dados em conjuntos de treinamento e teste. Isso permite avaliar o desempenho do modelo em dados não vistos.

    - Balanceamento de Classes: Se o conjunto de dados estiver desbalanceado, aplicar técnicas de balanceamento de classes, como amostragem ou ponderação de classes, para garantir que o modelo não seja tendencioso em relação a uma classe.

3. Seleção do Modelo:

    - Exploração de Modelos: Experimentar diferentes tipos de modelos de classificação para ver qual funciona melhor para o problema. Isso pode incluir modelos lineares, árvores de decisão, máquinas de vetores de suporte (SVM), redes neurais, entre outros.

    - Ajuste de Hiperparâmetros: Ajustar os hiperparâmetros do modelo para melhorar seu desempenho. Isso pode ser feito através de validação cruzada ou outras técnicas de ajuste de hiperparâmetros.

4. Treinamento do Modelo:

    - Treinamento: Treinar o modelo selecionado usando o conjunto de treinamento. Isso envolve ajustar os parâmetros do modelo para minimizar um erro de previsão.

    - Validação Cruzada: Usar validação cruzada para avaliar o desempenho do modelo em diferentes subconjuntos do conjunto de treinamento. Isso fornece uma estimativa mais robusta do desempenho do modelo.

5. Avaliação do Modelo:

    - Teste do Modelo: Testar o modelo no conjunto de teste para avaliar seu desempenho em dados não vistos.

    - Análise de Métricas: Analisar métricas de desempenho como acurácia, precisão, recall, F1-score e área sob a curva ROC (AUC-ROC) para avaliar o desempenho do modelo.

    - Interpretação dos Resultados: Interpretar os resultados do modelo e entender o que eles significam no contexto do problema.

6. Ajuste e Validação:

    - Ajuste Final: Com base na avaliação, fazer ajustes finais no modelo para melhorar seu desempenho.

    - Validação Final: Validar o modelo final com um novo conjunto de dados para garantir que ele generalize bem para novos dados.

7. Implementação e Monitoramento:

    - Implementação: Implementar o modelo em um ambiente de produção ou em um sistema de previsão.

    - Monitoramento: Monitorar o desempenho do modelo em produção e fazer ajustes conforme necessário.

### b. Treine um modelo de regressão logística para realizar a classificação. Qual a acurácia, a precisão, a recall e o f1-score do modelo?

In [61]:
# Importando bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from scipy.stats import uniform, randint


In [62]:
# Carregando os arquivos CSV
def carregar_dados():
    dfs = []
    for i in range(1, 10):
        df = pd.read_csv(f'data/USC00{i}.csv')
        dfs.append(df)
    return pd.concat(dfs, ignore_index=True)

# Selecionando colunas do df e preenchendo valores ausentes
def preparar_dados(dados):
    dados_selecionados = dados[['TAVG', 'TMAX', 'TMIN', 'PRCP']]
    return dados_selecionados.fillna(dados_selecionados.mean())

# Criando uma variável indicadora binária
def criar_variavel_alvo(dados):
    return dados['PRCP'].apply(lambda x: 1 if x > 25 else 0)

# Dividindo os dados em conjunto de treinamento e teste
def dividir_dados(X, y):
    return train_test_split(X, y, test_size=0.3, random_state=42)

# Realizando subamostragem (undersampling)
def realizar_subamostragem(X, y):
    undersampler = RandomUnderSampler(sampling_strategy='majority')
    return undersampler.fit_resample(X, y)

# Realizando sobreamostragem (oversampling)
def realizar_sobreamostragem(X, y):
    oversampler = RandomOverSampler(sampling_strategy='minority')
    return oversampler.fit_resample(X, y)

# Avaliando o desempenho do modelo
def avaliar_modelo(modelo, X_test, y_test):
    y_pred = modelo.predict(X_test)
    acuracia = accuracy_score(y_test, y_pred)
    precisao = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    print('')
    print("Acurácia:", acuracia)
    print("Precisão:", precisao)
    print("Recall:", recall)
    print("F1-Score:", f1)
    print('')
    print("Relatório de Classificação:")
    print('')
    print(classification_report(y_test, y_pred))

In [63]:
# Carregando e preparando os dados
dados = carregar_dados()
X = preparar_dados(dados)
y = criar_variavel_alvo(dados)

In [64]:
# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = dividir_dados(X, y)

# Verificando balanceamento antes da subamostragem e sobreamostragem
print("Balanceamento antes da subamostragem:")
print(y_train.value_counts())

Balanceamento antes da subamostragem:
PRCP
1    1985
0    1417
Name: count, dtype: int64


In [65]:
# Realizando subamostragem
X_under, y_under = realizar_subamostragem(X_train, y_train)

# Verificando balanceamento após a subamostragem
print("\nBalanceamento após a subamostragem:")
print(pd.Series(y_under).value_counts())


Balanceamento após a subamostragem:
PRCP
0    1417
1    1417
Name: count, dtype: int64


In [66]:
# Realizando sobreamostragem
X_over, y_over = realizar_sobreamostragem(X_train, y_train)

# Verificando balanceamento após a sobreamostragem
print("\nBalanceamento após a sobreamostragem:")
print(pd.Series(y_over).value_counts())


Balanceamento após a sobreamostragem:
PRCP
0    1985
1    1985
Name: count, dtype: int64


In [67]:
# Criando pipeline do modelo LogisticRegression
pipeline_regressao_logistica = Pipeline([
    ('scaler', RobustScaler()),
    ('classifier', LogisticRegression(random_state=42))
])

# Treinando modelo de Regressão Logística
print("\nTreinando modelo de Regressão Logística...")
pipeline_regressao_logistica.fit(X_train, y_train)
print("Avaliação do modelo de Regressão Logística:")
avaliar_modelo(pipeline_regressao_logistica, X_test, y_test)


Treinando modelo de Regressão Logística...
Avaliação do modelo de Regressão Logística:

Acurácia: 0.8834019204389575
Precisão: 0.9122182680901542
Recall: 0.8890173410404625
F1-Score: 0.9004683840749415

Relatório de Classificação:

              precision    recall  f1-score   support

           0       0.84      0.88      0.86       593
           1       0.91      0.89      0.90       865

    accuracy                           0.88      1458
   macro avg       0.88      0.88      0.88      1458
weighted avg       0.88      0.88      0.88      1458



In [68]:
# Criando pipeline do modelo DecisionTreeClassifier
pipeline_arvore_decisao = Pipeline([
    ('scaler', RobustScaler()),
    ('classifier', DecisionTreeClassifier(random_state=42))
])

# Treinando modelo de Árvore de Decisão
print("\nTreinando modelo de Árvore de Decisão...")
pipeline_arvore_decisao.fit(X_train, y_train)
print("Avaliação do modelo de Árvore de Decisão sem GridSearchCV:")
avaliar_modelo(pipeline_arvore_decisao, X_test, y_test)


Treinando modelo de Árvore de Decisão...
Avaliação do modelo de Árvore de Decisão sem GridSearchCV:

Acurácia: 0.9993141289437586
Precisão: 1.0
Recall: 0.9988439306358381
F1-Score: 0.9994216310005783

Relatório de Classificação:

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       593
           1       1.00      1.00      1.00       865

    accuracy                           1.00      1458
   macro avg       1.00      1.00      1.00      1458
weighted avg       1.00      1.00      1.00      1458



In [69]:
# Definindo os parâmetros para a busca exaustiva
parametros_arvore_decisao = {
    'classifier__criterion': ['gini', 'entropy'],
    'classifier__max_depth': range(1, 11)
}

# Criando o pipeline da Árvore de Decisão com GridSearchCV
pipeline_arvore_decisao = Pipeline([
    ('scaler', RobustScaler()),
    ('classifier', DecisionTreeClassifier(random_state=42))
])

# Inicializando o GridSearchCV
grid_search_arvore_decisao = GridSearchCV(
    estimator=pipeline_arvore_decisao,
    param_grid=parametros_arvore_decisao,
    scoring='accuracy',
    cv=5,
    n_jobs=-1
)

# Treinando o modelo com GridSearchCV
grid_search_arvore_decisao.fit(X_train, y_train)

# Avaliando o melhor modelo da Árvore de Decisão
melhor_modelo_arvore_decisao = grid_search_arvore_decisao.best_estimator_
print("Melhores Parâmetros para a Árvore de Decisão com GridSearchCV:", grid_search_arvore_decisao.best_params_)
print("Avaliação do melhor modelo da Árvore de Decisão com GridSearchCV:")
avaliar_modelo(melhor_modelo_arvore_decisao, X_test, y_test)

Melhores Parâmetros para a Árvore de Decisão com GridSearchCV: {'classifier__criterion': 'entropy', 'classifier__max_depth': 3}
Avaliação do melhor modelo da Árvore de Decisão com GridSearchCV:

Acurácia: 1.0
Precisão: 1.0
Recall: 1.0
F1-Score: 1.0

Relatório de Classificação:

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       593
           1       1.00      1.00      1.00       865

    accuracy                           1.00      1458
   macro avg       1.00      1.00      1.00      1458
weighted avg       1.00      1.00      1.00      1458



In [70]:
# Criando o pipeline do modelo SVM
pipeline_svm = Pipeline([
    ('scaler', RobustScaler()),
    ('classifier', SVC(random_state=42))
])

# Treinando modelo de SVM
print("\nTreinando modelo de SVM...")
pipeline_svm.fit(X_train, y_train)
print("Avaliação do modelo de SVM:")
avaliar_modelo(pipeline_svm, X_test, y_test)


Treinando modelo de SVM...
Avaliação do modelo de SVM:

Acurácia: 0.9163237311385459
Precisão: 0.9226393629124005
Recall: 0.9375722543352601
F1-Score: 0.930045871559633

Relatório de Classificação:

              precision    recall  f1-score   support

           0       0.91      0.89      0.90       593
           1       0.92      0.94      0.93       865

    accuracy                           0.92      1458
   macro avg       0.91      0.91      0.91      1458
weighted avg       0.92      0.92      0.92      1458



In [71]:
# Definindo os parâmetros para a busca aleatória
parametros_svm = {
    'classifier__C': uniform(0.1, 10),
    'classifier__kernel': ['linear', 'poly', 'rbf']
}

# Criando o pipeline do SVM com RandomizedSearchCV
pipeline_svm_random = Pipeline([
    ('scaler', RobustScaler()),
    ('classifier', SVC(random_state=42))
])

# Inicializando o RandomizedSearchCV
randomized_search_svm = RandomizedSearchCV(
    estimator=pipeline_svm_random,
    param_distributions=parametros_svm,
    scoring='accuracy',
    cv=5,
    n_iter=10,
    random_state=42,
    n_jobs=-1
)

# Treinando o modelo com RandomizedSearchCV
randomized_search_svm.fit(X_train, y_train)

# Avaliando o melhor modelo SVM
melhor_modelo_svm = randomized_search_svm.best_estimator_
print("Melhores Parâmetros para SVM com RandomizedSearchCV:", randomized_search_svm.best_params_)
print("Avaliação do melhor modelo SVM:")
avaliar_modelo(melhor_modelo_svm, X_test, y_test)

Melhores Parâmetros para SVM com RandomizedSearchCV: {'classifier__C': 6.1111501174320875, 'classifier__kernel': 'rbf'}
Avaliação do melhor modelo SVM:

Acurácia: 0.9279835390946503
Precisão: 0.9250559284116331
Recall: 0.9560693641618497
F1-Score: 0.9403069926094372

Relatório de Classificação:

              precision    recall  f1-score   support

           0       0.93      0.89      0.91       593
           1       0.93      0.96      0.94       865

    accuracy                           0.93      1458
   macro avg       0.93      0.92      0.92      1458
weighted avg       0.93      0.93      0.93      1458



### 6 - Em relação à questão anterior, qual o modelo deveria ser escolhido para uma eventual operação. Responda essa questão mostrando a comparação de todos os modelos e justifique.

- Para escolher o melhor modelo para uma eventual operação, vamos comparar os resultados dos modelos de Regressão Logística, Árvore de Decisão e SVM (com e sem GridSearchCV) com base em suas métricas de desempenho, incluindo acurácia, precisão, recall e F1-score.

1. Regressão Logística:

    - Acurácia: 0.8834
    - Precisão: 0.9122
    - Recall: 0.8890
    - F1-Score: 0.9005

2. Árvore de Decisão:

    - Sem GridSearchCV:

        - Acurácia: 0.9993
        - Precisão: 1.0
        - Recall: 0.9988
        - F1-Score: 0.9994

    - Com GridSearchCV:

        - Acurácia: 1.0
        - Precisão: 1.0
        - Recall: 1.0
        - F1-Score: 1.0

3. SVM:

    - Sem RandomizedSearchCV:

        - Acurácia: 0.9163
        - Precisão: 0.9226
        - Recall: 0.9376
        - F1-Score: 0.9300
        
    - Com RandomizedSearchCV:

        - Acurácia: 0.9280
        - Precisão: 0.9251
        - Recall: 0.9561
        - F1-Score: 0.9403


### Conclusão

- Árvore de Decisão com GridSearchCV é o modelo que alcançou a perfeição nas métricas de avaliação (precisão, recall e F1-score) para ambas as classes, o que indica um desempenho excelente e sem falhas. Assim, considerando que atinge o melhor desempenho possível, seria a escolha preferencial.