[volver](../README.md)

# Regresión Logística

Es un modelo de clasificación que se utiliza para predecir la probabilidad de un resultado binario.
Puede ser útil para predecir eventos meteorológicos binarios como "lloverá o no lloverá".


Utilizaremos la velocidad del viento (WindSpeed9am y WindSpeed3pm) como características para predecir si será superior a 22 km/hr. Estamos tratando de predecir una condición específica con todo el conjunto de datos


In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.preprocessing import StandardScaler

# Cargar el conjunto de datos WeatherAUS
data = pd.read_csv('../dataset/weatherAUS.csv')


# Seleccionar columnas relevantes y la columna objetivo
selected_columns = ['WindSpeed9am', 'WindSpeed3pm']
data = data[selected_columns]

# Imputar valores faltantes con la media de la columna para las características numéricas
data.fillna(data.mean(), inplace=True)

# Definir la variable objetivo: Velocidad del viento superior a 22 km/hr (1 si es superior, 0 si no)
data['Windy_9am'] = (data['WindSpeed9am'] > 22).astype(int)
data['Windy_3pm'] = (data['WindSpeed3pm'] > 22).astype(int)

# Separar características y la variable objetivo para el período de la mañana
X_9am = data[['WindSpeed9am']]
y_9am = data['Windy_9am']

# Separar características y la variable objetivo para el período de la tarde
X_3pm = data[['WindSpeed3pm']]
y_3pm = data['Windy_3pm']

# Función para entrenar y evaluar el modelo de regresión logística
def train_and_evaluate(X, y):
    # Dividir los datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # Estandarizar los datos
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Crear y entrenar el modelo de regresión logística
    logreg = LogisticRegression()
    logreg.fit(X_train_scaled, y_train)
    
    # Hacer predicciones en el conjunto de prueba
    y_pred = logreg.predict(X_test_scaled)
    
    # Evaluar el modelo
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))
    print("\nClassification Report:\n", classification_report(y_test, y_pred))
    
    # Coeficientes del modelo
    print("\nCoeficientes del modelo:")
    for feature, coef in zip(X.columns, logreg.coef_[0]):
        print(f'{feature}: {coef:.4f}')

# Entrenar y evaluar el modelo para el período de la mañana (WindSpeed9am)
print("Resultados para WindSpeed9am (Mañana):")
train_and_evaluate(X_9am, y_9am)

# Entrenar y evaluar el modelo para el período de la tarde (WindSpeed3pm)
print("\nResultados para WindSpeed3pm (Tarde):")
train_and_evaluate(X_3pm, y_3pm)


Resultados para WindSpeed9am (Mañana):
Accuracy: 1.0

Confusion Matrix:
 [[36334     0]
 [    0  6324]]

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00     36334
           1       1.00      1.00      1.00      6324

    accuracy                           1.00     42658
   macro avg       1.00      1.00      1.00     42658
weighted avg       1.00      1.00      1.00     42658


Coeficientes del modelo:
WindSpeed9am: 29.5146

Resultados para WindSpeed3pm (Tarde):
Accuracy: 1.0

Confusion Matrix:
 [[30793     0]
 [    0 11865]]

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00     30793
           1       1.00      1.00      1.00     11865

    accuracy                           1.00     42658
   macro avg       1.00      1.00      1.00     42658
weighted avg       1.00      1.00      1.00     42658


Coeficientes del modelo:
WindSpeed3pm: 

## Interpretación del Resultado

En este caso, estamos utilizando la regresión logística para predecir si la velocidad del viento será superior a 22 km/hr en los períodos de la mañana (WindSpeed9am) y tarde (WindSpeed3pm).

## Precisión (Accuracy):

La precisión es la proporción de predicciones correctas sobre el total de predicciones realizadas.
Una precisión alta indica que el modelo es eficaz para predecir correctamente si la velocidad del viento será superior a 22 km/hr.

## Matriz de Confusión (Confusion Matrix):

La matriz de confusión muestra el número de predicciones correctas e incorrectas desglosadas por cada clase.

|||
|--|--|
|TN (True Negative):| Número de veces que se predijo correctamente que la velocidad del viento no será superior a 22 km/hr.|
|FP (False Positive):| Número de veces que se predijo incorrectamente que la velocidad del viento será superior a 22 km/hr.|
|FN (False Negative):| Número de veces que se predijo incorrectamente que la velocidad del viento no será superior a 22 km/hr.|
|TP (True Positive):| Número de veces que se predijo correctamente que la velocidad del viento será superior a 22 km/hr.|


## Informe de Clasificación (Classification Report):

Muestra métricas detalladas para cada clase:

|||
|--|--|
|Precisión (Precision):| Proporción de predicciones positivas correctas.|
|Recall (Sensibilidad):| Proporción de verdaderos positivos correctamente identificados.|
|F1-Score:| Media armónica de precisión y recall.|
|Soporte (Support):| Número de ocurrencias de cada clase en el conjunto de prueba.|


## Coeficientes del Modelo:

* Los coeficientes indican la importancia de cada característica (velocidad del viento) en la predicción.
* Un coeficiente positivo significa que un aumento en la velocidad del viento aumenta la probabilidad de que supere los 22 km/hr.
* Un coeficiente negativo significa que un aumento en la velocidad del viento disminuye la probabilidad de que supere los 22 km/hr.




## Interpretación 

* Accuracy: 1.00 (100% de las predicciones son correctas para predecir si WindSpeed9am será superior a 22 km/hr).
* Confusion Matrix:
    * TN (36334): Predicciones correctas de que la velocidad del viento no será superior a 22 km/hr.
    * FP (0): Predicciones incorrectas de que la velocidad del viento será superior a 22 km/hr.
    * FN (0): Predicciones incorrectas de que la velocidad del viento no será superior a 22 km/hr.
    * TP (6324): Predicciones correctas de que la velocidad del viento será superior a 22 km/hr.
* Classification Report:
    * Clase 0 (No será superior a 22 km/hr):
        * Precisión: 1.00
        * Recall: 1.00
        * F1-Score: 1.00
    * Clase 1 (Será superior a 22 km/hr):
        * Precisión: 1.00
        * Recall: 1.00
        * F1-Score: 1.00
* Coeficientes del Modelo:
    * WindSpeed9am (29.5146): Indica que un aumento en la velocidad del viento por la mañana (WindSpeed9am) aumenta la probabilidad de que supere los 22 km/hr.
    * WindSpeed3pm (31.4441): Indica que un aumento en la velocidad del viento por la tarde (WindSpeed3pm) aumenta la probabilidad de que supere los 22 km/hr.


## Conclusión

Este enfoque nos permite evaluar cómo la regresión logística puede ser utilizada para predecir si la velocidad del viento superará los 22 km/hr basándose en datos históricos (WindSpeed9am y WindSpeed3pm). La interpretación se centra en la precisión, la matriz de confusión, el informe de clasificación y los coeficientes del modelo para entender la influencia de la velocidad del viento en la predicción.



**Un accuracy (precisión) de 1.00** significa que el modelo de machine learning está prediciendo correctamente todas las muestras en el conjunto de datos de prueba. En otras palabras, todas las predicciones hechas por el modelo coinciden exactamente con las etiquetas reales en el conjunto de prueba.

### Interpretación del Accuracy 1.00
* Predicciones Perfectas: Un accuracy de 1.00 indica que el modelo ha sido capaz de clasificar correctamente todas las instancias del conjunto de prueba. Esto es ideal pero puede ser indicativo de varios escenarios:

* Modelo Sobreadaptado (Overfitting): A veces, un modelo puede ajustarse demasiado a los datos de entrenamiento, capturando incluso el ruido en los datos. Esto puede llevar a una precisión perfecta en el conjunto de entrenamiento pero puede no generalizar bien con datos nuevos.

* Conjunto de Datos Pequeño o Simple: Si el conjunto de datos es pequeño o la tarea es relativamente simple, es posible que el modelo pueda aprender y predecir con alta precisión.

* Problemas en la Evaluación: Asegúrate de que estás evaluando el modelo en un conjunto de datos de prueba adecuado y que los datos no estén filtrados de alguna manera que pueda influir en la precisión.

* Limitaciones del Accuracy: Aunque un accuracy de 1.00 es deseable, no siempre garantiza un buen rendimiento del modelo en situaciones del mundo real:

* Desequilibrio de Clases: Si el conjunto de datos tiene clases desequilibradas, un alto accuracy puede ser engañoso. Por ejemplo, si una clase es mucho más frecuente que la otra, un modelo trivial que prediga siempre la clase mayoritaria puede obtener un alto accuracy pero no estar haciendo predicciones útiles.

* Métricas Complementarias: Además del accuracy, es importante considerar otras métricas como precision, recall, f1-score, y la matriz de confusión para tener una visión completa del rendimiento del modelo.

### Qué Hacer si Obtienes un Accuracy de 1.00
Si estás obteniendo un accuracy perfecto (1.00), aquí hay algunas acciones que puedes tomar para evaluar más a fondo el rendimiento del modelo:

* Verifica otras Métricas: Revisa las métricas adicionales como precision, recall y f1-score para asegurarte de que el modelo esté funcionando bien en todas las clases y no solo en una.

* Validación Cruzada: Aplica validación cruzada para evaluar el modelo en múltiples divisiones del conjunto de datos y asegurarte de que el rendimiento sea consistente.

* Probar con Datos Nuevos: Prueba el modelo con datos completamente nuevos o datos que no se hayan utilizado en el entrenamiento para verificar su capacidad de generalización.

* Considera Otros Modelos: A veces, probar con diferentes algoritmos de aprendizaje automático puede proporcionar una mejor idea del rendimiento en comparación con solo depender del accuracy.

Mientras que un accuracy de 1.00 puede ser un buen indicador inicial, siempre es crucial tener en cuenta el contexto específico del problema y utilizar múltiples métricas para evaluar y validar adecuadamente el rendimiento del modelo.
