In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Cargar los datos
dat_csv = pd.read_csv('Clima-rg-Año.csv', encoding="ISO-8859-1", delimiter=";")

# Reemplazar comas por puntos en las columnas relevantes
dat_csv['Prom Max Media'] = dat_csv['Prom Max Media'].replace({',': '.'}, regex=True)
dat_csv['Prom Max Media'] = pd.to_numeric(dat_csv['Prom Max Media'], errors='coerce')

# Crear una columna 'Temp Max Media Mayor' que compara la temperatura con el año anterior
dat_csv['Temp Max Media Mayor'] = dat_csv['Prom Max Media'].diff().apply(lambda x: 1 if x > 0 else 0)

# Filtrar para eliminar NaN (primer año no tiene comparación)
dat_csv = dat_csv.dropna()

# Seleccionar las características (X) y la variable objetivo (y)
X = dat_csv[['año']]  # Usamos el 'Año' como característica
y = dat_csv['Temp Max Media Mayor']  # Variable a predecir (si la temperatura aumentó)

# Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de Regresión Logística
log_reg = LogisticRegression(max_iter=1000)  # Asegurar que el modelo converge

# Entrenar el modelo para la variable 'Temp Max Media Mayor'
log_reg.fit(X_train, y_train)

# Hacer predicciones para 'Temp Max Media Mayor'
y_pred_temp = log_reg.predict(X_test)

# Evaluar el modelo de 'Temp Max Media Mayor'
accuracy_temp = accuracy_score(y_test, y_pred_temp)
print(f"Exactitud para 'Temp Max Media Mayor': {accuracy_temp}")

# Mostrar la matriz de confusión para 'Temp Max Media Mayor'
print("Matriz de confusión para 'Temp Max Media Mayor':")
print(confusion_matrix(y_test, y_pred_temp))



Exactitud para 'Temp Max Media Mayor': 0.6666666666666666
Matriz de confusión para 'Temp Max Media Mayor':
[[0 1]
 [0 2]]
