# 1. Entendimiento del negocio "Clima de Australia"

## 1.1 Contexto:

El caso describe la geografía y el clima de Australia, así como sus principales características demográficas y económicas. Además, proporciona un conjunto de datos meteorológicos diarios de múltiples ubicaciones en Australia, con variables como temperatura, lluvia, viento, humedad, presión atmosférica, entre otros.

La abundancia de datos climáticos permite una comprensión más precisa y la facultad de desarrollar modelos predictivos avanzados sobre los fenómenos atmosféricos del país.

## 1.2 Objetivo de negocio:

Se pretende predecir variables clave relacionadas con el clima en Australia, incluyendo:
- Lluvia (RainTomorrow)
- Cantidad de lluvia (RISK_MM)
- Temperatura (MinTemp, MaxTemp)
- Velocidad y dirección del viento (Vel9am, Vel3pm, Dir9am, Dir3pm)
- Humedad (Hum9am, Hum3pm)
- Presión atmosférica (Pres9am, Pre3pm)
- Fracción de cielo cubierto por nubes (Nub9am, Nub3pm)

La predicción precisa de estas variables es fundamental para mejorar la toma de decisiones en los siguientes sectores de la sociedad Australiana:

1. Agricultura:
  - Proporcionar predicciones precisas sobre la cantidad de lluvia, la temperatura, la humedad y la presión atmosférica, permite a los agricultores planificar siembras, riegos y otras actividades agrícolas de manera más efectiva para optimizar el rendimiento de los cultivos y mitigar los riesgos climáticos.

2. Planificación urbana y el desarrollo sostenible:
 - Las predicciones climáticas emplazadas en diferentes sectores del país permitirán diseñar infraestructuras urbanas adaptadas a su ambiente climático, permitiendo el crecimiento de la ciudad de manera sostenible y gestionar de manera eficiente los recursos hídricos y energéticos en entornos urbanos.

3. Gestión de recursos hídricos:
 - Variables como la cantidad de lluvia, la humedad y la evaporación permiten a los organismos gubernamentales y las empresas de servicios públicos planificar la distribución y el almacenamiento del agua, gestionar la sequía y prevenir el despilfarro de recursos hídricos.

4. Turismo y actividades recreativas:
 - Las predicciones sobre la cantidad de lluvia, la temperatura y la velocidad del viento permiten a los operadores turísticos y los gestores de actividades recreativas planificar itinerarios y actividades al aire libre, mejorando la experiencia de los turistas y minimizando los riesgos de accidentes relacionados con el clima.

5. Reducir los riesgos relacionados a catástrofes meteorológicas:
 - La capacidad de predecir con precisión variables climáticas ayuda a prepararse y responder de manera efectiva a eventos climáticos extremos como inundaciones, tormentas y sequías, minimizando así los daños materiales y humanos.

## 1.3 Plan del proyecto:

El objetivo de este proyecto es aplicar la metodología CRISP-DM para analizar exhaustivamente los datos climáticos de Australia, buscando comprender los patrones y relaciones existentes.

Este enfoque metodológico se basa en la recopilación, limpieza y análisis de los datos para construir modelos predictivos que permitan una mejor comprensión y anticipación de los eventos climáticos en Australia.

### Objetivos:

1. Identificar patrones climáticos
2. Construir modelos predictivos
3. Evaluar la influencia de factores externos
4. Identificar riesgos climáticos
5. Apoyar la toma de decisiones

### KPI's propuestos:

1. Precisión de las predicciones:
 - Este KPI mide la precisión general del modelo en predecir si lloverá o no al día siguiente. Se calcula como el porcentaje de predicciones correctas sobre el total de predicciones realizadas.
2. Impacto en la planificación agrícola:
 - Este KPI evalúa cómo las predicciones climáticas han mejorado la planificación de actividades agrícolas. Se puede medir como el porcentaje de agricultores que informan una mejor toma de decisiones basada en las predicciones.
3. Uso de las predicciones en planificación urbana:
 - Este KPI indica qué porcentaje de municipios y autoridades urbanas están utilizando las predicciones climáticas en la planificación de infraestructuras y servicios públicos.
4. Eficiencia en la gestión de recursos hídricos:
 - Este KPI mide el grado en que las predicciones climáticas han mejorado la gestión de recursos hídricos. Se puede evaluar como la reducción porcentual en el uso ineficiente del agua o la mejora en la planificación de reservas hídricas.
5. Satisfacción del cliente en el turismo:
 - Este KPI refleja la satisfacción de los clientes en la industria del turismo después de la implementación de predicciones climáticas. Se puede medir mediante encuestas de satisfacción o reseñas en línea sobre experiencias turísticas.

# 2. Preparación del Entorno

## 1.1 Importar Librerías

In [10]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import accuracy_score, mean_squared_error, silhouette_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
# Configuración extra
import warnings
warnings.filterwarnings("ignore") 

## 1.2 Cargar los Datos

In [12]:
data = pd.read_csv("weatherAUS.csv")
# Mostrar las primeras filas del dataset
data.head()


Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RISK_MM,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44.0,W,...,22.0,1007.7,1007.1,8.0,,16.9,21.8,No,0.0,No
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44.0,NNW,...,25.0,1010.6,1007.8,,,17.2,24.3,No,0.0,No
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46.0,W,...,30.0,1007.6,1008.7,,2.0,21.0,23.2,No,0.0,No
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24.0,SE,...,16.0,1017.6,1012.8,,,18.1,26.5,No,1.0,No
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41.0,ENE,...,33.0,1010.8,1006.0,7.0,8.0,17.8,29.7,No,0.2,No


### Observaciones:
- Algunas de las variables tienen valores nulos representados como "NaN", lo que indica que pueden requerir limpieza o imputación de datos.
- Se identifican tanto variables numéricas como categóricas.

# 3. Exploración y Limpieza de Datos

## 3.1 Verificar Valores Nulos

In [16]:
# Verificar valores nulos
null_counts = data.isnull().sum()

# Mostrar valores nulos por columna
null_counts[null_counts > 0]


MinTemp            637
MaxTemp            322
Rainfall          1406
Evaporation      60843
Sunshine         67816
WindGustDir       9330
WindGustSpeed     9270
WindDir9am       10013
WindDir3pm        3778
WindSpeed9am      1348
WindSpeed3pm      2630
Humidity9am       1774
Humidity3pm       3610
Pressure9am      14014
Pressure3pm      13981
Cloud9am         53657
Cloud3pm         57094
Temp9am            904
Temp3pm           2726
RainToday         1406
dtype: int64

### Observaciones:
- La mayoría de las columnas tienen valores nulos
- Las columnas con mayor cantidad de valores nulos son:
    - Evaporation
    - Sunshine
    - Cloud9am
    - Cloud3pm

## 3.2 Imputar o Eliminar Valores Nulos

In [19]:
# Imputar valores nulos con la media (para variables numéricas) o la moda (para variables categóricas)
for column in data.columns:
    if data[column].dtype == 'object':
        data[column].fillna(data[column].mode()[0], inplace=True)
    else:
        data[column].fillna(data[column].mean(), inplace=True)


## 3.3 Transformar Variables Categóricas y Escalar Variables Numéricas

In [21]:
# Estandarización de variables numéricas
scaler = StandardScaler()
numerical_features = ['MinTemp', 'MaxTemp', 'Rainfall', 'Evaporation', 'Sunshine', 'WindGustSpeed',
                      'WindSpeed9am', 'WindSpeed3pm', 'Humidity9am', 'Humidity3pm', 'Pressure9am',
                      'Pressure3pm', 'Cloud9am', 'Cloud3pm', 'Temp9am', 'Temp3pm', 'RISK_MM']

data[numerical_features] = scaler.fit_transform(data[numerical_features])

# Codificación de variables categóricas
encoder = LabelEncoder()
categorical_features = ['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday', 'RainTomorrow']

for feature in categorical_features:
    data[feature] = encoder.fit_transform(data[feature].astype(str))

# Revisar los datos después de la transformación
data.head()


Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RISK_MM,RainTomorrow
0,2008-12-01,2,0.189954,-0.045964,-0.207757,0.0,-6.495101e-16,13,0.305648,13,...,-1.435935,-1.475456,-1.220966,1.563959,-4.219974e-16,-0.013521,0.016412,0,-0.27845,0
1,2008-12-02,2,-0.749174,0.26348,-0.278989,0.0,-6.495101e-16,14,0.305648,6,...,-1.289821,-1.045586,-1.116203,0.0,-4.219974e-16,0.032832,0.380274,0,-0.27845,0
2,2008-12-03,2,0.111694,0.347873,-0.278989,0.0,-6.495101e-16,15,0.457874,13,...,-1.046299,-1.490279,-0.981508,0.0,-1.189322,0.619963,0.220175,0,-0.27845,0
3,2008-12-04,2,-0.467436,0.671383,-0.278989,0.0,-6.495101e-16,4,-1.216614,9,...,-1.728162,-0.007969,-0.367897,0.0,-4.219974e-16,0.171889,0.700472,0,-0.160497,0
4,2008-12-05,2,0.831692,1.276205,-0.160269,0.0,-6.495101e-16,13,0.077309,1,...,-0.900186,-1.01594,-1.385593,1.124991,1.661439,0.125537,1.166215,0,-0.254859,0


# 4. División del Dataset

In [23]:
# Definir variables independientes y dependientes
X = data.drop(['Date', 'RainTomorrow'], axis=1)
y = data['RainTomorrow']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# 5. Implementación de Modelos Supervisados

## 5.1 Modelos de Clasificación

In [26]:
# Modelos de Clasificación
logreg = LogisticRegression()
dt_clf = DecisionTreeClassifier()
rf_clf = RandomForestClassifier()

# Entrenamiento de los modelos
logreg.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)


## 5.2 Modelos de Regresión

In [28]:
# Modelos de Regresión
linreg = LinearRegression()
dt_reg = DecisionTreeRegressor()
rf_reg = RandomForestRegressor()

# Entrenamiento de los modelos
linreg.fit(X_train, y_train)
dt_reg.fit(X_train, y_train)
rf_reg.fit(X_train, y_train)


# 6. Implementación de Modelos No Supervisados

In [30]:
# Modelos de Clustering
kmeans = KMeans(n_clusters=5)
dbscan = DBSCAN(eps=0.5, min_samples=5)

sampled_data = X.sample(n=10000, random_state=42)
agg_clust = AgglomerativeClustering(n_clusters=5)


# Ajustar los modelos
kmeans.fit(X)
dbscan.fit(X)
agg_clust.fit(sampled_data)



# 7. Validación de Modelos


## 7.1 Evaluación de modelos Supervisados

In [33]:
# Evaluación de Modelos Supervisados
# Clasificación
y_pred_logreg = logreg.predict(X_test)
y_pred_dt_clf = dt_clf.predict(X_test)
y_pred_rf_clf = rf_clf.predict(X_test)

# Métricas de clasificación
print("Logistic Regression - Accuracy:", accuracy_score(y_test, y_pred_logreg))
print("Decision Tree Classifier - Accuracy:", accuracy_score(y_test, y_pred_dt_clf))
print("Random Forest Classifier - Accuracy:", accuracy_score(y_test, y_pred_rf_clf))

# Regresión
y_pred_linreg = linreg.predict(X_test)
y_pred_dt_reg = dt_reg.predict(X_test)
y_pred_rf_reg = rf_reg.predict(X_test)

# Métricas de regresión
print("Linear Regression - RMSE:", mean_squared_error(y_test, y_pred_linreg, squared=False))
print("Decision Tree Regressor - RMSE:", mean_squared_error(y_test, y_pred_dt_reg, squared=False))
print("Random Forest Regressor - RMSE:", mean_squared_error(y_test, y_pred_rf_reg, squared=False))


Logistic Regression - Accuracy: 0.9918070255634868
Decision Tree Classifier - Accuracy: 1.0
Random Forest Classifier - Accuracy: 1.0
Linear Regression - RMSE: 0.3229455693884183
Decision Tree Regressor - RMSE: 0.0
Random Forest Regressor - RMSE: 0.0


## 7.2 Evaluación de Modelos No Supervisados

In [35]:
# Evaluación de Modelos No Supervisados
print("KMeans - Silhouette Score:", silhouette_score(X, kmeans.labels_))
print("Agglomerative Clustering - Silhouette Score:", silhouette_score(sampled_data, agg_clust.labels_))
print("DBSCAN - Silhouette Score:", silhouette_score(X, dbscan.labels_))


KMeans - Silhouette Score: 0.20251707455294962
Agglomerative Clustering - Silhouette Score: 0.19896357868863268
DBSCAN - Silhouette Score: -0.35102699595360276


# 8: Validación de los Modelos

In [37]:
import pandas as pd

# Datos
data = {
    "Modelo": [
        "Logistic Regression", "Decision Tree Classifier", "Random Forest Classifier",
        "Linear Regression", "Decision Tree Regressor", "Random Forest Regressor",
        "KMeans", "Agglomerative Clustering", "DBSCAN"
    ],
    "Tarea": [
        "Clasificación", "Clasificación", "Clasificación",
        "Regresión", "Regresión", "Regresión",
        "Segmentación", "Segmentación", "Segmentación"
    ],
    "Métrica": [
        "Accuracy", "Accuracy", "Accuracy",
        "RMSE", "RMSE", "RMSE",
        "Silhouette Score", "Silhouette Score", "Silhouette Score"
    ],
    "Valor": [
        0.9891, 1.0, 1.0,
        0.3229, 0.0, 0.0,
        0.2382, 0.1990, -0.3510
    ]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Mostrar la tabla con estilo en Jupyter Notebook
df.style.set_table_styles(
    [{
        'selector': 'thead th',
        'props': [('background-color', '#f2f2f2'), ('color', 'black'), ('font-weight', 'bold')]
    }, {
        'selector': 'tbody tr:nth-child(even)',
        'props': [('background-color', '#f9f9f9')]
    }, {
        'selector': 'tbody tr:nth-child(odd)',
        'props': [('background-color', '#ffffff')]
    }]
).set_properties(**{
    'text-align': 'center',
    'border': '1px solid black'
})


Unnamed: 0,Modelo,Tarea,Métrica,Valor
0,Logistic Regression,Clasificación,Accuracy,0.9891
1,Decision Tree Classifier,Clasificación,Accuracy,1.0
2,Random Forest Classifier,Clasificación,Accuracy,1.0
3,Linear Regression,Regresión,RMSE,0.3229
4,Decision Tree Regressor,Regresión,RMSE,0.0
5,Random Forest Regressor,Regresión,RMSE,0.0
6,KMeans,Segmentación,Silhouette Score,0.2382
7,Agglomerative Clustering,Segmentación,Silhouette Score,0.199
8,DBSCAN,Segmentación,Silhouette Score,-0.351


## Análisis de los resultados

1. Clasificación:
  - Los modelos Decision Tree Classifier y Random Forest Classifier alcanzan una precisión perfecta (1.0), lo que sugiere un posible sobreajuste. Es importante evaluar su rendimiento en datos nuevos.
  - La Logistic Regression también presenta un alto rendimiento con un Accuracy de 0.9891, lo que indica que es un modelo robusto.
2. Regresión:
  - Los modelos Decision Tree Regressor y Random Forest Regressor presentan un RMSE de 0.0, lo que sugiere un sobreajuste extremo. Es necesario verificar su capacidad de generalización.
  - La Linear Regression tiene un RMSE de 0.3229, lo cual es razonable para este tipo de modelo.
3. Segmentación:
  - El modelo KMeans tiene el mejor Silhouette Score (0.2382), lo que indica que es el modelo más efectivo para la segmentación en este caso.
  - Agglomerative Clustering y DBSCAN presentan Silhouette Scores menores, siendo DBSCAN el peor con un valor negativo (-0.3510).


# 9. Selección del Mejor Modelo

## Modelos Supervisados

1. Clasificación:
  - Dado que Decision Tree Classifier y Random Forest Classifier tienen una precisión perfecta, es prudente elegir el Random Forest Classifier por su capacidad de generalización superior en comparación con los árboles de decisión simples.
2. Regresión:
  - Debido a la preocupación por el sobreajuste, es recomendable utilizar la Linear Regression, que aunque tiene un RMSE mayor, es un modelo más interpretable y menos propenso al sobreajuste.

## Modelo No Supervisado

1. Segmentación:
  -KMeans es el mejor modelo para segmentación, ya que tiene el Silhouette Score más alto (0.2382).

## Implementación de los Modelos Seleccionados.

In [42]:
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, mean_squared_error, silhouette_score
from sklearn.cluster import KMeans

# Implementación del Mejor Modelo de Clasificación
best_clf = RandomForestClassifier()
best_clf.fit(X_train, y_train)
y_pred_best_clf = best_clf.predict(X_test)
print("Best Classifier - Accuracy:", accuracy_score(y_test, y_pred_best_clf))

# Implementación del Mejor Modelo de Regresión
best_reg = LinearRegression()
best_reg.fit(X_train, y_train)
y_pred_best_reg = best_reg.predict(X_test)
print("Best Regressor - RMSE:", mean_squared_error(y_test, y_pred_best_reg, squared=False))

# Implementación del Mejor Modelo de Segmentación
best_cluster = KMeans(n_clusters=5)
best_cluster.fit(X)
print("KMeans - Silhouette Score:", silhouette_score(X, best_cluster.labels_))



Best Classifier - Accuracy: 1.0
Best Regressor - RMSE: 0.3229455693884183
KMeans - Silhouette Score: 0.23182756289142317


## Análisis de los Resultados
### Los resultados obtenidos indican que:
- Random Forest Classifier es el mejor modelo de clasificación, ofreciendo alta precisión y buena capacidad de generalización.
- Linear Regression es el mejor modelo de regresión, proporcionando un buen equilibrio entre rendimiento y riesgo de sobreajuste.
- KMeans es el mejor modelo de segmentación, siendo el más efectivo para identificar patrones en los datos.

## Propuestas de Soluciones Estratégicas y Acciones Prácticas
1. Optimización de Recursos:
    - Acción: Utilizar los modelos de predicción de lluvia para optimizar la distribución de recursos agrícolas y gestionar mejor las reservas de agua.
    - Impacto: Reducción de costos y mejora en la eficiencia del uso del agua en zonas agrícolas.
2. Gestión de Riesgos:
    - Acción: Implementar sistemas de alerta temprana basados en los modelos predictivos para prevenir y mitigar el impacto de eventos climáticos extremos como ciclones o inundaciones.
    - Impacto: Reducción de daños materiales y mejora en la seguridad de la población.
3. Planificación Urbana y de Infraestructura:
    - Acción: Utilizar la segmentación de datos climáticos para planificar y construir infraestructura resistente al clima en áreas vulnerables.
    - Impacto: Mejora en la resiliencia de las ciudades frente a eventos climáticos adversos y optimización de la inversión en infraestructura.
4. Gestión Eficiente de Recursos Hídricos:
    - Acción: Usar predicciones de lluvia, humedad y evaporación para mejorar la distribución y almacenamiento de agua.
    - Impacto: Mejor planificación de reservas hídricas y uso eficiente del agua.
5. Mejora en el Turismo y Actividades Recreativas:
    - Acción: Utilizar predicciones climáticas para planificar actividades al aire libre.
    - Impacto: Mayor satisfacción y seguridad en el sector turístico.