# Análisis exploratorio en base a la metodología CRISP DM

## Paso 1 Comprensión del Negocio

### Contexto del Proyecto

En este proyecto, el objetivo principal es explorar cómo el clima puede influir en las actividades agrícolas. Esto se refiere a cómo las condiciones meteorológicas, como la temperatura, la humedad, la precipitación, entre otros, afectan el crecimiento de los cultivos y las decisiones de los agricultores. En particular, la variable de interés es la predicción de si lloverá o no al día siguiente, lo cual puede ser crucial para los agricultores en términos de planificación de actividades como riego, cosecha o protección de cultivos.

### Objetivos del Análisis

- Explorar el conjunto de datos y realizar un Análisis Exploratorio de Datos  para comprender las variables disponibles y su distribución.
- Desarrollar un modelo predictivo que permita prever si lloverá al día siguiente basándose en los datos actuales de clima.
- Identificar las variables más relevantes para la predicción de lluvia, para poder centrarse en las más importantes y descartar aquellas que no aporten valor al modelo.


### KPI DEL PROYECTO

**Para evaluar el impacto y la utilidad de este análisis, se definen los siguientes indicadores clave de desempeño (KPIs)**:

- Precisión del modelo de predicción de lluvia (% de aciertos en la clasificación de "Lloverá mañana").

- Reducción en el desperdicio de agua (% de disminución en riegos innecesarios debido a predicciones acertadas).

- Impacto en la producción agrícola (incremento en el rendimiento de cultivos gracias a una mejor planificación climática).

### Impacto esperado

- El análisis de datos y los modelos predictivos podrían ayudar a los agricultores a optimizar sus actividades y mejorar la productividad agrícola.

- También podría apoyar en la toma de decisiones estratégicas, como cuándo sembrar o cuándo proteger los cultivos, basándose en las predicciones meteorológicas.

## Paso 2 Comprensión de los datos

In [None]:
import pandas as pd

# Path to the file inside the container
file_path = '/home/kedro_docker/data/01_raw/weatherAUS.csv'

# Load the CSV file into a DataFrame
df = pd.read_csv(file_path)

In [None]:
# Mostrar las primeras filas del conjunto de datos
df.head()

In [None]:
# Obtener información general sobre los datos
df.info()

In [None]:
# Estadísticas descriptivas de las variables numéricas
df.describe()

In [None]:
# Verificar los valores faltantes
df.isnull().sum()

In [None]:
# Cuantos registros hay por locación

df['Location'].value_counts()

In [None]:
# Visualización de valores nulos
import matplotlib.pyplot as plt

cantidad_nulos = df.isnull().sum()

plt.figure(figsize=(8, 5))
cantidad_nulos.plot(kind='bar', color='salmon')
plt.xlabel('Columnas')
plt.ylabel('Cantidad de valores nulos')
plt.title('Valores nulos por columna')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Visualización de Outliers
import seaborn as sns

plt.figure(figsize=(12, 6))
sns.boxplot(data=df[['MinTemp', 'MaxTemp', 'Rainfall', 'WindGustSpeed']])
plt.title("Boxplot de variables numéricas")
plt.xticks(rotation=45)
plt.show()

In [None]:
# Crear una copia del DataFrame original para trabajar sin modificarlo
df_temp = df.copy()

# Convertir "Date" a tipo datetime en la copia
df_temp["Date"] = pd.to_datetime(df_temp["Date"])

# Seleccionar solo las columnas numéricas en una nueva variable
df_numeric = df_temp.select_dtypes(include=["number"])

# Guardar la matriz de correlación en una variable
correlation_matrix = df_numeric.corr()

# Crear el heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de correlación entre variables numéricas")
plt.show()

In [None]:
# Comparación de humedad en la mañana y en la tarde
plt.figure(figsize=(8, 5))
sns.kdeplot(df["Humidity9am"].dropna(), label="Humedad 9AM", fill=True, color="blue")
sns.kdeplot(df["Humidity3pm"].dropna(), label="Humedad 3PM", fill=True, color="red")
plt.xlabel("Humedad (%)")
plt.ylabel("Densidad")
plt.title("Comparación de humedad en la mañana y la tarde")
plt.legend()
plt.show()

Valor de correlación | Interpretación
- 1.0	Correlación positiva perfecta: si una variable sube, la otra también sube proporcionalmente.
- 0.7 a 0.9	Correlación fuerte: las variables están fuertemente relacionadas.
- 0.4 a 0.6	Correlación moderada: hay relación, pero no es tan fuerte.
- 0.1 a 0.3	Correlación débil: la relación es baja.
- 0.0	Sin correlación: las variables no tienen relación.
- -0.1 a -0.3	Correlación débil negativa: cuando una sube, la otra baja.
- -0.4 a -0.6	Correlación moderada negativa.
- -0.7 a -0.9	Correlación fuerte negativa.
- -1.0	Correlación negativa perfecta: si una sube, la otra baja proporcionalmente.

## Paso 3: Preparación de los Datos (Data Preparation)

En esta fase, nos enfocamos en:
- Limpiar los datos
- Manejar los valores nulos
- Convertir tipos de datos si es necesario y transformar los datos a un formato que sea adecuado para el análisis o modelado posterior.
- Manejo de valores nulos: Dependiendo de la cantidad de valores faltantes, podemos decidir eliminar las filas/columnas con muchos valores nulos o imputar esos valores.

In [None]:
# Eliminar filas con valores nulos en una columna específica, por ejemplo 'RainTomorrow'
df = df.dropna(subset=['RainTomorrow'])

# O imputar valores nulos con la media o mediana para las columnas numéricas
df['Humidity3pm'] = df['Humidity3pm'].fillna(df['Humidity3pm'].mean())

# O si hay muchas columnas con valores nulos, podemos eliminar todas las filas con valores nulos
df = df.dropna()

In [None]:
# Asegúrate de que las columnas categóricas estén correctamente tipadas como 'object' o 'category'
df['Location'] = df['Location'].astype('category')

# Convierte variables de fecha a tipo datetime si es necesario
df['Date'] = pd.to_datetime(df['Date'])

In [None]:
# Ver distribución de la variable objetivo 'RainTomorrow'
sns.countplot(x='RainTomorrow', data=df)
plt.title('Distribución de RainTomorrow')
plt.show()

Aquí visualizamos cómo se distribuye la variable objetivo (por ejemplo, si llovió o no al día siguiente). Esto es importante porque si la variable está desbalanceada (por ejemplo, muchos más valores de "No lluvia"), podría afectar el modelo.


# Evaluación Parcial 2 - Técnicas de Minería de Datos
## Predicción de Lluvia en Australia

In [None]:
import pandas as pd

df = pd.read_csv("/home/kedro_docker/data/01_raw/weatherAUS.csv")
df.head()

## Limpieza y Preparación de Datos

In [None]:
from sklearn.impute import SimpleImputer

# Eliminar columnas con más del 30% de valores nulos
threshold = 0.3
df = df.loc[:, df.isnull().mean() < threshold]

# Imputación
num_cols = df.select_dtypes(include=["float64", "int64"]).columns
cat_cols = df.select_dtypes(include=["object", "category"]).columns

df[num_cols] = SimpleImputer(strategy="mean").fit_transform(df[num_cols])
df[cat_cols] = SimpleImputer(strategy="most_frequent").fit_transform(df[cat_cols])

# Convertir variable objetivo
df["RainTomorrow"] = df["RainTomorrow"].map({"Yes": 1, "No": 0})
df = df.dropna(subset=["RainTomorrow"])

df.info()

## Clustering con K-Means

In [None]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

X = df.drop("RainTomorrow", axis=1)
y = df["RainTomorrow"]

numeric_features = X.select_dtypes(include=["float64", "int64"]).columns.tolist()
categorical_features = X.select_dtypes(include=["object", "category"]).columns.tolist()

preprocessor = ColumnTransformer(transformers=[
    ("num", StandardScaler(), numeric_features),
    ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features)
])

X_processed = preprocessor.fit_transform(X)

# Elbow y Silhouette
silhouette_scores = []
k_range = range(2, 10)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(X_processed)
    silhouette_scores.append(silhouette_score(X_processed, labels))

best_k = k_range[silhouette_scores.index(max(silhouette_scores))]
print(f"Mejor K: {best_k} con puntuación Silhouette: {max(silhouette_scores)}")

# Clustering final
df["cluster"] = KMeans(n_clusters=best_k, random_state=42).fit_predict(X_processed)
df[["cluster"]].value_counts()

## Modelos Supervisados

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn import svm
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X_processed, y, test_size=0.2, random_state=42)

# Lineal
lin_model = LinearRegression().fit(X_train, y_train)

# Logístico
log_model = LogisticRegression(max_iter=1000).fit(X_train, y_train)

# Bayesiano
nb_model = GaussianNB().fit(X_train.toarray(), y_train)

# SVM
svm_model = svm.SVC(kernel='linear').fit(X_train, y_train)

# Resultados
print("Logistic Regression:")
print(classification_report(y_test, log_model.predict(X_test)))

print("Naive Bayes:")
print(classification_report(y_test, nb_model.predict(X_test.toarray())))

print("SVM:")
print(classification_report(y_test, svm_model.predict(X_test)))

## Guardado en PostgreSQL

In [None]:
from sqlalchemy import create_engine

# Conexión a PostgreSQL vía Docker
engine = create_engine("postgresql+psycopg2://kedro_user:secret@postgres:5432/kedro_db")

# Guardar
df.to_sql("weather_cleaned", engine, if_exists="replace", index=False)
print("Datos guardados en PostgreSQL exitosamente.")

## Conclusión
El análisis ha demostrado técnicas de limpieza, clustering, clasificación y almacenamiento en base de datos, siguiendo la metodología CRISP-DM.