# Caso de Uso: Clasificación de Plantas de Energía
### Objetivo
Construir un modelo que clasifique plantas de energía según su tipo de combustible (solar, eólica, hidroeléctrica, etc.), 
basándose en características como capacidad de generación, país, y año de inicio de operación.

### Dataset
Usaremos el **Global Power Plant Database**, que contiene información sobre miles de plantas de energía en todo el mundo.

### Paso 1: Cargar el Dataset y Exploración de Datos
Primero, cargaremos el dataset y exploraremos su contenido.
Instrucción: Completa las líneas para cargar el dataset y mostrar un resumen inicial.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, ConfusionMatrixDisplay

# Cargar el dataset
url = 'https://raw.githubusercontent.com/wri/global-power-plant-database/master/source_databases_csv/database_IND.csv'
df = pd.read_csv(url)
print("Primeras filas del dataset:")
print(df.head())

# Resumen estadístico
print("Resumen estadístico del dataset:")
print(df.describe())

### Paso 2: Análisis Exploratorio de Datos (EDA)
Exploraremos la distribución de las categorías de combustible y la capacidad de generación.

In [None]:
# Distribución de tipos de combustible
plt.figure(figsize=(8, 6))
df['primary_fuel'].value_counts().plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('Distribución de Tipos de Combustible', fontsize=14)
plt.xlabel('Tipo de Combustible', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.xticks(rotation=45)
plt.show()

# Relación entre capacidad y tipo de combustible
plt.figure(figsize=(8, 6))
df.boxplot(column='capacity_mw', by='primary_fuel', grid=False)
plt.title('Capacidad de Generación por Tipo de Combustible', fontsize=14)
plt.xlabel('Tipo de Combustible', fontsize=12)
plt.ylabel('Capacidad (MW)', fontsize=12)
plt.xticks(rotation=45)
plt.suptitle('')  # Quita el título automático del boxplot
plt.show()

### Paso 3: Preprocesamiento de Datos
Prepararemos los datos eliminando valores faltantes y convirtiendo variables categóricas en numéricas.

In [None]:
# Preprocesamiento
df = df.dropna()  # Eliminar filas con valores faltantes
df['primary_fuel'] = df['primary_fuel'].astype('category').cat.codes  # Convertir combustible a números

# Selección de características
X = df[['capacity_mw', 'latitude', 'longitude', 'commissioning_year']]
y = df['primary_fuel']

# División de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} ejemplos")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} ejemplos")

### Paso 4: Construcción del Modelo
Entrenaremos dos modelos: Decision Tree y Random Forest.

In [None]:
# Modelo 1: Árbol de Decisión
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
y_pred_dt = dt_model.predict(X_test)

# Modelo 2: Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

### Paso 5: Evaluación del Modelo
Evaluaremos ambos modelos usando métricas como `accuracy` y un reporte de clasificación.
Instrucción: Completa las líneas para calcular accuracy y mostrar el reporte de clasificación.

In [None]:
# Evaluación del Árbol de Decisión
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f"Precisión del Árbol de Decisión: {accuracy_dt:.2f}")
print("Reporte de Clasificación para Árbol de Decisión:")
print(classification_report(y_test, y_pred_dt))

# Evaluación de Random Forest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Precisión de Random Forest: {accuracy_rf:.2f}")
print("Reporte de Clasificación para Random Forest:")
print(classification_report(y_test, y_pred_rf))

### Paso 6: Visualización de Resultados
Visualizaremos las matrices de confusión para entender mejor los aciertos y errores de clasificación.

In [None]:
# Matriz de confusión para Árbol de Decisión
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_dt, cmap='Blues')
plt.title('Matriz de Confusión: Árbol de Decisión', fontsize=14)
plt.show()

# Matriz de confusión para Random Forest
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_rf, cmap='Greens')
plt.title('Matriz de Confusión: Random Forest', fontsize=14)
plt.show()

### Conclusión
1. Compara las métricas de ambos modelos.
2. Analiza cuál modelo tuvo mejor desempeño general.
3. Discute posibles mejoras (ajustar hiperparámetros, seleccionar más características, etc.).