# Hipótesis 4

#### "Las provincias situadas en el sur de España (aquellas al sur de Madrid) tienden a utilizar menos dispositivos de aprovechamiento de energía renovable que las del norte." 

Las diferencias climáticas entre el norte y sur de España pueden ser una variable crucial a la hora de instalar dispositivos de energía renovable pero no la única. El clima influye en la cantidad de energía que se puede producir pero también en la que se consume.

Además puede influir el ámbito socioeconómico, las provincias con mayor poder adquisitivo podrían gastarse más en energía renovable o las más pobres podrían estar motivadas por el ahorro en la factura de la luz. Otras posibles factores de influencia, pueden ser los tamaños familiares o la edad.

## Preparación del entorno

In [None]:
import os 
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import scipy
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.metrics import silhouette_score, DistanceMetric

from datawrapper import Datawrapper

GOLD_DATA_PATH = os.path.join("..", "..", "data/gold/")

## Datos

Los datos tendrá como base la tarjeta de datos 4 (`data_card_4_df.csv`), de la que se eliminará la variable edad para añadir la variable de `Edad media` de la tarjeta de datos 1 (`data_card_1_df.csv`).

La mediana es una medida más representativa que la media, al no estar influida por valores extremos. Sin embargo, en este caso, la forma de calcular la mediana en el paso de preprocesamiento, hace que la variable de edad esté segmentada en: 42, 47 y 52 años. Por esto, se ha decidido utilizar la media, con valores continuos, y comparar los resultados con los obtenidos usando la mediana.

In [None]:
# cargar los datos
df1 = pd.read_csv(GOLD_DATA_PATH + "data_card_1_df.csv", sep=";", encoding = 'latin')

df4 = pd.read_csv(GOLD_DATA_PATH + "data_card_4_df.csv", sep=";", encoding = 'latin')
df4.drop(columns=["Unnamed: 0"], inplace=True)

In [None]:
# comprobamos valores de edad mediana
print("Valores de la columna de edad mediana: ",df4['Mediana edad'].unique())
print("Valores de la columna de edad media: ",df1['Edad media'].unique())
df4.drop(columns=["Mediana edad"], inplace=True)

In [None]:
# sustituir la variable edad
df4 = pd.concat([df4, df1['Edad media']], axis=1)
df4.set_index('Provincias', inplace=True)

In [None]:
df4.head()

## Análisis de datos con clasificación manual

En principio, consideramos la siguiente división de provincias en el norte y sur de España:

In [None]:
norte=['Araba/Álava', 'Asturias', 'Barcelona', 'Bizkaia', 'Burgos', 'Cantabria', 'Coruña, A', 'Gipuzkoa', 'Girona', 'Guadalajara', 'Huesca', 'León', 'Lleida', 'Lugo', 'Navarra', 'Ourense', 'Palencia', 'Pontevedra', 'Rioja, La', 'Salamanca', 'Segovia', 'Soria', 'Tarragona', 'Teruel', 'Valladolid', 'Zamora', 'Zaragoza', 'Ávila']

df4['Grupo'] = [0 if x in norte else 1 for x in df4.index]

In [None]:
df4.groupby('Grupo').mean()

In [None]:
mean_dispositivo = df4.groupby('Grupo').mean()['Porcentaje con dispositivo']
mean_dispositivo.plot(kind='bar', color=['blue', 'red'], alpha=0.8)
plt.title('Porcentaje de hogares con dispositivo por grupo')
plt.xticks([0, 1], ['Norte', 'Sur'], rotation=0)
plt.show()

Los datos muestran que la implantación de energías renovables es muy similar, aunque en el sur es mayor. Sin embargo, la división hecha puede no ser la más adecuada ya que el criterio de división es muy subjetivo. Por ello, se realizará un análisis de clustering para determinar la división más adecuada.

In [None]:
df4.drop(columns=['Grupo'], inplace=True)

## Estandarización de los datos

In [None]:
sns.pairplot(df4, diag_kind='kde')

Cada variable tiene una escala diferente, por lo que es necesario estandarizar los datos para que todas tengan la misma importancia en el análisis.
Se ha elegido el MinMaxScaler para que los valores estén entre 0 y 1, intentando modificar lo menos posible la distribución de los datos.

In [None]:
# Escalado de los datos a un rango de 0 a 1
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(df4)
df4_scaled = pd.DataFrame(scaled_data, columns=df4.columns, index=df4.index)

df4_scaled.head(3)

## Análisis de componentes principales

Para reducir la dimensionalidad de los datos y poder visualizarlos, se aplicará PCA con 2 componentes.

In [None]:
# Calculo de PCA
from sklearn.decomposition import PCA

estimator = PCA(n_components=2)
X_pca = estimator.fit_transform(scaled_data)

print("Porcentaje de varianza explicado por cada componente:\n", estimator.explained_variance_ratio_)
pd.DataFrame(np.matrix.transpose(estimator.components_), index=df4.columns)

In [None]:
#Representación 2D
fig, ax = plt.subplots()
ax.scatter(X_pca[:,0], X_pca[:,1], s=50)

# anotación 
for i in range(0, len(X_pca)):
    ax.annotate(df4.iloc[i, :].name, (X_pca[i, 0], X_pca[i, 1]), fontsize=8)
ax.set_title("Representación 2D de los datos")

Si se compara este gráfico con el que se obtiene con la mediana, es una versión espejada.

> 💡 **NOTA**  
> El gráfico de la mediana junto con otras técnicas de clustering que se han ejecutado para validar la hipótesis están en el archivo `h4_modeling_otros.ipynb`.

## Modelado

### Clustering jerárquico

Hemos elegido el clustering jerárquico porque es más flexible a la hora de definir los grupos, no necesita definir el número de clusters de antemano y permite ver cómo se agrupan los datos a diferentes niveles de granularidad. Además, el volumen de datos es pequeño, por lo que la complejidad computacional no es un problema.	

El clustering con KMeans es más sensible a la inicialización de los centroides, a la elección del número de clusters y a la presencia de outliers. Además, los clusters que se forman son esféricos y al tener pocos datos, no es necesario asumir esta forma, de hecho en la visualización con PCA se ve que el algoritmo ha dividido los datos simplemente por la mitad del gráfico.

Para el clustering jerárquico se usará el método de Ward, que minimiza la varianza intra-cluster. Y la métrica de distancia será la euclídea.

In [None]:
# distancia euclidea entre las provincias
dist = DistanceMetric.get_metric('euclidean')
matsim = dist.pairwise(scaled_data)
ax = sns.heatmap(matsim,vmin=0, vmax=1)
plt.show()

En el gráfico predominan los colores claros, lo que indica que en general, las provincias están bastante distantes entre sí. A continuación, se mostrará un dendrograma para ver la jerarquía de los clusters.

In [None]:
# metodo ward y dendrograma
link_matrix_avg = linkage(df4_scaled, method='ward', metric='euclidean')

plt.figure(figsize=(8, 5))
dendrogram(link_matrix_avg, labels=df4_scaled.index)
plt.title('Dendrograma jerárquico')
plt.ylabel('Distancia euclidea')
plt.show()

El dendrograma muestra que hay 2 clusters. 

Se calculará el coeficiente de silhouette para evaluar la calidad del distintas configuraciones de clusters.

In [None]:
# Visualización de diferente número de clusters
fig, axes = plt.subplots(2, 4, figsize=(20, 10))
axes = axes.flatten()

for i in range(2, 10):
    clusters = fcluster(link_matrix_avg, t=i, criterion='maxclust')  # Generar i clusters
    scatter = axes[i-2].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters, s=50, cmap='rainbow')
    coef = silhouette_score(df4_scaled, clusters)
    axes[i-2].legend(*scatter.legend_elements(), title="Clusters")
    axes[i-2].set_title(f'{i} Clusters score: {coef:.3f}')

plt.tight_layout()
plt.show()

De todas las combinaciones mostradas, desde 2 a 10 clusters, el gráfico muestra que la configuración con 2 clusters es la que tiene un coeficiente de silhouette más alto, con un valor de 0.329. Aunque este valor no es muy alto, es el más alto de todos.

In [None]:
# seleccionamos 2 clusters usando el criterio de maxclust
clusters = fcluster(link_matrix_avg, t=2, criterion='maxclust')

In [None]:
# visualización del resultado
plt.figure(figsize=(8, 5))
scatter = plt.scatter(X_pca[:,0], X_pca[:,1], s=50, c=clusters, cmap='plasma_r')

# nombres de las provincias 
for i in range(0, len(X_pca)):
    plt.annotate(df4.iloc[i, :].name, (X_pca[i, 0], X_pca[i, 1]), fontsize=8)

handles, labels = scatter.legend_elements()
legend = plt.legend(handles, labels, title="Clusters", bbox_to_anchor=(1, 1), loc='upper left')
plt.title('Clustering jerárquico con 2 clusters')
plt.show()

## Resultados

![Jerarquico edad media 2C](attachment:Jerarquico_edad_media_2C.png)

Estos resultados indican que sí se pueden agrupar las provincias en 2 grupos de norte y sur, aunque los grupos no son los que habíamos definido en la hipótesis inicial. En el mapa las provincias con una sombra gris son las que originalmente pertenencían al grupo del sur, y el resto al del norte. 

Sin embargo, los colores indican dos grupos: noroeste y el resto de la península. En el noroeste están las provincias de Asturias, Ourense, Lugo, A Coruña, Pontevedra, Cantabria, León y Zamora.

A continuación, se analizarán las características de los clusters.

In [None]:
df4_scaled['Cluster'] = clusters
df4_melted = df4_scaled.melt(id_vars="Cluster", var_name="Variable", value_name="Valor")
plt.figure(figsize=(12, 6))
sns.boxplot(x="Variable", y="Valor", hue="Cluster", data=df4_melted, palette="Set3")
plt.title("Distribución de las variables por cluster")
plt.xticks(rotation=45)
plt.show()

In [None]:
df4_grouped = df4_scaled.groupby('Cluster').mean()

df4_grouped.plot(kind='bar', figsize=(8, 5))
plt.title('Media de las variables por cluster')
plt.xlabel('Variables')
plt.ylabel('Media')
plt.legend(title='Cluster', bbox_to_anchor=(1, 1))
plt.show()
print(df4_grouped)

In [None]:
df4[df4_scaled['Cluster'] == 1].describe()

Las características del cluster 1, las provincias del noroeste, son:
- Menor implantación de energía renovable, con una media de **3.7%** de hogares con dispositivos de energía renovable.
- Renta media por hogar ligeramente inferior al otro cluster, con una media de **30.483€**.
- Menor producción media de energía solar y con valores más dispersos (por el clima de la zona, tienen menos horas de sol).
- Mayor porcentaje de familias con 0 y 1 hijos.
- Menor porcentaje de familias con muchos hijos.
- Edad media mayor, con un valor de **48.6 años**.

## Conclusión 

Hipótesis: *"Las provincias situadas en el sur de España (aquellas al sur de Madrid) tienden a utilizar menos dispositivos de aprovechamiento de energía renovable que las del norte."*

El resultado del clustering jerárquico demuestra que la división inicial de las provincias era incorrecta y que la división ideal, si queremos comparar dos grupos, es: noroeste y resto de la península. 

Las provincias del noroeste tienen una menor implantación de energía renovable, agrupando estas provincias por: edad, climatología, tamaño de la familia y renta.

----------------------------

## Clasificación y clustering

Para verificar los resultados obtenidos, se realizará una división de las provincias en norte y sur y se etiquetarán los grupos. De esta forma, se quiere comprobar si forzando la división en 2 grupos, se obtienen los mismos resultados que con el clustering jerárquico.

In [None]:
# Provincias en el dataset
df4.index

In [None]:
norte=['Araba/Álava', 'Asturias', 'Barcelona', 'Bizkaia', 'Burgos', 'Cantabria', 'Coruña, A', 'Gipuzkoa', 'Girona', 'Guadalajara', 'Huesca', 'León', 'Lleida', 'Lugo', 'Navarra', 'Ourense', 'Palencia', 'Pontevedra', 'Rioja, La', 'Salamanca', 'Segovia', 'Soria', 'Tarragona', 'Teruel', 'Valladolid', 'Zamora', 'Zaragoza', 'Ávila']

df4['Grupo'] = [0 if x in norte else 1 for x in df4.index]

In [None]:
df4['Grupo'].to_csv('a.csv')

In [None]:
df4.head()

In [None]:
df4['Grupo'].value_counts()

## Entrenamiento y validación

Se entrenará un modelo de clasificación, en este caso se ha elegido un árbol de decisión, para extraer el valor de relevancia de cada variable y así volver a clusterizar y comparar los resultados.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

X = df4.drop(columns=["Grupo"])
y = df4["Grupo"]

# se divide el dataset en 30-70 para que el modelo no entrene con demasiados datos y evitar el overfitting
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

param_grid = {
    'max_depth': [None, 3, 4, 5, 10, 15, 20, 30, 40, 50],
    'min_samples_split': [2, 4, 5, 6, 7],
    'min_samples_leaf': [1, 2, 3, 4],
    'criterion': ['gini', 'entropy', 'log_loss']
}

grid_search = GridSearchCV(
    estimator=DecisionTreeClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='f1',
    verbose=1
)

grid_search.fit(X_train, y_train)

# Mejor modelo
best_tree = grid_search.best_estimator_
print(f"Mejores hiperparámetros: {grid_search.best_params_}")
print(f"Mejor score (f1-score): {grid_search.best_score_}")

In [None]:
pred = best_tree.predict(X_test)

In [None]:
# Evaluación de resultados
from sklearn.metrics import ConfusionMatrixDisplay, classification_report, confusion_matrix
cm = confusion_matrix(y_test, pred)
cm_display = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=best_tree.classes_)
cm_display.plot()
plt.title("Confussion Matrix")
print(classification_report(y_test, pred))

El modelo muestra buenos resultados durante el entrenamiento. Pero al tener muy pocos datos, se comprobarán los resultados usando validación cruzada del tipo Leave One Out. Este tipo de validación tiene un gran coste computacional con grandes volumenes de datos, pero al tener pocos, es la mejor opción.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import LeaveOneOut

scores = cross_val_score(best_tree, X, y, cv=LeaveOneOut())
print(f"Accuracy: {scores.mean():.2f}")

In [None]:
print ('================= Feature Relevances ====================')
importance = pd.DataFrame({'Attributes': X_train.columns,
            'Feature importance':best_tree.feature_importances_}).sort_values('Feature importance', ascending=False)
print(importance)

In [None]:
# seleccion de las dos variables más importantes
variables = importance.iloc[:3]['Attributes'].values

In [None]:
selection = df4_scaled[variables]

link_matrix_avg = linkage(selection, method='ward', metric='euclidean')

plt.figure(figsize=(8, 5))
dendrogram(link_matrix_avg, labels=df4.index)
plt.show()

In [None]:
selection['Cluster'] = fcluster(link_matrix_avg, t=2, criterion='maxclust')
selection['Cluster'].to_csv('a.csv')

In [None]:
clusters = fcluster(link_matrix_avg, t=2, criterion='maxclust')
print("coeficiente de silhouette: ",silhouette_score(selection, clusters))

Los resultados son similares a los obtenidos en el primer clustering jerárquico, aunque tenía un menor coeficiente de silhouette. Las provincias de Galicia, Asturias y Cantabria siguen agrupadas en el mismo cluster.

Sin embargo, la selección de características depende del parámetro `random_state` del modelo Random Forest, por lo que los resultados pueden variar y no se usarán para la interpretación final.