# TEL354 - Minería de Datos

# Taller 1 - Análisis Urbano y Socioeconómico mediante Técnicas de Agrupamiento Avanzadas

Nombre:

# Preparación del Entorno

# Instalación de Dependencias

In [None]:
# Instalar las dependencias necesarias
# pip install geopandas scikit-learn matplotlib seaborn umap-learn hdbscan

# Cargar librerías de trabajo

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import geopandas as gpd
from shapely.geometry import Point, Polygon

# Librerías para clustering y reducción de dimensionalidad
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, SpectralClustering
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
import umap

# Parte 1: Carga y Exploración de Datos

En esta primera parte del taller, deberás trabajar con datos geoespaciales de las comunas de Santiago y datos socioeconómicos asociados. Realizarás la carga de archivos, exploración inicial y visualización básica de los datos.

# 1.1 Geodatos Regionales

**Objetivo:** Cargar un archivo shapefile que contiene la división comunal de Chile y examinar sus primeros registros.
Instrucciones:

- Utiliza la biblioteca GeoPandas (gpd) para cargar el archivo `division_comunal.shp`.
- Almacena los datos en un DataFrame llamado `df`.
- Muestra las primeras filas del DataFrame para explorar su estructura.

**Resultado esperado:** Un DataFrame que muestre información geoespacial de las comunas, incluyendo geometrías y atributos como nombres de provincias y comunas.

In [None]:
# Escriba aquí su código

# 1.2 Geodatos de Santiago

**Objetivo:** Filtrar los datos para obtener solo las comunas de Santiago y convertirlos al sistema de coordenadas WGS84.
Instrucciones:

- A partir del DataFrame cargado anteriormente, filtra las filas donde el nombre de la provincia sea "Santiago".
- Convierte las geometrías al sistema de coordenadas WGS84 (EPSG:4326).
- Almacena el resultado en una variable llamada `df_stgo`.
- Muestra las primeras filas del DataFrame filtrado.

**Resultado esperado:** Un DataFrame que contiene únicamente las comunas de Santiago con sus geometrías en coordenadas WGS84.

In [None]:
# Escriba aquí su código

# 1.3 Visualización del Mapa Base de Santiago

**Objetivo:** Crear una visualización simple del mapa de las comunas de Santiago.

**Instrucciones:**

- Crea una figura usando `plt.figure()`.
- Utiliza el método `plot()` del DataFrame `df_stgo` para dibujar el mapa.
- Añade un título adecuado.
- Elimina los ejes de la visualización.

**Resultado esperado:** Un mapa que muestre los contornos de las comunas de Santiago.

In [None]:
# Escriba aquí su código

# 1.4 Datos Urbanos de Santiago

**Objetivo:** Cargar y explorar un conjunto de datos sobre barrios de Santiago.

**Instrucciones:**

- Utiliza pandas para cargar el archivo 'barrio.csv' y almacenarlo en un DataFrame llamado `df_barrio`.
- Muestra las primeras filas del DataFrame para examinar su estructura.
- Imprime un resumen que incluya:

    - El número total de registros.
    - El número de características (columnas).
    - La lista de nombres de columnas disponibles.


**Resultado esperado:** Información sobre la estructura del dataset de barrios y estadísticas resumidas de sus variables numéricas.

In [None]:
# Escriba aquí su código

# 1.5 Análisis de Nivel Socioeconómico (NSE)

**Objetivo:** Analizar la distribución del nivel socioeconómico en los barrios de Santiago.

**Instrucciones:**

- Crea una figura.
- Generar un histograma de la columna 'nse' con una estimación de densidad.
- Añade un título adecuado y etiqueta los ejes.
- Agrega una cuadrícula.
- Muestra la visualización.

**Resultado esperado:** Un histograma que muestre cómo se distribuye el nivel socioeconómico entre los barrios de Santiago.

In [None]:
# Escriba aquí su código

# 1.6 Visualización Geoespacial de NSE

**Objetivo:** Crear una visualización que combine el mapa de Santiago con la información de nivel socioeconómico de los barrios.

**Instrucciones:**

- Crea un mapa base usando las comunas de Santiago (`df_stgo`) con un color de relleno y contorno adecuado.
- Sobre este mapa, utiliza unn scatterplot para representar cada barrio según sus coordenadas de longitud y latitud del DataFrame `df_barrio`.
- Codifica el nivel socioeconómico (columna 'nse') mediante colores usando un mapa de colores adecuado.
- Añade una barra de colores que muestre la escala del nivel socioeconómico.
- Agrega un título adecuado y elimina los ejes de la visualización.

**Resultado esperado:** Un mapa de Santiago donde los barrios están representados como puntos cuyo color refleja su nivel socioeconómico, permitiendo identificar patrones espaciales de segregación socioeconómica.

In [None]:
# Escriba aquí su código

# Parte 2: Preprocesamiento y Transformación de Datos

**Objetivo**
En esta segunda parte del taller, realizarás el preprocesamiento y la transformación de los datos para prepararlos para un análisis de clustering. El propósito general es analizar la estructura socioeconómica y urbana de Santiago mediante técnicas avanzadas de clustering y visualización geoespacial, comparando diferentes enfoques metodológicos y evaluando la calidad de los agrupamientos resultantes.

**Contexto**
Antes de comenzar, vamos a asumir que el nivel socioeconómico (NSE) en Chile se clasifica en siete categorías:

- AB: clase alta
- C1a: clase media acomodada
- C1b: clase media emergente
- C2: clase media típica
- C3: clase media baja
- D: clase media vulnerable
- E: pobres

Esta clasificación será relevante para interpretar los resultados de nuestro análisis.

# 2.1 Preprocesamiento de Datos

**Objetivo:** Preparar los datos para el análisis de clustering mediante la transformación de coordenadas, estandarización de variables y creación de conjuntos de datos agregados por comuna.

**Instrucciones:**


## Agregación por comuna:

- Agrupa los datos del DataFrame `df_barrio` por la columna 'comuna'.
- Calcula el promedio de 'longitud', 'latitud' y 'nse' para cada comuna.
- Reinicia el índice para obtener un DataFrame común.
- Almacena el resultado en un nuevo DataFrame llamado `comuna_grouped`.

## Estandarización de datos agrupados:

- Define una lista llamada `features` que contenga las columnas 'longitud', 'latitud' y 'nse'.
- Instancia un objeto `StandardScaler` de scikit-learn.
- Crea una copia del DataFrame `comuna_grouped` llamada `comuna_scaled`.
- Aplica el método `fit_transform` del escalador a las columnas especificadas en features.
- Convierte los nombres de comunas en `comuna_grouped` a mayúsculas.
- Crea una copia del DataFrame geoespacial `df_stgo` llamada `df_stgo_norm`.
- Convierte los nombres de comunas en la columna 'NOM_COM' de `df_stgo_norm` a mayúsculas.


## Verificación de datos procesados:

- Muestra las primeras filas del DataFrame `comuna_grouped`.

In [None]:
# Escriba aquí su código

# Parte 3: Análisis de Clustering

En esta tercera parte del taller, aplicarás técnicas de clustering para identificar patrones socioeconómicos y espaciales en las comunas de Santiago. Determinarás el número óptimo de clusters, implementarás diferentes algoritmos de clustering y visualizarás los resultados en mapas.

# 3.1 Determinación del Número Óptimo de Clusters

**Objetivo:** Desarrollar una función que permita determinar el número ideal de clusters utilizando múltiples métricas de evaluación.

**Instrucciones:**

- Crea una función que reciba un DataFrame y un número máximo de clusters a evaluar.
- Dentro de la función, implementa tres métodos para evaluar el número óptimo de clusters:

- **Método del Codo (Elbow Method):**

    - Calcula la inercia (suma de cuadrados dentro del cluster) para diferentes valores de k.
    - Crea un gráfico de línea con marcadores que muestre la inercia en función del número de clusters.
    - Configura el título como "Método del Codo", etiqueta el eje X como "Número de clusters" y el eje Y como "Inercia".


- **Coeficiente de Silueta (Silhouette Coefficient):**

    - Calcula el puntaje de silueta para diferentes valores de k.
    - Crea un gráfico de línea con marcadores que muestre el puntaje de silueta en función del número de clusters.
    - Configura el título como "Coeficiente de Silueta", etiqueta el eje X como "Número de clusters" y el eje Y como "Puntaje de Silueta".


- **Índice Calinski-Harabasz:**

    - Calcula el puntaje Calinski-Harabasz para diferentes valores de k.
    - Crea un gráfico de línea con marcadores que muestre el puntaje CH en función del número de clusters.
    - Configura el título como "Índice Calinski-Harabasz", etiqueta el eje X como "Número de clusters" y el eje Y como "Puntaje CH".




- Organiza los tres gráficos en una fila usando subplots.
- Aplica la función creada al DataFrame `comuna_scaled`.

**Resultado esperado:** Tres gráficos que muestren diferentes métricas para evaluar el número óptimo de clusters. Basándote en estos resultados, deberás seleccionar el valor de k más adecuado para los análisis posteriores.

In [None]:
# Escriba aquí su código

# 3.2 Aplicación de Algoritmos de Clustering

**Objetivo:** Aplicar y comparar cuatro algoritmos de clustering diferentes a los datos de las comunas de Santiago.

**Instrucciones:**

## K-Means Clustering:

- Define el número óptimo de clusters basado en el análisis de la sección 3.1.
- Implementa el algoritmo K-Means con el número de clusters determinado.
- Almacena los resultados de la asignación de clusters en la columna 'kmeans_cluster' del DataFrame `comuna_scaled`.
- Transfiere los resultados al DataFrame `comuna_grouped`.


## Clustering Jerárquico (Agglomerative Clustering):

- Evalúa cuatro métodos de enlace (linkage): 'ward', 'complete', 'average', y 'single'.
- Para cada método, crea un objeto AgglomerativeClustering con el número óptimo de clusters.
- Calcula el puntaje de silueta para cada método.
- Genera dendrogramas para visualizar la estructura jerárquica resultante de cada método.
- Crea un gráfico de barras comparando los puntajes de silueta de los diferentes métodos.
- Identifica el mejor método de enlace basado en el puntaje de silueta más alto.
- Aplica el clustering jerárquico con el mejor método de enlace.
- Almacena los resultados en la columna 'agg_cluster' de los DataFrames `comuna_scaled` y `comuna_grouped`.


## DBSCAN (Density-Based Spatial Clustering of Applications with Noise):

- Aplica DBSCAN con los parámetros que consideres más adecuados luego de realizar diferentes pruebas.
- Almacena los resultados en la columna 'dbscan_cluster' de los DataFrames `comuna_scaled` y `comuna_grouped`.


## GMM (Gaussian Mixture Models):

- Implementa un modelo GMM con el número óptimo de componentes.
- Almacena los resultados en la columna 'gmm_cluster' de los DataFrames `comuna_scaled` y `comuna_grouped`.


## Comparación Visual de Algoritmos:

- Crea una figura con cuatro subplots para comparar los resultados de los cuatro algoritmos.
- Para cada algoritmo, genera un gráfico de dispersión usando las coordenadas de longitud y latitud.
- Codifica los clusters mediante colores usando diferentes mapas de colores para cada algoritmo.
- Añade barras de color, títulos y etiquetas apropiadas.



**Resultado esperado:** Una comparación visual de cómo los diferentes algoritmos de clustering agrupan las comunas de Santiago, permitiendo identificar fortalezas y debilidades de cada enfoque.

In [None]:
# Escriba aquí su código

# 3.3 Fusión con Datos Geoespaciales y Visualización en Mapa

**Objetivo:** Visualizar los resultados de los algoritmos de clustering en mapas geoespaciales de Santiago.

**Instrucciones:**

## Preparación de datos para fusión:

- Crea una copia del DataFrame `comuna_grouped` llamada `comuna_geo`.


## Fusión con datos geoespaciales:

- Combina el DataFrame `df_stgo_norm` con `comuna_geo` usando una fusión izquierda (left join).
- Realiza la fusión utilizando las columnas 'NOM_COM' de `df_stgo_norm` y 'comuna' de `comuna_geo`.
- Almacena el resultado en `df_stgo_merged`.


## Visualización de resultados en mapas:

- Crea una figura con cuatro subplots organizados en una matriz 2x2.
- Para cada algoritmo (K-Means, Clustering Jerárquico, DBSCAN, GMM):

    - Genera un mapa de las comunas de Santiago coloreado según la asignación de clusters.
    - Añade una leyenda con la etiqueta correspondiente al algoritmo.
    - Establece un título descriptivo.
    - Elimina los ejes para mejorar la visualización del mapa.


**Resultado esperado:** Un panel de cuatro mapas que muestran la segmentación urbana de Santiago según los diferentes algoritmos de clustering, permitiendo una comparación visual de los patrones espaciales identificados por cada método.

In [None]:
# Escriba aquí su código

# Parte 4: Análisis de NSE por Cluster

En esta cuarta parte del taller, analizarás la relación entre los clusters identificados y el nivel socioeconómico (NSE) de las comunas de Santiago. Realizarás un análisis estadístico y crearás visualizaciones para comprender mejor los patrones socioeconómicos captados por el algoritmo de clustering.

# 4.1 Caracterización de Clusters

**Objetivo:** Analizar y visualizar las características de nivel socioeconómico de cada cluster para comprender los patrones de segregación socioeconómica en Santiago.

**Instrucciones:**

## Análisis estadístico de NSE por cluster con K-Means:

- Utiliza el método `groupby` para agrupar los datos del DataFrame `comuna_grouped` por la columna 'kmeans_cluster'.
- Calcula las siguientes estadísticas para la variable 'nse' en cada cluster:

    - Media (mean)
    - Desviación estándar (std)
    - Valor mínimo (min)
    - Valor máximo (max)
    - Número de comunas (count)


- Almacena los resultados en un DataFrame llamado `cluster_stats`.
- Muestra el DataFrame `cluster_stats`.


## Visualización de la distribución de NSE por cluster:

- Generar un boxplot que muestre la distribución del NSE en cada cluster.
- Configura el eje X para representar los clusters ('kmeans_cluster') y el eje Y para el nivel socioeconómico ('nse').
- Añade un título y etiqueta los ejes.
- Agrega una cuadrícula.
- Muestra la visualización.


## Creación de un mapa de calor de NSE por comuna:

- Utiliza el método plot del DataFrame `df_stgo_merged` para generar un mapa coroplético que visualice el NSE promedio por comuna.
- Utiliza un mapa de colores adecuado para representar los valores de NSE.
- Incluye una leyenda, un título, elimina los ejes y muestra la visualización.


Estos resultados te permitirán interpretar cómo el algoritmo K-Means ha capturado los patrones de segregación socioeconómica en Santiago y cómo se distribuyen espacialmente estos patrones.

In [None]:
# Escriba aquí su código

# Parte 5: Reducción de Dimensionalidad y Visualización Avanzada

En esta quinta parte del taller, aplicarás técnicas de reducción de dimensionalidad para visualizar de manera más efectiva los patrones multidimensionales presentes en los datos. Utilizarás PCA (Análisis de Componentes Principales) para una reducción lineal y UMAP para una proyección no lineal.

# 5.1 Análisis de Componentes Principales (PCA)

**Objetivo:** Reducir la dimensionalidad de los datos mediante PCA y visualizar los resultados en relación con los clusters identificados y el nivel socioeconómico.

**Instrucciones:**

## Aplicación de PCA:

- Crea un objeto PCA configurado para extraer 2 componentes principales.
- Aplica PCA a los datos estandarizados (`comuna_scaled[features]`) utilizando el método `fit_transform`.
- Almacena el resultado de la transformación en una variable llamada `comuna_pca`.


## Creación de DataFrame con resultados de PCA:

- Genera un nuevo DataFrame llamado `pca_df` que incluya:

    - Los nombres de las comunas.
    - Las coordenadas en el espacio PCA (PC1 y PC2).
    - Las asignaciones de clusters para cada algoritmo (K-Means, Jerárquico, DBSCAN y GMM).
    - Los valores de NSE originales.




## Visualización de resultados PCA:

- Crea una figura con 4 subplots organizados en una matriz 2x2.
- En cada subplot, genera un gráfico de dispersión con las coordenadas PC1 y PC2, donde:

    - Primer subplot: Colorea los puntos según los clusters de K-Means con la paleta 'viridis'.
    - Segundo subplot: Colorea los puntos según los clusters jerárquicos con la paleta 'plasma'.
    - Tercer subplot: Colorea los puntos según los clusters de DBSCAN con la paleta 'cividis'.
    - Cuarto subplot: Colorea los puntos según el valor de NSE con la paleta 'RdYlBu_r'.


- Configura títulos adecuados para cada gráfico.
- Añade cuadrículas suaves a cada gráfico.


## Análisis de varianza explicada:

- Extrae los ratios de varianza explicada del objeto PCA.
- Imprime la varianza explicada por PC1 con 4 decimales.
- Imprime la varianza explicada por PC2 con 4 decimales.
- Calcula e imprime la varianza acumulada (suma de las dos componentes).


## Visualización de contribución de variables:

- Crea un DataFrame con los componentes principales, donde las filas son los componentes y las columnas son las variables originales.
- Genera un mapa de calor que muestre la contribución de cada variable original a cada componente principal.
- Configura el mapa para mostrar los valores exactos dentro de cada celda.
- Añade un título descriptivo.



**Resultado esperado:** Una serie de visualizaciones que te permitirán entender cómo se proyectan los datos en un espacio bidimensional mediante PCA, cómo se relacionan los clusters con esta proyección, y qué variables originales contribuyen más a cada componente principal.

In [None]:
# Escriba aquí su código

# 5.2 Aplicación de UMAP para Visualización No Lineal

**Objetivo:** Aplicar la técnica UMAP (Uniform Manifold Approximation and Projection) para obtener una proyección no lineal de los datos y visualizar patrones que podrían no ser evidentes con métodos lineales como PCA.

**Instrucciones:**

## Aplicación de UMAP:

- Crea un objeto UMAP con una semilla para garantizar reproducibilidad.
- Aplica UMAP a los datos estandarizados (`comuna_scaled[features]`) utilizando el método `fit_transform`.
- Almacena el resultado de la transformación en una variable llamada `embedding`.


## Creación de DataFrame con resultados de UMAP:

- Genera un nuevo DataFrame llamado `umap_df` que incluya:

    - Los nombres de las comunas.
    - Las coordenadas en el espacio UMAP (UMAP1 y UMAP2).
    - Las asignaciones de clusters para cada algoritmo.
    - Los valores de NSE originales.




## Visualización de resultados UMAP:

- Crea una figura con 4 subplots organizados en una matriz 2x2.
- En cada subplot, genera un gráfico de dispersión con las coordenadas UMAP1 y UMAP2, donde:

    - Primer subplot: Colorea los puntos según los clusters de K-Means.
    - Segundo subplot: Colorea los puntos según los clusters jerárquicos.
    - Tercer subplot: Colorea los puntos según los clusters de DBSCAN.
    - Cuarto subplot: Colorea los puntos según el valor de NSE.


- Utiliza las mismas paletas de colores que en las visualizaciones de PCA.
- Configura títulos adecuados para cada gráfico.
- Añade cuadrículas suaves a cada gráfico.



**Resultado esperado:** Una serie de visualizaciones que te permitirán comparar cómo se proyectan los datos usando UMAP frente a PCA. UMAP suele preservar mejor la estructura local de los datos, lo que puede revelar agrupaciones que no son evidentes con PCA. Estas visualizaciones te ayudarán a evaluar la coherencia de los resultados de clustering y su relación con el nivel socioeconómico.

In [None]:
# Escriba aquí su código

# Parte 6: Análisis Geoespacial Integrado con Riqueza Urbana

En esta sección final, integraremos todos los elementos de los análisis anteriores para crear visualizaciones avanzadas que combinen datos geoespaciales con indicadores de riqueza urbana.

# 6.1 Análisis de Hot Spots de Riqueza

**Objetivo:** Desarrollar un mapa de calor que muestre visualmente las concentraciones de riqueza en la ciudad de Santiago, utilizando técnicas de estimación de densidad kernel (KDE).

**Instrucciones:**

- Cree una figura de matplotlib con un tamaño adecuado.
- Como capa base, represente gráficamente el dataframe `df_stgo_merged` con un color de fondo claro y bordes visibles.
- Para la capa de mapa de calor:

    - Extraiga las coordenadas (longitud y latitud) del dataframe `df_barrio`.
    - Use el nivel socioeconómico (nse) como pesos para el análisis de densidad.
    - Implemente una estimación de densidad kernel usando `scipy.stats.gaussian_kde`.
    - Ordene los puntos por densidad para una mejor visualización.
    - Cree un gráfico de dispersión con los puntos coloreados según su densidad usando un mapa de colores adecuado.


- Añada una barra de colores al gráfico que indique la densidad de riqueza.
- Agregue un título apropiado al gráfico y configure el diseño para una presentación óptima.
- Desactive los ejes para mejorar la apariencia visual del mapa.
- Muestre el mapa resultante.

**Resultado esperado:** Un mapa de calor interactivo que resalte visualmente las áreas de Santiago con mayor concentración de riqueza, permitiendo identificar patrones espaciales de desigualdad socioeconómica.

Recomendación: Para una visualización efectiva, experimente con diferentes mapas de colores y niveles de transparencia (alpha) hasta encontrar una representación visual que destaque claramente los hot spots de riqueza.

In [None]:
# Escriba aquí su código

# Parte 7: Preguntas de Análisis

1. Análisis Sociourbano:

- ¿Es posible identificar sectores de concentración de riqueza en Santiago? ¿Qué comunas conforman estos sectores y qué características geoespaciales comparten?
- ¿Existe un patrón espacial claro en la distribución del nivel socioeconómico en Santiago? ¿Cómo se relaciona este patrón con la estructura urbana de la ciudad?
- Basándose en los resultados del clustering, ¿podría decirse que Santiago presenta segregación socioespacial? Justifique su respuesta con evidencia cuantitativa derivada de los análisis realizados.
- Si tuviera que dividir Santiago en exactamente 3 macrozonas socioeconómicas, ¿cuáles serían estas y qué características particulares tendría cada una?

2. Comparación de Algoritmos:

- ¿Qué diferencias fundamentales observa entre los resultados obtenidos con K-Means, Clustering Jerárquico, DBSCAN y GMM? ¿Cuál considera más adecuado para este análisis socioespacial y por qué?
- Analice críticamente las ventajas y limitaciones de cada algoritmo de clustering en el contexto específico de datos georreferenciados con componente socioeconómica.
- ¿Qué algoritmo logra mejor capturar la heterogeneidad interna de las comunas? Proporcione evidencia cuantitativa que respalde su respuesta.

3. Aplicaciones y Extensiones:

- Proponga una aplicación práctica de los resultados obtenidos en el ámbito de políticas públicas urbanas o planificación territorial.
- Si tuviera acceso a datos temporales del NSE para Santiago (por ejemplo, para los últimos 20 años), ¿qué análisis adicionales realizaría para estudiar la evolución de la segregación urbana?
- ¿Cómo podría incorporar información adicional (criminalidad, densidad poblacional, acceso a servicios, etc.) para enriquecer este análisis? Describa metodológicamente cómo lo haría.