# Geoinformática - Práctica 6
## Agrupamiento, Regionalización y Segmentación Geodemográfica

## Parte 2 - Homogeneidad y Correlación de Variables

En la sección anterior de la práctica, se estudiaron los conceptos generales relacionados con el Agrupamiento de datos, así como de su variante espacial en la Regionalización. En esta parte, se analizarán con un poco más de detalle alguna de las particularidades de los procesos estudiados; en específico, se estudiarán algunas formas de discernir las variables correctas para realizar una Regionalización, así como algunos parámetros para conocer si los resultados obtenidos son lo suficientemente aceptables para ser considerados como válidos o ciertos.

In [1]:
# Librerías a Utilizar
import seaborn as sns
import pandas as pd
import pysal as ps
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import cluster

  from .sqlite import head_to_sql, start_sql


___
## Generalización contra Detalle
Cuando se ejecuta algún algoritmo de Regionalización, en el transfondo se está realizando una generalización sobre el espacio, esto es, se está asignando un mismo *valor* o atributo a áreas que resultan más grandes que las que se tenían en un inicio.

Esta Generalización puede resultar positiva, pues permite visualizar algunos patrones reproducibles en el espacio y, por ende, permitir deducir si la componente espacial es significativa sobre el fenómeno estudiado, dando otra herramienta para explicarlo. Por otra parte, el generalizar provoca que se pierda el detalle que se tenía inicialmente con áreas más pequeñas y, por ende, la explicación que pueda derivarse también pierde de profundidad. Como tal, es importante encontrar un balance entre el poder explicativo que se gana al momento de Regionalizar y la pérdida de profundidad implícita en la Generalización.

Para estudiar este fenómeno, se tomarán nuevamente los datos utilizados en la sección anterior de la práctica, esto es, las calificaciones de los AirBnb contenidos en las AGEB's de la Alcaldía Cuauhtémoc de la CDMX. Como tal, es necesario importar estos datos:

In [2]:
airbnb = gpd.read_file('data/agebs_airbnb.shp')  # Importar el ShapeFile
airbnb = airbnb.set_index('ageb')                # Establecer la Clave Geográfica del AGEB como Índice
airbnb.head()                                    # Observar el GeoDataFrame importado

Unnamed: 0_level_0,no_prop,calif,expec,limp,checkin,com,ubi,precio,geometry
ageb,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
901500010235,4.0,96.5,10.0,10.0,10.0,10.0,10.0,9.75,"POLYGON ((484786.4564242049 2151318.632194062,..."
901500010362,1.0,100.0,10.0,10.0,10.0,10.0,10.0,10.0,"POLYGON ((484415.3002532361 2150990.921335925,..."
901500010606,14.0,96.3571,9.92857,10.0,10.0,9.92857,9.71429,9.85714,"POLYGON ((483366.716567839 2150099.090658844, ..."
901500011017,204.0,96.1569,9.83823,9.64706,9.86765,9.86765,9.92157,9.68627,"POLYGON ((483869.0666524998 2147955.234262425,..."
901500010201,1.0,100.0,9.0,10.0,10.0,10.0,10.0,10.0,"POLYGON ((484252.7970705956 2151134.263629142,..."


En la siguiente celda se repetirán los pasos ejecutados en la sección anterior de la práctica para generar una Regionalización; en este caso, se generarán 15 Regiones utilizando el Algoritmo *AZP*. Asimismo, se utilizará sólo una de las variables anteriores, la de Calificación General (`calif`), para facilitar el análisis posterior:

In [4]:
# Importar la librería local 'clusterpy'
import clusterpy

# Generar el objeto de tipo 'layer' que la librería necesita
layer = clusterpy.importArcData('data/agebs_airbnb')

# Ejecutar el Algoritmo AZP de Regionalización
layer.cluster('azp', ['calif'], 15, wType='queen')

# Indicar a qué región pertenece cada AGEB como una nueva columna
airbnb['azpcls_15'] = layer.region2areas

# Visualizar el resultado
airbnb.head()

Loading data/agebs_airbnb.dbf
Loading data/agebs_airbnb.shp
Done
Getting variables
Variables successfully extracted
Running original AZP algorithm (Openshaw and Rao, 1995)
Number of areas:  153
Number of regions:  15
Constructing regions
initial Solution:  [2, 2, 2, 3, 2, 7, 2, 7, 2, 7, 2, 4, 7, 7, 2, 7, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 7, 7, 2, 2, 2, 2, 2, 2, 3, 6, 11, 3, 3, 6, 2, 3, 2, 2, 2, 2, 7, 2, 14, 13, 2, 2, 7, 2, 4, 9, 9, 2, 2, 2, 2, 2, 2, 5, 2, 3, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 6, 3, 10, 3, 3, 10, 3, 3, 3, 3, 3, 6, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 12, 0, 3, 6, 3, 3, 3, 3, 3, 11, 11, 3, 6, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 8, 8, 3, 3, 3, 3, 3, 3, 4, 2, 2, 2, 7, 2, 2, 2, 2, 1, 1, 14]
initial O.F:  844.8615366219416
Performing local search
FINAL SOLUTION:  [2, 2, 2, 3, 2, 7, 2, 7, 2, 7, 2, 4, 7, 7, 2, 7, 2, 2, 2, 2, 0, 3, 0, 0, 3, 3, 0, 2, 7, 7, 2, 2, 2, 2, 2, 2, 3, 6, 11, 3, 0, 6, 2, 3, 2, 2, 2, 2, 7, 2, 14, 13, 2, 2, 7, 2, 4, 7, 9, 2, 2, 2, 2, 2, 2, 5,

Unnamed: 0_level_0,no_prop,calif,expec,limp,checkin,com,ubi,precio,geometry,azpcls_15
ageb,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
901500010235,4.0,96.5,10.0,10.0,10.0,10.0,10.0,9.75,"POLYGON ((484786.4564242049 2151318.632194062,...",2
901500010362,1.0,100.0,10.0,10.0,10.0,10.0,10.0,10.0,"POLYGON ((484415.3002532361 2150990.921335925,...",2
901500010606,14.0,96.3571,9.92857,10.0,10.0,9.92857,9.71429,9.85714,"POLYGON ((483366.716567839 2150099.090658844, ...",2
901500011017,204.0,96.1569,9.83823,9.64706,9.86765,9.86765,9.92157,9.68627,"POLYGON ((483869.0666524998 2147955.234262425,...",3
901500010201,1.0,100.0,9.0,10.0,10.0,10.0,10.0,10.0,"POLYGON ((484252.7970705956 2151134.263629142,...",2


Como se estudió en la práctica anterior, es posible obtener Estadísticos Descriptivos tanto de la variable original, utilizada para la Regionalización, como de las regiones estudiadas. En el caso de la variable original, sus estadísticos pueden obtenerse a través de la función `.describe()` estudiada anteriormente:

In [13]:
airbnb['calif'].describe()

count    153.000000
mean      94.668812
std        4.188733
min       76.750000
25%       93.714300
50%       95.350700
75%       96.589700
max      100.000000
Name: calif, dtype: float64

Para el análisis, únicamente resulta de interés obtener la *Desviación Estándar* ($\sigma^2$ o `std`) de la variable. Para esto, únicamente es necesario llamar la función `.std()`, que permite aislar a este estadístico en específico:

In [15]:
airbnb['calif'].std()

4.188732594789283

Lo que el estadístico anterior pretende comunicar es el rango de valores en el cual se encuentran la mayoría de los datos, tomando como referencia la media de los mismos. En el ejemplo de trabajo, teniendo una Desviación Estándar de 4.18 y una Media de 94.67 para la variable, puede asegurarse que la mayoría de las Calificaciones Generales de los AirBnb se encuentran en un rango de $94.67 \pm 4.18$, en otras palabras, entre 90.49 y 98.85. Lo anterior ayuda a tener una idea de qué tan dispersos se encuentran los datos; mientras más dispersos, mayor será la Desviación Estándar y, por ende, menos similares son los datos entre sí.

Para el caso de las regiones, es necesario utilizar primero la función `.groupby()`, agrupando a través de la etiqueta, para después poder obtener los estadísticos descriptivos de interés; cabe notar el uso del doble corchete para aislar únicamente a la variable utilizada en la regionalización y la de referencia para el agrupamiento:

In [16]:
airbnb[['calif' , 'azpcls_15']].groupby('azpcls_15').describe()

Unnamed: 0_level_0,calif,calif,calif,calif,calif,calif,calif,calif
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
azpcls_15,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
0,29.0,94.834372,0.732723,92.9608,94.5294,94.9589,95.1864,96.4375
1,2.0,80.5,2.12132,79.0,79.75,80.5,81.25,82.0
2,47.0,95.298849,3.32183,85.0,93.77085,95.3989,97.11765,100.0
3,40.0,96.605582,1.478398,94.0,95.842525,96.18655,97.03125,100.0
4,3.0,85.366667,2.150194,83.2,84.3,85.4,86.45,87.5
5,1.0,100.0,,100.0,100.0,100.0,100.0,100.0
6,6.0,89.304733,3.677714,82.0,90.0,90.15,91.153125,92.0909
7,12.0,98.208333,2.332657,93.0,96.9375,99.375,100.0,100.0
8,2.0,79.54165,3.947989,76.75,78.145825,79.54165,80.937475,82.3333
9,1.0,95.75,,95.75,95.75,95.75,95.75,95.75


Nuevamente, si se desea obtener únicamente la Desviación Estándar, basta con llamar sólo a `.std()`:

In [19]:
airbnb[['calif' , 'azpcls_15']].groupby('azpcls_15').std()

Unnamed: 0_level_0,calif
azpcls_15,Unnamed: 1_level_1
0,0.732723
1,2.12132
2,3.32183
3,1.478398
4,2.150194
5,
6,3.677714
7,2.332657
8,3.947989
9,


En primer lugar, es inmediatamente visible la influencia de la Regionalización sobre la variable de interés. En la gran mayoría de los casos, la Desviación Estándar de las regiones es menor a la Desviación Estándar de la variable original (4.18); esto significa que, al momento de Regionalizar, el algoritmo agrupó AGEB's con Calificaciones Generales muy similares, de modo que la variabilidad de los datos disminuyera.

Lo tabla anterior también permite dar una primera idea de cuál es la variación general dentro de cada una de las regiones. De forma muy superficial, podría decirse que las regiones con una menor Desviación Estándar son más Homogéneas, es decir, los AirBnb en su interior se asemejan más entre sí; por el contrario, las regiones con una Desviación Estándar mayor poseen AirBnb no tan similares.