<a href="https://colab.research.google.com/github/otoperalias/teaching/blob/TallerUTE_AnalisisCuanti/UTE_TallerAnalisisCuanti_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/otoperalias/teaching/blob/TallerUTE_AnalisisCuanti/material/6.%20M%C3%89TODOS%20CUANTITATIVOS%20WORKSHOP%20(1).jpg?raw=true" alt="drawing" width="900"/>



## Taller de Análisis de Datos Cuantitativos

### Maestría en Urbanismo (UTE, Ecuador).

Instructor: [Daniel Oto-Peralías](https://otoperalias.github.io/)
_________________________

El objetivo del taller es aprender a explotar una encuesta o un censo a través de programas estadísticos de análisis cuantitativo.

Usaremos el [Censo de Población y Vivienda de Ecuador (2010)](https://www.ecuadorencifras.gob.ec/censo-de-poblacion-y-vivienda/) para analizar las características de las viviendas de la provincia de Loja. La tarea a realizar será la creación de un indicador de calidad de las viviendas.

**Vamos a necesitar el siguiente material:**
1. Los [datos del censo](https://www.ecuadorencifras.gob.ec/base-de-datos-censo-de-poblacion-y-vivienda/): en *A NIVEL DE SECTOR*, hacemos clic en *Censo Población y Vivienda 2010* y luego seleccionamos *Loja  (formato CSV)*.  
Nótese que al realizar la descarga, se obtiene una carpeta comprimida. Una vez descomprimida, vemos que dentro hay 4 carpetas comprimidas, una de ellas "Loja_CSV_Vivienda", que es la que vamos a utilizar. Esta última carpeta no debe descomprimirse ya que se importa directamente comprimida.
2. El [cuestionario del censo](https://www.ecuadorencifras.gob.ec//wp-content/descargas/Poblacion_y_demo/Cuestionario_censal/cuestionario_censal.pdf), donde podemos ver el significado de los códigos numéricos que aparecen en los datos.
3. El diccionario de datos del censo, para conocer el significado de cada variable. Se puede obtener a través de [este enlace](https://aplicaciones3.ecuadorencifras.gob.ec/BIINEC-war/index.xhtml?oe=CENSOS%20DE%20POBLACI%D3N%20Y%20VIVIENDA%20NACIONAL&a=2010&m=DECENAL&t=Datos%20Abiertos%20CSV), clicando en *Datos Abiertos CSV*, pero para evitaros tener que descargar dicho archivo tan pesado (~1GB), lo proporciono en [este enlace](https://github.com/otoperalias/teaching/raw/TallerUTE_AnalisisCuanti/material/Diccionario%20de%20Datos%20CPV2010.xls).
4. Además, es útil tener a mano esta publicación con una descripción de los resultados del Censo para la provincia de Loja. Disponible [aquí](https://www.ecuadorencifras.gob.ec/censo-de-poblacion-y-vivienda/), clicando en *Resultados provinciales* en *Loja*.
5. Por ultimo, descargamos las capas geográficas del *Clasificador Geográfico Estadístico*, disponible en el [portal de Geografía Estadística del INEC](https://www.ecuadorencifras.gob.ec/documentos/web-inec/Geografia_Estadistica/Micrositio_geoportal/index.html). Le damos al ratón para abajo hasta la sección **Clasificador Geográfico Estadístico**, seleccionamos "2010-CENSAL" y clicamos en el icono "zip SHP". Nótese que descargamos una carpeta comprimida con tres capas geográficas (provincias, cantones y parroquias). Debemos descomprimir este fichero.

**Sobre el programa informático:**

* En este taller usamos [**Google Colab**](https://colab.research.google.com/?hl=es), que es un *notebook* virtual desde el que podemos usar **Python**.
* La librería principal que vamos a usar es **Pandas**, una "paquete" especializado en el procesamiento y análisis de datos cuantitativos.
* La gran ventaja de Python-Pandas frente a otras alternativas (SPSS/Stata/etc.) es su carácter gratuito y la gran cantidad de recursos de ayuda que existe en Internet, debido a su enorme comunidad de usuarios.

## 1. Importamos las librerías que vamos a utilizar

Para usar el paquete de **Pandas** y poder visualizar los datos, tenemos que importar estas librerías:

In [None]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns

## 2. Importamos los datos


Para importar los datos, en primer lugar, tenemos que descargar los datos en nuestro ordenador y subirlos a Google Colab:
1. Clicamos en el icono de carpeta que hay en la parte superior de la barra de la izquierda (📁) y entonces clicamos en el primer icono de upload.
2. Se abre una ventana para seleccionar el archivo que queremos subir y seleccionamos la carpeta comprimida "Loja_CSV_Vivienda".

Una vez que tenemos subido el fichero y que aparece como tal ("Loja_CSV_Vivienda.zip") en la barra izquierda, podemos importarlo:

In [None]:
viv=pd.read_csv("Loja_CSV_Vivienda.zip",compression='zip')

Para visualizar la tabla, escribimos el nombre que le hemos dado

In [None]:
viv

Como se observa, esta tabla de datos (```dataframe```) tiene 155317 filas y 31 columnas. Cada fila contiene los datos censales de una vivienda.  
En los ```dataframe``` las filas se identifican con un ```index```, que generalmente es único para cada fila. Las columnas se identifican con un nombre. No debe confundirse el index de la tabla con una columna. Es decir, el index no es la primera columna.

<img src="https://github.com/otoperalias/teaching/blob/TallerUTE_AnalisisCuanti/material/df_structure.jpg?raw=true" alt="drawing" width="550"/>

## 3. Exploración inicial

Para conocer las columnas que contiene la tabla, escribimos el siguiente código:

In [None]:
viv.columns

Nótese que necesitamos el diccionario de datos del censo para conocer el significado de cada columna. Por otra parte, para saber el significado de los diferentes valores que toman las variables, necesitamos el cuestionario del censo. Ambos documentos se mencionan al comienzo de este notebook.

Para obtener el número de filas de la tabla (o sea, su longitud) escribimos lo siguiente:

In [None]:
len(viv)

Podemos comprobar en el PDF con los resultados para Loja que en esta provincia hay 155308 viviendas. La pequeña diferencia se debe a que hay 9 cuestionarios de hogares sin viviendas (código 17 en la variable VTV).  
La función ```value_counts()``` nos da la distribución de frecuencias de una variable.

In [None]:
# Tipo de Vivienda
viv["VTV"].value_counts()

En cuanto a terminología, las palabras *variable*, *campo* y *columna* se refieren a lo mismo. En inglés, *variable*, *field* y *column*.

Ahora creamos un gráfico similar al del PDF (página 7: *¿Qué tipo de vivienda tenemos?*):

In [None]:
sns.histplot(data=viv,x="VTV",stat="percent")

El siguiente bloque de código procesa ligeramente los datos para crear un gráfico más entendible. En concreto, creamos una nueva variable en la que asignamos a cada código numérico su etiqueta.

In [None]:
# Procesamos los datos para mejorar el gráfico
viv['tipov']="" # Añadimos una nueva columna y en las líneas de código siguientes le damos contenido según los códigos de la columna VTV
viv.loc[viv['VTV']==1,'tipov']="Casa/Villa"
viv.loc[viv['VTV']==2,'tipov']="Departamento"
viv.loc[viv['VTV']==3,'tipov']="Cuarto"
viv.loc[viv['VTV']==4,'tipov']="Mediagua"
viv.loc[viv['VTV']==5,'tipov']="Rancho"
viv.loc[(viv['VTV']==6) | (viv['VTV']==7),'tipov']="Covacha/Choza"
viv.loc[(viv['VTV']==8),'tipov']="Otro"

Ahora filtramos los datos para centrarnos en las viviendas particulares (excluyendo las colectivas):

In [None]:
vivpar=viv.loc[viv['VTV']<=8].copy()

Para que las barras del gráfico salgan ordenadas según el código de la variable VTV, ordenamos la tabla por dicha variable:

In [None]:
vivpar=vivpar.sort_values("VTV")

Creamos el gráfico:

In [None]:
fig,ax=plt.subplots()  # Aquí se indica que queremos crear una figura (fig) que contiene un gráfico (ax)
sns.histplot(data=vivpar,x="tipov",stat="percent",ax=ax)  # Se indica que queremos representar un histograma, que muestre los porcentajes
ax.tick_params(axis='x', rotation=90) # Etiquetas del eje x giradas 90 grados para visualizarse mejor.
ax.set_ylabel("Porcentaje") # Título del eje y, donde se indica la unidad de medida
ax.set_xlabel("")  # No queremos título en el eje x, porque se sobre entiende.
ax.set_title("¿QUÉ TIPO DE VIVIENDA TENEMOS?")  # Título de la figura
plt.show() # Comando para que se dibuje el gráfico.

## 4. Construcción del indicador de calidad de las viviendas

### 4.1. Diseño del indicador.


Nuestro objetivo es construir un indicador sintético (o compuesto) de calidad de las viviendas. Los indicadores o índices sintéticos se construyen para medir algo que no es directamente cuantificable. Por ejemplo, la altura de los edificios o el material del suelo sí es observable y cuantificable directamente, pero *la calidad* de las viviendas depende del criterio que fije el investigador. Por tanto, lo primero que hay que hacer es definir el concepto de calidad de la vivienda y, posteriormente, operacionalizarlo.  
**En general, hay que seguir estos pasos:**
1. **Conceptualización**: definir el fenómeno que se quiere medir.
2. **Dimensiones**: precisar las dimensiones del fenómeno a medir.  
3. **Indicadores parciales**: qué indicadores vamos a utilizar para medir cada dimensión.
4. **Variables simples**: las variables que van a formar parte de cada indicador parcial.
5. **Método de agregación**: decidir el método de agregación de las variables simples en indicadores parciales, de los indicadores parciales en dimensiones y de las dimensiones en el indicador sintético. La media aritmética es el método más sencillo e implica que los diferentes componentes tienen la misma importancia y se compensan perfectamente entre sí (es decir, un valor alto en uno compensa un valor bajo en otro). Otros métodos son, por ejemplo, la media ponderada, donde a cada componente se le asigna un peso diferente, y la media geométrica, que evita que los componentes sean directamente compensables entre sí.

Aplicado al indicador que queremos construir:
1.  Definimos la calidad de la vivienda como la calidad de los materiales, el estado de conservación y el nivel de salubridad.
2. Tenemos tres dimensiones: calidad de los materiales, estado de conservación y nivel de salubridad.
3. Vamos a usar los siguientes indicadores parciales:
 * Calidad de los materiales: material predominante en el techo (V01), paredes (V03) y piso (V05).
 * Estado de conservación: estado del techo (V02), paredes (V04) y suelo (V06).
 * Salubridad: suministro de agua por red pública (V7), conectado a alcantarillado (V09) y basura al carro corrector (V13).
4. En el punto anterior se incluye entre paréntesis las variables del censo que vamos a utilizar.
5. El método de agregación será siempre, por sencillez, la media aritmética.

### 4.2. Variables simples.

#### 4.2.1. Calidad de materiales

In [None]:
# Techo (1 si hormigón o teja; 0 en los demás casos)
vivpar['techo_mat']=0
vivpar.loc[((vivpar['V01']=="1") | (vivpar['V01']=="4")), 'techo_mat']=1

# Pared (1 si hormigón o ladrillo-bloque; 0 en los demás casos)
vivpar['pared_mat']=0
vivpar.loc[((vivpar['V03']=="1") | (vivpar['V03']=="2")), 'pared_mat']=1

# Piso (1 si madera tratada (duela, parquet...) o baldosas-cerámica; 0 en los demás casos)
vivpar['piso_mat']=0
vivpar.loc[((vivpar['V05']=="1") | (vivpar['V05']=="3")), 'piso_mat']=1

# Echamos un vistazo a las variables creadas
vivpar[['techo_mat','pared_mat','piso_mat']].describe()

#### 4.2.2. Estado de conservación



In [None]:
# Techo (1 si bueno, 0 el resto)
vivpar['techo_est']=0
vivpar.loc[(vivpar['V02']=="1") , 'techo_est']=1

# Paredes (1 si bueno, 0 el resto)
vivpar['pared_est']=0
vivpar.loc[(vivpar['V04']=="1") , 'pared_est']=1

# Suelo (1 si bueno, 0 el resto)
vivpar['piso_est']=0
vivpar.loc[(vivpar['V06']=="1") , 'piso_est']=1

# Echamos un vistazo a las variables creadas
vivpar[['techo_est','pared_est','piso_est']].describe()

#### 4.2.3. Salubridad

In [None]:
# Suministro de agua (1 si red pública; 0 el resto)
vivpar['agua']=0
vivpar.loc[(vivpar['V07']=="1") , 'agua']=1

# Alcantarillado (1 si red pública o pozo séptico, 0 el resto)
vivpar['alcant']=0
vivpar.loc[((vivpar['V09']=="1") | (vivpar['V09']=="2") ), 'alcant']=1

# Basura (1 si carro colector, 0 el resto)
vivpar['basura']=0
vivpar.loc[(vivpar['V13']=="1") , 'basura']=1

# Echamos un vistazo a las variables creadas
vivpar[['agua','alcant','basura']].describe()

### 4.3. Construcción de los indicadores parciales

In [None]:
# Calidad de materiales
vivpar["material"]=(vivpar['techo_mat']+vivpar['pared_mat']+vivpar['piso_mat'])/3
# Estado de conservación
vivpar["estado"]=(vivpar['techo_est']+vivpar['pared_est']+vivpar['piso_est'])/3
# Salubridad
vivpar["salu"]=(vivpar['agua']+vivpar['alcant']+vivpar['basura'])/3

# Echamos un vistazo a los indicadores parciales creados
vivpar[['material','estado','salu']].describe()

**Nota metodológica**: nótese que en este caso todas las variables son directamente agregables, ya que tienen escala de 0 a 1. Si las escalas fueran diferentes habría que estandarizar las variables para convertirlas a la misma escala. De lo contrario, las variables con una escala mayor (por ejemplo, de 0 a 100) pesarían más en el indicador.

### 4.4. Construcción del indicador sintético

In [None]:
# Indicador sintético de calidad de las viviendas:
vivpar["calidad"]=(vivpar['material']+vivpar['alcant']+vivpar['basura'])/3

# Echamos un vistazo al indicador sintético de calidad de las viviendas:
vivpar['calidad'].describe()

In [None]:
# Distribución de frecuencias
sns.histplot(data=vivpar,x="calidad",stat="percent")

## 5. Agregaciones espaciales

Hasta ahora hemos estado usando datos individuales (a nivel de vivienda), pero con frecuencia nos interesa conocer los datos agregados de diferentes unidades geográficas, como la parroquia o el cantón.  
Vamos a agrupar las filas de la tabla por parroquias usando la función ```groupby()```.

Primero vamos a crear una variable con el código identificativo de cada parroquia. Según el INEC, el código de la parroquia es la concatenación de los dos dígitos del código provincial, los dos del cantonal y los dos del parroquial.

In [None]:
# 1. Convertimos las columnas o variables a usar en formato texto o string (str)
vivpar['prov']=vivpar['I01'].astype(str) # 2 dígitos provincia
vivpar['cant']=vivpar['I02'].astype(str) # 1/2 dígitos cantón
vivpar['parr']=vivpar['I03'].astype(str) # 2 dígitos parroquia

# 2. Añadimos 0 al código cantonal cuando el valor es menor que 10 y, en consecuencia, tiene solo un dígito. Al hacer esto, conseguimos que tenga 2 dígitos.
vivpar.loc[(vivpar['I02']<10),'cant']="0"+vivpar['cant']

# 3. Creamos la variable identificativa de cada parroquia:
vivpar['DPA_PARROQ']=vivpar['prov']+vivpar['cant']+vivpar['parr']


Ahora ya podemos agrupar por parroquias usando la función ```groupby()```.

In [None]:
columnas=['DPA_PARROQ','material', 'estado', 'salu', 'calidad']
viv_parroq=vivpar[columnas].groupby(by='DPA_PARROQ', as_index=False).mean()


Esta es la tabla agregada a nivel parroquial:

In [None]:
viv_parroq

Obsérvese que la función ```mean()``` tiene sentido para agregar estas variables, pero téngase en cuenta que este no siempre es el caso.

Ahora vamos a echar un vistazo a la distribución de frecuencias a este nivel agregado:

In [None]:
sns.histplot(data=viv_parroq,x="calidad",stat="percent")

## 6. Representación geográfica

A continuación vamos a representar los datos geográficamente. Para ello, tenemos que importar la capa geográfica de parroquias de Ecuador. Dicha capa la descargamos inicialmente y la debemos tener descomprimida en nuestro ordenador. Debemos subir a Google Colab todos los archivos con el nombre *nxparroquias* (7 en total).

Leemos el archivo para crear la capa geográfica. Usamos el módilo ```geopandas```importando como ```gpd```:

In [None]:
parroquias=gpd.read_file("nxparroquias.shp")

Echamos un vistazo a la tabla:

In [None]:
parroquias

Vemos que hay una columna denominada DPA_PARROQ, con el código identificativo de cada parroquia. Otra que nos interesa contiene el nombre de cada parroquia y también otra importante es la denominada "geometry". Esta última contiene la información geográfica.

Con ```geopandas```es muy fácil representar gráficamente:

In [None]:
parroquias.plot()

El sistema de coordenadas geográficas puede consultarse con la propiedad ```crs```:

In [None]:
parroquias.crs

Solo necesitamos las parroquias de Loja. Por tanto, aplicamos el siguiente filtro:

In [None]:
# Seleccionamos las parroquias de Loja (códgo parroquias 11)
loja=parroquias.loc[parroquias.DPA_PROVIN=="11"]
loja

Como paso previo a representar gráficamente, necesitamos unir la tabla con datos geográficos (loja) con la tabla anterior (viv_parroq). A la hora de enlazar dos tablas, necesitamos que tengan una columna común que permita unirlas. Dicha columna es DPA_PARROQ:

In [None]:
# Unimos las dos tablas
loja=loja.merge(viv_parroq,on="DPA_PARROQ")
loja

Finalmente, creamos la representación gráfica del índice de calidad de las viviendas:

In [None]:
loja.plot("calidad", legend=True)

Para mejorar el aspecto del mapa, empleados el siguiente código:

In [None]:
fig, ax=plt.subplots(dpi=100)
loja.plot("calidad", legend=True,legend_kwds={'shrink': 0.5},ax=ax)
ax.axis("off")
ax.set_title("Índice de calidad de las viviendas en Loja",size="12")
fig.text(0.2,0.05,"Fuente: INEC. Elaboración propia.",size="10")
plt.show()

## Ejercicios propuestos

1. Representar geográficamente cada uno de los tres indicadores parciales.
2. Crear un nuevo indicador que sea el porcentaje de viviendas cuyo servicio de luz (energía) eléctrica provenga principalmente de la red de empresa eléctrica de servicio público (variable V10). Calcular la media de dicha variable y mostrar su distribución de frecuencias.
3. Representar geográficamente el indicador anterior

---

**Consejos básicos**:  
Al principio, la mejor manera de escribir código es reutilizando código ya escrito y adaptándolo a nuestras necesidades. Por ejemplo, los ejercicios propuestos se pueden realizar fácilmente usando el código que se proporciona en este notebook, simplemente introduciendo modificaciones mínimas.  
Hay que tener en cuenta que cualquier mínimo error al escribir el código, por pequeño que sea (falta un paréntesis, una letra aparece en mayúscula cuando debe estar en minúscula, falta una coma, una comilla, etc) nos va a dar error al ejecutar. Tenéis que ser muy cuidadosos y todo tiene que estar literalmente bien escrito.  Por ello, es importante reutilizar el código ya escrito y fijarse muy bien en que no falte nada.

---


## Recursos para el aprendizaje autónomo:

Existe una enorme cantidad de recursos disponibles en Internet para aprender a usar ```Pandas``` y más en general ```Python```.  
Por ejemplo, este curso aplicado a técnicas geoespaciales:
https://geo-python-site.readthedocs.io/en/latest/  

Hay también cursos gratuitos en plataformas como www.coursera.org o https://www.edx.org/

Es muy común consultar constantemente las dudas en Google. Lo más práctico es escribir la duda en inglés, ya que normalmente hay más ayuda. Suele ser de mucha utilidad las respuestas en el foro https://stackoverflow.com/
<br></br>
Y por supuesto, la ayuda oficial es también muy buen recurso:  
https://pandas.pydata.org/  
https://seaborn.pydata.org/  
https://matplotlib.org/

