# Entrega Módulo 3 - Estadísticas para Data Science

Diplomado de Data Science

Universidad de Santiago de Chile

Alumno: Martín Bonnefoy Valdés

# 1. Introducción

Una de las más grandes problemáticas del desarrollo urbano y las disciplinas que intersectan al tema de la vivienda consiste en la compleja definición y regulación de políticas públicas y sistemas público-privados que permitan el acceso a la vivienda por todos los sectores de la sociedad, y especialmente en el caso de los sectores más vulnerables y con menor capacidad adquisitiva. Históricamente Chile ha enfrentado este desafío a través de múltiples mecanismos y de acuerdo a diferentes lineamientos político-económicos en torno a tanto las distintas formas de producir vivienda y la manera en que esta se distribuye, lo que bajo el actual sistema se configura principalmente a través de un esquema en el cual el estado participa del mercado inmobiliario principalmente como una entidada subsidiaria. Como consecuencia de lo anterior es que en el área de la vivienda existe una compleja relación entre las necesidades -y demandas- habitacionales y las maneras en que según la constitución y legislación actual estas pueden ser resueltas, al necesitar de sistemas que alinéen instituciones, organiaciones y voluntades tanto públicas como privadas.

Esto ha devenido en un conflicto histórico en Chile; la búsqueda por métodos y mecanismos que solucionen y gestionen la problemática de la diferencia entre las viviendas disponibles y las que es necesario de construir de acuerdo a la situación demográfica de cada año y sus proyecciones en el futuro, asi como la generación de sistemas que permitan a las personas que no cuentan con acceso a vivienda el poder acceder a ella. Es así que el concepto de déficit habitacional se constituye no solo como una problemática multiescalar que trasciende a la sola existencia -o ausencia- de vivienda construída.

Es en este contexto que en los últimos meses el déficit habitacional se ha posicionado fuertemente en el discurso político del gobierno actual y en los medios; "Sabemos que estamos ante una emergencia habitacional quizás nunca antes vista en Chile" afirmó el presidente Boric durante su primera cuenta pública en junio de 2022 (1), a pesar de un pasado histórico tanto más severo que el actual (2)(3). Particularmente durante este año el tema del déficit habitacional ha sido un eje clave en la discusión pública en torno a lo urbano, y así lo han reflejado distintos medios y reportajes (4)(5).

Este ejercicio busca explorar los datos existentes en torno al déficit con el fin de indagar sobre la evolución de este en los últimos años y contextualizarla dentro de lo que los datos reflejan. A pesar de la existencia de trabajos y bases de datos en las que esta información ha sido mejor sistematizada y procesada (6) se buscará procesar los resultados de las últimas encuestas CASEN, las que abarcan el periodo 1990-2020, y las que se encuentran disponibles en la página web del Ministerio de Desarrollo Social y Familia (7)(8).

(1) https://www.latercera.com/pulso/noticia/gobierno-anuncia-construccion-de-65-mil-viviendas-para-palear-el-deficit-habitacional-en-chile/6BJP4I27EVDAPHZKHEFPEVHBNU/#:~:text=%E2%80%9CSabemos%20que%20estamos%20ante%20una,entregadas%20a%20fines%20del%20gobierno.

(2) https://revistachilenadederecho.uc.cl/index.php/RGNG/article/view/42949/34745

(3) https://www.ub.edu/geocrit/sn-45-1.htm#N_29_

(4) https://www.24horas.cl/programas/informe-especial/informe-especial-crisis-habitacional-una-bomba-de-tiempo-programa

(5) https://radio.uchile.cl/2022/06/09/deficit-habitacional-35-comunas-concentran-el-55-de-la-falta-de-viviendas-en-el-pais/

(6) https://www.observatoriourbano.cl/estadisticas-habitacionales/

(7) http://observatorio.ministeriodesarrollosocial.gob.cl/encuesta-casen-2022

(8) Para descargar la totalidad de las bases de datos y sus cuestionarios con los nombres que fueron ocupados para este *notebook* acceder al siguiente link: https://drive.google.com/drive/folders/12_8KHVtAqgOSBBrqrHEjilBZ9LWlNzKU?usp=sharing

# 2. Librerías ocupadas

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import inspect

# 3. Consolidación de la base de datos

Cada base de datos descargada desde la fuente corresponde a un vaciado de la totalidad de la encuesta por cada hogar encuestado.
Estas corresponden a:

- Información de cada hogar: Provincia, Comuna, Urbano/Rural, etc.
- Información sobre la composición del hogar encuestado.
- Información de quien responde la encuesta: su relación con el/la jefe/a de hogar, etc.
- Preguntas por los diversos módulos planteados por la encuesta: Educación, Salud, Ingreso, Trabajo, Vivienda, etc.

In [2]:
casen_1990 = pd.read_spss(r'.\CASEN\bbdd_casen_1990.sav')

In [3]:
casen_1990.head()

Unnamed: 0,r,p,Provinci,c,comu,z,f,o,expr,expc,...,ycesaj,yceshaj,yfamaj,yfamhaj,yosuaj,yosuhaj,ysubaj,ysubhaj,ypchaut,ypchaj
0,I,1.0,Arica,1.0,Arica,Urbano,1.0,1.0,81.0,81.0,...,0.0,0.0,4000.0,4000.0,,0.0,4000.0,4000.0,14093.0,19187.0
1,I,1.0,Arica,1.0,Arica,Urbano,1.0,2.0,81.0,81.0,...,0.0,0.0,0.0,4000.0,,0.0,,4000.0,14093.0,19187.0
2,I,1.0,Arica,1.0,Arica,Urbano,1.0,3.0,81.0,81.0,...,0.0,0.0,0.0,4000.0,,0.0,,4000.0,14093.0,19187.0
3,I,1.0,Arica,1.0,Arica,Urbano,1.0,4.0,81.0,81.0,...,0.0,0.0,0.0,4000.0,,0.0,,4000.0,14093.0,19187.0
4,I,1.0,Arica,1.0,Arica,Urbano,1.0,5.0,81.0,81.0,...,0.0,0.0,0.0,4000.0,,0.0,,4000.0,14093.0,19187.0


In [4]:
print(list(casen_1990.columns))

['r', 'p', 'Provinci', 'c', 'comu', 'z', 'f', 'o', 'expr', 'expc', 'numper', 'pco1', 'edad', 'sexo', 'nucleo', 'pco2', 'ecivil', 'v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7', 'v8', 'v9', 'v10', 'v11', 'v12', 'v13', 'v14', 'v15', 'v16', 'v17', 'v18', 'v19', 'v20', 'v21', 'v22', 'v23', 'v24', 'v25', 'v26', 'v27', 'v28', 'v29', 'v30', 'v31', 'e1', 'e2', 'e3', 'e4', 'e5', 'e6', 'e7', 'e8', 'e9', 'e10', 's1', 's2', 's3', 's4', 's5', 's6', 's7', 's8', 's9', 's10', 's11', 's12', 's13', 's14', 's15', 's16', 's17', 's18', 's19', 's20', 's21', 's22', 's23', 's24', 's25', 's26', 's27', 's28', 's29', 's30', 's31', 's32', 's33', 's34', 's35', 's36', 's37', 's38', 's39', 's40', 's41', 's42', 'o1', 'o2', 'o3', 'o4', 'o5', 'o6', 'o7', 'o8', 'o9', 'o10', 'o11', 'o12', 'jd', 'jh', 'p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'esc', 'educ', 'o21', 'oficio', 'rama', 'corte', 'dau', 'daur', 'qaut', 'qautr', 'yopraj', 'yoprhaj', 'ytrabaj', 'ytrabhaj', 'yjubaj', 'yjubhaj', 'yautaj', 'yauthaj', 'ymoneaj'

Cada columna corresponde a una de las preguntas de la encuesta.

In [5]:
casen_1990.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105189 entries, 0 to 105188
Columns: 158 entries, r to ypchaj
dtypes: category(96), float64(62)
memory usage: 59.5 MB


En el caso de la encuesta CASEN 1990, por ejemplo, consiste de 158 respuestas (columnas), las que fueron aplicadas a 105.189 hogares.

In [6]:
casen_1990.describe()

Unnamed: 0,p,c,f,o,expr,expc,numper,edad,nucleo,v11,...,ycesaj,yceshaj,yfamaj,yfamhaj,yosuaj,yosuhaj,ysubaj,ysubhaj,ypchaut,ypchaj
count,105189.0,105189.0,105189.0,105189.0,105189.0,105189.0,105189.0,105189.0,105189.0,105189.0,...,105189.0,105189.0,105189.0,105189.0,161.0,105189.0,12289.0,105189.0,105189.0,105189.0
mean,2.313797,5.61342,97.045375,3.000475,123.183061,77.633631,4.97476,28.520967,1.137533,5.376779,...,7.293976,32.859691,180.324264,910.769377,16807.931677,94.286627,3016.357962,1695.037095,35088.9,38127.41
std,1.416317,7.410629,90.810956,1.867395,93.806538,84.914595,2.111875,20.363666,0.419979,2.165791,...,417.318353,861.195343,812.607399,1803.860433,29681.447103,2336.45518,4927.325677,3768.721787,74397.78,76840.76
min,1.0,1.0,1.0,1.0,6.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,200.0,0.0,200.0,0.0,0.0,0.0
25%,1.0,1.0,33.0,2.0,61.0,0.0,4.0,12.0,1.0,4.0,...,0.0,0.0,0.0,0.0,2500.0,0.0,1100.0,0.0,10469.0,11955.0
50%,2.0,2.0,70.0,3.0,103.0,56.0,5.0,25.0,1.0,5.0,...,0.0,0.0,0.0,0.0,7300.0,0.0,2200.0,510.0,18406.0,20533.0
75%,3.0,7.0,133.0,4.0,151.0,116.0,6.0,42.0,1.0,6.0,...,0.0,0.0,0.0,1500.0,15000.0,0.0,3300.0,2200.0,34398.0,37777.0
max,6.0,32.0,588.0,19.0,480.0,399.0,19.0,99.0,8.0,26.0,...,82000.0,82000.0,66000.0,66000.0,200000.0,200000.0,200000.0,200000.0,4582611.0,4609721.0


Para este trabajo la pregunta sobre la cual se busca indagar es "¿Su hogar, bajo qué situación ocupa el sitio?" del módulo de Vivienda, en la cual se categoriza el esquema bajo el cual el hogar reside en la vivienda.
A lo largo de los 30 años de aplicación de la encuesta esta pregunta ha sido identificada mediante un código distinto. En el caso de la encuesta CASEN 1990, por ejemplo, esta se corresponde al código 'v18'

In [7]:
casen_1990['v18'].value_counts()

Propio pagado          47156
Cedido                 25336
Arrendado              13330
Propio pagándose       11735
Departamento            3063
Ocupación irregular     2368
Otros                   2201
Name: v18, dtype: int64

Con el objetivo de determinar aquellos hogares en los que existiría una situación de falta de acceso a vivienda se busca generar un criterio de agrupamiento (filtro) que corresponda a toda instancia donde el hogar encuestado se encontrara en situaciones de ocupación irregular o categorías que recogen el allegamiento tal como la respuesta de "Otros".

Para ello se genera un dataframe, para cada encuesta, en la que solo se levante la pregunta de situación del sitio.

In [8]:
# Pregunta sitio casen 1990: v18
pregunta_sitio = ['v18']

casen_1990 = pd.read_spss(r'.\CASEN\bbdd_casen_1990.sav', usecols = pregunta_sitio)

# Pregunta sitio casen 1992-2000: v1

pregunta_sitio = ['v1']

casen_1992 = pd.read_spss(r'.\CASEN\bbdd_casen_1992.sav', usecols = pregunta_sitio)
casen_1994 = pd.read_spss(r'.\CASEN\bbdd_casen_1994.sav', usecols = pregunta_sitio)
casen_1996 = pd.read_spss(r'.\CASEN\bbdd_casen_1996.sav', usecols = pregunta_sitio)
casen_1998 = pd.read_spss(r'.\CASEN\bbdd_casen_1998.sav', usecols = pregunta_sitio)
casen_2000 = pd.read_spss(r'.\CASEN\bbdd_casen_2000.sav', usecols = pregunta_sitio)

# Pregunta sitio casen 2003-2009: V1

pregunta_sitio = ['V1']

casen_2003 = pd.read_spss(r'.\CASEN\bbdd_casen_2003.sav', usecols = pregunta_sitio)
casen_2006 = pd.read_spss(r'.\CASEN\bbdd_casen_2006.sav', usecols = pregunta_sitio)
casen_2009 = pd.read_spss(r'.\CASEN\bbdd_casen_2009.sav', usecols = pregunta_sitio)

# Pregunta sitio casen 2011: v3

pregunta_sitio = ['v3']

casen_2011 = pd.read_spss(r'.\CASEN\bbdd_casen_2011.sav', usecols = pregunta_sitio)

# Pregunta sitio casen 2013-2017: v9

pregunta_sitio = ['v9']

casen_2013 = pd.read_spss(r'.\CASEN\bbdd_casen_2013.sav', usecols = pregunta_sitio)
casen_2015 = pd.read_spss(r'.\CASEN\bbdd_casen_2015.sav', usecols = pregunta_sitio)
casen_2017 = pd.read_spss(r'.\CASEN\bbdd_casen_2017.sav', usecols = pregunta_sitio)

# Pregunta sitio casen 2020: v13

pregunta_sitio = ['v13']

casen_2020 = pd.read_spss(r'.\CASEN\bbdd_casen_2020.sav', usecols = pregunta_sitio)


In [9]:
# Intento de realizar de manera interable:

# casen_1990a2017 = (casen_1990, casen_1992, casen_1994, casen_1996, casen_1998, casen_2000, casen_2003, casen_2006, casen_2009, casen_2011, casen_2013,  casen_2015, casen_2017, casen_2020)

# for i in casen_1990a2017:
    # i = pd.DataFrame(i.value_counts().reset_index(name='conteo'))

Se intentó de resolver a través de la iteración pero a través del bucle for no se obtuvo el resultado esperado.
Por lo tanto el ejercicio se realiza manual, línea por línea.

In [10]:
# Convertir en dataframe cada resultado de casen para la pregunta de situación de vivienda

sitio_1990 = pd.DataFrame(casen_1990.value_counts().reset_index(name='conteo'))
sitio_1992 = pd.DataFrame(casen_1992.value_counts().reset_index(name='conteo'))
sitio_1994 = pd.DataFrame(casen_1994.value_counts().reset_index(name='conteo'))
sitio_1996 = pd.DataFrame(casen_1996.value_counts().reset_index(name='conteo'))
sitio_1998 = pd.DataFrame(casen_1998.value_counts().reset_index(name='conteo'))
sitio_2000 = pd.DataFrame(casen_2000.value_counts().reset_index(name='conteo'))
sitio_2003 = pd.DataFrame(casen_2003.value_counts().reset_index(name='conteo'))
sitio_2006 = pd.DataFrame(casen_2006.value_counts().reset_index(name='conteo'))
sitio_2009 = pd.DataFrame(casen_2009.value_counts().reset_index(name='conteo'))
sitio_2011 = pd.DataFrame(casen_2011.value_counts().reset_index(name='conteo'))
sitio_2013 = pd.DataFrame(casen_2013.value_counts().reset_index(name='conteo'))
sitio_2015 = pd.DataFrame(casen_2015.value_counts().reset_index(name='conteo'))
sitio_2017 = pd.DataFrame(casen_2017.value_counts().reset_index(name='conteo'))
sitio_2020 = pd.DataFrame(casen_2020.value_counts().reset_index(name='conteo'))


In [11]:
# Normalizar el nombre de la columna de pregunta

sitio_1990 = sitio_1990.rename(columns={'v18':'situacion_sitio'})
sitio_1992 = sitio_1992.rename(columns={'v1':'situacion_sitio'})
sitio_1994 = sitio_1994.rename(columns={'v1':'situacion_sitio'})
sitio_1996 = sitio_1996.rename(columns={'v1':'situacion_sitio'})
sitio_1998 = sitio_1998.rename(columns={'v1':'situacion_sitio'})
sitio_2000 = sitio_2000.rename(columns={'v1':'situacion_sitio'})
sitio_2003 = sitio_2003.rename(columns={'V1':'situacion_sitio'})
sitio_2006 = sitio_2006.rename(columns={'V1':'situacion_sitio'})
sitio_2009 = sitio_2009.rename(columns={'V1':'situacion_sitio'})
sitio_2011 = sitio_2011.rename(columns={'v3':'situacion_sitio'})
sitio_2013 = sitio_2013.rename(columns={'v9':'situacion_sitio'})
sitio_2015 = sitio_2015.rename(columns={'v9':'situacion_sitio'})
sitio_2017 = sitio_2017.rename(columns={'v9':'situacion_sitio'})
sitio_2020 = sitio_2020.rename(columns={'v13':'situacion_sitio'})

In [12]:
# Luego se busca determinar todas las categorías propuestas a lo largo de todas las encuestas

sitio_1990a2020 = (sitio_1990, sitio_1992, sitio_1994, sitio_1996, sitio_1998, sitio_2000, sitio_2003, sitio_2006, sitio_2009, sitio_2011, sitio_2013,  sitio_2015, sitio_2017, sitio_2020)

lista_sitios = []

for i in sitio_1990a2020:
    lista_sitios.append(i['situacion_sitio'].unique())    

# Se generan listas dentro de otra, por lo que se debe desanidar

lista_sitios_desanidado = []

for sublist in lista_sitios:
    for item in sublist:
        lista_sitios_desanidado.append(item)

# Eliminación de duplicados

lista_sitios_sinduplicados = list(dict.fromkeys(lista_sitios_desanidado))


In [13]:
print(lista_sitios_sinduplicados)

['Propio pagado', 'Cedido', 'Arrendado', 'Propio pagándose', 'Departamento', 'Ocupación irregular', 'Otros', 'Departamento o condominio', 'Propiedad conjunta del sitio', 'Otro', 'Cedido por servicios', 'Propiedad conjunta', 'Departamento, condominio u otra de Ley de Propiedad Horiz.', 'Ocupación irregular  (de hecho)', 'Usufructo', 'Tierras indígenas', 'Comunidad Agrícola', 'Propia Pagada', 'USUFRUCTO', 'ARRENDADO', 'Propia Pagandose', 'CEDIDO POR SERVICIOS', 'Departamento, Condominio o Conventillo', 'PROPIEDAD CONJUNTA', 'OCUPACION IRREGULAR', 'DEPARTAMENTO/CONDOMINIO', 'TIERRAS INDIGENAS', 'OTRO', 'COMUNIDAD AGRICOLA', 'Propio Pagado', 'Cedido por Familiar u otro', 'Propio Pagándose', 'Cedido por Servicios', 'Propiedad Conjunta Pagada', 'Ocupación Irregular', 'Propia Conjunta Pagándose', 'Cedido por familiar u otro', 'Arrendado sin contrato', 'Arrendado con contrato', 'Propiedad compartida (pagada) con otras viviendas del sitio', 'Usufructo (sólo uso y goce)', 'Ocupación irregular (d

Desde lo anterior se genera una lista con todos aquellos valores que correspondan a situaciones de falta de acceso a vivienda.

In [14]:
sin_sitio = ['Ocupación irregular',
             'Otros',
             'Otro',
             'Ocupación irregular  (de hecho)',
             'Usufructo',
             'USUFRUCTO',
             'OCUPACION IRREGULAR',
             'OTRO',
             'Ocupación Irregular',
             'Usufructo (sólo uso y goce)',
             'Ocupación irregular (de hecho)',
             'Otro.',
             'Sin dato',
             'Otro. Especifique',
             'Poseedor irregular',
             'Otra situación',
             ]

Se asume que este filtro no permite caracterizar con exactitud la situación de cada hogar, habiendo casos como las cesiones, las que bien podrían originarse en la falta del grupo familiar por acceder de manera independiente a una vivienda más que una circunstancia arbitraria.

In [15]:
# Se genera una función que asigna un valor a aquellos casos donde se especificaron las opciones anteriores

def tipo_sitio(x):
    if x in sin_sitio:
        return 'Carece de vivienda'
    else:
        return 'Cuenta con acceso a vivienda'

In [16]:
# Se aplica la función para cada encuesta casen

for i in sitio_1990a2020:
    i['agrupacion'] = i['situacion_sitio'].apply(lambda x: tipo_sitio(x))

In [17]:
# Se incorpora una función que permite rescatar el año de cada encuesta desde el nombre de la variable con el fin de
# transformar nombres de columnas

def retrieve_name(var):
    callers_local_vars = inspect.currentframe().f_back.f_locals.items()
    return [var_name for var_name, var_val in callers_local_vars if var_val is var]

In [18]:
for i in sitio_1990a2020:
    anio = str(retrieve_name(i)[0].split('_')[1])
    print(f'Año: {anio}')
    i = i.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":anio})

Año: 1990
Año: 1992
Año: 1994
Año: 1996
Año: 1998
Año: 2000
Año: 2003
Año: 2006
Año: 2009
Año: 2011
Año: 2013
Año: 2015
Año: 2017
Año: 2020


In [19]:
sitio_1994

Unnamed: 0,situacion_sitio,conteo,agrupacion
0,Propio pagado,89605,Cuenta con acceso a vivienda
1,Otro,27111,Carece de vivienda
2,Arrendado,21211,Cuenta con acceso a vivienda
3,Cedido por servicios,13190,Cuenta con acceso a vivienda
4,Propio pagándose,10490,Cuenta con acceso a vivienda
5,Propiedad conjunta,5636,Cuenta con acceso a vivienda
6,"Departamento, condominio u otra de Ley de Prop...",4748,Cuenta con acceso a vivienda
7,Ocupación irregular (de hecho),2476,Carece de vivienda
8,Usufructo,1878,Carece de vivienda
9,Tierras indígenas,1095,Cuenta con acceso a vivienda


La iteración no de resultados, por lo que se mantiene como método trabajar línea por línea

In [20]:
# Se modifica cada encuesta tal de conservar solo los datos agrupados

sitio_1990 = sitio_1990.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"1990"})
sitio_1992 = sitio_1992.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"1992"})
sitio_1994 = sitio_1994.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"1994"})
sitio_1996 = sitio_1996.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"1996"})
sitio_1998 = sitio_1998.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"1998"})
sitio_2000 = sitio_2000.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2000"})
sitio_2003 = sitio_2003.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2003"})
sitio_2006 = sitio_2006.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2006"})
sitio_2009 = sitio_2009.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2009"})
sitio_2011 = sitio_2011.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2011"})
sitio_2013 = sitio_2013.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2013"})
sitio_2015 = sitio_2015.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2015"})
sitio_2017 = sitio_2017.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2017"})
sitio_2020 = sitio_2020.groupby('agrupacion').sum().reset_index().rename(columns={"conteo":"2020"})


In [21]:
# Se combinan todas las agrupaciones con el fin de obtener una tabla unificada

sitio_consolidado = pd.merge(sitio_1990, sitio_1992, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_1994, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_1996, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_1998, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2000, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2003, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2006, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2009, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2011, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2013, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2015, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2017, left_on='agrupacion', right_on='agrupacion', how='left')
sitio_consolidado = pd.merge(sitio_consolidado, sitio_2020, left_on='agrupacion', right_on='agrupacion', how='left')



In [22]:
sitio_consolidado

Unnamed: 0,agrupacion,1990,1992,1994,1996,1998,2000,2003,2006,2009,2011,2013,2015,2017,2020
0,Carece de vivienda,4569,2800,31465,22168,5747,7676,7523,4758,4741,10321,8194,8183,7511,6931
1,Cuenta con acceso a vivienda,100620,140659,146592,112094,182613,245072,249554,264115,242183,284470,210297,258785,208928,178506


In [23]:
# Se genera una lista de los años para ser ocupada posteriormente en la transposición

anios = list(sitio_consolidado.columns)[1:]
anios = list(sitio_consolidado.columns)

anios

['agrupacion',
 '1990',
 '1992',
 '1994',
 '1996',
 '1998',
 '2000',
 '2003',
 '2006',
 '2009',
 '2011',
 '2013',
 '2015',
 '2017',
 '2020']

In [24]:
sitio_consolidado_transpuesto = sitio_consolidado.rename(columns={'agrupacion' : 'Año'})

# Se agrega una fila que duplica los encabezados

sitio_consolidado_transpuesto.loc[-1] = anios
sitio_consolidado_transpuesto.index = sitio_consolidado_transpuesto.index + 1

# Se renombra la columna de encabezados para prepararla para la transposición

dict = {'Año':0, '1990':1, '1992':2,'1994':3,'1996':4,'1998':5,'2000':6,'2003':7,'2006':8,'2009':8,'2011':9,'2011':10,'2013':11,'2015':12,'2017':13}

sitio_consolidado_transpuesto.rename(columns=dict, inplace=True)
sitio_consolidado_transpuesto = sitio_consolidado_transpuesto.set_index(0).transpose()
sitio_consolidado_transpuesto = sitio_consolidado_transpuesto.reset_index(drop=True)
sitio_consolidado_transpuesto = sitio_consolidado_transpuesto.rename(columns={'agrupacion':'Año'})

# Se reordenan las columnas

sitio_consolidado_transpuesto = sitio_consolidado_transpuesto.loc[:, ['Año', 'Carece de vivienda', 'Cuenta con acceso a vivienda']]

In [25]:
sitio_consolidado_transpuesto

Unnamed: 0,Año,Carece de vivienda,Cuenta con acceso a vivienda
0,1990,4569,100620
1,1992,2800,140659
2,1994,31465,146592
3,1996,22168,112094
4,1998,5747,182613
5,2000,7676,245072
6,2003,7523,249554
7,2006,4758,264115
8,2009,4741,242183
9,2011,10321,284470


In [26]:
# column_names = list(sitio_consolidado_transpuesto.columns.values)

# column_names

In [27]:
# Se realiza una copia de la matriz

df = sitio_consolidado_transpuesto.copy()
df

Unnamed: 0,Año,Carece de vivienda,Cuenta con acceso a vivienda
0,1990,4569,100620
1,1992,2800,140659
2,1994,31465,146592
3,1996,22168,112094
4,1998,5747,182613
5,2000,7676,245072
6,2003,7523,249554
7,2006,4758,264115
8,2009,4741,242183
9,2011,10321,284470


# 4. Evaluación de valores absolutos

De acuerdo a lo planteado para el ejercicio se busca identificar el estado de el déficit habitacional a partir de la presencia de hogares en los que se puede afirmar que no habría acceso a vivienda, de acuerdo al filtro realizado anteriormente.

In [28]:
fig = go.Figure(data=[
    go.Bar(name='Carece de vivienda',
           x=df['Año'],
           y=df['Carece de vivienda'],
           text=df['Carece de vivienda'],
           marker_color='darksalmon'
           
           ),
    
    go.Bar(name='Cuenta con vivienda',
           x=df['Año'],
           y=df['Cuenta con acceso a vivienda'],
           text=df['Cuenta con acceso a vivienda'],
           marker_color='teal'
           ),
    
])

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')

fig.update_layout(barmode='group',
                  uniformtext_minsize=8,
                  uniformtext_mode='hide',
                  width=1000,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Evolución de situación habitacional según CASEN 1990-2020",'x':0.5},
                  )

fig.show()

El gráfico de barras comparadas no permite visualizar correctamente la evolución en el tiempo de la agrupación definida para aquellas personas que no contarían con acceso a vivienda, debido a la diferencia de escala.

Se propone como una primera alternativa trabajar mediante una escala logarítmica para el eje Y.


In [29]:
fig = go.Figure(data=[
    go.Bar(name='Carece de vivienda',
           x=df['Año'],
           y=df['Carece de vivienda'],
           text=df['Carece de vivienda'],
           marker_color='darksalmon'
           
           ),
    
    go.Bar(name='Cuenta con vivienda',
           x=df['Año'],
           y=df['Cuenta con acceso a vivienda'],
           text=df['Cuenta con acceso a vivienda'],
           marker_color='teal'
           ),
    
])

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')

fig.update_layout(barmode='group',
                  uniformtext_minsize=8,
                  uniformtext_mode='hide',
                  width=1000,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Evolución de situación habitacional según CASEN 1990-2020 (escala logarítmica)",'x':0.5},
                  )

fig.update_yaxes(type='log')

fig.show()

En los años 1994 y 1996 se identificarían valores atípicos, los que se busca explicar a través de explorar las opciones dadas en dichas encuestas.

In [30]:
casen_1994.value_counts()

v1                                                        
Propio pagado                                                 89605
Otro                                                          27111
Arrendado                                                     21211
Cedido por servicios                                          13190
Propio pagándose                                              10490
Propiedad conjunta                                             5636
Departamento, condominio u otra de Ley de Propiedad Horiz.     4748
Ocupación irregular  (de hecho)                                2476
Usufructo                                                      1878
Tierras indígenas                                              1095
Comunidad Agrícola                                              617
dtype: int64

In [31]:
casen_1996.value_counts()

v1                                    
Propia Pagada                             66332
USUFRUCTO                                 19428
ARRENDADO                                 15616
Propia Pagandose                          11585
CEDIDO POR SERVICIOS                       7259
Departamento, Condominio o Conventillo     5279
PROPIEDAD CONJUNTA                         3402
OCUPACION IRREGULAR                        2104
DEPARTAMENTO/CONDOMINIO                    1688
TIERRAS INDIGENAS                           678
OTRO                                        636
COMUNIDAD AGRICOLA                          255
dtype: int64

In [32]:
casen_1998.value_counts()

v1                        
Propio Pagado                 95405
Cedido por Familiar u otro    28567
Arrendado                     23372
Propio Pagándose              19707
Cedido por Servicios           9138
Propiedad Conjunta Pagada      5879
Usufructo                      2523
Ocupación Irregular            2204
Otro                           1020
Propia Conjunta Pagándose       545
dtype: int64

Para el caso del año 1994 se identifica que correspondería a amplitud de la categoría "Otro", la que posteriormente se habría desagregado en distintas opciones, algunas de las cuales no habrían sido consideradas dentro del filtro diseñado para detectar casos de hogares carentes de acceso a vivienda.

En el caso del año 1996 correspondería a la categoría "USUFRUCTO", la que posteriormente habría disminuído tajantemente. No es posible de determinar el origen de esto.

Con el fin de poder identificar las proyecciones del aumento de hogares sin acceso a vivienda esta se grafica este valor de manera independiente.

In [33]:
fig = px.scatter(df,
                 x="Año",
                 y="Carece de vivienda",
                 trendline="ols")


fig.update_layout(width=600,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Hogares sin acceso a vivienda según CASEN 1990-2020",'x':0.5},
                  )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.show()

A partir de la aplicación de una regresión local simple se identifica que, a diferencia de lo señalado en la introducción el déficit habitacional estaría en descenso.

# 5. Evaluación de valores porcentuales

Los gráficos análisis presentan un problema en tanto corresponden a valores absolutos, no proporcionales respecto al total de hogares encuestados. En este sentido se observa que el aumento de valores absolutos no estaría tomando en cuenta el aumento en hogares encuestados, el que estaría en directa relación con el aumento demográfico en el país.

In [34]:
df['Hogares encuestados'] = (df['Carece de vivienda'] + df['Cuenta con acceso a vivienda'])

In [35]:
df

Unnamed: 0,Año,Carece de vivienda,Cuenta con acceso a vivienda,Hogares encuestados
0,1990,4569,100620,105189
1,1992,2800,140659,143459
2,1994,31465,146592,178057
3,1996,22168,112094,134262
4,1998,5747,182613,188360
5,2000,7676,245072,252748
6,2003,7523,249554,257077
7,2006,4758,264115,268873
8,2009,4741,242183,246924
9,2011,10321,284470,294791


In [36]:
# fig = px.scatter(df,
#                  x="Año",
#                  y="Hogares encuestados",)


# fig.update_layout(width=600,
#                   height=400,
#                   xaxis_tickangle=-45,
#                   xaxis_title="Año",
#                   yaxis_title="Cantidad de hogares",
#                   title={'text':"Cantidad de hogares encuestados en CASEN 1990-2020",'x':0.5},
#                   )

# fig.update_traces(
#     marker_color='indianred',
#     marker_line_color='lightsalmon',
#     marker_line_width=1.5,
#     opacity=0.6
#     )

# fig.show()

In [37]:
fig = go.Figure(data=[
    go.Bar(name='Cuenta con vivienda',
           x=df['Año'],
           y=df['Hogares encuestados'],
           text=df['Hogares encuestados'],
       #     textposition='auto',
        #    marker_color='lightsalmon'
           marker_color='teal'
           ),
    
])

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')

fig.update_layout(barmode='group',
                  uniformtext_minsize=8,
                  uniformtext_mode='hide',
                  width=900,
                  height=500,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Cantidad de hogares encuestados CASEN 1990-2020",'x':0.5},
                  )

fig.show()

Se genera como solución al problema señalado el generar columnas que calculan los valores porcentuales respecto a la cantidad de hogares encuestados para ambas categorías, con el fin de identificar su evolución no absoluta sino relativa.

In [38]:
df['Carece de vivienda (porcentual)'] = (df['Carece de vivienda'] / df['Hogares encuestados'])
df['Cuenta con acceso a vivienda (porcentual)'] = (df['Cuenta con acceso a vivienda'] / df['Hogares encuestados'])

In [39]:
df

Unnamed: 0,Año,Carece de vivienda,Cuenta con acceso a vivienda,Hogares encuestados,Carece de vivienda (porcentual),Cuenta con acceso a vivienda (porcentual)
0,1990,4569,100620,105189,0.043436,0.956564
1,1992,2800,140659,143459,0.019518,0.980482
2,1994,31465,146592,178057,0.176713,0.823287
3,1996,22168,112094,134262,0.16511,0.83489
4,1998,5747,182613,188360,0.030511,0.969489
5,2000,7676,245072,252748,0.03037,0.96963
6,2003,7523,249554,257077,0.029264,0.970736
7,2006,4758,264115,268873,0.017696,0.982304
8,2009,4741,242183,246924,0.0192,0.9808
9,2011,10321,284470,294791,0.035011,0.964989


In [40]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df['Año'], y=df['Carece de vivienda (porcentual)'],
                    mode='lines+markers',
                    name='Carece de vivienda (%)',
                    marker_color='indianred'))

fig.add_trace(go.Scatter(x=df['Año'], y=df['Cuenta con acceso a vivienda (porcentual)'],
                    mode='lines+markers',
                    name='Cuenta con vivienda (%)',
                    marker_color='teal'))

fig.update_layout(
                  width=800,
                  height=500,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title=r"% Hogares encuestados",
                  title={'text':"Porcentaje de situación de sitio según CASEN 1990-2020",'x':0.5},
                  )

fig.show()

In [41]:
for index, i in enumerate(df.iterrows()):
    anio = df['Año'][index]
    carece_porcentual = df['Carece de vivienda (porcentual)'][index]
    print(f'Porcentaje de personas carentes de vivienda en el año {anio} : {round((carece_porcentual*100), 2)} %')

Porcentaje de personas carentes de vivienda en el año 1990 : 4.34 %
Porcentaje de personas carentes de vivienda en el año 1992 : 1.95 %
Porcentaje de personas carentes de vivienda en el año 1994 : 17.67 %
Porcentaje de personas carentes de vivienda en el año 1996 : 16.51 %
Porcentaje de personas carentes de vivienda en el año 1998 : 3.05 %
Porcentaje de personas carentes de vivienda en el año 2000 : 3.04 %
Porcentaje de personas carentes de vivienda en el año 2003 : 2.93 %
Porcentaje de personas carentes de vivienda en el año 2006 : 1.77 %
Porcentaje de personas carentes de vivienda en el año 2009 : 1.92 %
Porcentaje de personas carentes de vivienda en el año 2011 : 3.5 %
Porcentaje de personas carentes de vivienda en el año 2013 : 3.75 %
Porcentaje de personas carentes de vivienda en el año 2015 : 3.07 %
Porcentaje de personas carentes de vivienda en el año 2017 : 3.47 %
Porcentaje de personas carentes de vivienda en el año 2020 : 3.74 %


De acuerdo a lo anterior se identifican dos elementos de interés: uno, que según el filtro ocupado para agrupar los casos donde el hogar encuestado se determina que no contaría con acceso a vivienda, si bien la última cifra (año 2020) es una de las más altas, no es la más alta observada, siendo asi incorrecto señalar la falta de precedente histórico en la situación actual del déficit habitacional. Adicionalmente se observa que el último valor observado no sería parte de un aumento constante sino que parte de un comportamiento oscilante.

# 6. Estimación corregida

Los valores atípicos estarían drásticamente alejados del rango en el cual oscilan las cifras de las encuestas.

De acuerdo a lo anterior no es objetivo de este trabajo indagar en esas razones, sin embargo para poder generar una regresión se vuelve necesario el normalizarlos.

In [42]:
fig = px.box(df,
             x="Carece de vivienda",
             points="all",
             width=800,
             height=300
             )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.update_layout(
    title={'text':'Distribución de hogares carentes de vivienda según CASEN 1990-2020',
           'x':0.5
           },
    xaxis_title="Cantidad de Compras",
    )

fig.show()

Como una estrategia simplificada para el manejo de los valores atípicos producidos por las encuestas 1994 y 1996 se reemplazan los valores de estas por un promedio de los valores de todos los años menos esos 2.

In [43]:
df2 = df.copy()

In [44]:
# Se genera una lista con todos los valores de cada año

promedio_carece = list(df['Carece de vivienda'].values)

# Se eliminan los valores atípicos
promedio_carece.pop(2)
promedio_carece.pop(2)

# Se calcula el promedio

promedio_carece = (sum(promedio_carece)/len(promedio_carece))


In [45]:
# Reemplaza el valor promediado en los valores atípicos

df2['Carece de vivienda'][2] = promedio_carece
df2['Carece de vivienda'][3] = promedio_carece

In [46]:
df2.head()

Unnamed: 0,Año,Carece de vivienda,Cuenta con acceso a vivienda,Hogares encuestados,Carece de vivienda (porcentual),Cuenta con acceso a vivienda (porcentual)
0,1990,4569.0,100620,105189,0.043436,0.956564
1,1992,2800.0,140659,143459,0.019518,0.980482
2,1994,6579.5,146592,178057,0.176713,0.823287
3,1996,6579.5,112094,134262,0.16511,0.83489
4,1998,5747.0,182613,188360,0.030511,0.969489


In [47]:
fig = px.box(df2,
             x="Carece de vivienda",
             points="all",
             width=800,
             height=300
             )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.update_layout(
    title={'text':'Distribución de hogares carentes de vivienda según CASEN 1990-2020 (ajustado)',
           'x':0.5
           },
    xaxis_title="Cantidad de Compras",
    )

fig.show()

In [48]:
fig = px.scatter(df,
                 x="Año",
                 y="Carece de vivienda",
                 trendline="ols")


fig.update_layout(
                  width=600,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Hogares sin acceso a vivienda según CASEN 1990-2020 (sin ajuste)",'x':0.5},
                  )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.show()

In [49]:
fig = px.scatter(df2,
                 x="Año",
                 y="Carece de vivienda",
                 trendline="ols")


fig.update_layout(
                  width=600,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Hogares sin acceso a vivienda según CASEN 1990-2020 (con ajuste)",'x':0.5},
                  )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.show()

In [50]:
# Se vuelve a calcular el valor porcentual luego de haber alterado los datos de los años 1994 y 1996

df2['Carece de vivienda (porcentual)'] = (df2['Carece de vivienda'] / df2['Hogares encuestados'])
df2['Cuenta con acceso a vivienda (porcentual)'] = (df2['Cuenta con acceso a vivienda'] / df2['Hogares encuestados'])

In [51]:
fig = px.scatter(df,
                 x="Año",
                 y="Carece de vivienda (porcentual)",
                 trendline="ols")


fig.update_layout(
                  width=800,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Hogares sin acceso a vivienda según CASEN 1990-2020 (porcentual) (sin ajuste)",'x':0.5},
                  )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.show()

In [52]:
fig = px.scatter(df2,
                 x="Año",
                 y="Carece de vivienda (porcentual)",
                 trendline="ols")


fig.update_layout(
                  width=800,
                  height=400,
                  xaxis_tickangle=-45,
                  xaxis_title="Año",
                  yaxis_title="Cantidad de hogares",
                  title={'text':"Hogares sin acceso a vivienda según CASEN 1990-2020 (porcentual) (con ajuste)",'x':0.5},
                  )

fig.update_traces(
    marker_color='indianred',
    marker_line_color='lightsalmon',
    marker_line_width=1.5,
    opacity=0.6
    )

fig.show()

In [53]:
for index, i in enumerate(df2.iterrows()):
    anio = df2['Año'][index]
    carece_porcentual = df2['Carece de vivienda (porcentual)'][index]
    print(f'Porcentaje (ajustado) de personas carentes de vivienda en el año {anio} : {round((carece_porcentual*100), 2)} %')

Porcentaje (ajustado) de personas carentes de vivienda en el año 1990 : 4.34 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 1992 : 1.95 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 1994 : 3.7 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 1996 : 4.9 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 1998 : 3.05 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2000 : 3.04 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2003 : 2.93 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2006 : 1.77 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2009 : 1.92 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2011 : 3.5 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2013 : 3.75 %
Porcentaje (ajustado) de personas carentes de vivienda en el año 2015 : 3.07 %
Porcentaje (ajustado) de personas carentes de vivienda 

# 7. Conclusiones

Los hallazgos indicarían que en la diferencia de 9 años entre la encuesta CASEN de 2011 y la de 2020 el aumento porcentual sería solo de un 0,24 %, lo cual si bien es una cifra cuyo impacto real son miles de familias, es posible de considerarse menor dada la cantidad de dificultades y complejidades ocurridas durante esa cantidad de tiempo, especialmente el fenómeno migratorio. Asimismo, el realizar este mismo cálculo en los 20 años desde la encuesta del año 2000 y el año 2020 indicarían un aumento del 0,7 %, el que si bien no es trivial, no se condice con la severidad con la que es presentada la situación en las instancias mencionadas durante la introducción. Adicionalmente la exploración permitió constatar que el comportamiento oscilatorio de esta métrica hace proyectar que bajo el curso actual de las políticas públicas de vivienda y manejo del déficit habitacional tenderían hacia la disminución y no al aumento.

Sin dejar en ningún momento de destacar la importancia por parte de las entidades públicas (y las privadas involucradas) en trabajar continua y comprometidamente hacia disminuír el déficit habitacional y buscar maneras de garantizar el acceso universal a la vivienda dentro del marco legal existente, e idealmente trabajar hacia modificar este tal de superar los obstáculos políticos y económicos que presenta, la realidad evidenciada en los datos informados por la encuesta CASEN en los últimos 30 años estaría informando que la afirmación emitida por figuras públicas y medios de comunicación respecto a la gravedad histórica del déficit habitacional actual serían imprecisas y/o posiblemente incorrectas.

Más que plantearse el poder proveer respuestas el ejercicio realizado presenta la oportunidad de plantearse preguntas y una mirada crítica ante el problema;

¿Es solamente la construcción de viviendas la respuesta ante la realidad observada y categorizada como déficit habitacional?

Los datos observados, ¿hasta qué punto son el reflejo de la falta de unidades de vivienda construidas y no los efectos del mercado inmobiliario y los mecanismos de acceso a la vivienda?

Por lo pronto, lo que sí evidencia lo observado en torno a la encuesta CASEN es la necesidad de afinar instrumentos y preguntas para poder obtener una mayor granularidad sobre las situaciones de carencia de acceso a vivienda, con el fin de poder dar respuestas claras y concretas ante estas inquietudes, las que permitan guiar de mejor manera las políticas públicas en el tema.