# **Data processing**

## Requirements

In [26]:
import polars as pl
pl.Config(fmt_str_lengths=50)
pl.Config(tbl_rows=30)
import warnings
# Suppress all warnings
warnings.filterwarnings("ignore")

In [27]:
def has_dot(x):
    return x.find('.') != -1

def has_comma(x):
    return x.find(',') != -1

def reformat_str_number(x):

    # This functions is suppose to implement the following transformations:
    # '10554' --> '10554'
    # '10.554' --> '10554' (to be cast into integer or float)
    # '10.554.00' --> '10554' (to be cast into integer or float) 
    # '10,554' --> '10.554' (to be cast into float)
    # '10.554,75' --> '10554.75' (to be cast into float) 

    if has_comma(x):
        if not has_dot(x):
            return x.replace(',', '.')
        if has_dot(x):
            return ''.join(x.split(',')[0].split('.')) +'.'+ x.split(',')[1]
    elif has_dot(x) :
        if len(x.split('.')) > 2:
            return ''.join(x.split('.')[:2])
        else:
            return ''.join(x.split('.'))
    else: # number without ',' and '.'
        return  x

## Reading the data

In [28]:
madrid_df = pl.read_csv(r'C:\Users\fscielzo\Documents\Teaching\data-analysis-course\data\indicadores_distritos_barrios.csv', 
                        separator=';', ignore_errors=True)

In [29]:
madrid_df.head()

Orden,Periodo panel,ciudad,cod_distrito,distrito,cod_barrio,barrio,año,fecha_indicador,fuente_indicador,categoría_1,categoría_2,indicador_nivel1,indicador_nivel2,indicador_nivel3,unidad_indicador,indicador_completo,valor_indicador
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,str,str,str,str
1,2020,"""Ciudad de Madrid""",,,,,2019,"""01/01/2019""","""Estadística Ayuntamiento de Madrid""","""Características Generales del Distrito-Barrio""",,"""Superficie""",,,"""Ha""","""Superficie (Ha.) ""","""60.446"""
2,2020,"""Ciudad de Madrid""",,,,,2019,"""01/01/2019""","""Estadística Ayuntamiento de Madrid""","""Características Generales del Distrito-Barrio""",,"""Densidad de población""",,,"""Habitantes/Ha.""","""Población densidad (hab./Ha.) ""","""54"""
3,2020,"""Ciudad de Madrid""",,,,,2019,"""01/01/2019""","""Estadística Ayuntamiento de Madrid""","""Población del distrito""","""Estructura de población""","""Número de Habitantes""",,,"""Habitantes""","""Número Habitantes""","""3.266.126"""
4,2020,"""Ciudad de Madrid""",,,,,2019,"""01/01/2019""","""Estadística Ayuntamiento de Madrid""","""Población del distrito""","""Estructura de población""","""Número de Habitantes""","""Hombres""",,"""Habitantes""","""Población Hombres ""","""1.521.178"""
5,2020,"""Ciudad de Madrid""",,,,,2019,"""01/01/2019""","""Estadística Ayuntamiento de Madrid""","""Población del distrito""","""Estructura de población""","""Número de Habitantes""","""Mujeres""",,"""Habitantes""","""Población Mujeres""","""1.744.948"""


In [30]:
madrid_df.tail()

Orden,Periodo panel,ciudad,cod_distrito,distrito,cod_barrio,barrio,año,fecha_indicador,fuente_indicador,categoría_1,categoría_2,indicador_nivel1,indicador_nivel2,indicador_nivel3,unidad_indicador,indicador_completo,valor_indicador
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,str,str,str,str
69171,2020,"""Ciudad de Madrid""","""21""","""Barajas""",,,2019,"""01/01/2019""","""Encuesta de calidad de vida y satisfacción con los…","""Calidad de vida""","""Satisfacción con espacios públicos""","""Número de personas""","""Espacios verdes""",,"""Índice""","""Grado de satisfacción con los espacios verdes""","""7,2"""
69172,2020,"""Ciudad de Madrid""","""21""","""Barajas""",,,2019,"""01/01/2019""","""Encuesta de calidad de vida y satisfacción con los…","""Calidad de vida""","""Satisfacción con espacios públicos""","""Número de personas""","""Parques infantiles""",,"""Índice""","""Grado de satisfacción con los parques infantiles ""","""6,6"""
69173,2020,"""Ciudad de Madrid""","""21""","""Barajas""",,,2019,"""01/01/2019""","""Encuesta de calidad de vida y satisfacción con los…","""Calidad de vida""","""Satisfacción con espacios públicos""","""Número de personas""","""Centros Culturales""",,"""Índice""","""Grado de satisfacción con los centros culturales""","""7,3"""
69174,2020,"""Ciudad de Madrid""","""21""","""Barajas""",,,2019,"""01/01/2019""","""Encuesta de calidad de vida y satisfacción con los…","""Calidad de vida""","""Satisfacción con espacios públicos""","""Número de personas""","""Instalaciones deportivas""",,"""Índice""","""Grado de satisfacción con las instalaciones deport…","""6,4"""
69175,2020,"""Ciudad de Madrid""","""21""","""Barajas""",,,2019,"""01/01/2019""","""Encuesta de calidad de vida y satisfacción con los…","""Calidad de vida""","""Satisfacción con espacios públicos""","""Número de personas""","""Servicios Sociales Municipales""",,"""Índice""","""Grado de satisfacción de los servicios sociales mu…","""6,7"""


## Pivoting

In [31]:
madrid_df = madrid_df.select(['ciudad', 'distrito', 'barrio', 'año', 'indicador_completo', 'valor_indicador'])\
                     .pivot(
                           index=['ciudad',"distrito", "barrio", "año"],
                           on="indicador_completo",
                           values="valor_indicador",
                           aggregate_function = 'first'
                         )

In [33]:
madrid_df.head(10)

ciudad,distrito,barrio,año,Superficie (Ha.),Población densidad (hab./Ha.),Número Habitantes,Población Hombres,Población Mujeres,Edad media de la población,Población de 0 a 14 años,Población de 15 a 29 años,Población de 30 a 44 años,Población de 45 a 64 años,Población de 65 a 79 años,Población de 80 años y más,Población de 65 años y más,Población en etapa educativa (Población de 0 a 16 años -16 no incluidos),Proporción de envejecimiento (Población mayor de 65 años/Población total),Proporción de sobre-envejecimiento (Población mayor de 80 años/ Población mayor de 65 años),Índice de dependencia (Población de 0-15 + población 65 años y más / Pob. 16-64),Personas con nacionalidad española,Personas con nacionalidad española Hombres,Personas con nacionalidad española Mujeres,Personas con nacionalidad extranjera,Personas con nacionalidad extranjera Hombres,Personas con nacionalidad extranjera Mujeres,Proporción de personas migrantes (Población extranjera menos UE y resto países de OCDE / Población total),Primera y segunda nacionalidad extranjera en el Distrito: ITALIA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: BANGLADESH (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: CHINA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: VENEZUELA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: RUMANÍA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: BOLIVIA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: ECUADOR (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: FILIPINAS (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: FRANCIA (Población total Distrito),…,"Hogar Unipersonal, de personas de menos de 65 años. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de menos de 65 años. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de menos de 65 años. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020)",Hogares monoparentales. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares monoparentales. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares monoparentales. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Primera y segunda nacionalidad extranjera en el Distrito: HONDURAS (Población total Distrito) 2,Personas paradas que SÍ perciben prestaciones (febrero),Superficie media construida (m2) inmuebles de uso residencial,Primera y segunda nacionalidad extranjera en el Distrito: ITALIA (Total en Distrito),Índice de Vulnerabilidad Territorial Agregado,Índice de Vulnerabilidad Bienestar Social e Igualdad,Índice de Vulnerabilidad Medio Ambiente Urbano y Movilidad,Índice de Vulnerabilidad Educación y Cultura,Índice de Vulnerabilidad Economía y Empleo,Índice de Vulnerabilidad Salud,Número de locales dados de alta totales,Número de locales dados de alta abiertos,Número de locales dados de alta cerrados,Número de locales dados de alta en obra,Número de locales dados de alta en uso como vivienda,"Elecciones municipales, votos a Más Madrid-Verdes Equo","Elecciones municipales, votos a Podemos-Izquierda Unida-Alianza Verde",Índice de Vulnerabilidad Bienestar Social e Igualdad,Índice de Vulnerabilidad Economía y Empleo,Índice de Vulnerabilidad Educación y Cultura,Índice de Vulnerabilidad Medio Ambiente Urbano y Movilidad,Índice de Vulnerabilidad Salud
str,str,str,i64,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,…,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str.1,str.1,str.1,str.1,str.1
"""Ciudad de Madrid""",,,2019,"""60.446""","""54""","""3.266.126""","""1.521.178""","""1.744.948""","""44,06""","""435.675""","""512.070""","""744.312""","""912.424""","""423.670""","""237.975""","""661.645""","""464.338""","""20,26""","""35,97""","""52,61""","""2.805.478""","""1.308.240""","""1.497.238""","""460.623""","""212.925""","""247.698""","""9,79""","""22.229""","""6.288""","""38.547""","""28.129""","""44.738""","""14.698""","""24.142""","""12.901""","""10.108""",…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",,,2018,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",,,2016,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",,,2008,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",,,2020,,,,,,,,,,,,,,"""466.141""","""0,2""","""0,35""","""51,61""","""2.823.823""","""1.318.460""","""1.505.363""","""510.881""","""236.256""","""274.625""","""10,86""",,,"""40.245""","""39.279""","""43.441""","""14.042""",,,"""10.957""",…,"""65,9""","""0""","""33,7""","""89,8""","""0""","""8,7""","""50""","""1,9""","""46,8""","""67,8""","""0,9""","""30,6""","""53,5""","""2,7""","""42,5""",,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",,,2013,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""","""Centro""",,2019,"""523""","""258""","""134.881""","""67.829""","""67.052""","""44,03""","""10.554""","""21.800""","""42.857""","""38.025""","""14.196""","""7.449""","""21.645""","""11.171""","""16,05""","""34,41""","""32,15""","""104.041""","""51.264""","""52.777""","""30.837""","""16.564""","""14.273""","""12,54""","""3.194""","""2.935""","""1.561""","""1.736""","""801""","""284""","""653""","""1.340""","""1.698""",…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""","""Centro""",,2018,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""","""Centro""",,2020,,,,,,,,,,,,,,"""10.919""","""0,16""",,"""31""","""106.387""","""52.871""","""53.516""","""34.084""","""18.255""","""15.829""","""13,42""",,,"""1.573""","""2.361""","""802""","""242""",,"""1.287""","""1.862""",…,,,,,,,,,,,,,,,,,,,,"""5,53""","""9,4""","""11,2""","""6,24""","""7,07""","""9,18""",,,,,,,,,,,,
"""Ciudad de Madrid""","""Centro""","""Justicia""",2020,,,,,,,,,,,,,,"""1.419""","""0,16""","""0,33""","""31""","""13.979""","""7.075""","""6.904""","""4.042""","""2.086""","""1.956""","""10,13""",,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,"""6,9""","""4,39""","""6""","""8,08""","""8,66""",,,,,,,,,,,,


In [34]:
madrid_df.tail(10)

ciudad,distrito,barrio,año,Superficie (Ha.),Población densidad (hab./Ha.),Número Habitantes,Población Hombres,Población Mujeres,Edad media de la población,Población de 0 a 14 años,Población de 15 a 29 años,Población de 30 a 44 años,Población de 45 a 64 años,Población de 65 a 79 años,Población de 80 años y más,Población de 65 años y más,Población en etapa educativa (Población de 0 a 16 años -16 no incluidos),Proporción de envejecimiento (Población mayor de 65 años/Población total),Proporción de sobre-envejecimiento (Población mayor de 80 años/ Población mayor de 65 años),Índice de dependencia (Población de 0-15 + población 65 años y más / Pob. 16-64),Personas con nacionalidad española,Personas con nacionalidad española Hombres,Personas con nacionalidad española Mujeres,Personas con nacionalidad extranjera,Personas con nacionalidad extranjera Hombres,Personas con nacionalidad extranjera Mujeres,Proporción de personas migrantes (Población extranjera menos UE y resto países de OCDE / Población total),Primera y segunda nacionalidad extranjera en el Distrito: ITALIA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: BANGLADESH (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: CHINA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: VENEZUELA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: RUMANÍA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: BOLIVIA (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: ECUADOR (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: FILIPINAS (Población total Distrito),Primera y segunda nacionalidad extranjera en el Distrito: FRANCIA (Población total Distrito),…,"Hogar Unipersonal, de personas de menos de 65 años. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de menos de 65 años. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de menos de 65 años. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020)","Hogar Unipersonal, de personas de 65 años o más. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020)",Hogares monoparentales. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares monoparentales. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares monoparentales. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares formados por pareja sin hijos/as. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. No les ha afectado la crisis del coronavirus en los ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. Les ha afectado la crisis del coronavirus en el aumento de sus ingresos del hogar (octubre 2020),Hogares formados por pareja con hijos/as. Les ha afectado la crisis del coronavirus en la disminución de sus ingresos del hogar (octubre 2020),Primera y segunda nacionalidad extranjera en el Distrito: HONDURAS (Población total Distrito) 2,Personas paradas que SÍ perciben prestaciones (febrero),Superficie media construida (m2) inmuebles de uso residencial,Primera y segunda nacionalidad extranjera en el Distrito: ITALIA (Total en Distrito),Índice de Vulnerabilidad Territorial Agregado,Índice de Vulnerabilidad Bienestar Social e Igualdad,Índice de Vulnerabilidad Medio Ambiente Urbano y Movilidad,Índice de Vulnerabilidad Educación y Cultura,Índice de Vulnerabilidad Economía y Empleo,Índice de Vulnerabilidad Salud,Número de locales dados de alta totales,Número de locales dados de alta abiertos,Número de locales dados de alta cerrados,Número de locales dados de alta en obra,Número de locales dados de alta en uso como vivienda,"Elecciones municipales, votos a Más Madrid-Verdes Equo","Elecciones municipales, votos a Podemos-Izquierda Unida-Alianza Verde",Índice de Vulnerabilidad Bienestar Social e Igualdad,Índice de Vulnerabilidad Economía y Empleo,Índice de Vulnerabilidad Educación y Cultura,Índice de Vulnerabilidad Medio Ambiente Urbano y Movilidad,Índice de Vulnerabilidad Salud
str,str,str,i64,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,…,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str.1,str.1,str.1,str.1,str.1
"""Ciudad de Madrid""","""San Blas-Canillejas""","""El Salvador""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""285""","""194""","""79""","""0""","""12""","""1059""","""284""",,,,,
"""Ciudad de Madrid""","""Barajas""",,2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""1928""","""1406""","""437""","""0""","""85""","""4105""","""947""",,,,,
"""Ciudad de Madrid""","""Barajas""","""Alameda de Osuna""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""447""","""319""","""114""","""0""","""14""","""1858""","""420""",,,,,
"""Ciudad de Madrid""","""Barajas""","""Aeropuerto""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""488""","""369""","""109""","""0""","""10""","""111""","""31""",,,,,
"""Ciudad de Madrid""","""Barajas""","""Casco Histórico de Barajas""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""463""","""309""","""107""","""0""","""47""","""517""","""156""",,,,,
"""Ciudad de Madrid""","""Barajas""","""Timón""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""292""","""215""","""64""","""0""","""13""","""1132""","""260""",,,,,
"""Ciudad de Madrid""","""Barajas""","""Corralejos""",2023,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,"""238""","""194""","""43""","""0""","""1""","""487""","""80""",,,,,
"""Ciudad de Madrid""","""Villaverde""","""Los Ángeles""",2022,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,"""7,73""","""5,98""","""11,05""","""10,48""","""6,96""",,,,,,,,,,,,
"""Ciudad de Madrid""","""Vicálvaro""","""Casco histórico de Vicálvaro""",2022,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,"""8,38""","""4,61""","""9,69""","""10,59""","""8,27""",,,,,,,,,,,,
"""Ciudad de Madrid""","""San Blas-Canillejas""","""Salvador""",2022,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,"""7,95""","""5,33""","""8,65""","""6,68""","""8,28""",,,,,,,,,,,,


## Column display

In [35]:
madrid_df.columns

['ciudad',
 'distrito',
 'barrio',
 'año',
 'Superficie (Ha.) ',
 'Población densidad (hab./Ha.) ',
 'Número Habitantes',
 'Población Hombres ',
 'Población Mujeres',
 'Edad media de la población',
 'Población de 0 a 14 años   ',
 'Población de 15 a 29 años',
 'Población de 30 a 44  años',
 'Población de 45 a 64 años',
 'Población de 65 a 79 años      ',
 'Población de 80 años y más           ',
 'Población de 65 años y más          ',
 'Población en etapa educativa (Población de 0 a 16 años -16 no incluidos)                            ',
 'Proporción de envejecimiento (Población mayor de 65 años/Población total)',
 'Proporción de sobre-envejecimiento (Población mayor de 80 años/ Población mayor de 65 años)',
 'Índice de dependencia (Población de 0-15 + población 65 años y más / Pob. 16-64) ',
 'Personas con nacionalidad española             ',
 'Personas con nacionalidad española Hombres                      ',
 'Personas con nacionalidad española Mujeres                      ',
 'Per

## Selecting columns

In [36]:
madrid_df = madrid_df.select(['ciudad',
                              'distrito',
                              'barrio',
                              'año',
                              'Superficie (Ha.) ',
                              'Población densidad (hab./Ha.) ',
                              'Número Habitantes',
                              'Población Hombres ',
                              'Población Mujeres',
                              'Edad media de la población',
                              'Población de 0 a 14 años   ',
                              'Población de 15 a 29 años',
                              'Población de 30 a 44  años',
                              'Población de 45 a 64 años',
                              'Población de 65 a 79 años      ',
                              'Población de 80 años y más           ',
                              'Población de 65 años y más          ',
                              'Personas con nacionalidad española             ',
                              'Personas con nacionalidad española Hombres                      ',
                              'Personas con nacionalidad española Mujeres                      ',
                              'Personas con nacionalidad extranjera            ',
                              'Personas con nacionalidad extranjera Hombres                       ',
                              'Personas con nacionalidad extranjera Mujeres                        ',
                              'Renta neta media anual de los hogares (Urban Audit)             ',
                              'Renta disponible media por persona',
                              'Paro registrado (número de personas registradas en SEPE en febrero) ',
                              'Paro registrado (número de personas registradas en SEPE en febrero) hombres    ',
                              'Paro registrado (número de personas registradas en SEPE en febrero) mujeres',
                              'Tasa absoluta de paro registrado (febrero)',
                              'Tasa absoluta de paro registrado Mujeres',
                              'Tasa de desempleo en mujeres de 16 a 24 años',
                              'Tasa de desempleo en mujeres de 25 a 44 años',
                              'Tasa de desempleo en mujeres de 45 a 64 años',
                              'Tasa absoluta de paro registrado Hombres ',
                              'Tasa de desempleo en hombres de 16 a 24 años',
                              'Tasa de desempleo en hombres de 25 a 44 años',
                              'Tasa de desempleo en hombres de 45 a 64 años',
                              'Personas paradas de larga duración (febrero)              ',
                              'Personas paradas de larga duración (febrero) hombres                         ',
                              'Personas paradas de larga duración (febrero) mujeres                            ',
                              'Personas paradas que SÍ perciben prestaciones (febrero)',
                              'Personas paradas que SÍ perciben prestaciones (febrero) hombres                         ',
                              'Personas paradas que SÍ perciben prestaciones (febrero) mujeres                         ',
                              'Personas paradas que NO perciben prestaciones (febrero)',
                              'Personas paradas que NO perciben prestaciones (febrero) hombres          ',
                              'Personas paradas que NO perciben prestaciones (febrero) mujeres          ',
                              'Población en etapas educativas',
                              'Alumnado en Centros privados concertados',
                              'Alumnado en Centros privados sin concierto',
                              'Alumnado en Centros públicos',
                              'Total alumnado extranjero ',
                              'Alumnado extranjero en Centros privados concertados                   ',
                              'Alumnado extranjero en Centros privados sin concierto                  ',
                              'Alumnado extranjero en Centros públicos                        ',
                              'Total alumnado con necesidades de apoyo educativo  ',
                              'Alumnado con necesidades de apoyo educativo en Centros privados concertados                   ',
                              'Alumnado con necesidades de apoyo educativo en Centros privados sin concierto                  ',
                              'Alumnado con necesidades de apoyo educativo en Centros públicos                        ',
                              'Población mayor/igual  de 25 años  que no sabe leer ni escribir o sin estudios                ',
                              'Población mayor/igual  de 25 años con enseñanza primaria incompleta  ',
                              'Población mayor/igual  de 25 años con Bachiller Elemental, Graduado Escolar, ESO, Formación profesional 1º grado  ',
                              'Población mayor/igual  de 25 años con Formación profesional 2º grado, Bachiller Superior o BUP  ',
                              'Población mayor/igual  de 25 años con titulación media, diplomatura, arquitectura o ingeniería técnica    ',
                              'Población mayor/igual  de 25 años  con estudios superiores, licenciatura, arquitectura, ingeniería sup., estudios sup. no universitarios, doctorado,  postgraduado  ',
                              'Población mayor/igual  de 25 años con Nivel de estudios desconocido y/o no consta                                   ',
                              'Casos trabajados por el programa de absentismo municipal',
                              'Número de personas con grado de discapacidad reconocido                               ',
                              'Número de personas con grado de discapacidad reconocido Hombres                                    ',
                              'Número de personas con grado de discapacidad reconocido Mujeres                                    ',
                              'Satisfacción de vivir en su barrio ',
                              'Calidad de vida actual en su barrio ',
                              'Percepción de seguridad en Madrid',
                              'Percepción de seguridad en el barrio por el día',
                              'Percepción de seguridad en el barrio por la noche',
                              'Solicitudes tramitadas de Renta Mínima de Inserción',
                              'Personas perceptoras de prestación de la Renta Mínima de Inserción',
                              'Personas beneficiarias de prestaciones sociales de carácter económico',
                              'Total prestaciones sociales de carácter económico ',
                              'Personas con Servicio de Ayuda a Domicilio (modalidad auxiliar de hogar)  ',
                              'Número Total de viviendas (Censo Edificios y Viviendas 2011)',
                              'Viviendas anteriores a 1980                                                                 ',
                              'Viviendas en estado ruinoso',
                              'Viviendas en estado malo ',
                              'Viviendas en estado deficiente  ',
                              'Viviendas en estado bueno ',
                              'Estado de la vivienda no consta ',
                              'Número Total de viviendas familiares (Censo Edificios y Viviendas 2011) ',
                              'Número Total de viviendas familiares (Censo Edificios y Viviendas 2011) Principal                           ',
                              'Número Total de viviendas familiares (Censo Edificios y Viviendas 2011)  Secundaria                           ',
                              'Número Total de viviendas familiares (Censo Edificios y Viviendas 2011)  Población desocupada    ',
                              'Intervenciones de la Policía Municipal en materia de seguridad: delitos relacionados con las personas',
                              'Intervenciones de la Policía Municipal en materia de seguridad: relacionadas con la tenencia de armas',
                              'Intervenciones de la Policía Municipal en materia de seguridad: relacionadas con el patrimonio',
                              'Intervenciones de la Policía Municipal en materia de seguridad: relacionadas con la tenencia y consumo de drogas',
                              'Atestados/partes de accidentes de tráfico confeccionados',
                              'Personas detenidas e investigadas por la Policía Municipal en materia de seguridad: Total  personas detenidas e investigadas ',
                              'Elecciones municipales, censo electoral',
                              'Elecciones municipales, abstenciones',
                              'Elecciones  municipales, votos en blanco',
                              'Elecciones municipales, votos a candidaturas',
                              'Elecciones municipales, votos a Más Madrid',
                              'Elecciones municipales, votos al Partido Popular',
                              'Elecciones municipales, votos a Ciudadanos-Partido de la Ciudadanía',
                              'Elecciones municipales, votos al Partido Socialista Obrero Español',
                              'Elecciones municipales, votos a VOX',
                              'Sedentarismo',
                              'Consumo de tabaco diario',
                              'Consumo de medicamentos ',
                              'Autopercepción de buen estado de salud  (porcentaje respuesta muy buena + buena)',
                              'Calidad de vida relacionada con la salud (CVRS) ',
                              'Presencia de enfermedad crónica ',
                              'Hipertensión arterial',
                              'Diabetes Mellitus',
                              'Personas con obesidad ',
                              'Personas con sobrepeso',
                              'Prevalencia de obesidad en la población infantil (2017. Estudio Madrid Salud. UCM)',
                              'Probabilidad de padecer enfermedad mental (GHQ-12)          (2018. EMS)',
                              'Grado de satisfacción con los espacios verdes',
                              'Grado de satisfacción con los parques infantiles ',
                              'Grado de satisfacción con los centros culturales',
                              'Grado de satisfacción con las instalaciones deportivas',
                              'Grado de satisfacción de los servicios sociales municipales',
                              'Superficie media construida (m2) inmuebles de uso residencial',
                              'Año medio de contrucción de inmuebles de uso residencial ',
                              'Total hogares',
                              'Tamaño medio del hogar      ',
                              'Hogares con una mujer sola mayor de 65 años                      ',
                              'Hogares con un hombre solo mayor de 65 años                     ',
                              'Hogares monoparentales: una mujer adulta con uno o más menores',
                              'Hogares monoparentales: un hombre adulto con uno o más menores',
                              'Tasa de crecimiento demográfico (porcentaje)',
                              'Esperanza de vida al nacer Mujeres',
                              'Esperanza de vida al nacer Hombres ',
                              'Esperanza de vida mayor de 65 años Mujeres',
                              'Esperanza de vida mayor de 65 años Hombres',
                              'Crecimiento/decrecimiento Renta Bruta Per cápita 2016(a)-2008',
                              'Pensión media mensual Hombres ',
                              'Pensión media mensual  Mujeres\n'
                              ])

## Renaming columns

In [37]:
columns_renamed = [x.lstrip(' ').rstrip(' ') for x in madrid_df.columns]
madrid_df = madrid_df.rename(dict(zip(madrid_df.columns, columns_renamed)))

In [38]:
madrid_df.columns

['ciudad',
 'distrito',
 'barrio',
 'año',
 'Superficie (Ha.)',
 'Población densidad (hab./Ha.)',
 'Número Habitantes',
 'Población Hombres',
 'Población Mujeres',
 'Edad media de la población',
 'Población de 0 a 14 años',
 'Población de 15 a 29 años',
 'Población de 30 a 44  años',
 'Población de 45 a 64 años',
 'Población de 65 a 79 años',
 'Población de 80 años y más',
 'Población de 65 años y más',
 'Personas con nacionalidad española',
 'Personas con nacionalidad española Hombres',
 'Personas con nacionalidad española Mujeres',
 'Personas con nacionalidad extranjera',
 'Personas con nacionalidad extranjera Hombres',
 'Personas con nacionalidad extranjera Mujeres',
 'Renta neta media anual de los hogares (Urban Audit)',
 'Renta disponible media por persona',
 'Paro registrado (número de personas registradas en SEPE en febrero)',
 'Paro registrado (número de personas registradas en SEPE en febrero) hombres',
 'Paro registrado (número de personas registradas en SEPE en febrero) muje

## Reformating strings to numbers

In [70]:
for col in madrid_df.columns:
    try:
        madrid_df = madrid_df.with_columns(pl.col(col)\
                         .map_elements(lambda x: reformat_str_number(x))\
                         .cast(pl.Float64).round(2))
    except:
        print(f'{col} not allow the transformation.')

distrito not allow the transformation.
barrio not allow the transformation.
año not allow the transformation.
Superficie (Ha.) not allow the transformation.
Población densidad (hab./Ha.) not allow the transformation.
Número Habitantes not allow the transformation.
Población Hombres not allow the transformation.
Población Mujeres not allow the transformation.
Edad media de la población not allow the transformation.
Población de 0 a 14 años not allow the transformation.
Población de 15 a 29 años not allow the transformation.
Población de 30 a 44  años not allow the transformation.
Población de 45 a 64 años not allow the transformation.
Población de 65 a 79 años not allow the transformation.
Población de 80 años y más not allow the transformation.
Población de 65 años y más not allow the transformation.
Personas con nacionalidad española not allow the transformation.
Personas con nacionalidad española Hombres not allow the transformation.
Personas con nacionalidad española Mujeres not all

  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\
  madrid_df = madrid_df.with_columns(pl.col(col)\


## Getting 'Ciudad de Madrid' data

In [44]:
ciudad_madrid_df = madrid_df.filter(pl.col('distrito').is_null()).select(pl.exclude(['distrito', 'barrio']))

In [45]:
ciudad_madrid_df

ciudad,año,Superficie (Ha.),Población densidad (hab./Ha.),Número Habitantes,Población Hombres,Población Mujeres,Edad media de la población,Población de 0 a 14 años,Población de 15 a 29 años,Población de 30 a 44 años,Población de 45 a 64 años,Población de 65 a 79 años,Población de 80 años y más,Población de 65 años y más,Personas con nacionalidad española,Personas con nacionalidad española Hombres,Personas con nacionalidad española Mujeres,Personas con nacionalidad extranjera,Personas con nacionalidad extranjera Hombres,Personas con nacionalidad extranjera Mujeres,Renta neta media anual de los hogares (Urban Audit),Renta disponible media por persona,Paro registrado (número de personas registradas en SEPE en febrero),Paro registrado (número de personas registradas en SEPE en febrero) hombres,Paro registrado (número de personas registradas en SEPE en febrero) mujeres,Tasa absoluta de paro registrado (febrero),Tasa absoluta de paro registrado Mujeres,Tasa de desempleo en mujeres de 16 a 24 años,Tasa de desempleo en mujeres de 25 a 44 años,Tasa de desempleo en mujeres de 45 a 64 años,Tasa absoluta de paro registrado Hombres,Tasa de desempleo en hombres de 16 a 24 años,Tasa de desempleo en hombres de 25 a 44 años,Tasa de desempleo en hombres de 45 a 64 años,Personas paradas de larga duración (febrero),Personas paradas de larga duración (febrero) hombres,…,"Elecciones municipales, votos al Partido Popular","Elecciones municipales, votos a Ciudadanos-Partido de la Ciudadanía","Elecciones municipales, votos al Partido Socialista Obrero Español","Elecciones municipales, votos a VOX",Sedentarismo,Consumo de tabaco diario,Consumo de medicamentos,Autopercepción de buen estado de salud (porcentaje respuesta muy buena + buena),Calidad de vida relacionada con la salud (CVRS),Presencia de enfermedad crónica,Hipertensión arterial,Diabetes Mellitus,Personas con obesidad,Personas con sobrepeso,Prevalencia de obesidad en la población infantil (2017. Estudio Madrid Salud. UCM),Probabilidad de padecer enfermedad mental (GHQ-12) (2018. EMS),Grado de satisfacción con los espacios verdes,Grado de satisfacción con los parques infantiles,Grado de satisfacción con los centros culturales,Grado de satisfacción con las instalaciones deportivas,Grado de satisfacción de los servicios sociales municipales,Superficie media construida (m2) inmuebles de uso residencial,Año medio de contrucción de inmuebles de uso residencial,Total hogares,Tamaño medio del hogar,Hogares con una mujer sola mayor de 65 años,Hogares con un hombre solo mayor de 65 años,Hogares monoparentales: una mujer adulta con uno o más menores,Hogares monoparentales: un hombre adulto con uno o más menores,Tasa de crecimiento demográfico (porcentaje),Esperanza de vida al nacer Mujeres,Esperanza de vida al nacer Hombres,Esperanza de vida mayor de 65 años Mujeres,Esperanza de vida mayor de 65 años Hombres,Crecimiento/decrecimiento Renta Bruta Per cápita 2016(a)-2008,Pensión media mensual Hombres,Pensión media mensual Mujeres
str,i64,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,…,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str
"""Ciudad de Madrid""",2019,"""60.446""","""54""","""3.266.126""","""1.521.178""","""1.744.948""","""44,06""","""435.675""","""512.070""","""744.312""","""912.424""","""423.670""","""237.975""","""661.645""","""2.805.478""","""1.308.240""","""1.497.238""","""460.623""","""212.925""","""247.698""",,"""21.638""","""167.188""","""74.042""","""93.146""",,,,,,,,,,"""63.943""","""25.381""",…,"""395.344""","""312.536""","""224.074""","""124.969""",,,,,,,,,,,,,"""6,9""","""6,4""","""7""","""6,7""","""6,5""",,"""1.974""","""1.290.164""","""2,53""","""126.044""","""36.720""","""27.171""","""5.491""","""2,08""","""87,8""","""82,8""","""24,8""","""20,9""",,"""1.477""","""988"""
"""Ciudad de Madrid""",2018,,,,,,,,,,,,,,,,,,,,"""42.283""",,,,,,,,,,,,,,,,…,,,,,"""29,97""","""18,91""","""66,34""","""0,72""","""20,19""","""39,78""","""18,82""","""6,03""","""12,17""","""33,5""","""15,8""","""21,08""",,,,,,,,,,,,,,"""1,37""","""88""","""82""","""25""","""21""",,"""1.456""","""954"""
"""Ciudad de Madrid""",2016,,,,,,,,,,,,,,,,,,,,"""39.613""","""21.755""",,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",2008,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"""658""",,
"""Ciudad de Madrid""",2020,,,,,,,,,,,,,,"""2.823.823""","""1.318.460""","""1.505.363""","""510.881""","""236.256""","""274.625""","""43.003,00""","""17.059,00""",,,,"""7,57""","""8,1""","""4,24""","""7,51""","""9,82""","""6,99""","""4,4""","""6,03""","""8,87""",,,…,,,,,,,,,,,,,,,,,,,,,,"""115""","""1.973""","""1.307.682""","""2,55""","""126.695""","""37.538""","""26.232""","""5.328""","""-0,7""","""85,2""","""79,3""","""22,4""","""17,7""",,"""1.522""","""1.146"""
"""Ciudad de Madrid""",2013,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",2021,"""60.446""","""55,17""","""3.326.741""","""1.552.174""","""1.774.567""","""44,05""","""425.896""","""538.584""","""741.838""","""951.342""","""430.660""","""238.421""","""669.081""","""2.788.297""","""1.301.434""",,"""523.994""","""243.712""","""280.282""",,,"""217.294""","""96.648""","""120.646""","""9,87""","""10,55""","""6,31""","""10,5""","""11,82""","""9,14""","""6,48""","""8,44""","""10,72""","""110.411""","""45.467""",…,,,,,,,,,,,,,,,,,"""7""","""6,6""","""6,9""","""6,9""","""6,5""",,"""1.973""","""1.306.612""","""2,54""","""129.292""","""38.397""","""26.000""","""5.236""","""-0,78""","""87,6""","""82""","""24,5""","""20,1""",,,
"""Ciudad de Madrid""",2009,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",2017,,,,,,,,,,,,,,,,,,,,,"""22.393""",,,,,,,,,,,,,,,…,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""Ciudad de Madrid""",2022,"""60.446""","""55,39""","""3.286.662""","""1.534.824""","""1.751.838""","""44,44""","""416.413""","""533.423""","""713.650""","""956.577""","""433.244""","""233.355""","""666.599""","""2.769.404""","""1.293.153""",,"""517.243""","""241.663""","""275.580""",,,"""160.316""","""68.651""","""91.665""","""7,33""","""8,08""","""3,34""","""7,3""","""10,17""","""6,52""","""3,33""","""5,45""","""8,63""","""83.245""","""32.359""",…,,,,,,,,,,,,,,,,,"""7""","""6,7""","""7""","""6,9""","""6,3""",,,"""1.313.660""","""2,501912215""","""130.749""","""39.490""","""26.251""","""5.331""",,,,,,,"""1.584""","""1.215"""


## Getting 'distritos' data

In [None]:
distritos_madrid_df = madrid_df.filter(pl.col('barrio').is_null()).select(pl.exclude('barrio'))

In [None]:
distritos_madrid_df

## Getting 'barrios' data

In [None]:
barrios_madrid_df = madrid_df.filter(~ pl.col('barrio').is_null()) 

In [None]:
barrios_madrid_df

In [None]:
columns_to_modify_type = [x for x in distritos_df.columns if x not in ['distrito', 'año']]
for col in columns_to_modify_type:
    distritos_df = distritos_df.with_columns(pl.col(col)\
                               .map_elements(lambda x: reformat_str_number(x))\
                               .cast(pl.Float64).round(2))

replace_dict = {x: find_most_similar_string(unidecode(x.lower().title()), candidates=distritos_geojson) for x in distritos_df['distrito'].drop_nulls().unique().to_list()}
distritos_df = distritos_df.with_columns(pl.col('distrito').replace(replace_dict).alias('distrito'))

columns_to_agg = [x for x in distritos_df.columns if x not in ['distrito', 'año']]
distritos_grouped_df = distritos_df.group_by(['distrito']).agg(pl.col(columns_to_agg).mean().round(2))
district_data[csv_name] = distritos_grouped_df


In [None]:
distritos_df.head(7)

In [None]:
distritos_df['año'].unique()

In [None]:
distritos_grouped_df.head()