# Descripción de los conjuntos de datos

En este cuaderno se va a proceder a la descripción de los conjuntos de datos que se van a utilizar para el proyecto final de la asignatura (tamaño, tipos de variables, etc).

Se muestra a continuación una lista con el contenido de este cuaderno con los enlaces para ir a cada una de las secciones:

- [Censo de animales domésticos de la ciudad de Madrid](#Censo-de-animales-domésticos-de-la-ciudad-de-Madrid)
- [Indicadores demográficos de distritos y barrios de la ciudad de Madrid](#Indicadores-demográficos-de-distritos-y-barrios-de-la-ciudad-de-Madrid)
- [Superficie de parques y zonas verdes de Madrid](#Superficies-de-parques-y-zonas-verdes-de-Madrid)
- [Áreas caninas en Madrid](#Áreas-caninas-en-Madrid)

Para acceder al cuaderno con el (pre)procesado de los datos, [hacer click aquí](./Entrega_intermedia_2.ipynb).

## Censo de animales domésticos de la ciudad de Madrid

Este conjunto de datos describe el censo de animales domésticos en la ciudad de Madrid disgregados por distrito.

<div class="alert alert-block alert-warning">
<b>Nota:</b> Este <i>dataset</i> abarca desde el año 2014 hasta el año 2022 (solicitada la actualización de los datos y pendiente todavía a día 24/04/2024). Como el resto de conjuntos de datos a utilizar abarcan el periodo 2019-2023, se adecuará en la medida de lo posible este conjunto de datos restringiéndonos a la información de estos años.
</div>

<div class="alert alert-block alert-info">
<b>Nota:</b> A día 25/04/2024 el portal de datos de Madrid ha actualizado el <i>dataset</i> con los datos actualizados de todo el 2023.
</div>

In [1]:
#Importamos la biblioteca pandas
import pandas as pd

#Cargamos la información del .csv en el dataframe con el que vamos a trabajar
censo = pd.read_csv('datasets/censo animales 2014-2023.csv', delimiter=';')

#Mostramos las primeras filas del dataframe para comprobar que se ha importado correctamente
censo.head()

Unnamed: 0,AÑO,DISTRITO,ESPECIE CANINA,ESPECIE FELINA
0,2023,ARGANZUELA,12685,7028
1,2023,BARAJAS,6068,2176
2,2023,CARABANCHEL,24302,9955
3,2023,CENTRO,19791,12457
4,2023,CHAMARTÍN,13632,5181


In [2]:
#Obtenemos la información del conjunto de datos
censo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210 entries, 0 to 209
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   AÑO             210 non-null    int64 
 1   DISTRITO        210 non-null    object
 2   ESPECIE CANINA  210 non-null    int64 
 3   ESPECIE FELINA  210 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 6.7+ KB


A partir del código anterior comprobamos que el conjunto de datos presenta 210 entradas, ninguna de ellas nula. Asimismo, contiene 3 variables numéricas (año, número de perros y número de gatos) y una variable categórica (distrito). También nos indica que ocupa un espacio en memoria de 6.7KB.

Vamos a analizar las variables numéricas en primer lugar.

In [3]:
censo.describe()

Unnamed: 0,AÑO,ESPECIE CANINA,ESPECIE FELINA
count,210.0,210.0,210.0
mean,2018.5,13458.471429,4380.728571
std,2.879145,4874.641703,2870.884172
min,2014.0,4584.0,505.0
25%,2016.0,10564.75,2192.0
50%,2018.5,13004.5,3756.0
75%,2021.0,16933.5,5875.25
max,2023.0,27953.0,18398.0


Este código nos da una idea general de la distribución de los datos numéricos, sobre todo en lo que respecta a la cantidad de perros y gatos entre el año 2014 y el año 2018; eso sí, sin desgregar por barrios. A continuación vamos a explorar los detalles de la variable categórica distrito:

In [4]:
censo["DISTRITO"].value_counts()

DISTRITO
ARGANZUELA             10
MORATALAZ              10
VILLA DE VALLECAS      10
VICÁLVARO              10
USERA                  10
TETUÁN                 10
SAN BLAS-CANILLEJAS    10
SALAMANCA              10
RETIRO                 10
PUENTE DE VALLECAS     10
MONCLOA-ARAVACA        10
BARAJAS                10
LATINA                 10
HORTALEZA              10
FUENCARRAL-EL PARDO    10
CIUDAD LINEAL          10
CHAMBERÍ               10
CHAMARTÍN              10
CENTRO                 10
CARABANCHEL            10
VILLAVERDE             10
Name: count, dtype: int64

Mediante el código anterior hemos obtenido los 22 posibles valores de la variable categórica distrito, con 10 observaciones para cada valor en todas ellas.

## Indicadores demográficos de distritos y barrios de la ciudad de Madrid

Este conjunto de datos proporciona una cantidad ingente de información acerca de las características demográficas de los distritos y barrios de Madrid desde el 2016 hasta el 2023: nivel de renta, tasa de desempleo, inmigración, desigualdad de género, envejecimiento, calidad de vida, resultados electorales… Prácticamente cualquier parámetro con el que se quisiera correlar la información del censo de animales domésticos por distritos se puede encontrar en este conjunto de datos, el cual se deberá preprocesar debidamente para quedarnos con la información pertinente.

In [5]:
#Cargamos la información del .csv en el dataframe con el que vamos a trabajar
demo_distritos = pd.read_csv('datasets/indicadores distritos 2019-2023.csv', delimiter=';', encoding='ISO-8859-1')

#Mostramos las primeras filas del dataframe para comprobar que se ha importado correctamente
demo_distritos.head()

Unnamed: 0,Orden,Periodo panel,ciudad,cod_distrito,distrito,cod_barrio,barrio,año,fecha_indicador,fuente_indicador,categoría_1,categoría_2,indicador_nivel1,indicador_nivel2,indicador_nivel3,unidad_indicador,indicador_completo,valor_indicador
0,1,2019,Ciudad de Madrid,,,,,2019,01/01/2019,Estadística Ayuntamiento de Madrid,Características Generales del Distrito-Barrio,,Superficie,,,Ha,Superficie (Ha.),60.446
1,2,2019,Ciudad de Madrid,,,,,2019,01/01/2019,Estadística Ayuntamiento de Madrid,Características Generales del Distrito-Barrio,,Población densidad de población,,,Habitantes/Ha.,Población densidad (hab./Ha.),54
2,3,2019,Ciudad de Madrid,,,,,2019,01/01/2019,Estadística Ayuntamiento de Madrid,Población del distrito,Estructura de población,Número de Habitantes,,,Habitantes,Número Habitantes,3.266.126
3,4,2019,Ciudad de Madrid,,,,,2019,01/01/2019,Estadística Ayuntamiento de Madrid,Población del distrito,Estructura de población,Número de Habitantes,Hombres,,Habitantes,Población Hombres,1.521.178
4,5,2019,Ciudad de Madrid,,,,,2019,01/01/2019,Estadística Ayuntamiento de Madrid,Población del distrito,Estructura de población,Número de Habitantes,Mujeres,,Habitantes,Población Mujeres,1.744.948


Vemos que se trata de un conjunto de datos bastante denso. Antes de proceder con la limpieza y preprocesado de la información, vamos a realizar los mismos pasos que con el conjunto de datos anterior. En primer lugar, vamos a comprobar la información general del conjunto:

In [6]:
demo_distritos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69179 entries, 0 to 69178
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Orden               69179 non-null  int64  
 1   Periodo panel       69179 non-null  object 
 2   ciudad              69179 non-null  object 
 3   cod_distrito        68092 non-null  float64
 4   distrito            68092 non-null  object 
 5   cod_barrio          50411 non-null  float64
 6   barrio              50419 non-null  object 
 7   año                 69179 non-null  int64  
 8   fecha_indicador     69179 non-null  object 
 9   fuente_indicador    69179 non-null  object 
 10  categoría_1         69179 non-null  object 
 11  categoría_2         61908 non-null  object 
 12  indicador_nivel1    69179 non-null  object 
 13  indicador_nivel2    60140 non-null  object 
 14  indicador_nivel3    25980 non-null  object 
 15  unidad_indicador    69160 non-null  object 
 16  indi

Efectivamente vemos que este conjunto de datos consta de de 17 variables, todas categóricas excepto 4, que se corresponden con el orden, el código del distrito, el código del barrio y el año al que corresponden los datos (que puede ser diferente al año del panel al que pertenecen). El comando ejecutado también nos indica que el conjunto de datos ocupa un espacio en memoria de 9.5MB.

Vemos también que las variables no siempre tienen nombres muy descriptivos (categoría_1, categoría_2, indicador_nivel1, etc), así que también tendremos que trabajar en ese aspecto durante el preprocesado. A continuación vamos a estudiar los detalles de las variables categóricas que componen el _dataset_:

In [7]:
print('------ Info PERIODO PANEL ------')
demo_distritos["Periodo panel"].value_counts()

------ Info PERIODO PANEL ------


Periodo panel
2023       20402
2019       17505
2020-21    16076
2022       15196
Name: count, dtype: int64

In [8]:
print('------ Info CIUDAD ------')
demo_distritos["ciudad"].value_counts()

------ Info CIUDAD ------


ciudad
Ciudad de Madrid    69179
Name: count, dtype: int64

In [9]:
print('------ Info DISTRITO ------')
demo_distritos["distrito"].value_counts()

------ Info DISTRITO ------


distrito
Fuencarral-El Pardo    3940
San Blas-Canillejas    3899
Arganzuela             3491
Moncloa-Aravaca        3470
Ciudad Lineal          3280
Centro                 3206
Tetuán                 3167
Retiro                 3137
Chamberí               3117
Chamartín              3103
Salamanca              3084
Usera                  2774
Carabanchel            2759
Latina                 2755
Puente de Vallecas     2514
Hortaleza              2450
Moratalaz              2409
Villaverde             2193
Barajas                2067
Vicálvaro              1831
Villa de Vallecas      1565
 Ciudad Lineal          967
 Usera                  820
 Latina                 818
 Carabanchel            818
 Puente de Vallecas     746
 Hortaleza              728
 Moratalaz              714
 Villaverde             649
 Barajas                609
 Vicálvaro              541
 Villa de Vallecas      471
Name: count, dtype: int64

In [10]:
print('------ Info BARRIO ------')
demo_distritos["barrio"].value_counts()

------ Info BARRIO ------


barrio
Almenara                        413
Guindalera                      411
Palacio                         411
Justicia                        408
Universidad                     404
                               ... 
 Atalaya                         78
 Colina                          78
Los Ángeles                       5
Casco histórico de Vicálvaro      5
Salvador                          5
Name: count, Length: 206, dtype: int64

In [11]:
print('------ Info FECHA INDICADOR ------')
demo_distritos["fecha_indicador"].value_counts()

------ Info FECHA INDICADOR ------


fecha_indicador
01/01/2021    13794
01/01/2020    13573
01/01/2019    13285
01/01/2022    11643
01/01/2023     4666
01/02/2022     2034
01/02/2020     2034
01/02/2021     2032
28/05/2023     1530
01/01/2018     1432
26/05/2019     1374
01/01/2016      787
01/08/2023      765
01/01/2017      201
01/01/2008       22
01/01/2013        4
10/01/2021        1
01/01/2011        1
01/01/2009        1
Name: count, dtype: int64

In [12]:
print('------ Info FUENTE INDICADOR ------')
demo_distritos["fuente_indicador"].value_counts()

------ Info FUENTE INDICADOR ------


fuente_indicador
Estadística Ayuntamiento de Madrid                                                                54048
Portal de datos abiertos del Ayuntamiento de Madrid                                                5780
Portal web del Ayuntamiento de Madrid                                                              3436
Portal web del Ayuntamiento de Madrid (https://iguala.madrid.es/)                                  2343
Encuesta de calidad de vida y satisfacción con los Servicios Públicos de Madrid                    1726
Censo de entidades y colectivos, consejos de proximidad e instrumentos de colaboración social       581
Ayuntamiento de Madrid: Servicio de planificación, coordinación e inspección catastral              350
Informe "Esperanza de vida en los barrios" Madrid Salud                                             306
Madrid salud https://madridsalud.es/estudios-de-salud/                                              288
Portal web de la Comunidad de Madrid           

In [13]:
print('------ Info CATEGORÍA 1 ------')
demo_distritos["categoría_1"].value_counts()

------ Info CATEGORÍA 1 ------


categoría_1
Población del distrito                           21383
Educación                                        14506
Indicadores Población desempleo                   8158
Servicios y equipamientos Municipales             5496
Vivienda                                          3247
Resultados Elecciones Locales                     2904
Índice de vulnerabilidad                          2343
Participación ciudadana                           2202
Calidad de vida                                   1816
Indicadores Económicos                            1575
Características Generales del Distrito-Barrio     1224
Servicios Sociales                                1188
Empresa y comercio                                 993
Seguridad                                          711
Indicadores de Vulnerabilidad                      630
Salud                                              570
Medio ambiente y residuos                          212
Situación socioeconómica ante COVID-19              1

In [14]:
print('------ Info CATEGORÍA 2 ------')
demo_distritos["categoría_2"].value_counts()

------ Info CATEGORÍA 2 ------


categoría_2
Estructura de población                                      15518
Población en etapas educativas                                9183
Nivel de estudios de la población                             4268
Población desempleo                                           4080
Indicadores Desempleo                                         4078
Estructura de los hogares                                     3672
territorial                                                   2343
Entidades de participación ciudadana                          2202
Dinámica demográfica                                          2188
Servicios Sociales Municipales                                1614
Indicadores económicos                                        1575
Deportes                                                      1294
Educación                                                     1199
Escolarización de alumnos por tipo de centro                   790
Cultura                                           

In [15]:
print('------ Info INDICADOR NIVEL 1 ------')
demo_distritos["indicador_nivel1"].value_counts()

------ Info INDICADOR NIVEL 1 ------


indicador_nivel1
Número de personas                          18163
Número de Habitantes                        14906
Número de personas paradas                   8146
Número de equipamientos                      5724
Número de Hogares                            3672
Número de votos                              2904
Índice                                       2343
Número de entidades                          2202
Inmuebles                                    1377
Esperanza de vida                             964
Superficie                                    918
Renta                                         875
Locales                                       765
Pensión                                       700
Valor catastral                               700
Crecimiento Demográfico                       612
Natalidad                                     612
Edad Media                                    612
Tiempo                                        608
Número de intervenciones         

In [16]:
print('------ Info INDICADOR NIVEL 2 ------')
demo_distritos["indicador_nivel2"].value_counts()

------ Info INDICADOR NIVEL 2 ------


indicador_nivel2
Mujeres                                                                          5851
Hombres                                                                          5849
Vulnerabilidad                                                                   2343
Asociaciones                                                                     1922
de 0 a 2 años                                                                    1836
                                                                                 ... 
6 a 11 años                                                                         2
Dificultad para hacer frente a gastos de suministro energético                      1
Tasa de riesgo de pobreza para población que ha nacido en país fuera de la UE       1
Tasa de riesgo de pobreza para población que ha nacido en España                    1
Hogar formado por madre con hijos a cargo                                           1
Name: count, Length: 210, dtype: int6

In [17]:
print('------ Info INDICADOR NIVEL 3 ------')
demo_distritos["indicador_nivel3"].value_counts()

------ Info INDICADOR NIVEL 3 ------


indicador_nivel3
Niños                                          3059
Municipio                                      2904
Niñas                                          2754
Primera y segunda nacionalidad del distrito    2059
Nacionalidad extranjera                        1836
                                               ... 
2ºExcrementos animales domésticos                 2
2ºExceso de velocidad                             2
Octubre                                           1
Abril                                             1
  entre 65 y más años                             1
Name: count, Length: 77, dtype: int64

In [18]:
print('------ Info UNIDAD INDICADOR ------')
demo_distritos["unidad_indicador"].value_counts()

------ Info UNIDAD INDICADOR ------


unidad_indicador
Personas                  29147
Tasa                       6755
Equipamientos              5317
Índice                     5087
Hogares                    3060
Votos                      2904
Entidades                  2202
Habitantes                 1836
Proporción                 1833
Edad                       1422
Número                     1224
Renta                       875
m2                          845
Ha                          775
Valor                       700
Euros                       700
Habitantes/Ha.              612
Media                       612
Tiempo (meses)              608
Año                         459
Porcentaje                  379
Intervenciones              352
Número de orden             304
Viviendas                   256
Años                        154
Personas detenidas          120
Kg/hab/año                   88
Kg/hab/día                   88
Atestados                    88
Ha/habitantes                88
Expedientes            

In [19]:
print('------ Info INDICADOR COMPLETO ------')
demo_distritos["indicador_completo"].value_counts()

------ Info INDICADOR COMPLETO ------


indicador_completo
Superficie (Ha.)                                                                            612
Tasa de desempleo en mujeres de 25 a 44 años                                                612
Población en etapa educativa de 3 a 5 años                                                  612
Población en etapa educativa de 0 a 2 años                                                  612
Población en etapas educativas                                                              612
                                                                                           ... 
Ozono - O3 (µgr/m3)                                                                           1
Personas con sobrepeso Hombres                                                                1
Personas con sobrepeso Mujeres                                                                1
Probabilidad de padecer enfermedad mental (GHQ-12)   entre 65 y más años (Octubre, 2020)      1
Lanzamientos judicial

In [20]:
print('------ Info VALOR INDICADOR ------')
demo_distritos["valor_indicador"].value_counts()

------ Info VALOR INDICADOR ------


valor_indicador
1         3667
2         1166
3          614
4          430
5          299
          ... 
29.137       1
13,93        1
28.861       1
3.008        1
28,28        1
Name: count, Length: 19511, dtype: int64

La información obtenida en los anteriores apartados acerca de las diferentes variables categóricas del conjunto de datos nos servirán más adelante para filtrar los datos, limpiar la información y quedarnos únicamente con la fracción de datos que nos interesa. Veremos más en el apartado de preprocesado. Ahora, tal y como hemos hecho con el primer conjunto de datos, veremos la información acerca de las variables numéricas:

In [21]:
demo_distritos.describe()

Unnamed: 0,Orden,cod_distrito,cod_barrio,año
count,69179.0,68092.0,50411.0,69179.0
mean,34590.0,10.780811,110.725516,2020.604403
std,19970.401473,5.906033,58.55139,1.457388
min,1.0,1.0,11.0,2008.0
25%,17295.5,6.0,62.0,2019.0
50%,34590.0,11.0,111.0,2021.0
75%,51884.5,15.0,158.0,2022.0
max,69179.0,21.0,215.0,2023.0


Es inmediato advertir que este comando no nos aporta demasiada información en este conjunto de datos, mientras que en el del censo de animales domésticos sí lo hacía.

## Superficie de parques y zonas verdes de Madrid

Este conjunto de datos describe las superficies de parques y zonas verdes por distrito de Madrid desde el año 2017 hasta el año 2023. A diferencia de los _datasets_ anteriores, este tiene una hoja CSV para cada año, con lo que durante el preprocesado se podría valorar la opción de unir todos los datos en un único dataframe para simplificar la información con la que trabajemos finalmente. Igual que en apartados anteriores, el primer paso es importar los CSV.

<div class="alert alert-block alert-info">
<b>Nota:</b> Dado que cada año es un archivo .CSV, siendo en total 5 archivos con idéntica estructura, sólo se va a analizar la información y el tipo de datos de uno de ellos, por cuestión de eficiencia y espacio
</div>

In [22]:
#Cargamos la información del .csv en el dataframe con el que vamos a trabajar
arbolado_19 = pd.read_csv('datasets/arbolado-2019.csv', delimiter=';', encoding='ISO-8859-1')

#Mostramos las primeras filas del dataframe para comprobar que se ha importado correctamente
arbolado_19.head()

Unnamed: 0,Nº DISTRITO,DISTRITO,PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO,SUPERFICIE (ha)
0,1,CENTRO,PASEO DEL PRADO I,353
1,1,CENTRO,PASEO DE RECOLETOS I,194
2,1,CENTRO,JARDINES DE LAS VISTILLAS,124
3,1,CENTRO,PARQUE DE ATENAS,466
4,1,CENTRO,PARQUE DE LA DALIEDA DE S.FCO EL GRANDE,43


Una vez comprobamos que el archivo csv se ha volcadoc correctamente en el dataframe, comprobamos su información general.

In [23]:
#Obtenemos la información del conjunto de datos
arbolado_19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 4 columns):
 #   Column                                             Non-Null Count  Dtype 
---  ------                                             --------------  ----- 
 0   Nº DISTRITO                                        80 non-null     int64 
 1   DISTRITO                                           80 non-null     object
 2   PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO  80 non-null     object
 3   SUPERFICIE (ha)                                    80 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.6+ KB


Lo primero que observamos es que el conjunto de datos presenta 80 entradas, ninguna de ellas nula. Por un lado, contiene 3 variables categóricas (nombre del distrito, nombre del parque o zona verde y por último la superficie en hectáreas) y una variable numérica (el número del distrito). También nos indica que ocupa un espacio en memoria de 2.6KB.

Vamos a analizar las variables categóricas en primer lugar:

In [24]:
print('------ Info DISTRITO ------')
arbolado_19["DISTRITO"].value_counts()

------ Info DISTRITO ------


DISTRITO
SALAMANCA                7
CENTRO                   5
TETUÁN                   5
CHAMBERÍ                 5
SAN BLAS - CANILLEJAS    5
VICÁLVARO                5
HORTALEZA                5
CIUDAD LINEAL            4
RETIRO                   4
CHAMARTÍN                4
FUENCARRAL - EL PARDO    4
LATINA                   4
VILLA DE VALLECAS        4
PUENTE DE VALLECAS       4
BARAJAS                  3
ARGANZUELA               3
MORATALAZ                2
VILLAVERDE               2
USERA                    2
MONCLOA-ARAVACA          2
CARABANCHEL              1
Name: count, dtype: int64

In [25]:
print('------ Info PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO ------')
arbolado_19["PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO"].value_counts()

------ Info PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO ------


PARQUES Y ZONAS VERDES SIGNIFICATIVAS DE DISTRITO
PASEO DEL PRADO I              1
PASEO DE RECOLETOS I           1
PARQUE DE VILLAROSA            1
PINAR DEL REY                  1
PARQUE DE LOS LLANOS           1
                              ..
JARDINES DE PERÓN              1
PARQUE HUERTA DEL OBISPO       1
PASEO DE LA CASTELLANA III     1
PARQUE DE BERLÍN               1
PLAZA DE LOS HERMANOS FALCÓ    1
Name: count, Length: 80, dtype: int64

In [26]:
print('------ Info SUPERFICIE (ha) ------')
arbolado_19["SUPERFICIE (ha)"].value_counts()

------ Info SUPERFICIE (ha) ------


SUPERFICIE (ha)
1,24     2
0,56     2
3,06     2
3,53     1
3,36     1
        ..
18,5     1
1,88     1
14,72    1
2,01     1
0,18     1
Name: count, Length: 77, dtype: int64

Tal y como se podía intuir desde un principio, no tiene mucho sentido que la variable SUPERFICIE sea categórica. Por lo que la convertimos a variable numérica, de tal manera que podamos trabajar con sus valores (hacer la media, buscar máximos, mínimos, tendencias...) de una manera más compleja a como podríamos hacerlo manteniéndola como variable categórica. Esta sería una tarea más propia del preprocesado, cuando probablemente se convierta también a metros cuadrados.

In [27]:
#Convertimos la variable SUPERFICIE a variable numérica
arbolado_19['SUPERFICIE (ha)'] = arbolado_19['SUPERFICIE (ha)'].astype(str).str.replace(',', '.')
arbolado_19['SUPERFICIE (ha)'] = pd.to_numeric(arbolado_19['SUPERFICIE (ha)'])

In [28]:
#Ahora podemos obtener sus parámetros principales, como la media, el máximo o el mínimo
arbolado_19.describe()

Unnamed: 0,Nº DISTRITO,SUPERFICIE (ha)
count,80.0,80.0
mean,10.5625,8.077625
std,6.40578,11.324271
min,1.0,0.18
25%,5.0,1.5
50%,10.0,3.6
75%,16.0,11.0675
max,21.0,59.51


## Áreas caninas en Madrid

Por último, vamos a consultar los detalles del conjunto de datos acerca de las áreas caninas ubicadas por la localidad de Madrid, desagregadas según distrito y barrio. Estos datos pueden complementar los ofrecidos por los de las zonas verdes y parques de Madrid. Al igual que estos datos, en este caso también vienen presentados en diferentes archivos .csv para cada año.

<div class="alert alert-block alert-info">
<b>Nota:</b> Igual que en el caso anterior, sólo procederemos a describir uno de los archivos .csv importado a un dataframe, dado que el resto de archivos del resto de años presentan una estructura idéntica entre sí.
</div>

In [29]:
#Cargamos la información del .csv en el dataframe con el que vamos a trabajar
caninas_19 = pd.read_csv('datasets/areas caninas-2019.csv', delimiter=';', encoding='ISO-8859-1')

#Mostramos las primeras filas del dataframe para comprobar que se ha importado correctamente
caninas_19.head()

Unnamed: 0,"MXASSETNUM,C,12","DESCRIPTIO,C,105","MINTDISTRI,C,20","NOMBRE_DIS,C,25","MINTBARRIO,C,10","NOMBRE_BAR,C,50","INSTALLDAT,D","MINTTIPOVI,C,15","MINTNOMBRE,C,254","MINTNUMERO,C,25","MINTNDP,C,20","TIPO,C,254","TOTAL_ELEM,N,10,0","ESTADO,C,50"
0,3580435,C2073-Canina-AV ARCENTALES 29,20,SAN BLAS-CANILLEJAS,201,SIMANCAS,01/01/04,AVENIDA,ARCENTALES,29.0,20128779.0,CANINAS,4,ACTIVO
1,3580438,C2076-Canina-C ARCOS DE JALON 16,20,SAN BLAS-CANILLEJAS,204,ARCOS,01/01/04,CALLE,ARCOS DEL JALON,16.0,11135550.0,CANINAS,2,ACTIVO
2,3568735,C1057-Canina,10,LATINA,101,LOS CARMENES,03/10/16,,,,,CANINAS DE JUEGOS,8,ACTIVO
3,3580440,C2078-Canina-C ARCOS DE JALON 13,20,SAN BLAS-CANILLEJAS,204,ARCOS,01/05/16,CALLE,ARCOS DEL JALON,13.0,31032028.0,CANINAS,1,ACTIVO
4,16829,C0350-Canina,3,RETIRO,32,ADELFAS,01/07/14,CALLE,ARREGUI Y ARUEJ,16.0,31005668.0,CANINAS DE JUEGOS,4,ACTIVO


In [30]:
#Obtenemos la información del conjunto de datos
caninas_19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148 entries, 0 to 147
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   MXASSETNUM,C,12    148 non-null    int64  
 1   DESCRIPTIO,C,105   148 non-null    object 
 2   MINTDISTRI,C,20    148 non-null    int64  
 3   NOMBRE_DIS,C,25    148 non-null    object 
 4   MINTBARRIO,C,10    148 non-null    int64  
 5   NOMBRE_BAR,C,50    148 non-null    object 
 6   INSTALLDAT,D       118 non-null    object 
 7   MINTTIPOVI,C,15    146 non-null    object 
 8   MINTNOMBRE,C,254   146 non-null    object 
 9   MINTNUMERO,C,25    146 non-null    object 
 10  MINTNDP,C,20       146 non-null    float64
 11  TIPO,C,254         148 non-null    object 
 12  TOTAL_ELEM,N,10,0  148 non-null    int64  
 13  ESTADO,C,50        148 non-null    object 
dtypes: float64(1), int64(4), object(9)
memory usage: 16.3+ KB


Vemos que en este caso el conjunto de datos es a primera vista algo caótico, con unos nombres de variables no muy claros. Durante el preprocesado que se llevará a cabo después, probablemente se limpie el dataframe para trabajar únicamente con las variables de distrito, barrio y tipo de área, eliminando además aquellas entradas que tengan valores nulos o se correspondan con áreas caninas inactivas, según determina la variable *Estado*.

En cualquier caso, este conjunto de datos presenta 148 entradas las cuales, en algunas categorías, tienen valor nulo. Se compone de 5 variables numéricas y 9 variables categóricas. Por último, el comando información nos indica que el conjunto de datos ocupa 16.3KB en memoria.

Exploraremos en primer lugar las variables numéricas:

In [31]:
caninas_19.describe()

Unnamed: 0,"MXASSETNUM,C,12","MINTDISTRI,C,20","MINTBARRIO,C,10","MINTNDP,C,20","TOTAL_ELEM,N,10,0"
count,148.0,148.0,148.0,146.0,148.0
mean,4601841.0,11.817568,121.804054,20366970.0,1.581081
std,729370.0,5.788844,57.818818,7980715.0,2.526091
min,16829.0,1.0,12.0,11002270.0,0.0
25%,3580441.0,7.0,74.25,11111360.0,0.0
50%,4996540.0,12.5,128.5,20103950.0,0.0
75%,4997450.0,16.0,165.25,31005800.0,2.0
max,5148516.0,21.0,215.0,31060380.0,12.0


Es inmediato observar que a partir de esta descripción de las variables numéricas no obtenemos mucha información acerca del conjunto de datos. Procedemos a estudiar las características de las variables categóricas:

In [32]:
print('------ Info DESCRIPCIÓN ------')
caninas_19["DESCRIPTIO,C,105"].value_counts()

------ Info DESCRIPCIÓN ------


DESCRIPTIO,C,105
C2073-Canina-AV ARCENTALES 29                    1
C0201 - Canina                                   1
C0203 - Canina                                   1
C0204 - Canina                                   1
C0205 - Canina                                   1
                                                ..
C1174-Canina - CAMINO DE LAS CRUCES 58           1
C1970 - Canina - CALLE DE MINERVA 161            1
C1980 - Canina - CALLE DE AMBROZ 2B              1
C1973 - Canina - PLAZA DE JUAN ROF CARBALLO 4    1
C0101 - Canina - VILLA DE PARIS                  1
Name: count, Length: 148, dtype: int64

La variable **descripción** nos aporta una información sucinta acerca del tipo de área y su ubicación. Veamos a continuación los detalles acerca de la variable **distrito**:

In [33]:
print('------ Info DISTRITO ------')
caninas_19["NOMBRE_DIS,C,25"].value_counts()

------ Info DISTRITO ------


NOMBRE_DIS,C,25
CIUDAD LINEAL          16
VICALVARO              12
SAN BLAS-CANILLEJAS    11
CARABANCHEL            11
RETIRO                 10
TETUAN                 10
HORTALEZA               8
PUENTE DE VALLECAS      8
VILLAVERDE              7
LATINA                  7
MORATALAZ               6
MONCLOA-ARAVACA         6
ARGANZUELA              6
CHAMBERI                6
USERA                   5
SALAMANCA               5
FUENCARRAL-EL PARDO     4
VILLA DE VALLECAS       3
BARAJAS                 3
CENTRO                  3
CHAMARTIN               1
Name: count, dtype: int64

La variable **distrito** sí que nos aporta información rápida y concisa acerca de los distritos madrileños con más áreas caninas. La variable correspondiente al nombre del barrio nos aportará información análoga a esta, y las correspondientes al nombre y número de la calle donde está ubicada la zona canina no es especialmente relevante dado que nos vamos a centrar a analizar la información a nivel de distrito. Sí que puede ser interesante ver los detalles de la variable **estado**:

In [34]:
print('------ Info ESTADO ------')
caninas_19["ESTADO,C,50"].value_counts()

------ Info ESTADO ------


ESTADO,C,50
ACTIVO      143
INACTIVO      5
Name: count, dtype: int64

Efectivamente esta variable nos proporciona información acerca del número de áreas activas e inactivas respecto al total registrado en el conjunto de datos. Vemos que no hay muchas inactivas, las cuales suponen un 3.37% del total. Durante el preprocesado se eliminarán las filas correspondientes a estas áreas inactivas para limpiar los datos.