# Cuaderno RETO 1: Exploración de los datos

En este cuaderno se realiza la **exploración inicial del dataset terrazas** proporcionado
para la práctica de Bases de Datos NoSQL.

El objetivo de este reto es **comprender la estructura, el contenido y la calidad de los datos**
sin realizar todavía tareas de limpieza ni inserción en la base de datos.

Esta exploración permitirá identificar:
- Número de registros y atributos
- Tipos de datos
- Valores nulos
- Posibles claves y relaciones
- Problemas de calidad de los datos


### Contexto del conjunto de datos (Terrazas)

El conjunto de datos describe las terrazas autorizadas asociadas a locales comerciales
del municipio de Madrid, incluyendo información administrativa, geográfica y de actividad.

Cada registro identifica una terraza mediante un código único (`id_terraza`) y la vincula
a un local (`id_local`), el cual se asocia a una dirección oficial del edificio, distrito y barrio.
Los locales se clasifican según su tipo de acceso (puerta de calle, agrupado, interior, etc.)
y su situación administrativa (abierto, cerrado, en obras, baja, uso vivienda).

El dataset incluye información de ubicación (dirección postal y coordenadas UTM),
características físicas de la terraza (superficie, número de mesas y sillas),
periodo de funcionamiento (anual o estacional) y horarios autorizados,
diferenciando entre días laborables y fines de semana.

Los datos proceden del Censo de Locales y Actividades y reflejan la última situación
administrativa disponible para cada local con terraza abierta.


In [1]:
# Imports necesarios
import pandas as pd 

# Configuración para mostrar todas las filas y columnas sin truncar
pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", None)
pd.set_option('display.max_rows', None)

### Carga del dataset

En primer lugar se carga el fichero CSV.
Este dataset contiene datos relativos a las terrazas de hostelería y restauración 
que constan asociadas a locales del censo de locales y actividades del Ayuntamiento de 
Madrid.

El fichero utiliza el carácter `;` como separador de campos.

In [2]:
df_terrazas = pd.read_csv("../../data/raw/terrazas202312.csv", sep=';')

# Mostramos el tamaño del DataFrame (número de filas y columnas)
print(df_terrazas.shape)

(6788, 61)


El resultado anterior indica que en total tenemos 6788 filas y 61 columnas presentes en el dataset.

A continuación vamos a visualizar las primeras filas del dataset para obtener una primera idea del contenido y formato de los datos.

In [3]:
df_terrazas.head()

Unnamed: 0,id_terraza,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,id_ndp_edificio,id_clase_ndp_edificio,id_vial_edificio,clase_vial_edificio,desc_vial_edificio,nom_edificio,num_edificio,Cod_Postal,coordenada_x_local,coordenada_y_local,id_tipo_acceso_local,desc_tipo_acceso_local,id_situacion_local,desc_situacion_local,secuencial_local_PC,Escalera,id_planta_agrupado,id_local_agrupado,coordenada_x_agrupacion,coordenada_y_agrupacion,rotulo,id_periodo_terraza,desc_periodo_terraza,id_situacion_terraza,desc_situacion_terraza,Superficie_ES,Superficie_RA,Fecha_confir_ult_decreto_resol,id_ndp_terraza,id_clase_ndp_terraza,id_vial,desc_clase,desc_nombre,nom_terraza,num_terraza,cal_terraza,desc_ubicacion_terraza,hora_ini_LJ_es,hora_fin_LJ_es,hora_ini_LJ_ra,hora_fin_LJ_ra,hora_ini_VS_es,hora_fin_VS_es,hora_ini_VS_ra,hora_fin_VS_ra,mesas_aux_es,mesas_aux_ra,mesas_es,mesas_ra,sillas_es,sillas_ra,cal_edificio,fx_carga,fx_datos_ini,fx_datos_fin
0,33,270403150,4,SALAMANCA,404,GUINDALERA,11018870,1,42500,AVENIDA,AMERICA,NUM,2,28028,442586.6,4476524.5,1,Puerta Calle,1,Abierto,30,,PB,01,,,VIPS,1,Anual,1,Abierta,21.06,16.2,04/04/2014,11018870,1,42500,AVENIDA,AMERICA,NUM,2,,Acera,10:00:00,01:00:00,10:00:00,00:00:00,10:00:00,02:30:00,10:00:00,00:00:00,0,0.0,9,9.0,27,27.0,,2023-12-08 07:00:49.223,2023-12-01,2023-12-01
1,1168,80000291,8,FUENCARRAL-EL PARDO,806,VALVERDE,20057165,1,127,CALLE,ISABEL COLBRAND,NUM,10,28050,0.0,0.0,0,Agrupado,1,Abierto,0,,PB,EX71,442993.62,4484849.5,RESTAURANTE DOMINÓ,1,Anual,1,Abierta,89.04,89.04,15/12/2014,20057165,1,127,CALLE,ISABEL COLBRAND,NUM,10,,Superficie en parcela privada,09:00:00,01:00:00,09:00:00,00:00:00,09:00:00,02:30:00,09:00:00,00:00:00,0,0.0,22,22.0,70,70.0,,2023-12-08 07:00:49.227,2023-12-01,2023-12-01
2,42,40002970,4,SALAMANCA,403,FUENTE DEL BERRO,11016907,1,88952587,CALLE,ALCALA,NUM,200,28028,443685.6,4475723.5,1,Puerta Calle,1,Abierto,20,,PB,,,,VIPS,1,Anual,1,Abierta,14.89,14.89,07/04/2014,11016907,1,88952587,CALLE,ALCALA,NUM,200,A,Acera,08:00:00,01:00:00,08:00:00,00:00:00,08:00:00,01:30:00,08:00:00,00:00:00,0,0.0,4,0.0,16,0.0,A,2023-12-08 07:00:49.223,2023-12-01,2023-12-01
3,1176,40002488,4,SALAMANCA,406,CASTELLANA,11019901,1,411300,CALLE,JUAN BRAVO,NUM,25,28006,442284.6,4476020.5,1,Puerta Calle,1,Abierto,20,,PB,,,,SALITRE,1,Anual,1,Abierta,27.0,27.0,17/12/2014,11019901,1,411300,CALLE,JUAN BRAVO,NUM,25,,Bulevar,10:00:00,00:00:00,10:00:00,00:00:00,10:00:00,00:00:00,10:00:00,00:00:00,0,0.0,18,18.0,36,36.0,,2023-12-08 07:00:49.227,2023-12-01,2023-12-01
4,56,170000773,17,VILLAVERDE,1704,LOS ROSALES,11126803,1,786850,CALLE,VILLAJOYOSA,NUM,73,28041,441341.53,4467433.5,1,Puerta Calle,1,Abierto,10,,PB,01,,,DONER KEBAB ARMENIA,2,Estacional,1,Abierta,12.96,,14/04/2014,11126803,1,786850,CALLE,VILLAJOYOSA,NUM,73,,Acera,08:00:00,01:30:00,,,08:00:00,01:30:00,,,0,0.0,4,0.0,16,0.0,,2023-12-08 07:00:49.223,2023-12-01,2023-12-01


A continuación se muestra una muestra aleatoria de registros.
Esto permite observar valores representativos que no necesariamente
aparecen en las primeras filas del fichero.

In [4]:
df_terrazas.sample(5, random_state=42)

Unnamed: 0,id_terraza,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,id_ndp_edificio,id_clase_ndp_edificio,id_vial_edificio,clase_vial_edificio,desc_vial_edificio,nom_edificio,num_edificio,Cod_Postal,coordenada_x_local,coordenada_y_local,id_tipo_acceso_local,desc_tipo_acceso_local,id_situacion_local,desc_situacion_local,secuencial_local_PC,Escalera,id_planta_agrupado,id_local_agrupado,coordenada_x_agrupacion,coordenada_y_agrupacion,rotulo,id_periodo_terraza,desc_periodo_terraza,id_situacion_terraza,desc_situacion_terraza,Superficie_ES,Superficie_RA,Fecha_confir_ult_decreto_resol,id_ndp_terraza,id_clase_ndp_terraza,id_vial,desc_clase,desc_nombre,nom_terraza,num_terraza,cal_terraza,desc_ubicacion_terraza,hora_ini_LJ_es,hora_fin_LJ_es,hora_ini_LJ_ra,hora_fin_LJ_ra,hora_ini_VS_es,hora_fin_VS_es,hora_ini_VS_ra,hora_fin_VS_ra,mesas_aux_es,mesas_aux_ra,mesas_es,mesas_ra,sillas_es,sillas_ra,cal_edificio,fx_carga,fx_datos_ini,fx_datos_fin
4077,18431,60001187,6,TETUAN,603,CASTILLEJOS,11030975,1,137400,CALLE,POETA JOAN MARAGALL,NUM,51,28020,441287.62,4479404.5,1,Puerta Calle,1,Abierto,40,,PB,,,,51 NIGHTS OF DRINKS,1,Anual,1,Abierta,36.0,36.0,02/02/2021,11030975,1,137400,CALLE,POETA JOAN MARAGALL,NUM,51,,Calle peatonal,10:00:00,01:00:00,10:00:00,00:00:00,10:00:00,02:00:00,10:00:00,00:00:00,0,0.0,10,10.0,38,38.0,,2023-12-08 07:00:49.233,2023-12-01,2023-12-01
5309,18411,270349370,7,CHAMBERI,705,RIOS ROSAS,11041744,1,276200,CALLE,ESPRONCEDA,NUM,17,28003,440855.6,4476905.5,1,Puerta Calle,1,Abierto,20,,PB,4.0,,,CAFETERIA SYLKAR BAR,1,Anual,1,Abierta,41.2,41.2,29/01/2021,31044178,1,276200,CALLE,ESPRONCEDA,NUM,17,B,Zona de estacionamiento,10:00:00,01:30:00,10:00:00,01:00:00,10:00:00,01:30:00,10:00:00,01:00:00,0,0.0,6,6.0,24,24.0,,2023-12-08 07:00:49.237,2023-12-01,2023-12-01
101,813,285043131,15,CIUDAD LINEAL,1501,VENTAS,11103522,1,675700,CALLE,SAN LAMBERTO,NUM,19,28017,444704.56,4474679.5,1,Puerta Calle,1,Abierto,50,,PB,2.0,,,LA TAPITA DE EVA,1,Anual,1,Abierta,25.92,25.92,18/08/2014,11103522,1,675700,CALLE,SAN LAMBERTO,NUM,19,,Acera,08:00:00,01:30:00,08:00:00,01:00:00,08:00:00,01:30:00,08:00:00,01:00:00,0,0.0,8,8.0,32,32.0,,2023-12-08 07:00:49.227,2023-12-01,2023-12-01
2077,4718,270379088,10,LATINA,1005,CAMPAMENTO,11066309,1,785800,CALLE,VILLACARRIEDO,NUM,6,28024,434533.62,4472175.5,1,Puerta Calle,1,Abierto,10,,PB,,,,PIKATAPA,2,Estacional,1,Abierta,45.12,,09/01/2017,11066309,1,785800,CALLE,VILLACARRIEDO,NUM,6,,Otros,10:00:00,00:00:00,,,10:00:00,00:00:00,,,0,,10,,40,,,2023-12-08 07:00:49.23,2023-12-01,2023-12-01
2225,4836,190000300,19,VICALVARO,1901,CASCO H.VICALVARO,11133075,1,78200,PASEO,ARTILLEROS,NUM,15,28032,448332.53,4473135.5,1,Puerta Calle,1,Abierto,10,,SO,1.0,,,BAR RINCON DE CARLA,1,Anual,1,Abierta,34.56,34.56,10/01/2017,20048924,1,786760,CALLE,VILLAJIMENA,NUM,2,C,Acera,08:00:00,01:30:00,08:00:00,01:00:00,08:00:00,01:30:00,08:00:00,01:00:00,0,0.0,14,14.0,43,43.0,,2023-12-08 07:00:49.23,2023-12-01,2023-12-01


### Estructura y tipos de datos

Se analiza la estructura del DataFrame para identificar:
- Nombre de los atributos
- Tipo de dato asignado por pandas
- Número de valores no nulos por columna

In [5]:
df_terrazas.info()

<class 'pandas.DataFrame'>
RangeIndex: 6788 entries, 0 to 6787
Data columns (total 61 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id_terraza                      6788 non-null   int64  
 1   id_local                        6788 non-null   int64  
 2   id_distrito_local               6788 non-null   int64  
 3   desc_distrito_local             6788 non-null   str    
 4   id_barrio_local                 6788 non-null   int64  
 5   desc_barrio_local               6788 non-null   str    
 6   id_ndp_edificio                 6788 non-null   int64  
 7   id_clase_ndp_edificio           6788 non-null   int64  
 8   id_vial_edificio                6788 non-null   int64  
 9   clase_vial_edificio             6788 non-null   str    
 10  desc_vial_edificio              6788 non-null   str    
 11  nom_edificio                    6788 non-null   str    
 12  num_edificio                    6788 non-null

A partir de esta información se puede observar que:
- Existen 9 columnas de tipo float. 
- Existen 21 columnas de tipo int64. 
- Existen 31 columnas de tipo str. 
- Los campos que representan fechas están representados como str.

### Análisis de valores nulos

Se comprueba la existencia de valores nulos en el dataset.
En esta fase **no se eliminan ni corrigen**, únicamente se identifican.

In [6]:
df_terrazas.isnull().sum()[df_terrazas.isnull().sum() > 0]

Escalera                   6665
id_planta_agrupado            4
id_local_agrupado          1264
coordenada_x_agrupacion    6683
coordenada_y_agrupacion    6683
Superficie_RA              1178
hora_ini_LJ_ra             1178
hora_fin_LJ_ra             1178
hora_ini_VS_ra             1178
hora_fin_VS_ra             1178
mesas_aux_ra                239
mesas_ra                    239
sillas_ra                   239
dtype: int64

El resultado muestra qué columnas contienen valores nulos y cuántos registros se ven afectados en cada caso.

### Análisis de columnas de texto

Se identifican las columnas de tipo texto para analizar posibles problemas de calidad, como espacios en blanco innecesarios o formatos inconsistentes.

In [7]:
text_cols = df_terrazas.select_dtypes(include="object").columns
print(text_cols)

Index(['desc_distrito_local', 'desc_barrio_local', 'clase_vial_edificio',
       'desc_vial_edificio', 'nom_edificio', 'desc_tipo_acceso_local',
       'desc_situacion_local', 'Escalera', 'id_planta_agrupado',
       'id_local_agrupado', 'rotulo', 'desc_periodo_terraza',
       'desc_situacion_terraza', 'Fecha_confir_ult_decreto_resol',
       'desc_clase', 'desc_nombre', 'nom_terraza', 'cal_terraza',
       'desc_ubicacion_terraza', 'hora_ini_LJ_es', 'hora_fin_LJ_es',
       'hora_ini_LJ_ra', 'hora_fin_LJ_ra', 'hora_ini_VS_es', 'hora_fin_VS_es',
       'hora_ini_VS_ra', 'hora_fin_VS_ra', 'cal_edificio', 'fx_carga',
       'fx_datos_ini', 'fx_datos_fin'],
      dtype='str')


See https://pandas.pydata.org/docs/user_guide/migration-3-strings.html#string-migration-select-dtypes for details on how to write code that works with pandas 2 and 3.
  text_cols = df_terrazas.select_dtypes(include="object").columns


A continuación se inspeccionan los valores únicos de una columna de texto representativa para observar posibles inconsistencias.

In [8]:
df_terrazas["desc_barrio_local"].unique()

<StringArray>
['GUINDALERA          ', 'VALVERDE            ', 'FUENTE DEL BERRO    ',
 'CASTELLANA          ', 'LOS ROSALES         ', 'UNIVERSIDAD         ',
 'EMBAJADORES         ', 'JUSTICIA            ', 'CASCO H.VALLECAS    ',
 'PALACIO             ',
 ...
 'VALDEFUENTES        ', 'CUATRO VIENTOS      ', 'CANILLAS            ',
 'PIOVERA             ', 'PINAR DEL REY       ', 'APOSTOL SANTIAGO    ',
 'PALOMAS             ',         'EL CAÑAVERAL', 'VALDEMARIN          ',
 'FUENTELARREINA      ']
Length: 129, dtype: str

En los valores mostrados se puede observar la presencia de espacios en blanco
al final de las cadenas de texto, lo que indica que será necesario realizar
un preprocesado mínimo antes de la inserción en la base de datos.

### Identificación de columnas de fecha

Se identifican las columnas que contienen información temporal.
Estas columnas suelen comenzar por el prefijo `fx_` o `fecha`.

In [9]:
date_cols = [c for c in df_terrazas.columns if "fx_" in c.lower() or "fecha" in c.lower()]
print(date_cols)

['Fecha_confir_ult_decreto_resol', 'fx_carga', 'fx_datos_ini', 'fx_datos_fin']


Las columnas identificadas contienen fechas almacenadas como texto,
por lo que será necesario convertirlas a un formato de fecha adecuado
en fases posteriores para permitir consultas temporales.

### Identificación de columnas de hora

Se identifican las columnas que contienen información temporal.
Estas columnas suelen comenzar por el prefijo `hora`.

In [10]:
hour_cols = [c for c in df_terrazas.columns if "hora" in c.lower()]
print(hour_cols)

['hora_ini_LJ_es', 'hora_fin_LJ_es', 'hora_ini_LJ_ra', 'hora_fin_LJ_ra', 'hora_ini_VS_es', 'hora_fin_VS_es', 'hora_ini_VS_ra', 'hora_fin_VS_ra']


Las columnas identificadas contienen horas almacenadas como texto,
por lo que será necesario convertirlas a un formato de hora adecuado
en fases posteriores para permitir consultas temporales.

### Listado completo de columnas

A continuación, se muestra el listado completo de atributos del dataset para identificar posibles claves y relaciones con otros ficheros.

In [12]:
# Crea una tabla con dos columnas: "Columna" y "Tipo"
tipos_df = df_terrazas.dtypes.reset_index()
tipos_df.columns = ['Columna', 'Tipo de Dato']

tipos_df.style.set_properties(**{'text-align': 'left'}).hide(axis='index')

Columna,Tipo de Dato
id_terraza,int64
id_local,int64
id_distrito_local,int64
desc_distrito_local,str
id_barrio_local,int64
desc_barrio_local,str
id_ndp_edificio,int64
id_clase_ndp_edificio,int64
id_vial_edificio,int64
clase_vial_edificio,str


### Conclusión del dataset y campos relevantes para el modelo de datos

A partir de la exploración realizada, se identifican aquellos campos que
resultan especialmente relevantes para la construcción del modelo de datos,
ya sea por su papel como identificadores, por permitir relaciones con otros
datasets o por aportar información estructural clave.


In [13]:
cols_terrazas_clave = [
    # Identificación y relación
    "id_terraza",
    "id_local",

    # Contexto territorial
    "id_distrito_local",
    "id_barrio_local",
    "desc_barrio_local",

    # Clasificación del local
    "id_tipo_acceso_local",
    "desc_tipo_acceso_local",
    "id_situacion_local",
    "desc_situacion_local",

    # Clasificación de la terraza
    "id_situacion_terraza",
    "desc_situacion_terraza",
    "id_periodo_terraza",
    "desc_periodo_terraza",

    # Características físicas
    "Superficie_ES",
    "Superficie_RA",
    "mesas_es",
    "mesas_ra",
    "sillas_es",
    "sillas_ra",

    # Información temporal
    "Fecha_confir_ult_decreto_resol"
]

df_terrazas[cols_terrazas_clave].drop_duplicates().sample(10, random_state=42)


Unnamed: 0,id_terraza,id_local,id_distrito_local,id_barrio_local,desc_barrio_local,id_tipo_acceso_local,desc_tipo_acceso_local,id_situacion_local,desc_situacion_local,id_situacion_terraza,desc_situacion_terraza,id_periodo_terraza,desc_periodo_terraza,Superficie_ES,Superficie_RA,mesas_es,mesas_ra,sillas_es,sillas_ra,Fecha_confir_ult_decreto_resol
4077,18431,60001187,6,603,CASTILLEJOS,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,36.0,36.0,10,10.0,38,38.0,02/02/2021
5309,18411,270349370,7,705,RIOS ROSAS,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,41.2,41.2,6,6.0,24,24.0,29/01/2021
101,813,285043131,15,1501,VENTAS,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,25.92,25.92,8,8.0,32,32.0,18/08/2014
2077,4718,270379088,10,1005,CAMPAMENTO,1,Puerta Calle,1,Abierto,1,Abierta,2,Estacional,45.12,,10,,40,,09/01/2017
2225,4836,190000300,19,1901,CASCO H.VICALVARO,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,34.56,34.56,14,14.0,43,43.0,10/01/2017
5602,966,270076479,4,404,GUINDALERA,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,26.25,26.25,6,6.0,12,12.0,03/10/2014
469,1741,270184096,18,1801,CASCO H.VALLECAS,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,59.5,42.0,18,10.0,72,40.0,20/03/2015
6574,5828,285011876,7,703,TRAFALGAR,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,17.01,17.01,5,5.0,20,20.0,07/04/2017
179,955,270029320,3,306,NIÑO JESUS,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,15.78,15.78,6,6.0,22,22.0,24/09/2014
3527,17679,270280325,5,502,PROSPERIDAD,1,Puerta Calle,1,Abierto,1,Abierta,1,Anual,44.88,44.88,5,5.0,16,16.0,08/07/2020


Los campos seleccionados permiten identificar de forma única cada terraza
y establecer su relación directa con el local al que pertenece, a través
de los identificadores `id_terraza` e `id_local`.

Se incluyen los campos territoriales (`id_distrito_local`, `id_barrio_local`,
`desc_barrio_local`) para analizar la distribución geográfica de las terrazas
y su posible agregación por zonas.

Asimismo, se consideran los atributos de clasificación del local y de la
terraza (`id_tipo_acceso_local`, `id_situacion_local`, `id_situacion_terraza`,
`id_periodo_terraza` y sus descripciones asociadas), ya que permiten comprender
el estado administrativo y operativo de cada terraza dentro del contexto del
local.

Finalmente, se incorporan las variables cuantitativas relacionadas con la
superficie y el mobiliario autorizado (mesas y sillas), dado que representan
información estructural clave para posteriores análisis y consultas.

La inclusión tanto de identificadores como de descripciones textuales se realiza
con fines exploratorios, permitiendo interpretar correctamente los códigos y
facilitando la toma de decisiones en la fase posterior de diseño del modelo
de datos.
