# Revisión de Campos

Importamos los módulos necesarios para la revisión: 

In [1]:
import pandas as pd
import numpy as np

## Fichero de Locales

In [2]:
df_locales = pd.read_csv("locales202312.csv", sep = ";")

In [3]:
df_locales.head()

Unnamed: 0,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,cod_barrio_local,id_seccion_censal_local,desc_seccion_censal_local,coordenada_x_local,coordenada_y_local,...,id_local_agrupado,rotulo,cod_postal,hora_apertura1,hora_apertura2,hora_cierre1,hora_cierre2,fx_carga,fx_datos_ini,fx_datos_fin
0,20000596,2,ARGANZUELA,203,CHOPERA,3,2043,43,440788.6,4471857.5,...,D1,LA CAÑA,28045,09:00,,,22:00,2023-12-08 07:01:00.047,2023-12-01,2023-12-01
1,20000605,2,ARGANZUELA,201,IMPERIAL,1,2107,107,439316.6,4472540.5,...,01,CAFETERIA PIRAMIDES,28005,,,,,2023-12-08 07:01:00.047,2023-12-01,2023-12-01
2,20000669,2,ARGANZUELA,202,ACACIAS,2,2096,96,439770.6,4472407.5,...,M1,BAR MELILLA,28005,,,,,2023-12-08 07:01:00.047,2023-12-01,2023-12-01
3,20000709,2,ARGANZUELA,202,ACACIAS,2,2029,29,440355.6,4472282.5,...,IZ,SUPERMERCADOS SIMPLY,28005,,,,,2023-12-08 07:01:00.047,2023-12-01,2023-12-01
4,20000721,2,ARGANZUELA,201,IMPERIAL,1,2089,89,439312.6,4472870.5,...,C,ARROCERIA IMPERIAL,28005,,,,,2023-12-08 07:01:00.047,2023-12-01,2023-12-01


Obtenemos información general de los datos:

In [4]:
df_locales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151162 entries, 0 to 151161
Data columns (total 48 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   id_local                   151162 non-null  int64  
 1   id_distrito_local          151162 non-null  int64  
 2   desc_distrito_local        151162 non-null  object 
 3   id_barrio_local            151162 non-null  int64  
 4   desc_barrio_local          151162 non-null  object 
 5   cod_barrio_local           151162 non-null  int64  
 6   id_seccion_censal_local    151162 non-null  int64  
 7   desc_seccion_censal_local  151162 non-null  int64  
 8   coordenada_x_local         151162 non-null  float64
 9   coordenada_y_local         151162 non-null  float64
 10  id_tipo_acceso_local       151162 non-null  int64  
 11  desc_tipo_acceso_local     151162 non-null  object 
 12  id_situacion_local         151162 non-null  int64  
 13  desc_situacion_local       15

Las horas de cierre y apertura tienen muy pocos valores no nulos, eliminamos las columnas

In [5]:
df_locales = df_locales.drop(['hora_apertura2', 'hora_cierre2'], axis = 1, )

In [6]:
df_locales.nunique()

id_local                     151162
id_distrito_local                21
desc_distrito_local              21
id_barrio_local                 131
desc_barrio_local               131
cod_barrio_local                  9
id_seccion_censal_local        2418
desc_seccion_censal_local       222
coordenada_x_local            37975
coordenada_y_local            20327
id_tipo_acceso_local              3
desc_tipo_acceso_local            3
id_situacion_local                7
desc_situacion_local              7
id_vial_edificio               6393
clase_vial_edificio              25
desc_vial_edificio             6161
id_ndp_edificio               65696
id_clase_ndp_edificio             1
nom_edificio                      2
num_edificio                    681
cal_edificio                     30
secuencial_local_PC             286
id_vial_acceso                 6555
clase_vial_acceso                25
desc_vial_acceso               6303
id_ndp_acceso                 72142
id_clase_ndp_acceso         

El número de valores únicos id_local coincide con el número de filas, por lo que no hay ningún id_local duplicado.
Las columnas fx_datos_ini y fx_datos_fin solo tienen un único valor (2023-12-01), por lo que eliminamos ambas columnas.
Lo mismo aplica para las columnas id_clase_ndp_edificio  y id_clase_ndp_acceso, todos los valores indican una dirección normalizada (1), por lo que las columnas no aportan valor

In [7]:
df_locales= df_locales.drop(['fx_datos_ini','fx_datos_fin', 'id_clase_ndp_edificio', 'id_clase_ndp_acceso'], axis = 1);

In [8]:
df_locales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151162 entries, 0 to 151161
Data columns (total 42 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   id_local                   151162 non-null  int64  
 1   id_distrito_local          151162 non-null  int64  
 2   desc_distrito_local        151162 non-null  object 
 3   id_barrio_local            151162 non-null  int64  
 4   desc_barrio_local          151162 non-null  object 
 5   cod_barrio_local           151162 non-null  int64  
 6   id_seccion_censal_local    151162 non-null  int64  
 7   desc_seccion_censal_local  151162 non-null  int64  
 8   coordenada_x_local         151162 non-null  float64
 9   coordenada_y_local         151162 non-null  float64
 10  id_tipo_acceso_local       151162 non-null  int64  
 11  desc_tipo_acceso_local     151162 non-null  object 
 12  id_situacion_local         151162 non-null  int64  
 13  desc_situacion_local       15

Luego de cargar los datos en Mongo se observó que varios string tienen trailing whitespaces. Se procede a limpiarlos antes de cargar los datos a Mongo

In [9]:
for column in df_locales.columns:
    if df_locales[column].dtype == "object":
        df_locales[column] = df_locales[column].str.strip()

Pasamos las coordenadas x y y de los locales a un formato más manejable. 

In [10]:
from pyproj import CRS, Transformer

# 1. Define la proyección UTM (zona 30N para Madrid) y la proyección geográfica (WGS84)
utm_crs = CRS("EPSG:25830")  # UTM Zone 30N
wgs84_crs = CRS("EPSG:4326")  # WGS84 (latitud y longitud)

# 2. Crea el transformador de coordenadas
transformer = Transformer.from_crs(utm_crs, wgs84_crs)

# 3. Función para convertir coordenadas UTM a latitud y longitud
def utm_to_latlon(x, y):
    lat, lon = transformer.transform(x, y)
    return lat, lon

In [11]:
df_locales[['latitud', 'longitud']] = df_locales.apply(lambda row: utm_to_latlon(row['coordenada_x_local'], row['coordenada_y_local']), axis=1, result_type='expand')


In [12]:
df_locales.head()

Unnamed: 0,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,cod_barrio_local,id_seccion_censal_local,desc_seccion_censal_local,coordenada_x_local,coordenada_y_local,...,desc_tipo_agrup,id_planta_agrupado,id_local_agrupado,rotulo,cod_postal,hora_apertura1,hora_cierre1,fx_carga,latitud,longitud
0,20000596,2,ARGANZUELA,203,CHOPERA,3,2043,43,440788.6,4471857.5,...,SIN AGRUPACION,PB,D1,LA CAÑA,28045,09:00,,2023-12-08 07:01:00.047,40.395216,-3.697706
1,20000605,2,ARGANZUELA,201,IMPERIAL,1,2107,107,439316.6,4472540.5,...,SIN AGRUPACION,PB,01,CAFETERIA PIRAMIDES,28005,,,2023-12-08 07:01:00.047,40.401263,-3.715114
2,20000669,2,ARGANZUELA,202,ACACIAS,2,2096,96,439770.6,4472407.5,...,SIN AGRUPACION,PB,M1,BAR MELILLA,28005,,,2023-12-08 07:01:00.047,40.400098,-3.709752
3,20000709,2,ARGANZUELA,202,ACACIAS,2,2029,29,440355.6,4472282.5,...,SIN AGRUPACION,PB,IZ,SUPERMERCADOS SIMPLY,28005,,,2023-12-08 07:01:00.047,40.399014,-3.702847
4,20000721,2,ARGANZUELA,201,IMPERIAL,1,2089,89,439312.6,4472870.5,...,SIN AGRUPACION,PB,C,ARROCERIA IMPERIAL,28005,,,2023-12-08 07:01:00.047,40.404236,-3.715193


## Fichero de actividades:

In [13]:
df_actividades = pd.read_csv('actividadeconomica202312.csv', sep = ';') 

  df_actividades = pd.read_csv('actividadeconomica202312.csv', sep = ';')


Partiendo del warning sobre las columnas 42 y 44 al importar los datos. Revisamos estas columnas:

In [14]:
df_actividades.head()

Unnamed: 0,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,cod_barrio_local,id_seccion_censal_local,desc_seccion_censal_local,coordenada_x_local,coordenada_y_local,...,rotulo,id_seccion,desc_seccion,id_division,desc_division,id_epigrafe,desc_epigrafe,fx_carga,fx_datos_ini,fx_datos_fin
0,270574777,20,SAN BLAS-CANILLEJAS,2004,ARCOS,4,20044,44,0.0,0.0,...,CAMPAMENTO DE VERANO CEIP MARIA MOLINER,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ...",2023-12-08 07:00:45.89,2023-12-01,2023-12-01
1,270574779,20,SAN BLAS-CANILLEJAS,2004,ARCOS,4,20044,44,0.0,0.0,...,CAMPAMENTO VERANO CEE FUNDACION GOYENECHE,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ...",2023-12-08 07:00:45.89,2023-12-01,2023-12-01
2,270574786,11,CARABANCHEL,1101,COMILLAS,1,11013,13,0.0,0.0,...,COLEGIO PUBLICO PERU,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ...",2023-12-08 07:00:45.89,2023-12-01,2023-12-01
3,270574793,16,HORTALEZA,1606,VALDEFUENTES,6,16124,124,448470.03,4482377.0,...,SUPERCOR,G,COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACI...,47,"COMERCIO AL POR MENOR, EXCEPTO DE VEHÍCULOS DE...",472206,"COMERCIO AL POR MENOR DE AVES, HUEVOS Y CAZA S...",2023-12-08 07:00:45.89,2023-12-01,2023-12-01
4,270574793,16,HORTALEZA,1606,VALDEFUENTES,6,16124,124,448470.03,4482377.0,...,SUPERCOR,G,COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACI...,47,"COMERCIO AL POR MENOR, EXCEPTO DE VEHÍCULOS DE...",472401,COMERCIO AL POR MENOR DE PAN Y PRODUCTOS DE PA...,2023-12-08 07:00:45.89,2023-12-01,2023-12-01


In [15]:
df_actividades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169559 entries, 0 to 169558
Data columns (total 49 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   id_local                   169559 non-null  int64  
 1   id_distrito_local          169559 non-null  int64  
 2   desc_distrito_local        169559 non-null  object 
 3   id_barrio_local            169559 non-null  int64  
 4   desc_barrio_local          169559 non-null  object 
 5   cod_barrio_local           169559 non-null  int64  
 6   id_seccion_censal_local    169559 non-null  int64  
 7   desc_seccion_censal_local  169559 non-null  int64  
 8   coordenada_x_local         169559 non-null  float64
 9   coordenada_y_local         169559 non-null  float64
 10  id_tipo_acceso_local       169559 non-null  int64  
 11  desc_tipo_acceso_local     169559 non-null  object 
 12  id_situacion_local         169559 non-null  int64  
 13  desc_situacion_local       16

In [16]:
df_actividades['id_division'].unique()

array(['85', '47', '-1', '00', '56', '52', '46', '94', '68', '84', '55',
       '96', '93', '86', '70', '82', '39', '10', '88', '45', '95', '75',
       '62', '81', '92', '33', '59', '35', '41', '66', '90', '73', '18',
       '09', '91', '61', '71', '87', '64', '69', '99', '65', '38', '14',
       '79', '74', '63', '43', '16', '53', '58', '80', '31', '49', '25',
       '15', '32', '77', '26', '72', '13', '28', '20', '42', '27', 'PT',
       '60', '29', '78', '23', '17', '22', '24', '36', '51', 56, 85, 84,
       96, 47, 93, 0, 92, 95, 45, 43, 68, 87, 55, 53, 61, 82, 79, 74, 86,
       90, 75, 52, 21, 65, 94, 46, 33, 31, 66, 14, 88, 41, 35, 64, 69, 59,
       25, 91, 10, 71, 73, -1, 70, 49, 39, 81, 18, 77, 38, 20, 16, 27, 23,
       58, 32, 42, 37, 28, 15, 62, 99, 63, 60, 29, 80, 72, 13, 22, 78, 26,
       30, 24, 17, 36, 51, 11, 1, '21', '30', '01', '11', '37', '08',
       '02', 12], dtype=object)

In [17]:
df_actividades['id_epigrafe'].unique()

array(['855002', '472206', '472401', '-1', '000000', '477101', '563002',
       '472204', '561004', '521001', '471902', '463101', '949902',
       '472201', '472202', '471101', '472407', '683001', '840001',
       '561001', '551001', '474201', '562902', '562901', '561006',
       '562903', '561005', '960203', '931008', '472102', '472302',
       '862003', '472301', '682001', '477301', '475201', '473001',
       '563005', '702001', '854001', '851001', '851002', '821001',
       '472911', '562101', '551002', '563007', '463902', '390001',
       '474102', '932002', '477806', '471104', '475906', '869007',
       '472101', '477701', '101001', '931009', '881001', '471102',
       '477201', '474301', '476101', '960201', '477808', '522001',
       '869005', '931001', '475101', '960206', '477602', '452002',
       '551005', '952005', '472404', '477901', '559001', '750003',
       '463102', '951001', '869009', '522003', '620001', '477501',
       '812001', '561007', '477801', '853003', '960202',

En la columna 42, todos los valores menos "PT" son numéricos, sin embargo la columna es de tipo object.
En la columna 44, todos los valores menos "PTECO" son númericos, sin embargo la columna también es de tipo object. 

Convertimos el tipo de las columnas 42 y 44 a int64

In [18]:
df_actividades['id_division'] = pd.to_numeric(df_actividades['id_division'], errors = 'coerce')
df_actividades['id_epigrafe']  = pd.to_numeric(df_actividades['id_epigrafe'], errors = 'coerce')
df_actividades['id_division'] = df_actividades['id_division'].replace(np.nan, 999).infer_objects(copy=False)
df_actividades['id_epigrafe'] = df_actividades['id_epigrafe'].replace(np.nan, 999).infer_objects(copy=False)
df_actividades['id_division'] = df_actividades['id_division'].astype('Int64')
df_actividades['id_epigrafe'] = df_actividades['id_epigrafe'].astype('Int64')

In [19]:
df_actividades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169559 entries, 0 to 169558
Data columns (total 49 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   id_local                   169559 non-null  int64  
 1   id_distrito_local          169559 non-null  int64  
 2   desc_distrito_local        169559 non-null  object 
 3   id_barrio_local            169559 non-null  int64  
 4   desc_barrio_local          169559 non-null  object 
 5   cod_barrio_local           169559 non-null  int64  
 6   id_seccion_censal_local    169559 non-null  int64  
 7   desc_seccion_censal_local  169559 non-null  int64  
 8   coordenada_x_local         169559 non-null  float64
 9   coordenada_y_local         169559 non-null  float64
 10  id_tipo_acceso_local       169559 non-null  int64  
 11  desc_tipo_acceso_local     169559 non-null  object 
 12  id_situacion_local         169559 non-null  int64  
 13  desc_situacion_local       16

In [20]:
df_actividades.nunique()

id_local                     151161
id_distrito_local                21
desc_distrito_local              21
id_barrio_local                 131
desc_barrio_local               131
cod_barrio_local                  9
id_seccion_censal_local        2418
desc_seccion_censal_local       222
coordenada_x_local            37975
coordenada_y_local            20327
id_tipo_acceso_local              3
desc_tipo_acceso_local            3
id_situacion_local                7
desc_situacion_local              7
id_vial_edificio               6393
clase_vial_edificio              25
desc_vial_edificio             6161
id_ndp_edificio               65696
id_clase_ndp_edificio             1
nom_edificio                      2
num_edificio                    681
cal_edificio                     30
secuencial_local_PC             286
id_vial_acceso                 6555
clase_vial_acceso                25
desc_vial_acceso               6303
id_ndp_acceso                 72142
id_clase_ndp_acceso         

Eliminamos las mismas columnas que tienen solo un valor, al igual que en el fichero de Locales 

In [21]:
df_actividades= df_actividades.drop(['fx_datos_ini','fx_datos_fin', 'id_clase_ndp_edificio', 'id_clase_ndp_acceso'], axis = 1);

In [22]:
df_actividades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169559 entries, 0 to 169558
Data columns (total 45 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   id_local                   169559 non-null  int64  
 1   id_distrito_local          169559 non-null  int64  
 2   desc_distrito_local        169559 non-null  object 
 3   id_barrio_local            169559 non-null  int64  
 4   desc_barrio_local          169559 non-null  object 
 5   cod_barrio_local           169559 non-null  int64  
 6   id_seccion_censal_local    169559 non-null  int64  
 7   desc_seccion_censal_local  169559 non-null  int64  
 8   coordenada_x_local         169559 non-null  float64
 9   coordenada_y_local         169559 non-null  float64
 10  id_tipo_acceso_local       169559 non-null  int64  
 11  desc_tipo_acceso_local     169559 non-null  object 
 12  id_situacion_local         169559 non-null  int64  
 13  desc_situacion_local       16

## Fichero de licencias

In [23]:
df_licencias = pd.read_csv('licencias202312.csv', sep = ';') 

In [24]:
df_licencias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150829 entries, 0 to 150828
Data columns (total 49 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   id_local                      150829 non-null  int64  
 1   id_distrito_local             150829 non-null  int64  
 2   desc_distrito_local           150829 non-null  object 
 3   id_barrio_local               150829 non-null  int64  
 4   desc_barrio_local             150829 non-null  object 
 5   cod_barrio_local              150829 non-null  int64  
 6   id_seccion_censal_local       150829 non-null  int64  
 7   desc_seccion_censal_local     150829 non-null  int64  
 8   coordenada_x_local            150829 non-null  float64
 9   coordenada_y_local            150829 non-null  float64
 10  id_tipo_acceso_local          150829 non-null  int64  
 11  desc_tipo_acceso_local        150829 non-null  object 
 12  id_situacion_local            150829 non-nul

In [25]:
df_licencias.nunique()

id_local                         74139
id_distrito_local                   21
desc_distrito_local                 21
id_barrio_local                    131
desc_barrio_local                  131
cod_barrio_local                     9
id_seccion_censal_local           2376
desc_seccion_censal_local          222
coordenada_x_local               26528
coordenada_y_local               16665
id_tipo_acceso_local                 3
desc_tipo_acceso_local               3
id_situacion_local                   7
desc_situacion_local                 7
id_ndp_edificio                  41048
id_clase_ndp_edificio                1
id_vial_edificio                  5246
clase_vial_edificio                 23
desc_vial_edificio                5088
nom_edificio                         2
num_edificio                       545
cal_edificio                        28
secuencial_local_PC                129
id_ndp_acceso                    44353
id_clase_ndp_acceso                  1
id_vial_acceso           

Eliminamos las mismas columnas que tienen solo un valor, al igual que en el fichero de Locales y Actividades 

In [26]:
df_licencias= df_licencias.drop(['fx_datos_ini','fx_datos_fin', 'id_clase_ndp_edificio', 'id_clase_ndp_acceso'], axis = 1);

## Fichero Terrazas

In [27]:
df_terrazas = pd.read_csv('terrazas202312.csv', sep = ';') 

In [28]:
df_terrazas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6788 entries, 0 to 6787
Data columns (total 61 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id_terraza                      6788 non-null   int64  
 1   id_local                        6788 non-null   int64  
 2   id_distrito_local               6788 non-null   int64  
 3   desc_distrito_local             6788 non-null   object 
 4   id_barrio_local                 6788 non-null   int64  
 5   desc_barrio_local               6788 non-null   object 
 6   id_ndp_edificio                 6788 non-null   int64  
 7   id_clase_ndp_edificio           6788 non-null   int64  
 8   id_vial_edificio                6788 non-null   int64  
 9   clase_vial_edificio             6788 non-null   object 
 10  desc_vial_edificio              6788 non-null   object 
 11  nom_edificio                    6788 non-null   object 
 12  num_edificio                    67

In [29]:
df_terrazas.nunique()

id_terraza             6788
id_local               6788
id_distrito_local        21
desc_distrito_local      21
id_barrio_local         129
                       ... 
sillas_ra               140
cal_edificio             14
fx_carga                  6
fx_datos_ini              1
fx_datos_fin              1
Length: 61, dtype: int64

In [30]:
df_terrazas= df_terrazas.drop(['fx_datos_ini','fx_datos_fin', 'id_clase_ndp_edificio'], axis = 1);

In [31]:
df_terrazas['id_clase_ndp_terraza'].nunique()

1

In [32]:
df_terrazas= df_terrazas.drop(['id_clase_ndp_terraza'], axis = 1);

In [33]:
df_terrazas.nunique()

id_terraza                        6788
id_local                          6788
id_distrito_local                   21
desc_distrito_local                 21
id_barrio_local                    129
desc_barrio_local                  129
id_ndp_edificio                   5781
id_vial_edificio                  1902
clase_vial_edificio                 18
desc_vial_edificio                1859
nom_edificio                         2
num_edificio                       318
Cod_Postal                          55
coordenada_x_local                5390
coordenada_y_local                5137
id_tipo_acceso_local                 5
desc_tipo_acceso_local               5
id_situacion_local                   5
desc_situacion_local                 5
secuencial_local_PC                 32
Escalera                            22
id_planta_agrupado                   3
id_local_agrupado                  348
coordenada_x_agrupacion             56
coordenada_y_agrupacion             56
rotulo                   

En resumen, la limpieza de datos consistió en verifiar que no se repitan los campos que deberían ser únicos (id_local) en todos los ficheros menos el de Actividades, corregir inconsistencias de tipos de datos y eliminar filas que no aportan información porque solamente tienen un valor.

In [34]:
for column in df_terrazas.columns:
    if df_terrazas[column].dtype == "object":
        df_terrazas[column] = df_terrazas[column].str.strip()

In [35]:
df_terrazas[(df_terrazas.desc_distrito_local == "ARGANZUELA")&(df_terrazas.desc_barrio_local == "ATOCHA")]

Unnamed: 0,id_terraza,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,id_ndp_edificio,id_vial_edificio,clase_vial_edificio,desc_vial_edificio,...,hora_ini_VS_ra,hora_fin_VS_ra,mesas_aux_es,mesas_aux_ra,mesas_es,mesas_ra,sillas_es,sillas_ra,cal_edificio,fx_carga
17,719,270542907,2,ARGANZUELA,207,ATOCHA,20111950,874,CALLE,RETAMA,...,,,0,,7,,28,,,2023-12-08 07:00:49.227
313,890,270296851,2,ARGANZUELA,207,ATOCHA,20111953,874,CALLE,RETAMA,...,10:00:00,00:00:00,0,0.0,14,14.0,50,50.0,,2023-12-08 07:00:49.227
902,720,20000468,2,ARGANZUELA,207,ATOCHA,20111956,874,CALLE,RETAMA,...,,,0,0.0,11,0.0,44,0.0,,2023-12-08 07:00:49.227
1804,3203,280018447,2,ARGANZUELA,207,ATOCHA,20112157,501700,CALLE,MENDEZ ALVARO,...,10:00:00,00:00:00,0,0.0,7,7.0,25,25.0,A,2023-12-08 07:00:49.23
2281,4899,280018446,2,ARGANZUELA,207,ATOCHA,20112157,501700,CALLE,MENDEZ ALVARO,...,10:00:00,00:00:00,0,0.0,8,8.0,32,32.0,A,2023-12-08 07:00:49.23
4954,19920,270304299,2,ARGANZUELA,207,ATOCHA,20111953,874,CALLE,RETAMA,...,10:00:00,00:00:00,0,0.0,10,10.0,35,35.0,,2023-12-08 07:00:49.237


In [36]:
df_terrazas[(df_terrazas.desc_distrito_local == "MONCLOA-ARAVACA")&(df_terrazas.desc_barrio_local == "VALDEMARIN")]

Unnamed: 0,id_terraza,id_local,id_distrito_local,desc_distrito_local,id_barrio_local,desc_barrio_local,id_ndp_edificio,id_vial_edificio,clase_vial_edificio,desc_vial_edificio,...,hora_ini_VS_ra,hora_fin_VS_ra,mesas_aux_es,mesas_aux_ra,mesas_es,mesas_ra,sillas_es,sillas_ra,cal_edificio,fx_carga
4692,19579,280045401,9,MONCLOA-ARAVACA,905,VALDEMARIN,20151939,804700,CAMINO,ZARZUELA,...,10:00:00,00:00:00,0,0.0,24,24.0,89,89.0,,2023-12-08 07:00:49.233
6231,3898,280045768,9,MONCLOA-ARAVACA,905,VALDEMARIN,31019728,763525,AVENIDA,VALDEMARIN,...,,,0,,9,,36,,,2023-12-08 07:00:49.237


# Relaciones entre ficheros 

Revisamos las columnas en común entre el fichero de locales y de actividades:

In [37]:
columns_locales_actividades = set(df_locales.columns) & set(df_actividades.columns)

In [38]:
print(columns_locales_actividades, len(columns_locales_actividades))

{'coordenada_x_agrupacion', 'id_local', 'cal_acceso', 'clase_vial_acceso', 'coordenada_x_local', 'num_acceso', 'id_ndp_acceso', 'cal_edificio', 'cod_barrio_local', 'fx_carga', 'id_planta_agrupado', 'id_local_agrupado', 'secuencial_local_PC', 'id_vial_acceso', 'coordenada_y_agrupacion', 'desc_seccion_censal_local', 'id_vial_edificio', 'nom_acceso', 'clase_vial_edificio', 'desc_distrito_local', 'nombre_agrupacion', 'num_edificio', 'id_distrito_local', 'desc_vial_acceso', 'desc_tipo_agrup', 'desc_situacion_local', 'id_ndp_edificio', 'desc_vial_edificio', 'nom_edificio', 'id_tipo_agrup', 'id_agrupacion', 'desc_barrio_local', 'id_tipo_acceso_local', 'id_barrio_local', 'rotulo', 'id_situacion_local', 'desc_tipo_acceso_local', 'id_seccion_censal_local', 'coordenada_y_local'} 39


Todas las columnas en común es información repetida sobre el local, de manera que las eliminamos del fichero de actividades (no eliminamos id_local):

In [39]:
columns_locales_actividades.remove('id_local')


In [40]:
df_actividades = df_actividades.drop(columns_locales_actividades, axis = 1)

In [41]:
df_actividades.info()
df_actividades.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169559 entries, 0 to 169558
Data columns (total 7 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   id_local       169559 non-null  int64 
 1   id_seccion     169559 non-null  object
 2   desc_seccion   169559 non-null  object
 3   id_division    169559 non-null  Int64 
 4   desc_division  169559 non-null  object
 5   id_epigrafe    169559 non-null  Int64 
 6   desc_epigrafe  169559 non-null  object
dtypes: Int64(2), int64(1), object(4)
memory usage: 9.4+ MB


Unnamed: 0,id_local,id_seccion,desc_seccion,id_division,desc_division,id_epigrafe,desc_epigrafe
0,270574777,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ..."
1,270574779,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ..."
2,270574786,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ..."
3,270574793,G,COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACI...,47,"COMERCIO AL POR MENOR, EXCEPTO DE VEHÍCULOS DE...",472206,"COMERCIO AL POR MENOR DE AVES, HUEVOS Y CAZA S..."
4,270574793,G,COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACI...,47,"COMERCIO AL POR MENOR, EXCEPTO DE VEHÍCULOS DE...",472401,COMERCIO AL POR MENOR DE PAN Y PRODUCTOS DE PA...


In [42]:
df_actividades[df_actividades['id_local'] == 270574777]

Unnamed: 0,id_local,id_seccion,desc_seccion,id_division,desc_division,id_epigrafe,desc_epigrafe
0,270574777,P,EDUCACIÓN,85,EDUCACIÓN,855002,"ENSEÑANZA NO REGLADA (DEPORTIVA Y RECREATIVA, ..."
535,270574777,I,HOSTELERÍA,56,SERVICIOS DE COMIDAS Y BEBIDAS,562902,SERVICIOS DE COMEDOR EN CENTROS EDUCATIVOS Y C...


Al realizar una de las consultas en Mongo se notó que cuando el id_epigrafe es -1, no hay información de la actividad del local

In [43]:
# Ejemplo:
df_actividades[df_actividades['id_epigrafe'] == -1]

Unnamed: 0,id_local,id_seccion,desc_seccion,id_division,desc_division,id_epigrafe,desc_epigrafe
5,270574796,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
9,270562010,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
10,270562013,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
11,270562016,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
22,270562166,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
...,...,...,...,...,...,...,...
169549,285034655,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
169550,285034669,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
169553,285034685,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN
169557,285034693,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN,-1,VALOR NULO EN ORIGEN


Se procede a eliminar esas filas que no brindan información útil 

In [44]:
df_actividades = df_actividades[df_actividades["id_epigrafe"] != -1]

In [45]:
df_actividades.info()

<class 'pandas.core.frame.DataFrame'>
Index: 130267 entries, 0 to 169556
Data columns (total 7 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   id_local       130267 non-null  int64 
 1   id_seccion     130267 non-null  object
 2   desc_seccion   130267 non-null  object
 3   id_division    130267 non-null  Int64 
 4   desc_division  130267 non-null  object
 5   id_epigrafe    130267 non-null  Int64 
 6   desc_epigrafe  130267 non-null  object
dtypes: Int64(2), int64(1), object(4)
memory usage: 8.2+ MB


In [46]:
df_actividades.desc_seccion.unique()

array(['EDUCACIÓN',
       'COMERCIO AL POR MAYOR Y AL POR MENOR; REPARACIÓN DE VEHÍCULOS DE MOTOR Y MOTOCICLETAS',
       'SIN ACTIVIDAD', 'HOSTELERÍA', 'TRANSPORTE Y ALMACENAMIENTO',
       'OTROS SERVICIOS', 'ACTIVIDADES INMOBILIARIAS',
       'ADMINISTRACIÓN PÚBLICA Y DEFENSA; SEGURIDAD SOCIAL OBLIGATORIA',
       'ACTIVIDADES ARTÍSTICAS, RECREATIVAS Y DE ENTRETENIMIENTO',
       'ACTIVIDADES SANITARIAS Y DE SERVICIOS SOCIALES',
       'ACTIVIDADES PROFESIONALES, CIENTÍFICAS Y TÉCNICAS',
       'ACTIVIDADES ADMINISTRATIVAS Y SERVICIOS AUXLIARES',
       'SUMINISTRO DE AGUA, ACTIVIDADES DE SANEAMIENTO, GESTIÓN DE RESIDUOS Y DESCONTAMINACIÓN',
       'INDUSTRIA MANUFACTURERA', 'INFORMACIÓN Y COMUNICACIONES',
       'SUMINISTRO DE ENERGÍA ELÉCTRICA, GAS, VAPOR Y AIRE ACONDICIONADO',
       'CONSTRUCCIÓN', 'ACTIVIDADES FINANCIERAS Y DE SEGUROS',
       'INDUSTRIAS EXTRACTIVAS',
       'ACTIVIDADES DE ORGANIZACIONES Y ORGANISMOS EXTRATERRITORIALES',
       'AGRICULTURA, GANADERÍA, SILVI

Los campos que quedan en df_actividades están relacionados sólamente a la actividad, y se conserva el campo de id_local, que establece la relación con los datos de cada local. Se sabe que un solo local puede tener varias actividades, y un mismo id_epígrafe puede estar asociado a varios locales

Se sigue el mismo proceso para los datos de licencias

In [47]:
columns_locales_licencias = set(df_locales.columns) & set(df_licencias.columns)

In [48]:
print(columns_locales_licencias, len(columns_locales_licencias))

{'coordenada_x_agrupacion', 'id_local', 'cal_acceso', 'clase_vial_acceso', 'coordenada_x_local', 'num_acceso', 'id_ndp_acceso', 'cal_edificio', 'cod_barrio_local', 'fx_carga', 'id_planta_agrupado', 'id_local_agrupado', 'secuencial_local_PC', 'id_vial_acceso', 'coordenada_y_agrupacion', 'desc_seccion_censal_local', 'id_vial_edificio', 'nom_acceso', 'clase_vial_edificio', 'desc_distrito_local', 'nombre_agrupacion', 'num_edificio', 'id_distrito_local', 'desc_vial_acceso', 'desc_tipo_agrup', 'desc_situacion_local', 'id_ndp_edificio', 'desc_vial_edificio', 'nom_edificio', 'id_tipo_agrup', 'id_agrupacion', 'desc_barrio_local', 'id_tipo_acceso_local', 'id_barrio_local', 'rotulo', 'id_situacion_local', 'desc_tipo_acceso_local', 'id_seccion_censal_local', 'coordenada_y_local'} 39


In [49]:
columns_locales_licencias.remove('id_local')
df_licencias = df_licencias.drop(columns_locales_licencias, axis = 1)

Cambiamos el formato de la columna de fecha a ISO date YYYY-MM-DD

In [50]:
df_licencias["Fecha_Dec_Lic"] = pd.to_datetime(df_licencias["Fecha_Dec_Lic"], format = '%d/%m/%Y')
df_licencias["Fecha_Dec_Lic"] = df_licencias["Fecha_Dec_Lic"].dt.strftime('%Y-%m-%d')

In [51]:
df_licencias.info()
df_licencias.nunique()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150829 entries, 0 to 150828
Data columns (total 7 columns):
 #   Column                        Non-Null Count   Dtype 
---  ------                        --------------   ----- 
 0   id_local                      150829 non-null  int64 
 1   ref_licencia                  150829 non-null  object
 2   id_tipo_licencia              150829 non-null  int64 
 3   desc_tipo_licencia            150829 non-null  object
 4   id_tipo_situacion_licencia    150829 non-null  int64 
 5   desc_tipo_situacion_licencia  150829 non-null  object
 6   Fecha_Dec_Lic                 150829 non-null  object
dtypes: int64(3), object(4)
memory usage: 8.1+ MB


id_local                         74139
ref_licencia                    150297
id_tipo_licencia                     5
desc_tipo_licencia                   5
id_tipo_situacion_licencia           9
desc_tipo_situacion_licencia         9
Fecha_Dec_Lic                     5946
dtype: int64

In [52]:
df_licencias[df_licencias['ref_licencia'].duplicated()].head()

Unnamed: 0,id_local,ref_licencia,id_tipo_licencia,desc_tipo_licencia,id_tipo_situacion_licencia,desc_tipo_situacion_licencia,Fecha_Dec_Lic
6290,270453145,105/2001/02569,2,Licencia Urbanística,2,Concedida,2003-10-27
10448,270508372,108/2009/10818,2,Licencia Urbanística,2,Concedida,2009-12-17
11326,270522026,104/2009/06314,2,Licencia Urbanística,2,Concedida,2009-07-14
11456,270522399,109/2004/05076,2,Licencia Urbanística,2,Concedida,2009-10-21
12127,270518354,103/2010/00097,4,Transmisión de licencia Urbanística,2,Concedida,2010-02-18


In [53]:
df_licencias[df_licencias['ref_licencia'] == '105/2001/02569']

Unnamed: 0,id_local,ref_licencia,id_tipo_licencia,desc_tipo_licencia,id_tipo_situacion_licencia,desc_tipo_situacion_licencia,Fecha_Dec_Lic
826,270438785,105/2001/02569,2,Licencia Urbanística,2,Concedida,2003-10-27
6290,270453145,105/2001/02569,2,Licencia Urbanística,2,Concedida,2003-10-27


In [54]:
df_licencias.desc_tipo_situacion_licencia.value_counts()

desc_tipo_situacion_licencia
En tramitación                            45509
Concedida                                 43691
Tramitando Transmisión de Licencia        22573
Transmisión de Licencia Concedida         18567
Denegada                                  11945
VALOR NULO EN ORIGEN                       5984
Transmisión de Licencia Denegada           2312
Presentada (pendiente de comprobación)      247
Favorable no inspeccionada                    1
Name: count, dtype: int64

In [55]:
df_licencias[df_licencias.desc_tipo_situacion_licencia == "En tramitación"].nunique()

id_local                        33854
ref_licencia                    45507
id_tipo_licencia                    4
desc_tipo_licencia                  4
id_tipo_situacion_licencia          1
desc_tipo_situacion_licencia        1
Fecha_Dec_Lic                    3351
dtype: int64

Los campos que quedan en df_licencias están relacionados sólamente a la licencia, y se conserva el campo de id_local, que establece la relación con los datos de cada local. Se sabe que un solo local puede tener varias licencias, y una misma ref_licencia puede estar asociada a varios locales

Se sigue el mismo proceso para los datos de terrazas:

In [56]:
columns_locales_terrazas = set(df_locales.columns) & set(df_terrazas.columns)

In [57]:
print(columns_locales_terrazas, len(columns_locales_terrazas))

{'coordenada_x_agrupacion', 'id_local', 'coordenada_x_local', 'cal_edificio', 'fx_carga', 'id_planta_agrupado', 'id_local_agrupado', 'secuencial_local_PC', 'coordenada_y_agrupacion', 'id_vial_edificio', 'clase_vial_edificio', 'desc_distrito_local', 'num_edificio', 'id_distrito_local', 'desc_situacion_local', 'id_ndp_edificio', 'desc_vial_edificio', 'nom_edificio', 'desc_barrio_local', 'id_tipo_acceso_local', 'id_barrio_local', 'rotulo', 'id_situacion_local', 'desc_tipo_acceso_local', 'coordenada_y_local'} 25


In [58]:
columns_locales_terrazas.remove('id_local')
df_terrazas = df_terrazas.drop(columns_locales_terrazas, axis = 1)

In [59]:
df_terrazas.info()
df_terrazas.nunique()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6788 entries, 0 to 6787
Data columns (total 33 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id_terraza                      6788 non-null   int64  
 1   id_local                        6788 non-null   int64  
 2   Cod_Postal                      6788 non-null   int64  
 3   Escalera                        123 non-null    object 
 4   id_periodo_terraza              6788 non-null   int64  
 5   desc_periodo_terraza            6788 non-null   object 
 6   id_situacion_terraza            6788 non-null   int64  
 7   desc_situacion_terraza          6788 non-null   object 
 8   Superficie_ES                   6788 non-null   float64
 9   Superficie_RA                   5610 non-null   float64
 10  Fecha_confir_ult_decreto_resol  6788 non-null   object 
 11  id_ndp_terraza                  6788 non-null   int64  
 12  id_vial                         67

id_terraza                        6788
id_local                          6788
Cod_Postal                          55
Escalera                            22
id_periodo_terraza                   2
desc_periodo_terraza                 2
id_situacion_terraza                 2
desc_situacion_terraza               2
Superficie_ES                     3181
Superficie_RA                     2800
Fecha_confir_ult_decreto_resol    1650
id_ndp_terraza                    5929
id_vial                           1834
desc_clase                          18
desc_nombre                       1791
nom_terraza                          2
num_terraza                        323
cal_terraza                         14
desc_ubicacion_terraza               9
hora_ini_LJ_es                      14
hora_fin_LJ_es                      22
hora_ini_LJ_ra                      11
hora_fin_LJ_ra                      15
hora_ini_VS_es                      15
hora_fin_VS_es                      22
hora_ini_VS_ra           

Los datos que quedan en df_terrazas solamente describen información de las terrazas, no repiten información con los locales. Se establece la relación con los locales de manera que cada terraza está asignada a un id_local distinto. Y existen id_local que no tienen ninguna terraza asociada.

Se decide utilizar un modelo desnormalizado/emebebido en los locales para ingresar los datos en MongoDB. Se prioriza la eficiencia en la consulta de datos sobre la eficiencia en la actualización de datos.

# Modelado de datos en MongoDB

In [60]:
from pymongo import MongoClient

Se establece la conexión con Mongo

In [61]:
client = MongoClient("mongodb://localhost:27017/")
db = client["locales_madrid_mongo"]
locales_collection = db["locales_madrid"]

Se convierten los dataframes a listas de dicconarios

In [62]:
datos_locales = df_locales.to_dict(orient = "records")
datos_actividades = df_actividades.to_dict(orient = "records") 
datos_licencias = df_licencias.to_dict(orient = "records")
datos_terrazas = df_terrazas.to_dict(orient = "records")

Construcción del modelo embebido 

In [63]:
datos_embebidos = {}

for actividad in datos_actividades:
    id_local = actividad["id_local"]
    del actividad["id_local"] # Se elimina el id_local del diccionario de actividad porque ya la actividad va a estar embebida dentro del local
    datos_embebidos.setdefault(id_local, {"actividades" : [], "licencias" : [], "terraza": []}) #Vacío si no existen los datos
    datos_embebidos[id_local]["actividades"].append(actividad)

for licencia in datos_licencias:
    id_local = licencia["id_local"]
    del licencia["id_local"]
    datos_embebidos.setdefault(id_local, {"actividades" : [], "licencias" : [], "terraza": []}) #Vacío si no existen los datos
    datos_embebidos[id_local]["licencias"].append(licencia)

for terraza in datos_terrazas:
    id_local = terraza["id_local"]
    del terraza["id_local"]
    datos_embebidos.setdefault(id_local, {"actividades" : [], "licencias" : [], "terraza": []}) #Vacío si no existen los datos
    datos_embebidos[id_local]["terraza"].append(terraza)
    
    

Inserción de datos en Mongo

In [64]:
for local in datos_locales:
    id_local = local["id_local"]
    info_embebida = datos_embebidos.get(id_local)
    if info_embebida:
        local.update(info_embebida)
    locales_collection.insert_one(local)
    

In [65]:
client.close()