# Limpieza de datos

In [10]:
import pandas as pd
import numpy as np
from functools import reduce
import seaborn as sns
import matplotlib.pyplot as plt

## <span style="color:blue">Indicador Edad</span>

In [11]:
# Lectura del Excel Edad
dfEdad = pd.read_excel('../../data_preprocesada_N2/edad_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfEdadSeleccionado = dfEdad[['RANGO_EDAD',
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'NRO_PERSONAS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

# Estandariza valor Rango Edad
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 0 a 14 años', 'RANGO_EDAD'] = '0-14'
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 15 a 29', 'RANGO_EDAD'] = '15-29'
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 30 a 44', 'RANGO_EDAD'] = '30-44'
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 45 a 64', 'RANGO_EDAD'] = '45-64'
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 65 a 79', 'RANGO_EDAD'] = '65-79'
dfEdadSeleccionado.loc[dfEdadSeleccionado['RANGO_EDAD'] == 'De 80 y + ', 'RANGO_EDAD'] = '>=80'

In [12]:
# Número de filas
print('Número de Filas: ', dfEdadSeleccionado.shape[0])

Número de Filas:  3216


In [13]:
# Calcular el número de valores "missing values" de cada variable.
dfEdadSeleccionado.isna().sum()


RANGO_EDAD         0
COD_DISBAR      1008
BARRIOS            0
NRO_PERSONAS     468
ANIO               0
LATITUD         1008
LONGITUD        1008
dtype: int64

In [14]:
# Elimina "missing values"
dfEdadSeleccionado = dfEdadSeleccionado.dropna()


In [15]:
# Calcular el número de valores "missing values" de cada variable.
dfEdadSeleccionado.isna().sum()

RANGO_EDAD      0
COD_DISBAR      0
BARRIOS         0
NRO_PERSONAS    0
ANIO            0
LATITUD         0
LONGITUD        0
dtype: int64

In [16]:
print('Número de Filas: ', dfEdadSeleccionado.shape[0])

Número de Filas:  2208


In [17]:
#Verifica información del dataset
dfEdadSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2208 entries, 6 to 3215
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   RANGO_EDAD    2208 non-null   object 
 1   COD_DISBAR    2208 non-null   float64
 2   BARRIOS       2208 non-null   object 
 3   NRO_PERSONAS  2208 non-null   float64
 4   ANIO          2208 non-null   int64  
 5   LATITUD       2208 non-null   float64
 6   LONGITUD      2208 non-null   float64
dtypes: float64(4), int64(1), object(2)
memory usage: 138.0+ KB


In [18]:
# Escribe excel en nivel 3

# Selecciona dataset para mayores de 65 anios
# dfEdadClean = dfEdadSeleccionado[dfEdadSeleccionado['RANGO_EDAD'].isin(['65-79', '>=80'])]
dfEdadClean = dfEdadSeleccionado[dfEdadSeleccionado['RANGO_EDAD'].isin(['15-29', '30-44'])]

dfEdadClean = dfEdadClean.groupby(['COD_DISBAR', 'BARRIOS', 'ANIO', 'LATITUD', 'LONGITUD'],as_index=False).sum()
dfEdadClean = dfEdadClean.astype({"COD_DISBAR":'int'}) 

dfEdadClean.to_csv('../../data_preprocesada_N3/clean_edad_barrios_menores65.csv', index=False)


## <span style="color:blue">Indicador Renta</span>


In [19]:
# Lectura del Excel Renta
dfRenta = pd.read_excel('../../data_preprocesada_N2/renta_neta_media_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfRentaSeleccionado = dfRenta[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'RENTA_MEDIA', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

In [20]:
# Número de filas
print('Número de Filas: ', dfRentaSeleccionado.shape[0])

Número de Filas:  536


In [21]:
# Calcular el número de valores "missing values" de cada variable.
dfRentaSeleccionado.isna().sum()


COD_DISBAR     168
BARRIOS          0
RENTA_MEDIA    103
ANIO             0
LATITUD        168
LONGITUD       168
dtype: int64

In [22]:
# Elimina "missing values"
dfRentaSeleccionado = dfRentaSeleccionado.dropna()

In [23]:
# Calcular el número de valores "missing values" de cada variable.
dfRentaSeleccionado.isna().sum()

COD_DISBAR     0
BARRIOS        0
RENTA_MEDIA    0
ANIO           0
LATITUD        0
LONGITUD       0
dtype: int64

In [24]:
print('Número de Filas: ', dfRentaSeleccionado.shape[0])

Número de Filas:  365


In [25]:
#Verifica información del dataset
dfRentaSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 365 entries, 1 to 535
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   COD_DISBAR   365 non-null    float64
 1   BARRIOS      365 non-null    object 
 2   RENTA_MEDIA  365 non-null    float64
 3   ANIO         365 non-null    int64  
 4   LATITUD      365 non-null    float64
 5   LONGITUD     365 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 20.0+ KB


In [26]:
# Escribe excel en nivel 3

# Save dataset para rentas
dfRentaSeleccionado = dfRentaSeleccionado.astype({"COD_DISBAR":'int'}) 
dfRentaSeleccionado['RENTA_MEDIA'] = dfRentaSeleccionado['RENTA_MEDIA'].round(decimals=2)

dfRentaSeleccionado.to_csv('../../data_preprocesada_N3/clean_renta_barrios.csv', index=False)


## <span style="color:blue">Indicador Extranjeros</span>


In [27]:
# Lectura del Excel Extranjeros
dfExtranjeros = pd.read_excel('../../data_preprocesada_N2/nro_extranjeros_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfExtranjerosSeleccionado = dfExtranjeros[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'NRO_PERSONAS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

In [28]:
# Número de filas
print('Número de Filas: ', dfExtranjerosSeleccionado.shape[0])

Número de Filas:  536


In [29]:
# Calcular el número de valores "missing values" de cada variable.
dfExtranjerosSeleccionado.isna().sum()


COD_DISBAR      168
BARRIOS           0
NRO_PERSONAS     79
ANIO              0
LATITUD         168
LONGITUD        168
dtype: int64

In [30]:
# Elimina "missing values"
dfExtranjerosSeleccionado = dfExtranjerosSeleccionado.dropna()

In [31]:
# Calcular el número de valores "missing values" de cada variable.
dfExtranjerosSeleccionado.isna().sum()

COD_DISBAR      0
BARRIOS         0
NRO_PERSONAS    0
ANIO            0
LATITUD         0
LONGITUD        0
dtype: int64

In [32]:
print('Número de Filas: ', dfExtranjerosSeleccionado.shape[0])

Número de Filas:  368


In [33]:
#Verifica información del dataset
dfExtranjerosSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 368 entries, 1 to 535
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   COD_DISBAR    368 non-null    float64
 1   BARRIOS       368 non-null    object 
 2   NRO_PERSONAS  368 non-null    float64
 3   ANIO          368 non-null    int64  
 4   LATITUD       368 non-null    float64
 5   LONGITUD      368 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 20.1+ KB


In [34]:
# Escribe excel en nivel 3

# Save dataset para extranjeros
dfExtranjerosSeleccionado = dfExtranjerosSeleccionado.astype({"COD_DISBAR":'int'}) 
dfExtranjerosSeleccionado['NRO_PERSONAS'] = dfExtranjerosSeleccionado['NRO_PERSONAS'].round(decimals=2)

dfExtranjerosSeleccionado.to_csv('../../data_preprocesada_N3/clean_extranjeros_barrios.csv', index=False)


## <span style="color:blue">Indicador Nro. Habitantes por vivienda</span>


In [35]:
# Lectura del Excel Media de Habitantes Vivienda
dfNroHabitantes = pd.read_excel('../../data_preprocesada_N2/size_medio_hogares_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfNroHabitantesSeleccionado = dfNroHabitantes[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'NRO_MEDIA_PERSONAS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

In [36]:
# Número de filas
print('Número de Filas: ', dfNroHabitantesSeleccionado.shape[0])

Número de Filas:  536


In [37]:
# Calcular el número de valores "missing values" de cada variable.
dfNroHabitantesSeleccionado.isna().sum()


COD_DISBAR            168
BARRIOS                 0
NRO_MEDIA_PERSONAS     74
ANIO                    0
LATITUD               168
LONGITUD              168
dtype: int64

In [38]:
# Elimina "missing values"
dfNroHabitantesSeleccionado = dfNroHabitantesSeleccionado.dropna()

In [39]:
# Calcular el número de valores "missing values" de cada variable.
dfNroHabitantesSeleccionado.isna().sum()

COD_DISBAR            0
BARRIOS               0
NRO_MEDIA_PERSONAS    0
ANIO                  0
LATITUD               0
LONGITUD              0
dtype: int64

In [40]:
print('Número de Filas: ', dfNroHabitantesSeleccionado.shape[0])

Número de Filas:  368


In [41]:
#Verifica información del dataset
dfNroHabitantesSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 368 entries, 1 to 535
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   COD_DISBAR          368 non-null    float64
 1   BARRIOS             368 non-null    object 
 2   NRO_MEDIA_PERSONAS  368 non-null    float64
 3   ANIO                368 non-null    int64  
 4   LATITUD             368 non-null    float64
 5   LONGITUD            368 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 20.1+ KB


In [42]:
# Escribe excel en nivel 3

# Save dataset para Nro. de Personas por habitacion
dfNroHabitantesSeleccionado = dfNroHabitantesSeleccionado.astype({"COD_DISBAR":'int'}) 
dfNroHabitantesSeleccionado['NRO_MEDIA_PERSONAS'] = dfNroHabitantesSeleccionado['NRO_MEDIA_PERSONAS'].round(decimals=2)

dfNroHabitantesSeleccionado.to_csv('../../data_preprocesada_N3/clean_habitantes_vivienda_barrios.csv', index=False)


## <span style="color:blue">Indicador Nro. Desempleados</span>


In [43]:
# Lectura del Excel Desempelados
dfDesempleados = pd.read_excel('../../data_preprocesada_N2/desempleados_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfDesempleadosSeleccionado = dfDesempleados[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'NRO_PERSONAS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

In [44]:
# Número de filas
print('Número de Filas: ', dfDesempleadosSeleccionado.shape[0])

Número de Filas:  536


In [45]:
# Calcular el número de valores "missing values" de cada variable.
dfDesempleadosSeleccionado.isna().sum()


COD_DISBAR      168
BARRIOS           0
NRO_PERSONAS     78
ANIO              0
LATITUD         168
LONGITUD        168
dtype: int64

In [46]:
# Elimina "missing values"
dfDesempleadosSeleccionado = dfDesempleadosSeleccionado.dropna()

In [47]:
# Calcular el número de valores "missing values" de cada variable.
dfDesempleadosSeleccionado.isna().sum()


COD_DISBAR      0
BARRIOS         0
NRO_PERSONAS    0
ANIO            0
LATITUD         0
LONGITUD        0
dtype: int64

In [48]:
print('Número de Filas: ', dfDesempleadosSeleccionado.shape[0])

Número de Filas:  368


In [49]:
#Verifica información del dataset
dfDesempleadosSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 368 entries, 1 to 535
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   COD_DISBAR    368 non-null    float64
 1   BARRIOS       368 non-null    object 
 2   NRO_PERSONAS  368 non-null    float64
 3   ANIO          368 non-null    int64  
 4   LATITUD       368 non-null    float64
 5   LONGITUD      368 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 20.1+ KB


In [50]:
# Escribe excel en nivel 3

# Save dataset para Desempleados
dfDesempleadosSeleccionado = dfDesempleadosSeleccionado.astype({"COD_DISBAR":'int'}) 
dfDesempleadosSeleccionado['NRO_PERSONAS'] = dfDesempleadosSeleccionado['NRO_PERSONAS'].round(decimals=2)

dfDesempleadosSeleccionado.to_csv('../../data_preprocesada_N3/clean_desempleados_barrios.csv', index=False)


## <span style="color:blue">Indicador Nro. Precio viviendas</span>


In [51]:
# Lectura del Excel Desempelados
dfPrecioVivienda = pd.read_excel('../../data_preprocesada_N2/precio_vivienda_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfPrecioViviendaSeleccionado = dfPrecioVivienda[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'TIPO_VIVIENDA',
                        'PRECIO(EUROS/M2)', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

In [52]:
# Número de filas
print('Número de Filas: ', dfPrecioViviendaSeleccionado.shape[0])

Número de Filas:  906


In [53]:
# Calcular el número de valores "missing values" de cada variable.
dfPrecioViviendaSeleccionado.isna().sum()


COD_DISBAR          134
BARRIOS               0
TIPO_VIVIENDA         0
PRECIO(EUROS/M2)      0
ANIO                  0
LATITUD             134
LONGITUD            134
dtype: int64

In [54]:
# Elimina "missing values"
dfPrecioViviendaSeleccionado = dfPrecioViviendaSeleccionado.dropna()

In [55]:
# Calcular el número de valores "missing values" de cada variable.
dfPrecioViviendaSeleccionado.isna().sum()


COD_DISBAR          0
BARRIOS             0
TIPO_VIVIENDA       0
PRECIO(EUROS/M2)    0
ANIO                0
LATITUD             0
LONGITUD            0
dtype: int64

In [56]:
print('Número de Filas: ', dfPrecioViviendaSeleccionado.shape[0])

Número de Filas:  772


In [57]:
#Verifica información del dataset
dfPrecioViviendaSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 772 entries, 1 to 905
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   COD_DISBAR        772 non-null    float64
 1   BARRIOS           772 non-null    object 
 2   TIPO_VIVIENDA     772 non-null    object 
 3   PRECIO(EUROS/M2)  772 non-null    object 
 4   ANIO              772 non-null    int64  
 5   LATITUD           772 non-null    float64
 6   LONGITUD          772 non-null    float64
dtypes: float64(3), int64(1), object(3)
memory usage: 48.2+ KB


In [58]:
#  Escribe excel en nivel 3

# Save dataset para Desempleados
dfPrecioViviendaSeleccionado = dfPrecioViviendaSeleccionado.astype({"COD_DISBAR":'int'}) 
# Cast object to float
dfPrecioViviendaSeleccionado['PRECIO(EUROS/M2)'] = (dfPrecioViviendaSeleccionado['PRECIO(EUROS/M2)'].str.split()).apply(lambda x: float(x[0].replace('.', '').replace(',', '.')))

dfPrecioViviendaSeleccionado = dfPrecioViviendaSeleccionado.astype({'PRECIO(EUROS/M2)':'float'})

dfPrecioViviendaSeleccionado['PRECIO(EUROS/M2)'] = dfPrecioViviendaSeleccionado['PRECIO(EUROS/M2)'].round(decimals=2)

# Dataset para viviendas nuevas
dfPrecioViviendaNueva = dfPrecioViviendaSeleccionado[dfPrecioViviendaSeleccionado['TIPO_VIVIENDA'].isin(['NUEVAS'])]
dfPrecioViviendaNueva.to_csv('../../data_preprocesada_N3/clean_precios_vivienda_nuevas_barrios.csv', index=False)

# Dataset para viviendas usadas
dfPrecioViviendaUsada = dfPrecioViviendaSeleccionado[dfPrecioViviendaSeleccionado['TIPO_VIVIENDA'].isin(['USADAS'])]
dfPrecioViviendaUsada.to_csv('../../data_preprocesada_N3/clean_precios_vivienda_usadas_barrios.csv', index=False)




## <span style="color:blue">Indicador Nivel Educación</span>


In [59]:
# Lectura del Excel Desempelados
dfNivelEducacion = pd.read_excel('../../data_preprocesada_N2/nivel_educación_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfNivelEducacionSeleccionado = dfNivelEducacion[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'NIVELES_EDUCACION',
                        'NRO_PERSONAS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD']]

# Estandariza valor Rango Edad
dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'No sabe leer ni escribir, sin estudios o primaria incompleta', 'NIVELES_EDUCACION'] = 'SIN ESTUDIOS'
dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'No sabe leer ni escribir o sin estudios', 'NIVELES_EDUCACION'] = 'SIN ESTUDIOS'

dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Bachiller Elemental, Graduado Escolar, ESO,Formación profesional primer grado', 'NIVELES_EDUCACION'] = 'SEGUNDO NIVEL'
dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Bachiller Elemental, Graduado Escolar, ESO, Formación profesional 1º grado', 'NIVELES_EDUCACION'] = 'SEGUNDO NIVEL'

dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Formación profesional 2º grado, Bachiller Superior o BUP', 'NIVELES_EDUCACION'] = 'SEGUNDO NIVEL'

dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Titulados medios, Diplomados, Arquitecto o Ingeniero Técnico', 'NIVELES_EDUCACION'] = 'TERCER NIVEL Y SUPERIORES'
dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Titulados medios, diplomados, arquitecto o ingeniero técnico', 'NIVELES_EDUCACION'] = 'TERCER NIVEL Y SUPERIORES'

dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Estudios superiores, licenciado, Arquitecto o Ingeniero, estudios superiores no universitarios, doctorado, estudios postgraduados', 'NIVELES_EDUCACION'] = 'TERCER NIVEL Y SUPERIORES'
dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Estudios superiores, licenciado, arquitecto o ingeniero superior, estudios superiores no universitarios, doctorado, estudios postgraduados', 'NIVELES_EDUCACION'] = 'TERCER NIVEL Y SUPERIORES'

dfNivelEducacionSeleccionado.loc[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'] == 'Primaria incompleta', 'NIVELES_EDUCACION'] = 'SIN ESTUDIOS'

In [60]:
# Número de filas
print('Número de Filas: ', dfNivelEducacionSeleccionado.shape[0])

Número de Filas:  3055


In [61]:
# Calcular el número de valores "missing values" de cada variable.
dfNivelEducacionSeleccionado.isna().sum()

COD_DISBAR           973
BARRIOS                0
NIVELES_EDUCACION      0
NRO_PERSONAS         456
ANIO                   0
LATITUD              973
LONGITUD             973
dtype: int64

In [62]:
# Elimina "missing values"
dfNivelEducacionSeleccionado = dfNivelEducacionSeleccionado.dropna()

In [63]:
# Calcular el número de valores "missing values" de cada variable.
dfNivelEducacionSeleccionado.isna().sum()


COD_DISBAR           0
BARRIOS              0
NIVELES_EDUCACION    0
NRO_PERSONAS         0
ANIO                 0
LATITUD              0
LONGITUD             0
dtype: int64

In [64]:
print('Número de Filas: ', dfNivelEducacionSeleccionado.shape[0])

Número de Filas:  2082


In [65]:
#Verifica información del dataset
dfNivelEducacionSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2082 entries, 5 to 3054
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   COD_DISBAR         2082 non-null   float64
 1   BARRIOS            2082 non-null   object 
 2   NIVELES_EDUCACION  2082 non-null   object 
 3   NRO_PERSONAS       2082 non-null   float64
 4   ANIO               2082 non-null   int64  
 5   LATITUD            2082 non-null   float64
 6   LONGITUD           2082 non-null   float64
dtypes: float64(4), int64(1), object(2)
memory usage: 130.1+ KB


In [66]:
# Escribe excel en nivel 3

# Selecciona dataset para educación superior
dfNvlEduClean = dfNivelEducacionSeleccionado[dfNivelEducacionSeleccionado['NIVELES_EDUCACION'].isin(['TERCER NIVEL Y SUPERIORES'])]
dfNvlEduClean = dfNvlEduClean.groupby(['COD_DISBAR', 'BARRIOS', 'ANIO', 'LATITUD', 'LONGITUD'],as_index=False).sum()
dfNvlEduClean = dfNvlEduClean.astype({"COD_DISBAR":'int'}) 

dfNvlEduClean.to_csv('../../data_preprocesada_N3/clean_edu_superior_barrios.csv', index=False)


## <span style="color:blue">Indicador Hospedaje </span>


In [67]:
# Lectura del Excel Desempelados
dfHospedeja = pd.read_excel('../../data_preprocesada_N2/hospedaje_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfHospedejaSeleccionado = dfHospedeja[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD', 'LATITUD_H', 'LONGITUD_H']]

In [68]:
# Número de filas
print('Número de Filas: ', dfHospedejaSeleccionado.shape[0])

Número de Filas:  15369


In [69]:
# Calcular el número de valores "missing values" de cada variable.
dfHospedejaSeleccionado.isna().sum()

COD_DISBAR    32
BARRIOS        0
ANIO           0
LATITUD       32
LONGITUD      32
LATITUD_H      0
LONGITUD_H     0
dtype: int64

In [70]:
# Elimina "missing values"
dfHospedejaSeleccionado = dfHospedejaSeleccionado.dropna()

In [71]:
# Calcular el número de valores "missing values" de cada variable.
dfHospedejaSeleccionado.isna().sum()


COD_DISBAR    0
BARRIOS       0
ANIO          0
LATITUD       0
LONGITUD      0
LATITUD_H     0
LONGITUD_H    0
dtype: int64

In [72]:
print('Número de Filas: ', dfHospedejaSeleccionado.shape[0])

Número de Filas:  15337


In [73]:
#Verifica información del dataset
dfHospedejaSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15337 entries, 0 to 15367
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   COD_DISBAR  15337 non-null  float64
 1   BARRIOS     15337 non-null  object 
 2   ANIO        15337 non-null  int64  
 3   LATITUD     15337 non-null  float64
 4   LONGITUD    15337 non-null  float64
 5   LATITUD_H   15337 non-null  float64
 6   LONGITUD_H  15337 non-null  float64
dtypes: float64(5), int64(1), object(1)
memory usage: 958.6+ KB


In [74]:
# Escribe excel en nivel 3

# Eliminar duplicados hospedaje 2016
dfHospedajeClean2016 = dfHospedejaSeleccionado[dfHospedejaSeleccionado['ANIO'].isin([2016])]
dfHospedajeClean2016 = dfHospedajeClean2016.drop_duplicates(subset=['LATITUD_H', 'LONGITUD_H'])

# Eliminar duplicados hospedaje 2018
dfHospedajeClean2018 = dfHospedejaSeleccionado[dfHospedejaSeleccionado['ANIO'].isin([2018])]
dfHospedajeClean2018 = dfHospedajeClean2018.drop_duplicates(subset=['LATITUD_H', 'LONGITUD_H'])

# Eliminar duplicados hospedaje 2019
dfHospedajeClean2019 = dfHospedejaSeleccionado[dfHospedejaSeleccionado['ANIO'].isin([2019])]
dfHospedajeClean2019 = dfHospedajeClean2019.drop_duplicates(subset=['LATITUD_H', 'LONGITUD_H'])

dfHospedajeCleanSelect = pd.DataFrame()
lstFrames = [dfHospedajeClean2016, dfHospedajeClean2018, dfHospedajeClean2019]
dfHospedajeCleanSelect = pd.concat(lstFrames)

# Contea datset numero de hospedajes por barrio y anio
dfHospedajeClean = dfHospedajeCleanSelect.groupby(['COD_DISBAR', 'BARRIOS', 'ANIO']).size().reset_index(name='NRO_HOSPEDAJES')
dfHospedajeClean = dfHospedajeClean.astype({"COD_DISBAR":'int'}) 

dfHospedajeClean.to_csv('../../data_preprocesada_N3/clean_hospedaje_barrios.csv', index=False)


## <span style="color:blue">Indicador Terrazas </span>


In [75]:
# Lectura del Excel Desempelados
dfTerrazas = pd.read_excel('../../data_preprocesada_N2/terrazas_barrios_madrid.xlsx')

# # Selecciona columnas importantes
dfTerrazasSeleccionado = dfTerrazas[[
                        'COD_DISBAR', 
                        'BARRIOS', 
                        'ANIO', 
                        'LATITUD', 
                        'LONGITUD', 'LATITUD_T', 'LONGITUD_T']]

In [76]:
# Número de filas
print('Número de Filas: ', dfTerrazasSeleccionado.shape[0])

Número de Filas:  13810


In [77]:
# Calcular el número de valores "missing values" de cada variable.
dfTerrazasSeleccionado.isna().sum()

COD_DISBAR    476
BARRIOS         0
ANIO            0
LATITUD       476
LONGITUD      476
LATITUD_T       0
LONGITUD_T      0
dtype: int64

In [78]:
# Elimina "missing values"
dfTerrazasSeleccionado = dfTerrazasSeleccionado.dropna()

In [79]:
# Calcular el número de valores "missing values" de cada variable.
dfTerrazasSeleccionado.isna().sum()

COD_DISBAR    0
BARRIOS       0
ANIO          0
LATITUD       0
LONGITUD      0
LATITUD_T     0
LONGITUD_T    0
dtype: int64

In [80]:
print('Número de Filas: ', dfTerrazasSeleccionado.shape[0])

Número de Filas:  13334


In [81]:
#Verifica información del dataset
dfTerrazasSeleccionado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13334 entries, 0 to 13809
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   COD_DISBAR  13334 non-null  float64
 1   BARRIOS     13334 non-null  object 
 2   ANIO        13334 non-null  int64  
 3   LATITUD     13334 non-null  float64
 4   LONGITUD    13334 non-null  float64
 5   LATITUD_T   13334 non-null  object 
 6   LONGITUD_T  13334 non-null  object 
dtypes: float64(3), int64(1), object(3)
memory usage: 833.4+ KB


In [82]:
# Escribe excel en nivel 3

# Eliminar duplicados 2016
dfTerrazaClean2016 = dfTerrazasSeleccionado[dfTerrazasSeleccionado['ANIO'].isin([2016])]
dfTerrazaClean2016 = dfTerrazaClean2016.drop_duplicates(subset=['LATITUD_T', 'LONGITUD_T'])

# Eliminar duplicados 2018
dfTerrazaClean2018 = dfTerrazasSeleccionado[dfTerrazasSeleccionado['ANIO'].isin([2018])]
dfTerrazaClean2018 = dfTerrazaClean2018.drop_duplicates(subset=['LATITUD_T', 'LONGITUD_T'])

# Eliminar duplicados 2019
dfTerrazaClean2019 = dfTerrazasSeleccionado[dfTerrazasSeleccionado['ANIO'].isin([2019])]
dfTerrazaClean2019 = dfTerrazaClean2019.drop_duplicates(subset=['LATITUD_T', 'LONGITUD_T'])

dfTerrazaCleanSelect = pd.DataFrame()
lstFrames = [dfTerrazaClean2016, dfTerrazaClean2018, dfTerrazaClean2019]
dfTerrazaCleanSelect = pd.concat(lstFrames)

# Contea datset numero de hospedajes por barrio y anio
dfTerrazaClean = dfTerrazaCleanSelect.groupby(['COD_DISBAR', 'BARRIOS', 'ANIO']).size().reset_index(name='NRO_TERRAZAS')
dfTerrazaClean = dfTerrazaClean.astype({"COD_DISBAR":'int'}) 

dfTerrazaClean.to_csv('../../data_preprocesada_N3/clean_terrazas_barrios.csv', index=False)


## <span style="color:blue">Generación de Conjunto de datos integrado </span>


In [93]:
# Lectura dataset limpio correspondiente a gente joven (15-44)
dfEdad_LF = pd.read_csv('../../data_preprocesada_N3/clean_edad_barrios_menores65.csv')
dfEdad_LF = dfEdad_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'NRO_PERSONAS']]
dfEdad_LF = dfEdad_LF.rename(columns = {'NRO_PERSONAS': 'num_personas_entre_15_a_44_anios'}, inplace = False)
# Lectura dataset limpio correspondiente a personas desempleados
dfDesempleo_LF = pd.read_csv('../../data_preprocesada_N3/clean_desempleados_barrios.csv')
dfDesempleo_LF = dfDesempleo_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'NRO_PERSONAS']]
dfDesempleo_LF = dfDesempleo_LF.rename(columns = {'NRO_PERSONAS': 'num_personas_desempleadas'}, inplace = False)
# Lectura dataset limpio correspondiente a personas con educación superior
dfEduSuperior_LF = pd.read_csv('../../data_preprocesada_N3/clean_edu_superior_barrios.csv')
dfEduSuperior_LF = dfEduSuperior_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'NRO_PERSONAS']]
dfEduSuperior_LF = dfEduSuperior_LF.rename(columns = {'NRO_PERSONAS': 'num_personas_con_educacion_superior'}, inplace = False)
# Lectura dataset limpio correspondiente a personas extranjeras
dfExtranjero_LF = pd.read_csv('../../data_preprocesada_N3/clean_extranjeros_barrios.csv')
dfExtranjero_LF = dfExtranjero_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'NRO_PERSONAS']]
dfExtranjero_LF = dfExtranjero_LF.rename(columns = {'NRO_PERSONAS': 'num_personas_extranjeras'}, inplace = False)
# Lectura dataset limpio correspondiente a media de personas viviendo en una casa
dfHabitXVivienda_LF = pd.read_csv('../../data_preprocesada_N3/clean_habitantes_vivienda_barrios.csv')
dfHabitXVivienda_LF = dfHabitXVivienda_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'NRO_MEDIA_PERSONAS']]
dfHabitXVivienda_LF = dfHabitXVivienda_LF.rename(columns = {'NRO_MEDIA_PERSONAS': 'media_personas_por_vivienda'}, inplace = False)
# Lectura dataset limpio correspondiente a hospedajes
dfHospedaje_LF = pd.read_csv('../../data_preprocesada_N3/clean_hospedaje_barrios.csv')
dfHospedaje_LF = dfHospedaje_LF[['COD_DISBAR','BARRIOS','ANIO', 'NRO_HOSPEDAJES']]
dfHospedaje_LF = dfHospedaje_LF.rename(columns = {'NRO_HOSPEDAJES': 'num_hospedajes'}, inplace = False)
# Lectura dataset limpio correspondiente a precios de viviendas nuevas
dfPrecioVivienda_LF = pd.read_csv('../../data_preprocesada_N3/clean_precios_vivienda_nuevas_barrios.csv')
dfPrecioVivienda_LF = dfPrecioVivienda_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'PRECIO(EUROS/M2)']]
dfPrecioVivienda_LF = dfPrecioVivienda_LF.rename(columns = {'PRECIO(EUROS/M2)': 'precio_vivienda_nueva_euro_m2'}, inplace = False)
# Lectura dataset limpio correspondiente a renta media
dfRenta_LF = pd.read_csv('../../data_preprocesada_N3/clean_renta_barrios.csv')
dfRenta_LF = dfRenta_LF[['COD_DISBAR','BARRIOS','ANIO', 'LATITUD', 'LONGITUD', 'RENTA_MEDIA']]
dfRenta_LF = dfRenta_LF.rename(columns = {'RENTA_MEDIA': 'valor_renta_media'}, inplace = False)
# Lectura dataset limpio correspondiente a terrazas
dfTerrazas_LF = pd.read_csv('../../data_preprocesada_N3/clean_terrazas_barrios.csv')
dfTerrazas_LF = dfTerrazas_LF[['COD_DISBAR','BARRIOS','ANIO', 'NRO_TERRAZAS']]
dfTerrazas_LF = dfTerrazas_LF.rename(columns = {'NRO_TERRAZAS': 'num_terrazas'}, inplace = False)

# Merge Datasets y generad dataset final
# # Merge dataset de hospedaje y terrazas que tienen columnas diferentes
df_merged_1 = pd.merge(dfHospedaje_LF, dfTerrazas_LF, how="left", on=["COD_DISBAR", "BARRIOS", "ANIO"])
# # Merge dataset que tienen columnas similares
data_frames = [dfEdad_LF, dfDesempleo_LF, dfEduSuperior_LF, dfExtranjero_LF, dfHabitXVivienda_LF, dfPrecioVivienda_LF, dfRenta_LF]
df_merged_2 = reduce(lambda  left,right: pd.merge(left,right,on=['COD_DISBAR', 'BARRIOS', 'ANIO', 'LATITUD', 'LONGITUD'], how='outer'), data_frames)
# # Merge final
factorGentrDF = pd.merge(df_merged_1, df_merged_2, how="left", on=["COD_DISBAR", "BARRIOS", "ANIO"])
factorGentrDF = factorGentrDF.reindex(columns=['COD_DISBAR','BARRIOS','ANIO',
                                               'LATITUD','LONGITUD',
                                               'num_hospedajes','num_terrazas', 
                                               'num_personas_entre_15_a_44_anios','num_personas_desempleadas', 
                                               'num_personas_con_educacion_superior','num_personas_extranjeras',
                                               'media_personas_por_vivienda','precio_vivienda_nueva_euro_m2',
                                               'valor_renta_media'])
# Reemplaza "missing values" por el valor 0
factorGentrDF = factorGentrDF.fillna(0)

# Filtra para el anio 2019
factorGentrDF = factorGentrDF[factorGentrDF['ANIO'].isin([2019])]

factorGentrDF.to_csv('../../dataset/factores_gentrificacion_barrios.csv', index=False)


