Cargamos las librerías que emplearemos durante el proceso:

In [1]:
import pandas as pd

# Ampliamos el límite de columnas visibles para poder visualizarlas todas
pd.set_option('display.max_columns', 500)

# Categorización de los datos

En este apartado realizaremos una breve descripción de los datos que utilizaremos en este estudio.

Así, mayormente emplearemos un conjunto de datos que contiene información sobre anuncios de casas en venta de las provincias de Bizkaia y Gipuzkoa. Para ello, disponemos de 2 archivos, uno por cada provincia. Por lo tanto, cargamos los datos y los combinamos en un solo dataframe:

In [2]:
houses_biz = pd.read_csv('./raw_data/houses_vizcaya.csv')
houses_gip = pd.read_csv('./raw_data/houses_guipuzcoa.csv')

houses = pd.concat([houses_biz, houses_gip])

Una vez tenemos nuestro dataset, veamos de cuántas casas y variables consta:

+ <font color=#599d70>__Número de casas__</font>: {{houses.shape[0]}}
+ <font color=#599d70>__Número de variables por casa__</font>: {{houses.shape[1]}}

<br />
Asimismo, describamos cómo son estas {{houses.shape[1]}} variables:

**PROPIEDADES DEL ANUNCIO**

+ [0] <font color=#5F66A1>__house_id__</font>: Identificador numérico único del anuncio de la vivienda (coincide con el path del anuncio) &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [1] <font color=#5F66A1>__ad_last_update__</font>: Fecha de la última actualización del anuncio &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [2] <font color=#5F66A1>__ad_description__</font>: Descripción de texto del anuncio de la venta/alquiler de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>

**PROPIEDADES DE LA VIVIENDA**

+ [3] <font color=#5F66A1>__price__</font>: Precio de alquiler/venta de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [4] <font color=#5F66A1>__bath_num__</font>: Número de baños de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font> 
+ [5] <font color=#5F66A1>__condition__</font>: Estado en el que se encuentra la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [6] <font color=#5F66A1>__construct_date__</font>: Año de construcción de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#ED553B>{date}</font>
+ [7] <font color=#5F66A1>__energetic_certif__</font>: Certificado energético de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [8] <font color=#5F66A1>__floor__</font>: Número y/o ubicación de la(s) planta(s) de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [9] <font color=#5F66A1>__ground_size__</font>: Metros cuadrados del terreno donde se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [10] <font color=#5F66A1>__heating__</font>: Sistema de calefacción de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [11] <font color=#5F66A1>__house_type__</font>: Tipo de vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [12] <font color=#5F66A1>__m2_real__</font>: Metros cuadrados totales de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [13] <font color=#5F66A1>__m2_useful__</font>: Metros cuadrados útiles de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [14] <font color=#5F66A1>__orientation__</font>: Orientación de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat}</font>
+ [15] <font color=#5F66A1>__room_num__</font>: Número de habitaciones de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>

**EQUIPAMIENTO ADICIONAL DE LA VIVIENDA**

+ [16] <font color=#5F66A1>__air_conditioner__</font>: Indica si la vivienda posee aire acondicionado &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [17] <font color=#5F66A1>__balcony__</font>: Indica si la vivienda tiene balcones &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [18] <font color=#5F66A1>__built_in_wardrobe__</font>: Indica si la vivienda consta de armarios empotrados &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [19] <font color=#5F66A1>__chimney__</font>: Indica si la vivienda consta de chimenea &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [20] <font color=#5F66A1>__garage__</font>: Indica el precio del garaje (en caso de que tenga) &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ [21] <font color=#5F66A1>__garden__</font>: Indica si la vivienda tiene jardín &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [22] <font color=#5F66A1>__kitchen__</font>: Indica si la vivienda está ya equipada con cocina &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [23] <font color=#5F66A1>__lift__</font>: Indica si la vivienda consta de ascensor &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [24] <font color=#5F66A1>__reduced_mobility__</font>: Indica si la vivienda está adaptada para personas con movilidad reducida &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [25] <font color=#5F66A1>__storage_room__</font>: Indica si la vivienda consta de trastero &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [26] <font color=#5F66A1>__swimming_pool__</font>: Indica si la vivienda tiene piscina &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [27] <font color=#5F66A1>__terrace__</font>: Indica si la vivienda tiene terraza &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>
+ [28] <font color=#5F66A1>__unfurnished__</font>: Indica si la vivienda está sin amueblar &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{cat binary}</font>

**UBICACIÓN DE LA VIVIENDA**

+ [29] <font color=#5F66A1>__loc_full__</font>: Dirección completa de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [30] <font color=#5F66A1>__loc_zone__</font>: Provincia en la que se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [31] <font color=#5F66A1>__loc_district__</font>: Área de la provincia en la que se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [32] <font color=#5F66A1>__loc_city__</font>: Localidad en la que se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [33] <font color=#5F66A1>__loc_neigh__</font>: Vecindario en la que se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font>
+ [34] <font color=#5F66A1>__loc_street__</font>: Calle en la que se ubica la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#f3ca75>{text}</font> 

**METADATOS**
+ [35] <font color=#5F66A1>__obtention_date__</font>: Fecha de obtención de los datos de la vivienda &nbsp;&nbsp;&nbsp;&nbsp;<font color=#599d70>{date}</font>

<br />

# Enriquecimiento de los datos

En este apartado enriqueceremos nuestro conjunto de datos principal añadiendo información demográfica y socio-económica. Concretamente las variables que añadiremos serán la siguiente:

+ <font color=#5F66A1>__pop_total__</font>: Número de habitantes por municipio &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ Distribución de edades por municipio 
    + <font color=#5F66A1>__pop_0-19__</font>: Tasa de jovenes menores de 20 años &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
    + <font color=#5F66A1>__pop_20-64__</font>: Tasa de adultos entre 20 y  64 años &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
    + <font color=#5F66A1>__pop_>=64__</font>: Tasa de adultos mayores de 64 años &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>
+ <font color=#5F66A1>__pop_foreign__</font>: Tasa de extranjeros por municipio &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num float}</font>
+ <font color=#5F66A1>__rent__</font>: Renta media personal por municipio &nbsp;&nbsp;&nbsp;&nbsp;<font color=#c874b9>{num}</font>

## Integración de información demográfica

Empezaremos añadir el número de habitantes que viven en cada municipio. Para ello, empezamos cargando y explorando los datos demográficos:

In [3]:
population = pd.read_csv('./raw_data/pop2018.csv', sep=';')
population.head(3)

Unnamed: 0,city,pop_total
0,20001 Abaltzisketa,320
1,20002 Aduna,469
2,20016 Aia,2081


Vemos que el nombre de cada municipio, esta precedido por el código postal. Lo eliminamos:

In [4]:
population['city'] = population['city'].apply(lambda s: ' '.join(s.split(' ')[1:]))
population.head(3)

Unnamed: 0,city,pop_total
0,Abaltzisketa,320
1,Aduna,469
2,Aia,2081


Añadimos los datos demográficos de cada municipio a nuestro conjunto de datos, utilizando para ello los nombres de los municipios:

In [5]:
houses_pop = pd.merge(left=houses, right=population, how='left', left_on='loc_city', right_on='city')

Comprobamos que no haya ningún municipio al que no se le haya asignado el número de habitantes:

In [6]:
print(houses_pop
        .loc[houses_pop['city'].isna()]['loc_city']
        .unique())

['Carranza' 'Arcentales' 'Trucios' 'Guizaburuaga' 'Amorebieta-Echano'
 'Izurza' 'Valle de Trapaga-Trapagaran' 'Astrabudua'
 'Etxebarri, Anteiglesia de San esteban' 'Alonsotegui'
 'Abanto y Ciérvana/Abanto Zierbena' 'Gallarta' 'Gauteguiz de Arteaga'
 'Ibarranguelua' 'Orduña' 'Ubidea' 'Aracaldo' 'Maruri' 'Sopelana'
 'Bidegoyan' 'Leaburu-Gaztelu' 'Donostia-San Sebastián' 'Gatica'
 'Arrasate o Mondragon' 'Renteria / Errenteria' 'Legazpia' 'Gainza'
 'Altzola' 'Soraluze/Placencia de las Armas']


Vemos que hay unos cuantos municipios que no han sido conciliados. Los corregimos de forma manual, combinamos, y volvemos a comprobar:

In [7]:
houses = houses.replace({'loc_city':
              {
                  'Carranza':'Karrantza Harana/Valle de Carranza',
                  'Arcentales':'Artzentales',
                  'Trucios':'Trucios-Turtzioz',
                  'Guizaburuaga':'Gizaburuaga',
                  'Amorebieta-Echano':'Amorebieta-Etxano',
                  'Izurza':'Izurtza',
                  'Valle de Trapaga-Trapagaran':'Valle de Trápaga-Trapagaran',
                  'Astrabudua':'Erandio',
                  'Etxebarri, Anteiglesia de San esteban':'Etxebarri',
                  'Alonsotegui':'Alonsotegi',       
                  'Abanto y Ciérvana/Abanto Zierbena':'Abanto y Ciérvana-Abanto Zierbena',
                  'Gallarta':'Abanto y Ciérvana-Abanto Zierbena',
                  'Gauteguiz de Arteaga':'Gautegiz Arteaga',
                  'Ibarranguelua':'Ibarrangelu',
                  'Orduña':'Urduña/Orduña',
                  'Ubidea':'Ubide',
                  'Aracaldo':'Arakaldo',
                  'Maruri':'Maruri-Jatabe',
                  'Sopelana':'Sopela',                 
                  'Bidegoyan':'Bidania-Goiatz',
                  'Leaburu-Gaztelu':'Leaburu',
                  'Donostia-San Sebastián':'Donostia/San Sebastián',
                  'Gatica':'Gatika',
                  'Arrasate o Mondragon':'Arrasate/Mondragón',
                  'Renteria / Errenteria':'Errenteria',
                  'Legazpia':'Legazpi',
                  'Gainza':'Gaintza',
                  'Altzola':'Elgoibar',
                  'Soraluze/Placencia de las Armas':'Soraluze-Placencia de las Armas'
              }});

houses_pop = pd.merge(left=houses, right=population, how='left', left_on='loc_city', right_on='city')
print(houses_pop
        .loc[houses_pop['city'].isna()]['loc_city']
        .unique())

[]


A continuacion, añadimos la información sobre la distribución de grupos de edades de cada población. Para ello, empezamos cargando y explorando los datos relacionados:

In [8]:
pop_age = pd.read_csv('./raw_data/pop2018_age.csv', sep=';')
pop_age.head(6)

Unnamed: 0,city,pop_age,percent
0,Abadiño,0 - 19,20
1,Abadiño,20 - 64,60
2,Abadiño,>= 65,19
3,Abaltzisketa,0 - 19,23
4,Abaltzisketa,20 - 64,60
5,Abaltzisketa,>= 65,17


Vemos que, por cada municipio, tenemos 3 grupos de edades diferenciados. No obstante, cada grupo debería de tener su columna, por lo que procedemos a reposicionar los datos de mejor forma:

In [9]:
pop_age = pd.pivot_table(pop_age,
                         index='city',
                         columns='pop_age',
                         values='percent')

pop_age.head(3)

pop_age,0 - 19,20 - 64,>= 65
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Abadiño,20,60,19
Abaltzisketa,23,60,17
Abanto y Ciérvana-Abanto Zierbena,18,64,18


Cambiamos los nombres de las columnas para que sean más significativos, y añadimos la información de la edad al dataset principal, usando nuevamente el municipio, y comprobando que todos los nombres se hayan conciliado bien:

In [10]:
pop_age.rename(columns={'0 - 19':'pop_0-19','20 - 64':'pop_20-64',
                          '>= 65':'pop_>=65'}, inplace=True)

houses_pop = pd.merge(left= houses_pop, right=pop_age,  how='left', on='city')
print(houses_pop
        .loc[houses_pop['pop_0-19'].isna()]['loc_city']
        .unique())

['Sopela' 'Donostia/San Sebastián' 'Soraluze-Placencia de las Armas']


Vemos que, nuevamente, hay municipios que no se han conciliado de forma correcta. Los corregimos:

In [11]:
pop_age = pop_age.rename(index=
              {
                  'Sopelana':'Sopela',
                  'Donostia / San Sebastián':'Donostia/San Sebastián',
                  'Soraluze/Placencia de las Armas':'Soraluze-Placencia de las Armas'
              });

houses_pop = houses_pop.drop(columns=['pop_0-19', 'pop_20-64', 'pop_>=65'])           
houses_pop = pd.merge(left=houses_pop, right=pop_age, how='left', on='city')

print(houses_pop
        .loc[houses_pop['pop_0-19'].isna()]['loc_city']
        .unique())

[]


Tras incluir la información sobre edades, procedemos ahora a añadir la tasa de extranjeros por cada población. Para ello, nuevamente, empezamos cargando y explorando el archivo correspondiente:

In [12]:
pop_for = pd.read_csv('./raw_data/pop2018_foreign.csv', sep=';')
pop_for.head(3)

Unnamed: 0,city,pop_foreign
0,Abadiño,6.0
1,Abaltzisketa,3.2
2,Abanto y Ciérvana-Abanto Zierbena,3.4


Observamos que disponemos ya del porcentaje de extranjeros por municipio. Al no requerir ningún tratamiento, añadimos directamente la información al conjunto de datos principal:

In [13]:
houses_pop = pd.merge(left=houses_pop, right=pop_for, how='left', on='city')
print(houses_pop
        .loc[houses_pop['pop_foreign'].isna()]['loc_city']
        .unique())

['Sopela' 'Donostia/San Sebastián' 'Soraluze-Placencia de las Armas']


Otra vez, corregimos la conciliación manualmente:

In [14]:
pop_for = pop_for.replace({'city':
              {
                  'Sopelana':'Sopela',
                  'Donostia / San Sebastián':'Donostia/San Sebastián',
                  'Soraluze/Placencia de las Armas':'Soraluze-Placencia de las Armas'
              }});

houses_pop = houses_pop.drop(columns=['pop_foreign'])           
houses_pop = pd.merge(left=houses_pop, right=pop_for, how='left', on='city')
print(houses_pop
        .loc[houses_pop['pop_foreign'].isna()]['loc_city']
        .unique())

[]


##  Integración de información socio-económica

Una vez hemos añadido los datos demográficos, haremos lo propio con la renta personal media. Empezaremos por cargar y explorar el archivo de datos de las rentas:

In [15]:
rent = pd.read_csv('./raw_data/rent2016.csv', sep=';')
rent.head(10)

Unnamed: 0,city,rent_type,rent
0,Abadiño,Renta total,20907
1,Abadiño,Renta del trabajo,13824
2,Abadiño,Renta capital mobiliario,967
3,Abadiño,Renta capital inmobiliario,262
4,Abadiño,Renta de actividades,695
5,Abadiño,Transferencias,5158
6,Abadiño,Renta disponible,17620
7,Abaltzisketa,Renta total,20659
8,Abaltzisketa,Renta del trabajo,12495
9,Abaltzisketa,Renta capital mobiliario,833


Vemos que por cada municipio tenemos varios tipos de renta. Seleccionamos la renta total y descartamos el resto: 

In [16]:
rent = (rent.loc[rent.rent_type=='Renta total']
                .drop(columns='rent_type'))
rent.head(3)

Unnamed: 0,city,rent
0,Abadiño,20907
7,Abaltzisketa,20659
14,Abanto y Ciérvana-Abanto Zierbena,17514


Finalmente, añadimos la información de renta personal por municipio al conjunto de datos principal y comprobamos si se han conciliado bien los nombres:

In [17]:
houses_pop_rent = pd.merge(left=houses_pop, right=rent, how='left', on='city')

print(houses_pop_rent
        .loc[houses_pop_rent['rent'].isna()]['loc_city']
        .unique()
)

['Berriz' 'Urduliz' 'Donostia/San Sebastián'
 'Soraluze-Placencia de las Armas']


Vemos que hay municipios que no se han conciliado, por lo que los corregimos de forma manual:

In [18]:
rent = rent.replace({'city':
              {
                  'Urdúliz':'Urduliz',
                  'Bérriz':'Berriz',
                  'Donostia / San Sebastián':'Donostia/San Sebastián',
                  'Soraluze/Placencia de las Armas':'Soraluze-Placencia de las Armas'
              }});

houses_pop_rent = pd.merge(left=houses_pop, right=rent, how='left', on='city')

print(houses_pop_rent
        .loc[houses_pop_rent['rent'].isna()]['loc_city']
        .unique()
)

[]


# Preselección de variables

En este apartado realizaremos una preselección de las variables que emplearemos a lo largo del estudio, descartando aquellas que sabemos de antemano que no nos serán de utilidad.

Las variables que se descartarán son las siguientes:

+ <font color=#5F66A1>__ad_last_update__</font>
+ <font color=#5F66A1>__ad_description__</font>
+ <font color=#5F66A1>__loc_full__</font>
+ <font color=#5F66A1>__loc_street__</font>
+ <font color=#5F66A1>__obtention_date__</font>

In [19]:
houses = houses_pop_rent.reindex(columns=['house_id', 'ad_description', 'price', 'bath_num'
                                , 'condition', 'construct_date', 'energetic_certif', 'floor', 'ground_size'
                                , 'heating', 'house_type', 'm2_real', 'm2_useful', 'orientation', 'room_num'
                                , 'air_conditioner', 'balcony', 'built_in_wardrobe', 'chimney', 'garage'
                                , 'garden', 'kitchen', 'lift', 'reduced_mobility', 'storage_room'
                                , 'swimming_pool', 'terrace', 'unfurnished', 'loc_zone', 'loc_district', 'loc_city'
                                , 'loc_neigh', 'pop_total', 'pop_0-19', 'pop_20-64', 'pop_>=65', 'pop_foreign', 'rent'      
                                ])

Por lo tanto, nuestro dataset queda caracterizado de la siguiente manera:

+ <font color=#599d70>__Número de casas__</font>: {{houses.shape[0]}}
+ <font color=#599d70>__Número de variables por casa__</font>: {{houses.shape[1]}}

<br />

Y para concluir con la fase de integración, almacenamos nuestro conjunto de datos procesado:

In [20]:
houses.to_csv('./processed_data/houses_integrated.csv', index=False)