# Librerías

In [1]:
import pandas as pd
import numpy as np 
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Funciones para lectura y concatenado

In [2]:
# Función para generar strings con nombres de los ficheros cambiando el identificador del año 
def filelist(st1,st2,n1,n2):
    filelist = []
    for n in range(n1,n2):
        if n < 10:
            filename = st1 + '0' + str(n) + st2
            filelist.append(filename)
        else: 
            filename = st1 + str(n) + st2
            filelist.append(filename)
    return filelist

In [4]:
# Función para concatenar los ficheros de los distintos años en un sólo fichero
def concatenated_df(df_list):
    df_temp = pd.DataFrame()
    for file in df_list:
        df = pd.read_csv(file)
        if df_temp.shape == (0,0):
            df_temp = df
        else: 
            df_temp = pd.concat([df_temp,df])
    return df_temp

In [3]:
# Listas con los ficheros de cada tipo que contienen datos de todos los años
d_filelist = filelist('Files/esudb','d.csv',4,19) # Ficheros información geográfica año 2004 - 2018
h_filelist = filelist('Files/esudb','h.csv',4,19) # Ficheros información del hogar año 2004 - 2018
p_filelist = filelist('Files/esudb','p.csv',4,19) # Ficheros información de la persona año 2004 - 2018

In [7]:
%%time
df_D = concatenated_df(d_filelist)

CPU times: user 766 ms, sys: 93.8 ms, total: 859 ms
Wall time: 846 ms


In [8]:
%%time
df_H = concatenated_df(h_filelist)

  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)


CPU times: user 1min, sys: 13.8 s, total: 1min 14s
Wall time: 1min 14s


In [9]:
%%time
df_P = concatenated_df(p_filelist)

  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)


CPU times: user 3min 11s, sys: 41.1 s, total: 3min 52s
Wall time: 3min 53s


# Limpieza y selección de variables fichero D / Sociodemográficos


### Diccionario de variables seleccionadas y códigos asociados:

| Variable    | Descripción  |  Categoría   | Código  |
| ----------- | -------------| -------------| --------|
| **DB010**    | **Año** | - |-|
| **DB030**    | **Identificación del hogar** | - |-|
| **DB040**    | **Región** | Galicia |ES11|
| | |Principado de Asturias | ES12 |
| | |Cantabria   | ES13 |
| | |País Vasco  | ES21 |
| | |Comunidad Foral de Navarra | ES22 |
| | |La Rioja    | ES23 |
| | |Aragón      | ES24 |
| | |Comunidad de Madrid    | ES30 |
| | |Castilla y León      | ES24 |
| | |Comunidad de Madrid | 	ES30 |
| | |Castilla y León | ES41 |
| | |Castilla-La Mancha	| ES42 |
| | |Extremadura | ES43 |
| | |Cataluña | ES51 |
| | |Comunidad Valenciana | ES52 |
| | |Illes Balears | ES53 |
| | |Andalucía | ES61 |
| | |Región de Murcia | ES62 |
| | |Ciudad Autónoma de Ceuta | ES63 |
| | |Ciudad Autónoma de Melilla | ES64 |
| | |Canarias | ES70 |
| | |Extra-Regio | ESZZ |
| **DB100** | **Habitat** | Grande | 1	|
| | |Mediano| 2 |
| | |Pequeño| 3 |

In [11]:
print(df_D.shape)
df_D.head()

(196498, 11)


Unnamed: 0,DB010,DB020,DB030,DB040,DB040_F,DB060,DB060_F,DB090,DB090_F,DB100,DB100_F
0,2004,ES,1,ES21,1,1,1,997.96215,1,3,1
1,2004,ES,2,ES21,1,1,1,1001.89779,1,3,1
2,2004,ES,3,ES21,1,1,1,1105.30224,1,3,1
3,2004,ES,4,ES21,1,1,1,319.5525,1,3,1
4,2004,ES,5,ES21,1,1,1,2817.80555,1,3,1


In [53]:
# Selección de variables
dfD_varlist = ['DB010','DB030','DB040','DB100']

# Filtrado de columnas 
df_D1 = df_D[dfD_varlist]

# Cambio de nombre de las variables
df_D1.rename(columns = {'DB030':'HHId','DB010': 'Year','DB040': 'Region',\
                             'DB100': 'Habitat'}, inplace = True)

# Creación de un ID año + ID del hogar para evitar duplicaciones entre los ids de distintos años
df_D1['Year_HHid'] = df_D1['Year'].astype(str) + '_' + df_D1['HHId'].astype(str)

# Cambio de códigos de CCAA por definición de la categoría

df_D1['Region'] = df_D1['Region'].map({'ES11':'Galicia','ES12':'Principado de Asturias','ES13':'Cantabria','ES21':'País Vasco',
                     'ES22':'Comunidad Foral de Navarra','ES23':'La Rioja','ES24':'Aragón','ES30':'Comunidad de Madrid',
                     'ES24':'Castilla y León','ES30':'Comunidad de Madrid','ES41':'Castilla y León','ES42':'Castilla-La Mancha',
                     'ES43':'Extremadura','ES51':'Cataluña','ES52':'Comunidad Valenciana','ES53':'Illes Balears',
                     'ES61':'Andalucía','ES62':'Región de Murcia','ES63':'Ciudad Autónoma de Ceuta',
                     'ES64':'Ciudad Autónoma de Melilla','ES70':'Canarias','ESZZ':'Extra-Regio'})


# Cambio de códigos para el tamaño del hábitat por definición de la categoría
df_D1['Habitat']= df_D1['Habitat'].map({1: 'Big', 2 : 'Medium', 3 : 'Small' }) 

# Tamaño del dataframe una vez aplicados los cambios
print(df_D1.shape)
df_D1.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


(196498, 5)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,Year,HHId,Region,Habitat,Year_HHid
0,2004,1,País Vasco,Small,2004_1
1,2004,2,País Vasco,Small,2004_2
2,2004,3,País Vasco,Small,2004_3
3,2004,4,País Vasco,Small,2004_4
4,2004,5,País Vasco,Small,2004_5
