# Librerías

In [1]:
import pandas as pd
import numpy as np 
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Funciones para lectura y concatenado

In [2]:
# Función para generar strings con nombres de los ficheros cambiando el identificador del año 
def filelist(st1,st2,n1,n2):
    filelist = []
    for n in range(n1,n2):
        if n < 10:
            filename = st1 + '0' + str(n) + st2
            filelist.append(filename)
        else: 
            filename = st1 + str(n) + st2
            filelist.append(filename)
    return filelist

In [3]:
# Función para concatenar los ficheros de los distintos años en un sólo fichero
def concatenated_df(df_list):
    df_temp = pd.DataFrame()
    for file in df_list:
        df = pd.read_csv(file)
        if df_temp.shape == (0,0):
            df_temp = df
        else: 
            df_temp = pd.concat([df_temp,df])
    return df_temp

In [4]:
# Listas con los ficheros de cada tipo que contienen datos de todos los años
d_filelist = filelist('Files/esudb','d.csv',4,19) # Ficheros información geográfica año 2004 - 2018
h_filelist = filelist('Files/esudb','h.csv',4,19) # Ficheros información del hogar año 2004 - 2018
p_filelist = filelist('Files/esudb','p.csv',4,19) # Ficheros información de la persona año 2004 - 2018

In [5]:
%%time
df_D = concatenated_df(d_filelist)

CPU times: user 297 ms, sys: 109 ms, total: 406 ms
Wall time: 433 ms


In [6]:
%%time
df_H = concatenated_df(h_filelist)

  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)


CPU times: user 21 s, sys: 5.25 s, total: 26.3 s
Wall time: 26.3 s


In [9]:
%%time
df_P = concatenated_df(p_filelist)

  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)
  call = lambda f, *a, **k: f(*a, **k)


CPU times: user 3min 11s, sys: 41.1 s, total: 3min 52s
Wall time: 3min 53s


# Limpieza y selección de variables fichero D / Sociodemográficos


### Diccionario de variables seleccionadas y códigos asociados:

| Variable    | Descripción  |  Categoría   | Código  |
| ----------- | -------------| -------------| --------|
| **DB010**    | **Año** | - |-|
| **DB030**    | **Identificación del hogar** | - |-|
| **DB040**    | **Región** | Galicia |ES11|
| | |Principado de Asturias | ES12 |
| | |Cantabria   | ES13 |
| | |País Vasco  | ES21 |
| | |Comunidad Foral de Navarra | ES22 |
| | |La Rioja    | ES23 |
| | |Aragón      | ES24 |
| | |Comunidad de Madrid    | ES30 |
| | |Castilla y León      | ES24 |
| | |Comunidad de Madrid | 	ES30 |
| | |Castilla y León | ES41 |
| | |Castilla-La Mancha	| ES42 |
| | |Extremadura | ES43 |
| | |Cataluña | ES51 |
| | |Comunidad Valenciana | ES52 |
| | |Illes Balears | ES53 |
| | |Andalucía | ES61 |
| | |Región de Murcia | ES62 |
| | |Ciudad Autónoma de Ceuta | ES63 |
| | |Ciudad Autónoma de Melilla | ES64 |
| | |Canarias | ES70 |
| | |Extra-Regio | ESZZ |
| **DB100** | **Habitat** | Grande | 1	|
| | |Mediano| 2 |
| | |Pequeño| 3 |

In [11]:
print(df_D.shape)
df_D.head()

(196498, 11)


Unnamed: 0,DB010,DB020,DB030,DB040,DB040_F,DB060,DB060_F,DB090,DB090_F,DB100,DB100_F
0,2004,ES,1,ES21,1,1,1,997.96215,1,3,1
1,2004,ES,2,ES21,1,1,1,1001.89779,1,3,1
2,2004,ES,3,ES21,1,1,1,1105.30224,1,3,1
3,2004,ES,4,ES21,1,1,1,319.5525,1,3,1
4,2004,ES,5,ES21,1,1,1,2817.80555,1,3,1


In [53]:
# Selección de variables
dfD_varlist = ['DB010','DB030','DB040','DB100']

# Filtrado de columnas 
df_D1 = df_D[dfD_varlist]

# Cambio de nombre de las variables
df_D1.rename(columns = {'DB030':'HHId','DB010': 'Year','DB040': 'Region',\
                             'DB100': 'Habitat'}, inplace = True)

# Creación de un ID año + ID del hogar para evitar duplicaciones entre los ids de distintos años
df_D1['Year_HHid'] = df_D1['Year'].astype(str) + '_' + df_D1['HHId'].astype(str)

# Cambio de códigos de CCAA por definición de la categoría

df_D1['Region'] = df_D1['Region'].map({'ES11':'Galicia','ES12':'Principado de Asturias','ES13':'Cantabria','ES21':'País Vasco',
                     'ES22':'Comunidad Foral de Navarra','ES23':'La Rioja','ES24':'Aragón','ES30':'Comunidad de Madrid',
                     'ES24':'Castilla y León','ES30':'Comunidad de Madrid','ES41':'Castilla y León','ES42':'Castilla-La Mancha',
                     'ES43':'Extremadura','ES51':'Cataluña','ES52':'Comunidad Valenciana','ES53':'Illes Balears',
                     'ES61':'Andalucía','ES62':'Región de Murcia','ES63':'Ciudad Autónoma de Ceuta',
                     'ES64':'Ciudad Autónoma de Melilla','ES70':'Canarias','ESZZ':'Extra-Regio'})


# Cambio de códigos para el tamaño del hábitat por definición de la categoría
df_D1['Habitat']= df_D1['Habitat'].map({1: 'Big', 2 : 'Medium', 3 : 'Small' }) 

# Tamaño del dataframe una vez aplicados los cambios
print(df_D1.shape)
df_D1.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


(196498, 5)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,Year,HHId,Region,Habitat,Year_HHid
0,2004,1,País Vasco,Small,2004_1
1,2004,2,País Vasco,Small,2004_2
2,2004,3,País Vasco,Small,2004_3
3,2004,4,País Vasco,Small,2004_4
4,2004,5,País Vasco,Small,2004_5


# Limpieza y selección de variables fichero H / Datos del hogar


### Diccionario de variables seleccionadas y códigos asociados:

| Variable    | Descripción  |  Categoría   | Código  |
| ----------- | -------------| -------------| --------|
| **HB010**    | **Año** | - |-|
| **HB030**    | **Identificación del hogar** | - | - |
| **HB040**    | **Posibilidad de irse de vacaciones anualmente** |Sí | 1 |
| | |No | 2 |
| **HS050**    | **Posibilidad de comer alimentos cárnicos dos veces por semana** |Sí | 1 |
| | |No | 2 |
| **HS060**    | **Fondo de reserva económico** |Sí | 1 |
| | |No | 2 |
| **HS070**    | **Disponibilidad de teléfono en el hogar** |Sí | 1 |
| | |No | 2 |
| **HS080**    | **Disponibilidad de televisión en el hogar** |Sí | 1 |
| | |No | 2 |
| **HS090**    | **Disponibilidad de ordenador en el hogar** |Sí | 1 |
| | |No | 2 |
| **HS100**    | **Disponibilidad de lavadora en el hogar** |Sí | 1 |
| | |No | 2 |
| **HS110**    | **Disponibilidad de coche en el hogar** |Sí | 1 |
| | |No | 2 |
| **HS120**    | **Capacidad para llegar a fin de mes** |Sí | 1 |
| | |No | 2 |
| **HS140**    | **Impacto de los gastos del hogar** |Sí | 1 |
| | |No | 2 |
| **HH050**    | **Capacidad de poner / calentar la casa en invierno** |Sí | 1 |
| | |No | 2 |
| **HX040**    | **Número de miembros del hogar** | - |-|
| **HX240**    | **Número de unidades de consumo** | - |-|
| **vhRentaa**    | **Renta** | - |-|
| **vhRentaAIa**    | **Renta** | - |-|
| **vhPobreza**    | **Hogar bajo el umbral de la pobreza** | - |-|
| **vhMATDEP**    | **Hogar en carencia material severa** | - |-|


In [56]:
# Selección de variables
dfH_varlist = ['HB010','HB030','HS040','HS050','HS060','HS070','HS080','HS090','HS100','HS110',
               'HS120', 'HS140','HH050','HX040','HX240','vhRentaa','vhRentaAIa','vhPobreza','vhMATDEP']

# Filtrado de columnas 
df_H1  = df_H[dfH_varlist]

# Cambio de nombre de las variables
df_H1.rename(columns = {'HB010':'Year','HB030': 'HHId', 'HS040':'HHHolidays','HS050':'HHFood', 
                             'HS060':'HHReserves','HS070':'HHPhone', 'HS080':'HHTV','HS090':'HHComputer', 
                             'HS100':'HHWashMachine', 'HS110': 'HHCar','HS120':'AREMonth', 'HS140':'HousingCost',
                             'HH050':'Heath', 'HX040':'HHnMembers','HX060':'HHType', 'HX240' : 'HHConsUnits'}, inplace = True)

# Creación de un ID año + ID del hogar para evitar duplicaciones entre los ids de distintos años
df_H1['Year_HHid'] = df_H1['Year'].astype(str) + '_' + df_H1['HHId'].astype(str)

# Función para convertir a float las variable de renta y y otras que deberían ser numéricas
def to_numeric(x):
    if type(x) is str:
        x = x.lstrip()
        if not x:
            return np.NaN
        else:
            return float(x)
    else: 
        return x

# Aplicación de la función to_numeric a renta y dificultad para llegar a fin de mes
df_H1['vhRentaa'] = df_H1['vhRentaa'].apply(to_numeric)
df_H1['vhRentaAIa'] = df_H1['vhRentaAIa'].apply(to_numeric)
df_H1['AREMonth'] = df_H1['AREMonth'].apply(to_numeric)

df_H1['HousingCost'] = df_H1['HousingCost'].apply(lambda x: 'HighImpactHH' if x == '1' \
                                                            else 'MediumImpactHH' if x == '2' \
                                                            else 'LowImpactHH' if x == '3' else 'Unknown / Not Declared')

# HH Deprivation
def HHDepriv(x):
    if x == '1':
        return 'Yes'
    elif x == '2':
        return 'No '
    else:
        return 'Unknown / Not Declared'

df_H1['HHFood'] = df_H1['HHFood'].apply(HHDepriv)
df_H1['HHHolidays'] = df_H1['HHHolidays'].apply(HHDepriv)
df_H1['HHReserves'] = df_H1['HHReserves'].apply(HHDepriv)
df_H1['HHPhone'] = df_H1['HHPhone'].apply(HHDepriv)
df_H1['HHTV'] = df_H1['HHTV'].apply(HHDepriv)
df_H1['HHComputer'] = df_H1['HHComputer'].apply(HHDepriv)
df_H1['HHWashMachine'] = df_H1['HHWashMachine'].apply(HHDepriv)
df_H1['HHCar'] = df_H1['HHCar'].apply(HHDepriv)
df_H1.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  from ipykernel import kernelapp as app
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/use

Unnamed: 0,Year,HHId,HHHolidays,HHFood,HHReserves,HHPhone,HHTV,HHComputer,HHWashMachine,HHCar,AREMonth,HousingCost,Heath,HHnMembers,HHConsUnits,vhRentaa,vhRentaAIa,vhPobreza,vhMATDEP,Year_HHid
0,2004,1,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,4.0,MediumImpactHH,1,3,1.8,40821.0,44829.02,0,0,2004_1
1,2004,2,No,Yes,Yes,Yes,Yes,Unknown / Not Declared,Yes,Unknown / Not Declared,2.0,HighImpactHH,1,1,1.0,5068.0,7665.9,1,0,2004_2
2,2004,3,Yes,Yes,Yes,Yes,Yes,Unknown / Not Declared,Yes,Yes,4.0,MediumImpactHH,1,2,1.3,23040.0,25637.9,0,0,2004_3
3,2004,4,Yes,Yes,Yes,Yes,Yes,Unknown / Not Declared,Yes,Yes,4.0,MediumImpactHH,1,2,1.5,20020.0,23545.62,0,0,2004_4
4,2004,5,Yes,Yes,Yes,Unknown / Not Declared,Yes,Unknown / Not Declared,Yes,Unknown / Not Declared,5.0,MediumImpactHH,1,1,1.0,7510.0,10938.46,0,0,2004_5


In [55]:
df_H1['HHHolidays'].unique()

array(['1', '2', ' ', 2, 1], dtype=object)

In [53]:
# Defininción de funciones para crear e function to replace empty string by nan values
df_H1.dtypes

Year               int64
HHId               int64
HHHolidays        object
HHFood            object
HHReserves        object
HHPhone           object
HHTV              object
HHComputer        object
HHWashMachine     object
HHCar             object
AREMonth         float64
HousingCost       object
Heath             object
HHnMembers         int64
HHConsUnits      float64
vhRentaa         float64
vhRentaAIa       float64
vhPobreza         object
vhMATDEP           int64
Year_HHid         object
dtype: object

In [None]:
# HH Deprivation
def HHDepriv(x):
    if x == '1':
        return 'Yes'
    elif x == '2':
        return 'No '
    else:
        return 'Unknown / Not Declared'

In [None]:
dfSeriesPH['HHFood'] = dfSeriesPH['HHFood'].apply(HHDepriv)
dfSeriesPH['HHHolidays'] = dfSeriesPH['HHHolidays'].apply(HHDepriv)
dfSeriesPH['HHReserves'] = dfSeriesPH['HHReserves'].apply(HHDepriv)
dfSeriesPH['HHPhone'] = dfSeriesPH['HHPhone'].apply(HHDepriv)
dfSeriesPH['HHTV'] = dfSeriesPH['HHTV'].apply(HHDepriv)
dfSeriesPH['HHComputer'] = dfSeriesPH['HHComputer'].apply(HHDepriv)
dfSeriesPH['HHWashMachine'] = dfSeriesPH['HHWashMachine'].apply(HHDepriv)
dfSeriesPH['HHCar'] = dfSeriesPH['HHCar'].apply(HHDepriv)