<center> <h1>Herramientas Computacionales <br></br>para la Investigación Interdisciplinaria Reproducible</h1> </center>

<br></br>

* Profesor:  <a href="http://www.pucp.edu.pe/profesor/jose-manuel-magallanes/" target="_blank">Dr. José Manuel Magallanes, PhD</a> ([jmagallanes@pucp.edu.pe](mailto:jmagallanes@pucp.edu.pe))<br>Profesor del **Departamento de Ciencias Sociales, Pontificia Universidad Católica del Peru**.<br>
Senior Data Scientist del **eScience Institute** and Visiting Professor at **Evans School of Public Policy and Governance, University of Washington**.<br>
Fellow Catalyst, **Berkeley Initiative for Transparency in Social Sciences, UC Berkeley**.

## Sesión 3: Pre Procesamiento de Datos


## Parte A: Data Cleaning en Python

El pre procesamiento de datos es la parte más tediosa del proceso de investigación.

Esta primera parte delata diversos problemas que se tienen con los datos reales que están en la web, como la que vemos a continuación:

In [210]:
import IPython
wikiLink="https://en.wikipedia.org/wiki/List_of_freedom_indices" 
iframe = '<iframe src=' + wikiLink + ' width=700 height=350></iframe>'
IPython.display.HTML(iframe)

In [211]:
# aqui instala: 'lxml' y 'beautifulsoup4'
# es posible que necesites salir y volver a cargar notebook

In [212]:
# Traigamoslo con Pandas

import pandas as pd

wikiTables=pd.read_html(wikiLink,header=0,flavor='bs4',attrs={'class': 'wikitable sortable',})

In [213]:
# cuantas tenemos?
len(wikiTables)

1

Hasta aquí todo parece bien. Como solo hay uno, lo traigo y comienzo a verificar 'suciedades'.

In [214]:
DF=wikiTables[0]

#primera mirada
DF

Unnamed: 0,Country,Freedom in the World 2018[10],2018 Index of Economic Freedom[11],2018 Press Freedom Index[3],2017 Democracy Index[13]
0,Abkhazia,partly free,,,
1,Afghanistan,not free,mostly unfree,difficult situation,authoritarian regime
2,Albania,partly free,moderately free,noticeable problems,hybrid regime
3,Algeria,not free,repressed,difficult situation,authoritarian regime
4,Andorra,free,,satisfactory situation,
5,Angola,not free,repressed,difficult situation,authoritarian regime
6,Antigua and Barbuda,free,,satisfactory situation,
7,Argentina,free,mostly unfree,noticeable problems,flawed democracy
8,Armenia,partly free,moderately free,noticeable problems,hybrid regime
9,Australia,free,free,satisfactory situation,full democracy


La limpieza requiere estrategia. Lo primero que salta a la vista, son los _footnotes_ que están en los títulos:

In [215]:
DF.columns

Index(['Country', 'Freedom in the World 2018[10]',
       '2018 Index of Economic Freedom[11]', '2018 Press Freedom Index[3]',
       '2017 Democracy Index[13]'],
      dtype='object')

In [216]:
# aqui ves que pasa cuando divido cada celda usando el caracter '['
[element.split('[') for element in DF.columns]

[['Country'],
 ['Freedom in the World 2018', '10]'],
 ['2018 Index of Economic Freedom', '11]'],
 ['2018 Press Freedom Index', '3]'],
 ['2017 Democracy Index', '13]']]

In [217]:
# Te das cuenta que te puedes quedar con el primer elemento cada vez que partes:
[element.split('[')[0] for element in DF.columns]

['Country',
 'Freedom in the World 2018',
 '2018 Index of Economic Freedom',
 '2018 Press Freedom Index',
 '2017 Democracy Index']

También hay que evitar espacios en blanco:

In [218]:
outSymbol=' ' 
inSymbol=''
[element.split('[')[0].replace(outSymbol,inSymbol) for element in DF.columns]

['Country',
 'FreedomintheWorld2018',
 '2018IndexofEconomicFreedom',
 '2018PressFreedomIndex',
 '2017DemocracyIndex']

Los números también molestan, pero están en diferentes sitios. Mejor intentemos expresiones regulares:

In [219]:
import re  # debe estar instalado.

# espacios: \\s+
# one or more number \\d+
# bracket que abre \\[
# bracket que cierra \\]

pattern='\\s+|\\d+|\\[|\\]'
nothing=''

#substituyendo 'pattern' por 'nothing':
[re.sub(pattern,nothing,element) for element in DF.columns]

['Country',
 'FreedomintheWorld',
 'IndexofEconomicFreedom',
 'PressFreedomIndex',
 'DemocracyIndex']

Ya tengo nuevos titulos de columna (headers)!!

In [220]:
newHeaders=[re.sub(pattern,nothing,element) for element in DF.columns]

In [221]:
# veamos los cambios:
{old:new for old,new in zip(DF.columns,newHeaders)}

{'Country': 'Country',
 'Freedom in the World 2018[10]': 'FreedomintheWorld',
 '2018 Index of Economic Freedom[11]': 'IndexofEconomicFreedom',
 '2018 Press Freedom Index[3]': 'PressFreedomIndex',
 '2017 Democracy Index[13]': 'DemocracyIndex'}

Uso un dict por si hubieses querido cambiar solo algunas columnas:

In [222]:
changes={old:new for old,new in zip(DF.columns,newHeaders)}
DF.rename(columns=changes,inplace=True)

In [223]:
# ahora tenemos:
DF

Unnamed: 0,Country,FreedomintheWorld,IndexofEconomicFreedom,PressFreedomIndex,DemocracyIndex
0,Abkhazia,partly free,,,
1,Afghanistan,not free,mostly unfree,difficult situation,authoritarian regime
2,Albania,partly free,moderately free,noticeable problems,hybrid regime
3,Algeria,not free,repressed,difficult situation,authoritarian regime
4,Andorra,free,,satisfactory situation,
5,Angola,not free,repressed,difficult situation,authoritarian regime
6,Antigua and Barbuda,free,,satisfactory situation,
7,Argentina,free,mostly unfree,noticeable problems,flawed democracy
8,Armenia,partly free,moderately free,noticeable problems,hybrid regime
9,Australia,free,free,satisfactory situation,full democracy


Las columnas son categorías, veamos si todas se han escrito de la manera correcta:

In [224]:
DF.FreedomintheWorld.value_counts()

free           89
partly free    62
not free       55
Name: FreedomintheWorld, dtype: int64

In [225]:
DF.IndexofEconomicFreedom.value_counts()

mostly unfree      63
moderately free    62
mostly free        28
repressed          21
free                6
Name: IndexofEconomicFreedom, dtype: int64

In [226]:
DF.PressFreedomIndex.value_counts()

noticeable problems       63
difficult situation       50
satisfactory situation    37
very serious situation    22
good situation            17
Name: PressFreedomIndex, dtype: int64

In [227]:
DF.DemocracyIndex.value_counts()

flawed democracy        57
authoritarian regime    52
hybrid regime           39
full democracy          19
Name: DemocracyIndex, dtype: int64

Pues hasta aquí está conforme. Veamos otro caso.

In [228]:
idhCol="https://www.datosmacro.com/idh/colombia" 
iframe = '<iframe src=' + idhCol + ' width=700 height=350></iframe>'
IPython.display.HTML(iframe)

In [229]:
import pandas as pd

webTable=pd.read_html(idhCol,header=0,flavor='bs4',attrs={'id': 'tb0',})

In [230]:
len(webTable)

1

In [231]:
idhColT=webTable[0]
idhColT

Unnamed: 0,Fecha,IDH,Ranking IDH
0,2015,727,95º
1,2014,724,97º
2,2013,720,98º
3,2012,712,98º
4,2011,707,98º
5,2010,700,97º
6,2009,695,98º
7,2008,691,89º
8,2007,683,99º
9,2006,675,99º


El problema es que se borraron los decimales. Como se ve en la web, estos tenían una coma en vez de un punto. A esta altura podemos eliminarlo, o buscar si durante el proceso de colección se puede mejorar esto; dale una mirada a la función:

In [None]:
?pd.read_html

Siguiendo las instrucciones escibimos:

In [232]:
idhColT=pd.read_html(idhCol,header=0,flavor='bs4',attrs={'id': 'tb0',},
                      thousands=None, decimal=',')[0]
idhColT

Unnamed: 0,Fecha,IDH,Ranking IDH
0,2015,0.727,95º
1,2014,0.724,97º
2,2013,0.72,98º
3,2012,0.712,98º
4,2011,0.707,98º
5,2010,0.7,97º
6,2009,0.695,98º
7,2008,0.691,89º
8,2007,0.683,99º
9,2006,0.675,99º


El ranking no es un numero, pues el símbolo ordinal lo evita, eliminemoslo:

In [233]:
idhColT.loc[:,'Ranking IDH']=idhColT.loc[:,'Ranking IDH'].str.replace('º',"")
idhColT

Unnamed: 0,Fecha,IDH,Ranking IDH
0,2015,0.727,95
1,2014,0.724,97
2,2013,0.72,98
3,2012,0.712,98
4,2011,0.707,98
5,2010,0.7,97
6,2009,0.695,98
7,2008,0.691,89
8,2007,0.683,99
9,2006,0.675,99


Traigamos una nueva tabla:

In [234]:
idhCol2='https://es.wikipedia.org/wiki/Anexo:Departamentos_de_Colombia_por_IDH'
iframe = '<iframe src=' + idhCol2 + ' width=700 height=350></iframe>'
IPython.display.HTML(iframe)

Aparentemente sabemos qué hacer:

In [235]:
idhColT2=pd.read_html(idhCol2,header=0,flavor='bs4',attrs={'class': 'sortable',},
                       thousands=' ', decimal=',')[0]
idhColT2

Unnamed: 0,Entidad,IDH,Población[2]​,País Comparable[3]​ [nota 1]​
0,Bogotá,0.904,7 674 366,República Checa
1,Santander,0.879,2 340 988,Hungría
2,Casanare,0.867,344 027,Argentina
3,Valle del Cauca,0.861,4 520 166,Bahamas
4,Antioquia,0.849,6 299 886,Brasil
5,Boyacá,0.842,1405122,Bulgaria
6,Risaralda,0.839,941 283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2 598 245,Rumania
8,Atlántico,0.835,2 403 027,Montenegro
9,San Andrés,0.834,75 167,Montenegro


Aparentemente, sólo Boyacá tenía espacios en blanco.

En este caso, el primer problema es que los miles marcados con _espacios_ no desaparecieron. Eso se debe a que en el html están señalados como **& nbsp;**. De ahi que:

In [236]:
idhColT2=pd.read_html(idhCol2,header=0,flavor='bs4',attrs={'class': 'sortable',},
                       thousands='\xa0', decimal=',')[0]
idhColT2

Unnamed: 0,Entidad,IDH,Población[2]​,País Comparable[3]​ [nota 1]​
0,Bogotá,0.904,7674366,República Checa
1,Santander,0.879,2340988,Hungría
2,Casanare,0.867,344027,Argentina
3,Valle del Cauca,0.861,4520166,Bahamas
4,Antioquia,0.849,6299886,Brasil
5,Boyacá,0.842,1 405 122,Bulgaria
6,Risaralda,0.839,941283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2598245,Rumania
8,Atlántico,0.835,2403027,Montenegro
9,San Andrés,0.834,75167,Montenegro


Pues, Boyacá es ahora el problema. Eso lo resolveremos fuera de la llamada:

In [237]:
idhColT2.iloc[:,2]=idhColT2.iloc[:,2].str.replace("\s","")
idhColT2

Unnamed: 0,Entidad,IDH,Población[2]​,País Comparable[3]​ [nota 1]​
0,Bogotá,0.904,7674366,República Checa
1,Santander,0.879,2340988,Hungría
2,Casanare,0.867,344027,Argentina
3,Valle del Cauca,0.861,4520166,Bahamas
4,Antioquia,0.849,6299886,Brasil
5,Boyacá,0.842,1405122,Bulgaria
6,Risaralda,0.839,941283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2598245,Rumania
8,Atlántico,0.835,2403027,Montenegro
9,San Andrés,0.834,75167,Montenegro


Los nombres de columnas necesitan tratamiento, podríamos usar lo que ya vimos:

In [238]:
[re.sub(pattern,nothing,element) for element in idhColT2.columns]

['Entidad', 'IDH', 'Población\u200b', 'PaísComparable\u200bnota\u200b']

O mejorar el patrón:

In [239]:
pattern2='\\s+|\\d+|\\[|\\]|\\u200b'
[re.sub(pattern2,nothing,element) for element in idhColT2.columns]

['Entidad', 'IDH', 'Población', 'PaísComparablenota']

Pero esta vez, hay _footnotes_ con texto, cuando antes sólo tenía números, de ahi que jueguemos simple:

In [240]:
[element.split('[')[0].replace(" ","") for element in idhColT2.columns]

['Entidad', 'IDH', 'Población', 'PaísComparable']

Cambiemos con esto los _headers_:

In [241]:
idhColT2.columns=[element.split('[')[0].replace(" ","") for element in idhColT2.columns]
idhColT2

Unnamed: 0,Entidad,IDH,Población,PaísComparable
0,Bogotá,0.904,7674366,República Checa
1,Santander,0.879,2340988,Hungría
2,Casanare,0.867,344027,Argentina
3,Valle del Cauca,0.861,4520166,Bahamas
4,Antioquia,0.849,6299886,Brasil
5,Boyacá,0.842,1405122,Bulgaria
6,Risaralda,0.839,941283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2598245,Rumania
8,Atlántico,0.835,2403027,Montenegro
9,San Andrés,0.834,75167,Montenegro


Sucede algo similar con los contenidos de las columnas (vease 'Región Amazónica'). De ahí que:

In [242]:
idhColT2.Entidad=[element.split('[')[0] for element in idhColT2.Entidad]
idhColT2

Unnamed: 0,Entidad,IDH,Población,PaísComparable
0,Bogotá,0.904,7674366,República Checa
1,Santander,0.879,2340988,Hungría
2,Casanare,0.867,344027,Argentina
3,Valle del Cauca,0.861,4520166,Bahamas
4,Antioquia,0.849,6299886,Brasil
5,Boyacá,0.842,1405122,Bulgaria
6,Risaralda,0.839,941283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2598245,Rumania
8,Atlántico,0.835,2403027,Montenegro
9,San Andrés,0.834,75167,Montenegro


Ten en cuenta que la nota que acabamos de eliminar decía: _'Se refiere los departamentos de Amazonas, Guainia, Guaviare, Vaupés y Vichada.'_ Una alternativa, que haremos aquí es crear esas filas:

In [243]:
# nombres nuevos
newRows=['Amazonas', 'Guainia', 'Guaviare', 'Vaupés', 'Vichada']

In [244]:
#Valor de Region Amazonica:
idhColT2[idhColT2.Entidad=='Región Amazónica']

Unnamed: 0,Entidad,IDH,Población,PaísComparable
24,Región Amazónica,0.768,--,Tonga


In [245]:
#Valor de Region Amazonica como lista:
idhColT2[idhColT2.Entidad=='Región Amazónica'].values.tolist()[0]

['Región Amazónica', 0.768, '--', 'Tonga']

In [246]:
#Valor de Region Amazonica como lista, sin elemento 1:
idhColT2[idhColT2.Entidad=='Región Amazónica'].values.tolist()[0][1:]

[0.768, '--', 'Tonga']

In [247]:
info=idhColT2[idhColT2.Entidad=='Región Amazónica'].values.tolist()[0][1:]

In [248]:
# creando filas nuevas como listas:

[[row] + info for row in newRows]

[['Amazonas', 0.768, '--', 'Tonga'],
 ['Guainia', 0.768, '--', 'Tonga'],
 ['Guaviare', 0.768, '--', 'Tonga'],
 ['Vaupés', 0.768, '--', 'Tonga'],
 ['Vichada', 0.768, '--', 'Tonga']]

In [249]:
newData = pd.DataFrame([[row] + info for row in newRows], columns=idhColT2.columns)
idhColT2.append(newData,ignore_index=True)

Unnamed: 0,Entidad,IDH,Población,PaísComparable
0,Bogotá,0.904,7674366,República Checa
1,Santander,0.879,2340988,Hungría
2,Casanare,0.867,344027,Argentina
3,Valle del Cauca,0.861,4520166,Bahamas
4,Antioquia,0.849,6299886,Brasil
5,Boyacá,0.842,1405122,Bulgaria
6,Risaralda,0.839,941283,San Cristóbal y Nieves
7,Cundinamarca,0.837,2598245,Rumania
8,Atlántico,0.835,2403027,Montenegro
9,San Andrés,0.834,75167,Montenegro


In [250]:
# Ya que estamos satisfechos:
idhColT2=idhColT2.append(newData,ignore_index=True)

En el DF sobran ya tres filas, la que hemos desagregado, 'Bogota' y 'Colombia':

In [251]:
idhColT2[idhColT2.Entidad.isin (['Región Amazónica','Colombia','Bogotá'])]

Unnamed: 0,Entidad,IDH,Población,PaísComparable
0,Bogotá,0.904,7674366,República Checa
24,Región Amazónica,0.768,--,Tonga
29,Colombia,0.84,47121089,--


In [254]:
#eliminando
idhColT2.drop([0,24,29],inplace=True)
idhColT2.reset_index(drop=True,inplace=True)

Es importante darnos cuenta que hay símbolos _no apropiados_ para representar valores faltantes (i.e.'--'). Eso es preocupante, en particular para los numéricos. Juntemos ambas columnas para buscar inapropiados:

In [255]:
numericos=list(idhColT2.IDH)
numericos.extend(list(idhColT2.Población))

In [256]:
numericos

[0.879,
 0.867,
 0.861,
 0.8490000000000001,
 0.8420000000000001,
 0.8390000000000001,
 0.8370000000000001,
 0.835,
 0.8340000000000001,
 0.8320000000000001,
 0.828,
 0.823,
 0.8220000000000001,
 0.81,
 0.807,
 0.804,
 0.804,
 0.7979999999999999,
 0.7959999999999999,
 0.785,
 0.782,
 0.775,
 0.773,
 0.759,
 0.752,
 0.731,
 0.691,
 0.768,
 0.768,
 0.768,
 0.768,
 0.768,
 '2340988',
 '344027',
 '4520166',
 '6299886',
 '1405122',
 '941283',
 '2598245',
 '2403027',
 '75167',
 '558934',
 '984128',
 '2049083',
 '924843',
 '1004064',
 '1126314',
 '256527',
 '1400203',
 '1658090',
 '1332335',
 '1235425',
 '1354744',
 '834927',
 '1701840',
 '337054',
 '465477',
 '490327',
 '902386',
 '--',
 '--',
 '--',
 '--',
 '--']

Vemos que varios numeros está como texto, lo que por ahora no es problema. La idea es encontrar aquello que están entre los números y no lo son:

In [257]:
for n in numericos:
    float(n)

ValueError: could not convert string to float: '--'

Hemos encontrado un simbolo que no se puede convertir a _float_. POdría haber otros, pero ya sabemos qué error arroja.

De ahí que:

In [258]:
inapropiados=[]
for n in numericos:
    try:
        float(n)
    except ValueError:
        if not n in inapropiados: # evitar duplicados
            inapropiados.append(n)


In [259]:
# aqui están
inapropiados

['--']

Sólo había un símbolo (ya lo sabíamos), pero el código sirve para más de uno.

Lo que nos queda es reemplazar ese valor por 'None':

In [260]:
idhColT2.replace(inapropiados,value=[None]*len(inapropiados)) # se necesita la misma cantidad de 'None'

Unnamed: 0,Entidad,IDH,Población,PaísComparable
0,Santander,0.879,2340988.0,Hungría
1,Casanare,0.867,344027.0,Argentina
2,Valle del Cauca,0.861,4520166.0,Bahamas
3,Antioquia,0.849,6299886.0,Brasil
4,Boyacá,0.842,1405122.0,Bulgaria
5,Risaralda,0.839,941283.0,San Cristóbal y Nieves
6,Cundinamarca,0.837,2598245.0,Rumania
7,Atlántico,0.835,2403027.0,Montenegro
8,San Andrés,0.834,75167.0,Montenegro
9,Quindío,0.832,558934.0,Malasia


In [261]:
idhColT2.replace(inapropiados,value=[None]*len(inapropiados),inplace=True)