<center> <h1>Herramientas Informáticas<br></br>para la Investigación Interdisciplinaria</h1> </center>

<br></br>

* Profesor:  <a href="http://www.pucp.edu.pe/profesor/jose-manuel-magallanes/" target="_blank">Dr. José Manuel Magallanes, PhD</a> ([jmagallanes@pucp.edu.pe](mailto:jmagallanes@pucp.edu.pe))<br>
    * Profesor del **Departamento de Ciencias Sociales, Pontificia Universidad Católica del Peru**.
    * Senior Data Scientist del **eScience Institute** and Visiting Professor at **Evans School of Public Policy and Governance, University of Washington**.
    * Fellow Catalyst, **Berkeley Initiative for Transparency in Social Sciences, UC Berkeley**.
    * Research Associate, **Center for Social Complexity, George Mason University**.


<a id='beginning'></a>

## Sesión 3: Pre Procesamiento de Datos

Vamos a realizar dos procesos en esta etapa de pre-procesamiento:

* [Limpieza](#limpieza)
* [Formato](#formato)

Cuando hablamos de limpieza nos referiremos a verificar que la data haya sido leída adecuadamente, y que no estén presentes caracteres extraños que "desorienten" a los cálculos posteriores. Cuando hablamos de formato, nos referimos a que los datos limpios representen adecuadamente los valores o estructuras que el tratamiento metodológico posterior requiere.

Como ves, usamos Jupyter, pues nos permite ver *lo que está pasando* con los datos, de mejor manera de lo que ofrece RStudio.

<a id='limpieza'></a>
## Parte A: Limpieza de Data

El pre procesamiento de datos es la parte más tediosa del proceso de investigación.

Esta primera parte delata diversos problemas que se tienen con los datos reales que están en la web, como la que vemos a continuación:

In [None]:
import IPython
linkIndexes="https://en.wikipedia.org/wiki/List_of_freedom_indices" 
weblinkIndexes = '<iframe src=' + linkIndexes + ' width=700 height=350></iframe>'
IPython.display.HTML(weblinkIndexes)

Recuerda inspeccionar la tabla para encontrar algun atributo que sirva para su descarga. De ahí, continúa.

Para trabajar con tablas, necesitaremos la ayuda de **Pandas**. Verifica qué versión de Pandas tienes:

In [None]:
# si obtienes error es por que no lo has instalado
import pandas as pd
pd.__version__

Si la versión es 23, continúa, sino, actualizalo.

In [None]:
# antes instala'beautifulsoup4'
# es posible que necesites salir y volver a cargar notebook

wikiTables=pd.read_html(linkIndexes,
                        header=0,#titulos están en primera fila: Python cuenta desde '0'
                        flavor='bs4', #socio para rescatar texto de html
                        attrs={'class': 'wikitable sortable'})#atributo buscado

La función *read_html* ha traido las **wikitablas** que hay en esa página de Wikipedia. Veamos cuantas tablas hay:

In [None]:
# cuantas tablas tenemos?
len(wikiTables)

Es importante saber qué estructura se ha utilizado para almacenar las tablas traidas, aunque sólo haya sido una:

In [None]:
# las tenemos en:
type(wikiTables)

Entonces, nuestro tabla (o *dataframe*)  será el primer elemento de esa lista:

In [None]:
type(wikiTables[0])

De ahi que, para tener la tabla:

In [None]:
DF=wikiTables[0] 

#primera mirada
DF.head()

La limpieza requiere estrategia. Lo primero que salta a la vista, son los _footnotes_ que están en los títulos:

In [None]:
DF.columns

Podrias intentar poner nombres nuevos y alterar los anteriores, pero pensemos en una estrategia donde tendrías muchas columnas. En ese caso, es mejor eliminar los errores sin importar cuantas columnas hay:

In [None]:
import re  # debe estar instalado.

# encuentra uno o más espacios: \\s+
# encuentra uno o mas numeros \\d+
# encuentra un bracket que abre \\[
# encuentra un bracket que cierra \\]

pattern='\\s+|\\d+|\\[|\\]' # cuando alguno de estos aparezca
replacer=''                  # reemplazalo por esto

Ya tengo nuevos titulos de columna (headers). Ahora creo nuevos nombres:

In [None]:
newHeaders=[re.sub(pattern,replacer,element) for element in DF.columns]

Preparemos los cambios. Hay que preparar los *matches* entre lo antiguo y lo nuevo. Usemos el comando *zip*:

In [None]:
list(zip(DF.columns,newHeaders))

In [None]:
# tenemos que crear un 'diccionario' usando la anterior:

{old:new for old,new in zip(DF.columns,newHeaders)}

El *dict* tiene lo que necesito. Eso lo uso en la función *rename* de Pandas:

In [None]:
changeMatch={old:new for old,new in zip(DF.columns,newHeaders)}
DF.rename(columns=changeMatch,inplace=True)

In [None]:
# ahora tenemos:
DF.head()

Los contenidos de las celdas son texto, veamos si todas se han escrito de la manera correcta:

In [None]:
DF.FreedomintheWorld.value_counts()

In [None]:
DF.IndexofEconomicFreedom.value_counts()

In [None]:
DF.PressFreedomIndex.value_counts()

In [None]:
DF.DemocracyIndex.value_counts()

No hay problema con los contenidos.

[Ir a inicio](#beginning)
____

<a id='formato'></a>
## Parte B: Formateando Valores en Python

### Las escalas de medición

Para saber si están en la escala correcta, debemos usar _dtypes_:

In [None]:
DF.dtypes

Los cuatro indices son categorías, no texto (_object_). Hagamos la conversión:

In [None]:
headers=DF.columns # guardando los nombres de todas las columnas

# cambiar desde la segunda columna en adelante '[1:]':
DF[headers[1:]]=DF[headers[1:]].astype('category')

In [None]:
# obtenemos:
DF.dtypes

Este cambio es imperceptible a la vista:

In [None]:
DF.head()

Mientras no sean variables categóricas no podemos utilizar las funciones que tiene Pandas para esas variables. Por ejemplo, pidamos los modalidades:

In [None]:
DF.FreedomintheWorld.cat.categories

In [None]:
DF.IndexofEconomicFreedom.cat.categories

In [None]:
DF.PressFreedomIndex.cat.categories

In [None]:
DF.DemocracyIndex.cat.categories

Vemos que tenemos hasta 5 niveles en 2 variables, y 3 y 4 niveles en otras. De ahi que lo prudente es encontrar la distribución común de valores que refleja la ordinalidad, y los máximos y mínimos. Veamos los pasos iniciales:

In [None]:
#guardando en una lista las modalidades de la variable Freedom in the world:
oldWorld=list(DF.FreedomintheWorld.cat.categories)
# que es:
oldWorld

In [None]:
# usando palabras que representen la ordinalidad, 
# pero que puedan ser usadas en las otras variables
# DEBEN crearse en el mismo orden que 'oldWorld'
newWorld=['very good','very bad','middle']

In [None]:
# cambiar match entre lo antiguo por lo nuevo:
recodeWorld={old:new for old,new in zip (oldWorld,newWorld)}
recodeWorld

Con el dict *recodeWorld* puedo renombrar luego las categorías. 

Preparemos ahora los dicts para las otras variables:

In [None]:
oldEco=list(DF.IndexofEconomicFreedom.cat.categories)
newEco=['very good','middle','good','bad','very bad']
recodeEco={old:new for old,new in zip (oldEco,newEco)}

oldPress=list(DF.PressFreedomIndex.cat.categories)
newPress=['bad','very good','middle','good','very bad']
recodePress={old:new for old,new in zip (oldPress,newPress)}

oldDemo=list(DF.DemocracyIndex.cat.categories)
newDemo=['very bad','good','very good','bad']
recodeDemo={old:new for old,new in zip (oldDemo,newDemo)}

Ahora usamos los dicts creados para recodificar:

In [None]:
DF.FreedomintheWorld.cat.rename_categories(recodeWorld,inplace=True)

DF.IndexofEconomicFreedom.cat.rename_categories(recodeEco,inplace=True)

DF.PressFreedomIndex.cat.rename_categories(recodePress,inplace=True)

DF.DemocracyIndex.cat.rename_categories(recodeDemo,inplace=True)

Veamos como quedó:

In [None]:
DF.head()

Los datos aun no son ordinales, pero aqui serán:

In [None]:
# creemos la secuencia:
from pandas.api.types import CategoricalDtype

sequence=['very good','good','middle','bad','very bad']
ordinal = CategoricalDtype(categories=sequence,
                           ordered=True)

#aquí está la secuencia pero con propiedades 
ordinal

In [None]:
# apliquemos la secuencia con sus propiedades a la data:

DF[headers[1:]]=DF[headers[1:]].astype(ordinal)

In [None]:
# asi va:
DF.head()

Notemos que las modalidades no usadas están presentes:

In [None]:
DF.FreedomintheWorld.value_counts(sort=False,dropna=False)

Verificaciones adicionales:

In [None]:
#las categorias:
DF.PressFreedomIndex.cat.categories

In [None]:
#tipo de escala?
DF.PressFreedomIndex.cat.ordered

[Ir a inicio](#beginning)
____
<a id='monotony'></a>

### Cambio de Monotonía:

Verifiquemos si está bien la asignación que hemos hecho:

In [None]:
DF.PressFreedomIndex.head()

In [None]:
DF.PressFreedomIndex.max()

Este es un caso donde quiza la intensidad creciente debe ser hacia el sentido positivo del concepto. Claro que pudimos hacerlo al inicio, pero aprovechemos para saber cómo se hace.

Para ello crearé una función:

In [None]:
# la función recibe una columna:
def changeMonotony(aColumn):

    # Invierto las categorias de la columna:
    newOrder= aColumn.cat.categories[::-1]  # [::-1]  reverses the list.
    
    # se retorna columa con modalidades reordenadas:
    return aColumn.cat.reorder_categories(newOrder,ordered=True)

Esta función la aplica de nuevo, columna por columna:

In [None]:
DF[headers[1:]]=DF[headers[1:]].apply(changeMonotony)

¿Funcionó?

In [None]:
DF.PressFreedomIndex.head()

In [None]:
DF.PressFreedomIndex.max()

Tenemos aun valores perdidos, por lo que podríamos convertirlos las categorías en números para realizar alguno calculos para una imputación simple:

In [None]:
oldlevels=['very bad','bad','middle','good','very good']
newlevels=[1,2,3,4,5]
recodeMatch={old:new for old,new in zip (oldlevels,newlevels)}

In [None]:
renamer=lambda column: column.cat.rename_categories(recodeMatch)
DF[headers[1:]]=DF[headers[1:]].apply(renamer)
DF.head(10)

La función para reemplazarlos es sencilla, pero hay que evitar facilismos. Veamos:

In [None]:
#recordar:
DF.dtypes

In [None]:
#tienen que ser numericos:
DF[headers[1:]]=DF[headers[1:]].astype(dtype='float',errors='ignore')

In [None]:
# ahora:
DF.dtypes

In [None]:
DF.head(10)

Veamos qué variables tienen menos valores perdidos:

In [None]:
# sumo los perdidos en cada una:
DF.isnull().sum() 

Como la *FreedomintheWorld* es quien tiene menos perdidos, debo calcular la mediana de cada variable, segun el nivel de *FreedomintheWorld*:

In [None]:
#mediana por grupos: 
DF.groupby(headers[1])[headers[2:]].median()

Lo que veo tiene sentido, entonces lo lógico sería que la mediana de cada uno de estos subgrupos reemplace a los perdidos de cada subgrupo. Osea:

In [None]:
# mas facil:
for col in headers[2:]:
    DF[col].fillna(DF.groupby(["FreedomintheWorld"])[col].transform("median"), inplace=True)

Obteniendo:

In [None]:
DF.head(10)

Si pensamos trabajar en R, recordemos que si grabamos un archivo en CSV, no podremos pasarle al R etiquetas. En todo caso, podríamos tener un grupo de columnas que funcionen como etiquetas. Creemos una copia:

In [None]:
DF2=DF.copy()

En esa copia ponemos las etiquetas, por lo que primero convertimos los numeros a categoría:

In [None]:
DF2[headers[1:]]=DF2[headers[1:]].astype('category') # podemos poder ordinal, pero se perdería la info

Aun no veremos mayor cambio, pero estos ya son ordinales:

In [None]:
DF2.head()

Aquí las recodificamos:

In [None]:
# mapa de recodificacion
newlevels2=['1 very bad','2 bad','3 middle','4 good','5 very good']
oldlevels2=[1,2,3,4,5]
recodeMatch2={old:new for old,new in zip (oldlevels2,newlevels2)}

In [None]:
# aplicando función de recodificacion
renamer=lambda column: column.cat.rename_categories(recodeMatch2)
DF2[headers[1:]]=DF2[headers[1:]].apply(renamer)
DF2.head(10)

Podríamos poner titulares más sencillo a esta data:

In [None]:
DF2.columns=["Country","WorldFreedom","EconomicFreedom","PressFreedom","Democracy"]

Ahora concatenamos lo creado al original:

In [None]:
frames=[DF,DF2.iloc[:,1:]]
DF=pd.concat(frames,axis=1)

Podríamos añadir una variable de tipo numérico a nuestros datos:

In [None]:
gdpLink="https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(PPP)_per_capita"
gdpTables=pd.read_html(gdpLink,header=0,
                        flavor='bs4',
                        attrs={'class': 'wikitable sortable'})
# cuantas tenemos:
len(gdpTables)

In [None]:
# selecciones la tercera:
gdpTables[2].head()

In [None]:
# quedemosnos con la segunda y tercera fila
DFgdp=gdpTables[2].iloc[:,1:3]

In [None]:
# confirmemos que los tipos son adecuados:
DFgdp.dtypes

In [None]:
# cambiemos esos nombres:
DFgdp.columns=["Country","gdp"]
DFgdp.head()

In [None]:
#comparemos tamaños:

DF.shape, DFgdp.shape

In [None]:
# consultemos que saldrá al hacer el merge:

DFgdp.merge(DF,on="Country").shape

In [None]:
DFtotal=DFgdp.merge(DF,on="Country")

In [None]:
# como quedó:

DFtotal.head()

In [None]:
# quedemonos con las filas con datos completos, ya no imputemos:

DFtotal.dropna(inplace=True)

**Guardando archivo**

A esta altura es bueno guardar el archivo, pues ya está listo:

In [None]:
#DFtotal.to_csv("indexes.csv",index=None)

____

* [Ir a inicio](#beginning)
* [Menú Principal](https://reproducibilidad.github.io/TallerChile/)

_____

**AUSPICIO**: 

El desarrollo de estos contenidos ha sido posible gracias al grant del Berkeley Initiative for Transparency in the Social Sciences (BITSS) at the Center for Effective Global Action (CEGA) at the University of California, Berkeley


<center>
<img src="https://github.com/MAGALLANESJoseManuel/BITSS_ToolsWorkshop/raw/master/LogoBitss.jpg" style="width: 300px;"/>
</center>

**RECONOCIMIENTO**

<!--
EL Dr. Magallanes agradece a la Pontificia Universidad Católica del Perú, por su apoyo en la elaboración de este trabajo.

<center>
<img src="https://github.com/MAGALLANESJoseManuel/BITSS_ToolsWorkshop/raw/master/LogoPUCP.jpg" style="width: 200px;"/>
</center>
-->

El autor reconoce el apoyo que el eScience Institute de la Universidad de Washington le ha brindado desde el 2015 para desarrollar su investigación en Ciencia de Datos.

<center>
<img src="https://github.com/MAGALLANESJoseManuel/BITSS_ToolsWorkshop/raw/master/LogoES.png" style="width: 300px;"/>
</center>

<br>
<br>