# Contendidos

1. [Introducción](#intro)  
2. [Elementos Básicos de Pandas](#elementos)  
  2.1 [Series](#series)  
  2.2 [DataFrame](#df)  
  2.3 [Funcionalidades esenciales](#fun_es)  
3. [Estadistica descriptiva básica](#estaDesc)  
4. [Limpieza y preparación de datos](#limPrep)
5. [Carga y guardado de datos](#carga)  
6. [Manejo de API's](#API)

# Introducción<a id="intro"></a>

El manejo adecuado de datos es (naturalmente) un aspecto fundamental en ciencia de datos. Como se ha visto, `NumPy` permite un manejo básico de datos a través de sus operaciones sobre arreglos. No obstante, las tareas referentes al manejo de datos requieren habitualmente de funcionalidades más especificas. 

En este contexto nace la librería `Pandas`. Esta se concibió como una extensión de `NumPy` basada en software libre y dirigida específicamente a la manipulación y análisis de datos en Python. 

`Pandas` provee estructuras y operaciones para el trabajo de tablas numéricas y series de tiempo, es estándar en aplicaciones de ciencia de datos (basadas en Python). Se usa en conjunto con librerías de computación numérica (como `Numpy` y `SciPy`), librerías de visualización (como `matplotlib` y `seaborn`), librerías de analítica (como `statsmodels` y `scikit-learn`), entre otras.

El manejo de datos con `Pandas` toma los elementos de `Numpy` en cuanto a computación basada en arreglos y los expande al manejo de datos heterogéneos.

# Elementos básicos de Pandas<a id="elementos"></a>

Como convención, `Pandas` se importa de la siguiente manera:

In [None]:
import pandas as pd

Las estructuras de datos más usadas en esta librería corresponden a *Series* y *DataFrame*

## Series<a id="series"></a>
Una serie es un objeto cuya estructura consiste en un arreglo unidimensional que contiene una sucesión de valores al cual se asocia un nuevo arreglo con las etiquetas de los datos, este último arreglo se denota como índice o `index`.


In [None]:
serie = pd.Series([1,9,7, -5, 3,10])
serie

La operación anterior imprime en pantalla los valores de la serie y a su izquierda su índice correspondiente. Es posible especificar el formato sobre la indexación, el valor por defecto es el anterior y consiste en valores enteros entre `0`  y `N-1`, donde `N` es la cantidad de valores en la serie.

Para especificar los índices en cada elemento de la serie, se puede acceder al atributo `index` de esta y modificarlo o especificar la configuración deseada al declarar la serie:

In [None]:
# Cambiar atributo "index" una vez definida la serie
serie.index = range(1,7)

print('serie, indice como rango: \n')
print(serie, '\n')

serie.index = ['a','b','c','d','e','f']
print('serie, indice como lista: \n')
print(serie, '\n')

# Definir indice en la declaración de la serie

serie_2 = pd.Series([9,7, -5, 3], index=['a1', 'a2', 'a3', 'a1000'])
print('serie_2 delcarado con indice como lista: \n')
print(serie_2, '\n')

Es posible seleccionar elementos de la serie usando su etiqueta, de manera similar a como se hace en `Numpy`:

In [None]:
# Se seleccionobja el valor de obj2, cuya etiqueta es 'a1000'
serie_2['a1000']

**Ejercicios**

* Cree una serie `obj` con los valores `a`, `c` y `e` de `serie`.
* Imprima en pantalla aquellos valores de `obj` que sean mayores que 3.
* Cree una serie `obj_3` que contenga todos los múltiplos de 3, menores que 100. 
* Imprima en pantalla los elementos de `obj_3` que sean múltiplos de 2.

Las series de `Pandas` soportan operaciones *elemento a elemento*, estas abarcan: filtrado booleano (ejercicio anterior), multiplicación escalar y en general, funciones matemáticas como la suma, logaritmo, exponencial, etc... 

Las operaciones sobre elementos de una serie son completamente compatibles con las funciones de `Numpy` y preservan los índices de los elementos operados:

In [None]:
print('\n Serie 2 duplicada \n')
print(serie_2*2)

import numpy as np

print('\n Serie 2 operada por "exp()" de Numpy: \n')
print(np.exp(serie_2))

Los índices permiten trabajar con series de manera similar a los diccionarios de `NumPy` por medio del operador `in`:

In [None]:
['a3' in serie_2, 'a4' in serie_2]

Se puede además crear una serie de `Pandas` a partir de un diccionario `NumPy`, donde el conjunto de índices corresponderá al conjunto de campos del diccionario:

In [None]:
dic = {'a1': 7, 'a2': 6.5 , 'a3': 5, 'a4':2.1, 'a1000':1 }
serie_a = pd.Series(dic)

print('\n serie_a: serie a partir de un diccionario np: \n')
print(serie_a)

idx_b = ['a1','a2','b']
serie_b = pd.Series(serie_a, index=idx_b)

print('\n serie_b: indice extra, subseleccion serie_a \n')
print(serie_b)

En `serie_b` se toman los valores `a1` y `a2` de `serie_a` y se agrega una nueva etiqueta `b`, ausente en `dic` y por tanto ausente `serie_a`. La declaración de `serie_b` toma por tanto los valores existentes y correspondientes a cada índice, asignado en valor `NaN` (not a number) a aquellos índices no existentes en el diccionario inicial (`serie_2`). Se aprecia además que la declaración `pd.Series` no diferencia entre un diccionario `NumPy` y una serie de `Pandas`.

El término `b` en `serie_b` es un dato ausente (missing data, NA), las funciones `isnull` and `notnull` manejan este tipo de entradas:

In [None]:
pd.isnull(serie_b)

In [None]:
pd.notnull(serie_b)

Estas funciones son métodos de los objetos `Series` y se puede por lo tanto acceder directamente:

In [None]:
print('Método isnull: \n')
print(serie_b.isnull())
print('\n')
print('Método notnull: \n')
print(serie_b.notnull())

Este tipo de objetos presenta además la posibilidad de realizar operaciones aritméticas, preservando el alineamiento de índices:

In [None]:
# Suma de series, NaN se comporta como el "infinito matematico" 
serie_b + serie_a

por último, las series de `Pandas` permite el etiquetado de variables, lo cual acerca más su manejo al usado en bases de datos y lo enriquece en comparación a `Numpy`:

In [None]:
serie_a.name = 'notas'
serie_a.index.name = 'alumnos'
print(serie_a)


## DataFrame<a id="df"></a>

Una serie representa un arreglo unidimensional enriquecido por índices y manejo de valores faltantes. Un DataFrame por su parte, representa una tabla rectangular, donde los datos están contenidos
en una estructura ordenada y basada en columnas, las cuales pueden ser de distintos tipos (`int`, `str`, `bool`).

Un `DataFrame` posee índices para sus columnas y sus filas. Al igual que la series, se puede observar como un diccionario de `NumPy`  donde cada campo es una serie, cada una de las cuales, comparten el mismo índice. Si bien esta noción describe un objeto 2-dimensional, es posible obtener representaciones dimensionalmente superiores mediante una indexación adecuada.


Existen varias formas de construir un `DataFrame`, una manera conveniente, consiste en definir un diccionario de listas, todas de igual longitud:

In [None]:
data = {'ciudad': ['Temuco', 'Temuco', 'Temuco', 'Iquique', 'Iquique', 'Iquique'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pob': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

`Pandas` detecta el entorno `Jupyter` e imprime en pantalla los datos usando un formato HTML. (Observación: no se usó la función `print`)

En DataFrames consistentes de muchas observaciones, es posible mostrar una cantidad reducida de elementos usando el método `head`.

In [None]:
# Muestra las primeras 3 observaciones
frame.head(3)

Se puede manipular el orden de las columnas, en el caso de agregar una columna no existente, al igual que con series, se incluirá `NaN` indicando ausencia de datos, de igual manera, se pueden editar los índices correspondiente a cada observación del DataFrame:


In [None]:
cols = ['year','ciudad','pob','pais']
idx  = ['uno', 'dos', 'tres', 'cuatro', 'cinco', 'seis']

frame = pd.DataFrame(data, columns= cols, index= idx)

print('Columnas de frame: ',frame.columns)
print('Indices de frame: ',frame.index)

frame

Al seleccionar una columna del DataFrame, se obtiene una serie. Tal serie se puede obtener usando la notación de `Numpy` o como un atributo del objeto:

In [None]:
# Acceder a la columna "pob" de frame usando notación de Numpy
print(frame['pob'], '\n')

# Acceder a la columna "pob" de frame como un atributo del objeto
print(frame.pob)

Análogamente, se pueden obtener filas del DataFrame usando sus índices a través del método `loc`:

In [None]:
frame.loc['uno']

De bastante interés para el manejo de bases de datos, es la asignación de valores:

In [None]:
# Se asigna un valor numerico distinto a cada valor de la variable pais
frame['pais'] =  range(1,7)
frame

In [None]:
# Se asigna el valor "Chile" a cada valor de la columna "pais"
frame.pais = 'Chile'
frame

Con la ayuda de series, es posible asignar valores para índices específicos:

In [None]:
val = pd.Series(['cl','cl','cl'], index=['uno','tres','seis'])
frame['pais'] = val
frame

Al asignar valores de esta forma, la variable `val` no tiene un valor definido para los índices `dos`,`cuatro` y `cinco`, por lo que los valores de estos índices pasa a ser `NaN` incluso cuando antes eran `Chile`. 

Es posible agregar columnas a través de operaciones lógicas:

In [None]:
frame['sur'] = frame.ciudad == 'Temuco'
frame


Si la se quisiera a agregar la columna `norte` usando la sintaxis `frame.norte = frame.ciudad == 'Iquique'` no seria posible, eso pues Python intentará acceder al atributo `frame.norte` que es inexistente aún. Por otro lado, la notación `frame['norte'] = frame.ciudad == 'Iquique'` construye el atributo `norte` que podrá ser accedido por `frame.norte`:


In [None]:
frame.norte = frame.ciudad == 'Iquique'

In [None]:
frame['norte'] = frame.ciudad == 'Iquique'
frame

Por otra parte, es posible eliminar una columna usando el comando `del`:

In [None]:
del frame['pais']
frame

Finalmente, es posible renombrar los índices (filas, columnas) de un DataFrame;

In [None]:
frame.index.name='registro'
frame.columns.name='datos'
frame

**Ejercicio**

* Cargue los datos de la clase pasada usando `np.load`. Unifique los datos importados en un DataFrame cuyas columnas sean `SCI` (Statistical Capacity Index), `HDI` (Human development Index), `Country` y `Reg` (region).

* Muestre en pantalla los registros del DataFrame anterior para Chile, Perú, Argentina y Bolivia. (Hint: use el método `isin` en una lista para la variable `Country`) 

## Funcionalidades esenciales<a id="fun_es"></a>

A continuación, se trabaja con los aspecto fundamentales referentes al manejo de Series y DataFrames.

### Reindexación

Los objetos de `Pandas` contienen el método `reindex`, este sirve para crear un nuevo objeto a partir de uno inicial, al cual se **permutan** y agregan índices. Al igual que la declaración de índices nuevos en DataFrames y en Series, si se añade un índice nuevo a través de `reindexing` este incluirá valores faltantes `NaN`.

In [None]:
print(serie)
serie_3 = serie.reindex(['b','a','z'])

print('\n Serie reindexada: \n')
print(serie_3)

Usando el orden de indexación, `Pandas` puede completar valores faltantes usando el método `ffill` de llenado hacia adelante (forward):

In [None]:
print('Sin llenado:','\n')
serie_4 = serie.reindex(['b','z','h','a'])
print(serie_4, '\n')

print('Con llenado:','\n')
serie_4 = serie.reindex(['b','z','h','a'], method='ffill')
print(serie_4)

### Eliminar valores por eje<a id="link"></a>

Los ejes en `Pandas` se denotan por `axis` donde `axis = 0` representa los índices (o filas), mientas que `axis = 1` representa las columnas. 

Para eliminar valores de un DataFrame o Serie tanto en filas como en columnas, existe el método `drop`:

In [None]:
data = np.load('../cepal_estudiantes/datos/C1/SCI_HDI.npy')
CR = np.load('../cepal_estudiantes/datos/C1/SCI_HDI_CR.npy')
data_CR = np.hstack((data,CR))

df = pd.DataFrame(data_CR, columns=['SCI','HDI','Country','Reg'])

DF = df[df.Country.isin(['Chile','Peru','Argentina','Bolivia'])]
DF.sort_values('HDI',axis=0, ascending=False)

# Se indexa el DataFrame anterior por los paises
DF.index = DF.Country

# Se elimina la columna Country (axis = 1)
df_drop_cl = DF.drop('Country',axis=1)
print('\n',df_drop_cl,'\n')

# Se elimina la fila cuyo indice es 'Chile' (axis = 0, por defecto)
df_drop_cl = df_drop_cl.drop('Chile')
print(df_drop_cl)

**Ejercicio**

* Elimine la columna `Reg` y renombre las columnas de `df_drop_cl` como `Idx`.

### Indexación, selección y filtrado

Como se vio anteriormente, las series en `Pandas` trabajan de manera similar a los arreglos de `Numpy`, los DataFrame comparten la misma propiedad:

In [None]:
# Muestra todas las filas menos la última
df_drop_cl[:-1]

In [None]:
# Selecion por filtrado logico
df_drop_cl[df_drop_cl.HDI>0.6]

El acceso a las filas de `df_drop_cl` se hace usando la notación de `Numpy`, cabe señalar que el acceso a los elementos del DataFrame no dependen de la indexación, que en este caso son países y no números enteros. Por otra parte, el operador `slice` puede operar en los índices no numéricos e "incluye los extremos":

In [None]:
# A diferencia de Pyhon (sin Pandas), se incluyen los valores extremos
df_drop_cl['Argentina':'Bolivia']

**Ejercicio**

* Reemplace en `df_drop_cl` los valores de `HDI` mayores a `0.7` por `1`.

Una herramienta bastante usada es el filtrado booleano en DataFrames. Su sintaxis es aquella ya introducida:

In [None]:
# Revisa que valores de dla columna HDI son mayores que 0.7
print('Comparacion por columna: \n',df_drop_cl.HDI >0.7,'\n')

print('Comparacion por columnas numericas: \n',df_drop_cl.drop('Reg', axis=1) > 1,'\n')

# Filtrado 
print('Filtrado usando comparacion de una columna: \n',df_drop_cl[df_drop_cl.HDI >0.7])

### Selección con `loc` e `iloc`

Hasta ahora, se han manipulado los índices y las columnas de DataFrames. En este contexto, las filas de un DataFrame se han manipulado por medio de `reindexing` y por métodos de llenado `ffill`. Por otra parte, para acceder a columnas (vistas como series), se tiene acceso a comandos  como los métodos `DataFrame.columna` y `Dataframe['columna']`. Los comandos análogos son `loc` e `iloc`:

In [None]:
# se selecciona la fila cuyo indice es 'Bolivia'
print(DF.loc['Bolivia'],'\n')

# Se seleccionan las filas de Bolivia y Peru OBS. [[]]
print(DF.loc[['Bolivia','Peru']],'\n')

# Mismo ejericios usando iloc.
print(DF.iloc[1],'\n')
print(DF.iloc[[1,2]],'\n')

Como se puede apreciar, `loc` trabaja seleccionando el nombre especifico del índice que se desea obtener, mientras `iloc` lo hace con su posición numérica absoluta en el DataFrame.

**Ejercicio**

* Combine la selección de columnas y filas para seleccionar de `DF` aquellos países entre  **Bolivia** y **Peru** que posean un **HDI** mayor que `0.75`. Use solo una linea de código.

### Operaciones aritméticas

Como fue visto, Python no puede manejar sumas entre listas de manera nativa. En el caso de Series y DataFrames, `Pandas` permite operaciones aritméticas.

**Ejercicio**

* Defina dos series de distinta longitud, sume ambas series. ¿Qué sucede con los valores fuera del rango para la serie más pequeña?. Repita el ejercicio para índices del tipo 'a','b', c'...

De la misma manera, se pueden aplicar estas operaciones a DataFrames:

In [None]:
# Se define el dataframe DF2 para los paises en c2
c2 = ['Ethiopia','Mali','Madagascar']

DF2 = df[df.Country.isin(c2)]

DF2.index = DF2.Country
DF2 = DF2.drop(['Country','Reg'], axis=1)
# DF2.drop(['Country','Reg'], inplace = True, axis=1) funciona de la misma forma.

DF2

**Ejercicio**

* Remueva las columnas `Country` y `Reg` de `DF`. ¿Qué resultado se espera de la operación `DF` + `DF2`?, ¿como se compara con el método `append`? 

* Use `np.arange`(similar a `range`) para generar dos DataFrames: `df1` con `3` filas y `4` columnas y `df2` con 4 filas y  5 columnas, ambos con índices numéricos y columnas del tipo `a,b,c...`. Sume ambos DataFrames y llene los valores faltantes con `0`.(hint: `list('abcd')` es equivalente a `['a','b','c','d']`, use el método `add`)

Las operaciones aritméticas sobre un DataFrame se hacen en cada elemento de este, puede comprobar esto haciendo `1/df1`, `8*df1`, `df1**2` por ejemplo. ¿En que se diferencian estas operaciones con `DF` + `DF2`?

### Operaciones entre DataFrames y Series

El resultado de resta entre un DataFrame y una serie puede no ser el esperado, en estos objetos la indexación juega un papel fundamental:

In [None]:
df_ej = pd.DataFrame(np.arange(10).reshape(5, 2) +1,columns=list('ab'))
df_ej2 = pd.DataFrame(np.arange(18).reshape(6, 3) +1000,columns=list('acb'))

ser1 = np.repeat(1000,6)
ser1 = pd.Series(ser1)

print('df_ej  : \n', df_ej)
print()
print('df_ej2 : \n', df_ej2)
print()
# los indices de la serie 
print('Caso 1: Suma DataFrames')
print(df_ej + df_ej2,'\n')

print('Caso 2: DataFrame + serie')
print(df_ej + ser1,'\n')

# Se traspone el data frame antes de la suma
print('Caso 3: DataFrame traspuesto + serie')
print(df_ej.T + ser1)

# Columnas de un DataFrame traspuesto

print('\n Columnas del DataFrame traspuesto: \n', df_ej.T.columns)

De la celda anterior, se puede deducir que la suma de series y DataFrames se comporta como una "unión externa" basada en las columnas e índices: 

* En el caso 1, los DataFrames comparten las columnas `a` y `b` donde los valores se suman uno a uno, se añade la columna `c` (unión externa) con los valores faltantes correspondientes.

* En el caso 2, la serie se comporta como un arreglo de `NumPy` en donde se suma de manera "horizontal". (Por tanto los índices pasan a ser columnas, trasponer la serie no cambia este hecho)

* En el caso 3, las columnas del DataFrame pasan a ser las nuevas columnas, por lo que la suma se comporta como seria de esperar.

Si a diferencia del caso 2, se desea sumar a través de las columnas, es posible hacerlo indicando el eje `axis`:

In [None]:
df_ej.add(ser1,axis=0).fillna(value=':)')

### Aplicación de funciones

Como ya se mencionó, los objetos de Pandas se comportan de manera similar a arreglos de `NumPy`. En este aspecto, los DataFrames y Series de Pandas, soportan de manera nativa las funciones de *elemento por elemento* :

#### Output escalar

In [None]:
df_c = pd.DataFrame(np.random.randn(5, 3), columns=['Arica','Santiago','Temuco'])

metrica_1 = lambda x: (np.sum(x, axis = 0)**2)/len(x)
metrica_2 = lambda x: np.abs(x).max()

# Aplicación "Clasica" de la función metrica_1
print(metrica_1(df_c))

#### Output multidimensional

In [None]:
def resumen_1(df):
    return(pd.Series([metrica_1(df),metrica_2(df)]))

df_c.apply(resumen_1)

### Operaciones elemento por elemento
En DataFrames usa el método `applymap` , en series `map`:

In [None]:
# Identico al caso anterior pero usando el método apply

print('Método clasico "apply":')
print(df_c.apply(metrica_2))
print()
print('Elemento por elemento "map":')
print(df_c.applymap(metrica_2))

**Ejercicio**

* Declare una función que calcule el promedio de valores `SCI` el DataFrame 

### Ordenamiento e índices duplicados

Pandas permite el ordenamiento lexicográfico por filas (índices) o columnas a través del método `sort_index`:

In [None]:
obj = pd.Series(np.random.randn(4), index=['d', 'a', 'b', 'c'])

print(obj.sort_index())
print()
print(obj.sort_index(ascending=False))

**Ejericicios**

* El DataFrame `df` definido en esta [sección](#link), contiene los datos usados en la `Tarea 1`. Declare una función que calcule el promedio `SCI` y `HDI` de `df`.

* Ordene de manera descendiente los valores de `df` según `HDI` y según país. (Hint: `by`)

In [None]:
display(df.head(5))

mean_sci = np.mean(df.SCI)
mean_hdi = np.mean(df.HDI)

df.sort_values(by='HDI', ascending=False).head(5)

Al unificar bases de datos con distintos orígenes, es posible que aparezcan índices duplicados dentro de un DataFrame. Dentro del atributo `index` existe la propiedad `is_unique`, esta indica si los índices de un DataFrame son todos únicos:

In [None]:
obj = obj.reindex(['a','a','b','c'])
obj.index.is_unique

El método `unique` extrae los valores únicos dentro en una serie, mientras que en el caso de DataFrames, es necesario el uso del método `apply` para aplicar conteo 

In [None]:
obj.unique()

## Estadística descriptiva básica<a id="estaDesc"></a>

Los objetos de `Pandas` están provistos de métodos estadísticos básicos.

**Ejercicio**

* Explore los métodos `sum`, `cumsum` `mean`, `std`, `idxmin`, `idxmax` y `describe` (especialmente útil).

## Limpieza y preparación de datos<a id="limPrep"></a>

Gran parte del proceso de ciencia de datos se invierte en la preparación de los datos, esto comprende la carga, limpieza, transformación y reorganización. Es posible *modularizar* los procesos y manejar distintos procesos en distintos lenguajes (como R o Python). Si se desea implementar procesos de limpieza y transformación de datos en Python, esto se puede hacer usando `Pandas`. En esta sección se profundiza en el manejo de datos faltantes, filtrado, llenado y transformación.

### Datos faltantes

La falta de información en bases de datos es común en tareas de análisis de datos, la filosofía de `Pandas` en es este aspecto se basa en facilitar el manejo de datos faltantes lo más posible. En el caso de  datos numéricos, `Pandas` usa la notación `NaN` (not a number) para representar valores faltantes, este valor se denota como *valor centinela*

In [None]:
string_data = pd.Series(['S_1','S_2',np.nan,'S_4'])
string_data

In [None]:
string_data.isnull()

En `R` la convención consiste en denotar los valores faltantes como `NA` (not avaible). En estadística, esta notación aparece cuando no existe la información buscada o existe pero no fue ingresada. Al limpiar los datos es por tanto importante estudiar la estructura de los datos faltantes como un tema de estudio por si solo. En Python el valor `None` juega el papel de `NA` en `R`.

In [None]:
string_data[0] = None
string_data.isnull()

**Ejercicio**

* Estudie los métodos `dropna`, `fillna`, `isnull` y `notnull`.

### Filtrado de valores faltantes

Existen varias maneras de filtrar datos faltantes. Una forma es hacerlo usando filtrado booleano a través del método `isnull`, otra más directa es usar el método `dropna`. En series por ejemplo, este último método retorna una sub-serie consistente solo de los valores presentes.

In [None]:
from numpy import nan as NA
data = pd.Series([2, NA, 4, NA, 6])

In [None]:
print(data.dropna()) #dropna --> método directo

In [None]:
print(data[data.notnull()]) # filtrado logico ---> indirecto

En el caso de DataFrames el proceso cambia. El aumento en la dimensión provoca la complicación y básicamente depende si se desean borrar filas o columnas, y en caso de querer eliminar es necesario tener claro como se desea hacer este proceso.

In [None]:
data_frame = pd.DataFrame([[1,2,4], [8,NA,NA],
                         [NA,NA,NA], [NA,NA,16],
                          [32,NA,64]])
data_frame

In [None]:
limpio_1 = data_frame.dropna()
limpio_1

Usando `how = 'all'` eliminará solo aquellas filas consistentes solo de valores faltantes.

In [None]:
limpio_2 = data_frame.dropna(how='all')
limpio_2

**Ejercicio**

* En elimine de la variable `data_frame` aquellas columnas consistentes únicamente de valores faltantes.

### Llenado de datos faltantes

Otra manera de atacar el problema es completando ciertos valores faltantes en vez de filtrarlos. En `Pandas` se puede usar el método `fillna`.

** Ejercicio**

* Genere un DataFrame aleatorio de `10x10` consistente de números aleatorios. Llene los primeros `5` elementos de la primera columna con `NA`. Haga lo mismo con los 3 primeros elementos de la segunda fila. (Hint: `iloc` + `randn` )

* Investigue el argumento `method = ffill` del método `fill_na`.

* Seleccione la tercera fila del DataFrame y reemplace los valores faltantes con el promedio de los demás valores. (Hint: obtenga los índices no faltantes usando `~` + `isnull`, calcule el promedio y reemplace)

* Reemplace los valores faltantes de la primera columna con el valor 10, los de la segunda columna con el valor 100 y los de la tercera columna con el el valor 1000. Para ello use la función `fillna` y proporcione un diccionario como input del método.

### Transformación de datos

En esta sección se discuten las operaciones de transformación que suceden a la limpieza y reorganización de datos.


In [None]:
data_frame_dup = pd.DataFrame({'A1':['uno', 'dos'] * 3 + ['dos'],
                               'A2':[1,1,2,3,3,4,4]})
data_frame_dup

**Ejercicio**

El método `duplicated` proporciona un serie booleana indicando que serie esta duplicada (observada anteriormente). Por su parte, `drop_duplicates` corresponde al símil de `drop_na` para `isnull`. 

* Utilice tales métodos en la serie anterior.

### Transformación de datos por mapping

El *mapping* o aplicación, corresponde a la trasformación de valores en una serie basándose en los valores que esta contiene.

In [None]:
data_frame_mapping = pd.DataFrame({'receta':['huevos', 'harina', 'leche','manjar'],
                                  'cantidad':[2,1,1,250]})
data_frame_mapping

Se agrega una columna basada en los valores del DataFrame (mapping):

In [None]:
es_vegano = {'huevos':'no', 'harina':'si', 'leche':'no','manjar':'no'}

La función `map` acepta un objeto del tipo `dict` que contiene una relación para los elementos de la serie que opera.

Observación: Hacer `mapping` es *case sensitive*.

In [None]:
data_frame_mapping['es vegano ?'] = data_frame_mapping['receta'].map(es_vegano)
data_frame_mapping

En general, `map` puede recibir una función como elemento y la opera sobre cada elemento de la serie.

In [None]:
data_frame_mapping['es vegano ?'].map(lambda x: x.upper())

Un caso especial de remplazo/mapping es el método `replace` este es más general que `fillna` pues permite remplazar valores a elección de una serie.

**Ejercicio**

* Reemplace en la siguiente serie los valores 'error' y 'Error' por NA y 100 respectivamente.

In [None]:
serie = pd.Series([1, 'error', 2, 'error', -1000., 3, 'Error'])

### Discretización y binning

Los datos numéricos *continuos* pueden ser separados en secciones o *bins* para su estudio. Como ejemplo se considera la siguiente serie:

In [None]:
income = [98,2, 28,11,53,61,33,17,19,40,78,8,3,13,7]

Se desea dividir tal serie en bins de 0 a 30, 31 a 50, 51 a 70, 71 a 90  y 91 al 'infinito'. Para ello se usa la función `cut`:

In [None]:
bins = [30,50,70,90]
secciones = pd.cut(income,bins)
secciones

In [None]:
secciones.codes

In [None]:
secciones.categories

In [None]:
pd.value_counts(secciones)

### Detección y filtrado de outliers

La detección y manejo de outliers corresponde a la detección de valores fuera de rango a través de operaciones en arreglos. 

**Ejercicios**

* Genere un DataFrame de 4 columnas con 1000 observaciones. Utilice `describe` para estudiar las características de su DataFrame.

* Seleccione aquellos valores del dataframe mayores que 1.5 y menores que -1,5 y reemplace esos valores por 2.

### Permutaciones y muestreo aleatorio

Permutar corresponde a reodernar los índices de una serie o las filas de un DataFrame, en aplicaciones de análisis de datos se requiere hacer permutaciones aleatorias en los datos. Esto se puede hacer fácilmente usando la función `permutation` del módulo `random`, donde tal función se debe llamar usando como argumento la longitud del eje `axis` sobre el cual se desea permutar.

In [None]:
data_frame_perm = pd.DataFrame(np.arange(10*10).reshape((10,10)))
data_frame_perm 

In [None]:
sampler = np.random.permutation(10)
sampler

El método `take` proporciona por defecto las filas del DataFrame tomadas de un arreglo:

In [None]:
data_frame_perm.take(sampler)

Para seleccionar un subconjunto sin reemplazo, se puede usar directamente el método `sample`.

In [None]:
data_frame_perm.sample(n=5)

Observación: Para seleccionar con reemplazo existe la opción `replace = True`.

### Variables  indicadores

Otro tipo de transformación es el manejo de variables `Dummy`o indicadores. Estas consisten en 'códigos' que representan a través de números los distintos valores que puede tomar una variable categórica de interés.

Si un DataFrame tiene `k` distintos valores en una columna, se puede obtener una matriz indicadora con `k` columnas consistentes de 1's y 0's y usar aquellos valores como variables dummy para representar tal columna.

En pandas la función `get_dummies` genera tal matriz indicadora de manera sencilla:

In [None]:
data_dummy = pd.DataFrame({'llave_1':['a','a','b','c','b','a'],
                            'data_1':range(6)})

data_dummy

In [None]:
dummies = pd.get_dummies(data_dummy['llave_1'])
dummies

Para generar un nuevo DataFrame:

In [None]:
data_dummy_mod = data_dummy[['data_1','llave_1']].join(dummies)
data_dummy_mod

## Carga y guardado de datos<a id="carga"></a>

En aplicaciones reales, es necesario importar y exportar datos en múltiples formatos, `Pandas` permite el manejo de archivos `csv`,`excel`,`html`,`json`,`sql`, entre otros.

En estos tipo de archivos, `Pandas` infiere de manera automática la indexación, formatos de fecha, permite iteración sobre elementos y maneja problemas relativos a fallas de limpieza en los datos, tales como errores de escritura o formatos numéricos no estándar.


**Ejercicios**

* Cargue los datos `export_part.xls`  de la carpeta `datos/C2`. Cargue la planilla `data` del documento. 

Observación: En ese dataset la columna de indexación es `productos principales`.

* Cambie todos los valores `...` por `NaN` o un valor de su elección.

* Cambie los nombres de las columnas de formato `int` a `str`.

* Guarde las datos trasformados en formato `csv`.

In [None]:
data = pd.read_excel('../cepal_estudiantes/datos/C2/export_part.xls',sheet_name='data', index_col=0)
data.replace('...','0',inplace=True)

data.head()
data.columns = [str(data.columns[i]) for i in range(len(data.columns))]
data['2007']
data.to_csv('../data.csv')

### Datos en formato JSON

JSON (short JavaScript Objet Notation) es un formato estándar de envío de datos por HTTP entre navegadores web y otras aplicaciones. Su estructura es más flexible que los formatos delimitados (CSV por ejemplo). El formato JSON se comporta de manera similar a los diccionarios de Python. Para el manejo de este formato existen distintas librerías, entre ellas `json`, que se encuentra dentro de las librerías estándar de Python. A continuación se estudia este formato y ciertas operaciones disponibles para su manejo.

Un archivo JSON corresponde a un `string`, este se formatea siguiendo el esquema `"""{campo_1 : dato_1, ,campo_n : dato_n}"""`, un ejemplo se puede observar en la siguiente celda:

In [None]:
json_ej = """
{"type":"FeatureCollection",
 "generated":5,
 "url":"www.ejemplo.cl",
 "title":"titulo ejemplo",
 "api":"super api",
 "count": 8,
 "status": 1,
 "geometry":{"type":"Point","coordinates":[1,2,10]},
 "id":"19101818712-k"
 }
"""

Como se puede observar, el formato anterior responde a una estructura similar a la de los diccionarios. El módulo json es capas de convertir la variable `json_ej` en un diccionario:

In [None]:
import json 

# json_loads permite cargar un archivo json a un diccionario python

res = json.loads(json_ej)
print(res.keys(), '\n')

# La función json.dumps lo hace en sentido contrario:
json_ej2 = json.dumps(res)
print(json_ej2)

Normalmente, se obtiene una lista objetos JSON, estos se convierten a diccionarios de Python y se convierten a DataFrame. 

## Manejo de API's <a id="API"></a>

Una API (interfaz de programación de aplicaciones) es un conjunto de métodos que ofrece ciertas funcionalidades para ser utilizadas por otro software. Muchas paginas web tienen API's publicas que proveen datos por medio de JSON's u otro formato. Existen muchas maneras de acceder a una API; con el fin de explorar las funciones relativas al manejo del formato JSON y obtener herramientas para interactuar con API's, se estudian un ejemplo y un ejercicio.

**Ejemplo 1: Manejo de API USGS**

Anteriormente, se trabajo con archivos JSON sobre la base de terremotos patrocinada por el programa de amenazas por terremoto de la USGS (Earthquake Hazards Program). En este ejemplo, se utilizará la documentación de su API para estudiar los movimientos sísmicos ocurridos en el centro-sur de Chile desde el 2009. En este caso se hará uso de la librería `requests` de Python.

In [None]:
"""
Fork del codigo creado por ayanez3
se añade busqueda usando API + JSON + Pandas

Aplica filtro, mapeo  y reduccion de datos
https://earthquake.usgs.gov/
https://earthquake.usgs.gov/fdsnws/event/1/
https://earthquake.usgs.gov/earthquakes/feed/v1.0/geojson.php

Transforma a dataframe con reconocimiento automatico de campos JSON,
este se puede almacenar en el formato que se estime conveniente.
"""
# https://www.coordenadas-gps.com/ coordenadas

# maxlatitude -40
# minlatitude -74 
# maxlongitude-31
# minlongitude-70
# minmagnitude 5 

# API earthquakes
# https://earthquake.usgs.gov/fdsnws/event/1/

# Consulta en aplicacion web
# https://earthquake.usgs.gov/earthquakes/map/#%7B%22feed%22%3A%221531517750969%22%2C%22sort%22%3A%22newest%22%2C%22mapposition%22%3A%5B%5B-40.413%2C-74.18%5D%2C%5B-32.094%2C-69.653%5D%5D%2C%22viewModes%22%3A%5B%22list%22%2C%22map%22%5D%2C%22autoUpdate%22%3Afalse%2C%22search%22%3A%7B%22id%22%3A%221531517750969%22%2C%22name%22%3A%22Search%20Results%22%2C%22isSearch%22%3Atrue%2C%22params%22%3A%7B%22starttime%22%3A%222009-07-06%2000%3A00%3A00%22%2C%22endtime%22%3A%222018-07-13%2023%3A59%3A59%22%2C%22maxlatitude%22%3A-32.094%2C%22minlatitude%22%3A-40.413%2C%22maxlongitude%22%3A-69.653%2C%22minlongitude%22%3A-74.18%2C%22minmagnitude%22%3A5%2C%22orderby%22%3A%22time%22%7D%7D%7D

import pandas as pd
import json
import requests

import datetime as dt

query = {
         'starttime'   :'2009-01-01', 
         'minlatitude' :-40,
         'minlongitude':-74,
         'maxlatitude' :-31,
         'maxlongitude':-70,
         'minmagnitude': 5
        }

# Compresion de listas para generar una consulta
q = ['&'+str(key)+'='+str(query[str(key)]) for key in query.keys()]

###

# El metodo join de str (str.join) funciona de la siguiente forma:
#
# s = "***" 
# seq = ["a", "b", "c"]
# print(s.join(seq)) ===> a***b***c

###

q = ''.join(q)

url_base = "https://earthquake.usgs.gov/fdsnws/event/1/query?"
url_format = "geojson"

url = url_base +'format=' + url_format + q

response = requests.get(url)
data = response.json()

records = data["features"] # genera lista de diccionarios

print("listo!!!, hay {} registros".format(len(records)))

def map00(x):return x["properties"]

def map01(x): return {
        "place": x["place"][:29]+'...', 
        "timestamp": dt.datetime.fromtimestamp(x["time"]//1000),
        "mag": x["mag"] } 

def filtra_0(x,m): return x["mag"] >= m

def ordena(a): return a["mag"]

# Evaluacion parcial de filtra_0 
filtra = lambda x: filtra_0(x,6)

t = list(map(map00, records))    # primer mapeo para simplificar estructura 
u = list(map(map01, t))          # segundo mapeo para reducir numero de campos y aplicar algunas transformaciones 
v = list(filter(filtra, u))      # filtra por magnitud
v.sort(key=ordena, reverse=True) # ordena  por magnitud

df_usgs = pd.DataFrame(v)

display(df_usgs.head(10))
print("Estadísticos sobre la magnitud:")
df_usgs.describe()

**Ejercicio**

A continuación interactuará con la API de twitter usando Twython: 

```
pip install twtython
```

Se debe tener en cuenta que este paquete es solo un wrapper y que no es el único que esta diseñado para comunicarse con twitter.

In [None]:
from twython import Twython  

# Enter your keys/secrets as strings in the following fields
credentials = {}  
credentials['CONSUMER_KEY']=""
credentials['CONSUMER_SECRET']=""
credentials['ACCESS_TOKEN']=""  
credentials['ACCESS_SECRET']=""

# Save the credentials object to file
with open("twitter_credentials.json", "w") as file:  
    json.dump(credentials, file)

# Load credentials from json file
with open("twitter_credentials.json", "r") as file:  
    creds = json.load(file)
    
python_tweets = Twython(creds['CONSUMER_KEY'], creds['CONSUMER_SECRET'])

Consulta:

In [None]:
query = {'q': 'machine learning',  
        'result_type': 'popular',
        'count': 10,
        'lang': 'en',
        }

In [None]:
H = python_tweets.search(**query)

In [None]:
H

Búsqueda de tweets, se almacena el usuario, fecha, texto y conteo de favoritos (opcional):

In [None]:
dict_ = {'user': [], 'date': [], 'text': [], 'favorite_count': []}  
for status in python_tweets.search(**query)['statuses']:  
    dict_['user'].append(status['user']['screen_name'])
    dict_['date'].append(status['created_at'])
    dict_['text'].append(status['text'])
    dict_['favorite_count'].append(status['favorite_count'])

Se estructura en un DataFrame de pandas para su manipulación:

In [None]:
df = pd.DataFrame(dict_)  
df.sort_values(by='favorite_count', inplace=True, ascending=False)  
df.head(5)

En la pregunta anterior se le solicitó que hiciera una búsqueda única, para hacer una búsqueda continua o una colección `stream` de tweets se puede hacer uso de la API de streaming de twitter. Para ello se hace uso de la clase `TwythonStreamer` para ello, se creará un objeto que heredará los atributos y métodos de tal clase, en dicho objeto, se creará una acción para consultas exitosas `on_success` y consultas fallidas `on_error`.

En este caso se almacenan los hashtags, nombres de usuario, ubicación del usuario y el texto del tweet.

Se importan las librerías necesarias y se seleccionan los datos de interés:

In [None]:
from twython import TwythonStreamer  
import csv

def process_tweet(tweet):  
    d = {}
    d['hashtags'] = [hashtag['text'] for hashtag in tweet['entities']['hashtags']]
    d['text'] = tweet['text']
    d['user'] = tweet['user']['screen_name']
    d['user_loc'] = tweet['user']['location']
    return d

Se crea la clase `MyStreamer` que hereda de la calse `TwythonStreamer`, el método `on_succes` guardan la información obtenida a un csv mientras que `on_error` desconecta en caso de error.

In [None]:
# Create a class that inherits TwythonStreamer
lang = 'en'

class MyStreamer(TwythonStreamer):     
    
    # Datos obtenidos
    def on_success(self, data):

        # Obtiene tweets en idioma "lang"
        if data['lang'] == lang:
            tweet_data = process_tweet(data)
            self.save_to_csv(tweet_data)
                    
    # En caso de presentarse problemas con la API desconecta
    def on_error(self, status_code, data):
        print(status_code, data)
        self.disconnect()

    # Guarda los tweets en un csv
    def save_to_csv(self, tweet):
        with open(r'saved_tweets.csv', 'a') as file:
            writer = csv.writer(file)
            writer.writerow(list(tweet.values()))

Se crea un instancia de la clase anterior usando las credenciales de ingreso como argumentos, el método `filter` permitirá colectar los tweets de interés.

Es posible mejorar la búsqueda agregado parámetros como idioma, ubicaciones, usuarios seleccionados, etc ...

Observación: La versión de paga incluye más opciones.

In [None]:
stream = MyStreamer(creds['CONSUMER_KEY'], creds['CONSUMER_SECRET'],  
                    creds['ACCESS_TOKEN'], creds['ACCESS_SECRET'])

# Proceso de streaming
stream.statuses.filter(track='machine learning') 

In [None]:
tweets = pd.read_csv("saved_tweets.csv", header= None)  
tweets.columns=['hastags', 'text','user','location']

In [None]:
h = tweets.hastags.str.strip('[')
h = h.str.strip(']')

In [None]:
h = h.str.split().tolist()
stacked = pd.DataFrame(h).stack()
stacked.value_counts()