# IIC1005: Ayudantía 2
#### 16 de agosto de 2017

## Objetivos:

La idea de esta ayudantía es introducirte a:
- Uso de Jupyter Notebook.
- Pre-procesamiento de datos.

## Jupyter Notebook

### ¿Qué es un *notebook*?

Un *notebook* es un documento que contiene código (en Python, por ejemplo) y elementos más *human-readable*, como ecuaciones, gráficos, o lindos párrafos como los que vendrán a continuación.

### ¿Qué es Jupyter?

Jupyter es la plataforma web que utilizaremos para crear nuestros bonitos *notebooks*.

### ¿Por qué utilizar Jupyter Notebook?

Jupyter tiene una serie de ventajas, algunas que podrían servirte en este curso son:

- En un *notebook* puedes correr tu código celda por celda. Esto permite volver a ejecutar solo las partes de tu programa en las que podrías tener error y así no correr nuevamente secciones que están buenas y demoran mucho tiempo en terminar. Un ejemplo de lo anterior es lo siguiente:

In [1]:
import time
for i in range(10): # Esto va a demorar 20 segundos
    time.sleep(2)

with open("file.txt") as file:
    for line in file:
        print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'file.txt'

Vemos que el *loop* de nuestro programa no tiene problemas y que el error está al intentar abrir un archivo que no existe. Si aprovechamos el *notebook* y escribimos nuestro código en celdas distintas: 

In [2]:
import time
for i in range(10):
    time.sleep(2)

**Nota**: el método *sleep* se utiliza solo para ejemplicar un sector de código que podría tardar mucho tiempo.

In [3]:
with open("file.txt") as file:
    for line in file:
        print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'file.txt'

En este caso, basta con corregir en la celda correspondiente el nombre del archivo que deseamos abrir. Con el objeto de que los alumnos que no pudieron venir, reescribiré el código correcto en la celda siguiente. Si viniste a ayudantía (y estás replicando lo que hacemos en tu propio computador), basta con cambiar el nombre en la celda anterior.

In [4]:
with open("file1.txt") as file:
    for line in file:
        print(line)

este

es

un

ejemplo

para

los

alumnos

del

exploratorio



- Otra ventaja de *Jupyter Notebook* es que la plataforma te permite exportar documentos a formatos como .pdf. Lo anterior te será de especial utilidad en la tarea de *machine learning*, donde seguramente tendrás que hacer un informe con distintas ecuaciones, gráficos y análisis de tu código. Esto será tarea sencilla si usas Jupyter, ya que es compatible con [markdown](https://guides.github.com/features/mastering-markdown/) (el maravilloso lenguaje de marcación en que he escrito estos párrafos) y LaTeX: 
$$f(x) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k}$$.

### Algunos atajos de teclado útiles

- Correr la celda actual: ctrl + enter.
- Correr la celda actual y pasar a la siguiente: shift + enter.

## Pre-procesamiento de datos

Para poder generar el *dashboard* pedido en tu tarea, primero necesitas trabajar con los datos de manera tal de generar un nuevo archivo *csv*, que contenga, por ejemplo, la ciudad, latitud y longitud en que se generó dicho *tweet*. Las librerías pandas y numpy nos ayudarán mucho en esta misión.

In [5]:
import pandas as pd
import numpy as np

**Advertencia**: no esperes obtener de aquí código para copiar y pegar directamente en tu tarea. Nuestra idea es que aprendas, por lo que te rogamos plantear todas tus dudas en ayudantía o en el foro Piazza.

### Conceptos básicos antes de continuar

Al trabajar con Pandas, te encontrarás, principalmente, con dos estructuras de datos:

1) **Series**: puedes pensar esta estructura como una columna de datos.

2) **DataFrame**: un conjunto de series.

### Cargar los datos

La librería pandas tiene un método muy conveniente para cargar archivos *.csv*. Ahora lo utilizaremos para cargar un archivo que contiene transacciones de venta realizadas en 2009.

In [6]:
dataset = pd.read_csv("SalesJan2009.csv")

Con la siguiente línea, podemos observar el contenido del dataset:

In [7]:
dataset

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
0,1/2/09 6:17,Product1,1200,Mastercard,carolina,Basildon,England,United Kingdom,1/2/09 6:00,1/2/09 6:08,51.500000,-1.116667
1,1/2/09 4:53,Product1,1200,Visa,Betina,Parkville,MO,United States,1/2/09 4:42,1/2/09 7:49,39.195000,-94.681940
2,1/2/09 13:08,Product1,1200,Mastercard,Federica e Andrea,Astoria,OR,United States,1/1/09 16:21,1/3/09 12:32,46.188060,-123.830000
3,1/3/09 14:44,Product1,1200,Visa,Gouya,Echuca,Victoria,Australia,9/25/05 21:13,1/3/09 14:22,-36.133333,144.750000
4,1/4/09 12:56,Product2,3600,Visa,Gerd W,Cahaba Heights,AL,United States,11/15/08 15:47,1/4/09 12:45,33.520560,-86.802500
5,1/4/09 13:19,Product1,1200,Visa,LAURENCE,Mickleton,NJ,United States,9/24/08 15:19,1/4/09 13:04,39.790000,-75.238060
6,1/4/09 20:11,Product1,1200,Mastercard,Fleur,Peoria,IL,United States,1/3/09 9:38,1/4/09 19:45,40.693610,-89.588890
7,1/2/09 20:09,Product1,1200,Mastercard,adam,Martin,TN,United States,1/2/09 17:43,1/4/09 20:01,36.343330,-88.850280
8,1/4/09 13:17,Product1,1200,Mastercard,Renee Elisabeth,Tel Aviv,Tel Aviv,Israel,1/4/09 13:03,1/4/09 22:10,32.066667,34.766667
9,1/4/09 14:11,Product1,1200,Visa,Aidan,Chatou,Ile-de-France,France,6/3/08 4:22,1/5/09 1:17,48.883333,2.150000


### Exploración de los datos

Pandas nos permite además explorar nuestros datos de manera sencilla. Podríamos querer conocer, por ejemplo, las transacciones que se realizaron con tarjeta *Mastercard*.

In [8]:
mastercard = dataset[dataset["Payment_Type"] == "Mastercard"]

In [9]:
mastercard

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
0,1/2/09 6:17,Product1,1200,Mastercard,carolina,Basildon,England,United Kingdom,1/2/09 6:00,1/2/09 6:08,51.500000,-1.116667
2,1/2/09 13:08,Product1,1200,Mastercard,Federica e Andrea,Astoria,OR,United States,1/1/09 16:21,1/3/09 12:32,46.188060,-123.830000
6,1/4/09 20:11,Product1,1200,Mastercard,Fleur,Peoria,IL,United States,1/3/09 9:38,1/4/09 19:45,40.693610,-89.588890
7,1/2/09 20:09,Product1,1200,Mastercard,adam,Martin,TN,United States,1/2/09 17:43,1/4/09 20:01,36.343330,-88.850280
8,1/4/09 13:17,Product1,1200,Mastercard,Renee Elisabeth,Tel Aviv,Tel Aviv,Israel,1/4/09 13:03,1/4/09 22:10,32.066667,34.766667
12,1/2/09 9:16,Product1,1200,Mastercard,Sean,Shavano Park,TX,United States,1/2/09 8:32,1/5/09 9:05,29.423890,-98.493330
22,1/5/09 4:10,Product1,1200,Mastercard,Nicola,Roodepoort,Gauteng,South Africa,1/5/09 2:33,1/7/09 5:13,-26.166667,27.866667
24,1/2/09 1:11,Product1,1200,Mastercard,Lena,Kuopio,Ita-Suomen Laani,Finland,12/31/08 2:48,1/7/09 10:20,62.900000,27.683333
30,1/8/09 3:56,Product1,1200,Mastercard,Katherine,New York,NY,United States,1/8/09 3:33,1/8/09 6:19,40.714170,-74.006390
31,1/8/09 3:16,Product1,1200,Mastercard,Linda,Miami,FL,United States,1/8/09 3:06,1/8/09 6:34,25.773890,-80.193890


Para saber rápidamente cuántas transacciones cumplen con aquella condición, usamos el método ```size```.

In [10]:
mastercard.size

3324

Comparando con el tamaño del dataset original:

In [11]:
dataset.size

11976

También podríamos querer saber cuántas de estas transacciones se realizaron con Mastercard y en Estados Unidos:

In [12]:
mastercard_usa = dataset[(dataset["Payment_Type"] == "Mastercard") & (dataset["Country"] == "United States")]
mastercard_usa

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
2,1/2/09 13:08,Product1,1200,Mastercard,Federica e Andrea,Astoria,OR,United States,1/1/09 16:21,1/3/09 12:32,46.18806,-123.83000
6,1/4/09 20:11,Product1,1200,Mastercard,Fleur,Peoria,IL,United States,1/3/09 9:38,1/4/09 19:45,40.69361,-89.58889
7,1/2/09 20:09,Product1,1200,Mastercard,adam,Martin,TN,United States,1/2/09 17:43,1/4/09 20:01,36.34333,-88.85028
12,1/2/09 9:16,Product1,1200,Mastercard,Sean,Shavano Park,TX,United States,1/2/09 8:32,1/5/09 9:05,29.42389,-98.49333
30,1/8/09 3:56,Product1,1200,Mastercard,Katherine,New York,NY,United States,1/8/09 3:33,1/8/09 6:19,40.71417,-74.00639
31,1/8/09 3:16,Product1,1200,Mastercard,Linda,Miami,FL,United States,1/8/09 3:06,1/8/09 6:34,25.77389,-80.19389
38,1/9/09 6:39,Product1,1200,Mastercard,Anneli,Houston,TX,United States,1/9/09 5:09,1/9/09 7:11,29.76306,-95.36306
41,1/7/09 7:44,Product1,1200,Mastercard,Marie,Ball Ground,GA,United States,1/7/09 5:35,1/9/09 10:52,34.33806,-84.37667
54,1/1/09 1:26,Product1,1200,Mastercard,Nikki,New Rochelle,NY,United States,1/1/09 0:58,1/10/09 21:31,40.91139,-73.78278
58,1/7/09 6:18,Product1,1200,Mastercard,June,Beachwood,OH,United States,2/23/06 11:56,1/11/09 19:35,41.46444,-81.50889


In [13]:
mastercard_usa.size

1572

### Agregar información a nuestro dataset

Imaginemos que se nos pide agregar el estado de las transacciones, siguiendo una distribución multinomial con las siguientes probabilidades:

| Status   | Probability |
|----------|-------------|
| Approved | 0,65        |
| Pending  | 0,22        |
| Rejected | 0,13        |  

#### Sobre la distribución multinomial

En esta distribución, tenemos $k$ categorías que tienen probabilidad $p_{i}$, con $i = 1 \dots k$ de ocurrir. La función de densidad que la caracteriza es: $$f(x) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k}$$.

Usar la distribución multinomial en Python es tarea fácil, gracias a la librería numpy. Dicha librería posee el método ```multinomial```, que recibe como parámetros el tamaño *n* de nuestra muestra y una lista que contendrá las probabilidades de cada categoría. Puedes leer más de este método en la [documentación de numpy](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.multinomial.html).

Así, aplicamos lo anterior a nuestro ejemplo:

In [14]:
probs = [0.65, 0.22, 0.13]
n = dataset.size

In [15]:
status_dist = np.random.multinomial(n, probs)
status_dist

array([7785, 2687, 1504])

Así, ahora sabemos que los estados de las transacciones serán:

| Status   | Quantity |
|----------|-------------|
| Approved | 7679        |
| Pending  | 2650        |
| Rejected | 1647        |

**Nota**: los valores de esta tabla cambiarán en cada ejecución.

Ahora, ¿cómo agregamos una nueva columna *Status* que contenga lo anterior? En primer lugar, reordenaremos aleatoriamente las columnas de nuestro dataset, para que, en caso de que los datos estuviesen ordenados, no queden todos los de cierto grupo aprobados/pendientes/rechazados.

In [16]:
dataset = dataset.sample(frac=1).reset_index(drop=True)

In [17]:
dataset.head()

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
0,1/20/09 8:58,Product1,1200,Visa,James,Edmonton,Alberta,Canada,12/24/08 17:51,2/18/09 9:42,53.55,-113.5
1,1/12/09 1:37,Product1,1200,Visa,IMAN,Brisbane,Queensland,Australia,1/12/09 1:26,1/15/09 17:54,-27.5,153.016667
2,1/16/09 5:12,Product2,3600,Visa,Karen,Berikon,Aargau,Switzerland,10/19/07 12:31,2/25/09 5:12,47.35,8.383333
3,1/8/09 0:04,Product1,1200,Visa,ZOE,New Plymouth City,Taranaki,New Zealand,1/7/09 23:34,1/31/09 17:47,-39.066667,174.083333
4,1/31/09 5:39,Product2,3600,Mastercard,Hanne,Phoenix,MD,United States,10/5/04 4:37,2/11/09 11:45,39.51639,-76.61639


```head()``` nos permite revisar los primeros 5 elementos de un DataFrame.

In [18]:
status = ["Approved"] * 7679 + ["Pending"] * 2650 + ["Rejected"] * 1647
print(status[0:10])

['Approved', 'Approved', 'Approved', 'Approved', 'Approved', 'Approved', 'Approved', 'Approved', 'Approved', 'Approved']


Ahora *randomizaremos* también esos valores, por la misma razón anterior.

In [19]:
import random
random.shuffle(status)
len(status)
print(dataset.size == len(status))

True


Vemos que ahora no están todos los valores de un mismo tipo *pegados*. Ahora es un buen momento para añadir estos valores como una nueva columna:

In [20]:
dataset["Status"] = pd.Series(status)
dataset.head()

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude,Status
0,1/20/09 8:58,Product1,1200,Visa,James,Edmonton,Alberta,Canada,12/24/08 17:51,2/18/09 9:42,53.55,-113.5,Approved
1,1/12/09 1:37,Product1,1200,Visa,IMAN,Brisbane,Queensland,Australia,1/12/09 1:26,1/15/09 17:54,-27.5,153.016667,Approved
2,1/16/09 5:12,Product2,3600,Visa,Karen,Berikon,Aargau,Switzerland,10/19/07 12:31,2/25/09 5:12,47.35,8.383333,Approved
3,1/8/09 0:04,Product1,1200,Visa,ZOE,New Plymouth City,Taranaki,New Zealand,1/7/09 23:34,1/31/09 17:47,-39.066667,174.083333,Approved
4,1/31/09 5:39,Product2,3600,Mastercard,Hanne,Phoenix,MD,United States,10/5/04 4:37,2/11/09 11:45,39.51639,-76.61639,Approved


¡Listo! Hemos agregado exitosamente una columna con datos que siguen una distribución multinomial.

### Exportar DataFrame

Para poder usar los datos pre-procesados en nuestras futuras visualizaciones, debemos exportarlos. Pandas incluye el método ```to_csv```, que nos permite exportar a un archivo *.csv* de manera rápida:

In [21]:
dataset.to_csv("SalesNew.csv", index=False)