# IIC1005: Ayudantía 1

#### 14 de marzo de 2018.

###### Esta ayudantía está inspirada en la Ayudantía 2 de la versión 2017-2 de este curso. Puedes encontrar la original [aquí](https://github.com/diflores/iic1005-ayudantia-2).

## *Jupyter notebooks*

**¿Qué es un *notebook*?**

Un *notebook* es un documento generado por la *Jupyter Notebook App*. Estos documentos contienen código ejecutable y también elementos más amigables para el ser humano común, tales como párrafos, ecuaciones e hipervínculos. Estas características convierten a los *notebooks* en herramientas ideales para aprender Python, procesar datos y *machine learning*.

Los *notebooks* se componen de una serie de celdas, que pueden ser de distintos tipos. Por lo general, utilizaremos solo dos:

- Code (para escribir código ejecutable).
- [*Markdown*](https://guides.github.com/features/mastering-markdown/) (para escribir párrafos en dicho lenguage de marcación).

La celda actual es una celda de tipo *markdown*. La siguiente, corresponde a una de tipo *code*. Puedes ejecutar su código presionando el ícono ▶️:

In [1]:
print("¡Hola mundo!")

¡Hola mundo!


También puedes ejecutar el código de una celda presionando shift + enter, lo que ejecutará el código y avanzará a la celda siguiente. Si deseas ejecutar el código, pero mantenerte en la celda correspondiente, utiliza ctrl + enter. Si quieres aprender más atajos de teclado, presiona esc + h

## Pandas

**¿Qué es pandas?**

Pandas es una librería de Python que nos permitirá manipular datos de manera sencilla.

**¿Por qué no utilizamos las estructuras de datos de Python para esto?**

Porque aun cuando sirvan para solucionar el problema, su uso en esta misión no es eficiente. 

### Conceptos básicos de pandas: *Series* y *DataFrames*

Pandas cuenta con dos estructuras de datos principales, las *Series* y los *DataFrames*. Una Series puede ser comprendida como una columna de datos. Un *DataFrame*, por su parte, puede ser visto como un conjunto de *Series*.

A continuación, revisaremos un ejemplo sencillo, que nos permitirá introducirnos al uso de pandas. Lo primero que debemos hacer es importar la librería:

In [2]:
import pandas as pd

En este ejemplo, utilizaremos un *dataset* de transacciones de enero de 2009, el que fue obtenido desde [aquí](https://support.spatialkey.com/spatialkey-sample-csv-data/). Lo primero que debemos hacer es cargar los datos. Para ello, la librería pandas provee un método muy útil llamado `read_csv`.

In [3]:
dataset = pd.read_csv("SalesJan2009.csv")

### Explorando los datos mediante preguntas *interesantes*
Antes de manipular los datos, es conveniente explorarlos. Inicialmente, podríamos preguntarnos: ¿qué columnas contiene el *dataset* recién cargado? Podemos obtener esta información ejecutando la siguiente celda:

In [4]:
dataset.columns

Index(['Transaction_date', 'Product', 'Price', 'Payment_Type', 'Name', 'City',
       'State', 'Country', 'Account_Created', 'Last_Login', 'Latitude',
       'Longitude'],
      dtype='object')

¿Cuántas filas tiene el *dataset*?

In [5]:
len(dataset)

998

In [6]:
dataset.sample(10)

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
752,1/27/09 3:45,Product2,3600,Visa,minjeong,Bern,Bern,Switzerland,1/27/09 2:39,2/17/09 3:44,46.916667,7.466667
831,1/25/09 8:16,Product2,3600,Visa,Astrid,Oslo,Oslo,Norway,4/22/07 2:19,2/20/09 23:22,59.916667,10.75
493,1/11/09 4:29,Product3,7500,Visa,Hans,Knoxville,TN,United States,8/28/08 6:20,2/4/09 12:17,35.96056,-83.92083
20,1/6/09 12:56,Product1,1200,Visa,Jeremy,Manchester,England,United Kingdom,1/6/09 10:58,1/6/09 13:31,53.5,-2.216667
164,1/12/09 15:12,Product1,1200,Mastercard,David,Deptford,NJ,United States,1/12/09 14:07,1/19/09 3:47,39.83806,-75.15306
577,1/5/09 7:37,Product1,1200,Visa,Annette,Manhattan,NY,United States,9/26/08 4:29,2/8/09 18:42,40.71417,-74.00639
369,1/23/09 15:33,Product1,1200,Mastercard,T,Brooklyn,NY,United States,1/23/09 14:18,1/29/09 11:02,40.65,-73.95
14,1/2/09 14:18,Product1,1200,Visa,Richard,Riverside,NJ,United States,12/9/08 12:07,1/5/09 11:01,40.03222,-74.95778
583,1/17/09 4:03,Product1,1200,Visa,Lisa,Borja,Bohol,Philippines,1/17/09 2:45,2/9/09 6:09,9.913611,124.092778
208,1/20/09 8:10,Product1,1200,Amex,Cathy,Brooklyn,NY,United States,8/5/07 18:52,1/21/09 5:16,40.65,-73.95


Pandas también nos permite resolver preguntas un poco más interesantes como:

¿Cuáles son las transacciones que fueron realizadas en Noruega?

In [7]:
dataset[dataset["Country"] == "Norway"]

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
67,1/11/09 11:33,Product1,1200,Visa,Stefan,Stavanger,Rogaland,Norway,1/11/09 9:02,1/12/09 10:37,58.966667,5.75
79,1/8/09 13:14,Product1,1200,Visa,Dr. Claudia,Oslo,Oslo,Norway,1/8/09 12:47,1/13/09 10:49,59.916667,10.75
168,1/7/09 8:21,Product1,1200,Visa,Jannik,Holmenkollen,Oslo,Norway,1/3/09 11:06,1/19/09 6:54,59.966667,10.666667
213,1/21/09 11:36,Product1,1200,Visa,nicole,Oslo,Oslo,Norway,12/23/08 12:02,1/21/09 13:47,59.916667,10.75
234,1/1/09 14:22,Product1,1200,Mastercard,Liban,Stavanger,Rogaland,Norway,6/19/08 10:48,1/22/09 14:38,58.966667,5.75
262,1/10/09 3:28,Product1,1200,Visa,frauke,Horten,Vestfold,Norway,11/24/08 15:50,1/24/09 15:10,59.413611,10.466944
343,1/15/09 10:51,Product1,1200,Mastercard,Pia,Sola,Rogaland,Norway,1/11/09 8:54,1/28/09 10:39,58.883333,5.6
387,1/11/09 14:56,Product1,1200,Visa,Nicole,Aardal,Sogn og Fjordane,Norway,1/5/09 5:51,1/31/09 4:21,61.55,6.35
408,1/9/09 16:35,Product1,1200,Diners,Jennifer,Nordstrand,Oslo,Norway,12/29/05 9:26,2/1/09 4:18,59.860833,10.790556
429,1/6/09 3:39,Product1,1200,Visa,Krista,Bergen,Hordaland,Norway,9/20/05 1:58,2/2/09 0:08,60.391111,5.324722


¿Cuáles son las transacciones que fueron realizadas con una tarjeta Visa en los Países Bajos?

In [8]:
dataset[(dataset["Country"] == "Netherlands") & (dataset["Payment_Type"] == "Visa")]

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude
224,1/21/09 14:25,Product1,1200,Visa,Tricia,Castricum,Noord-Holland,Netherlands,12/28/07 15:28,1/22/09 0:38,52.55,4.666667
660,1/27/09 12:47,Product1,1200,Visa,Caterina,Amsterdam,Noord-Holland,Netherlands,1/27/09 12:03,2/12/09 12:59,52.35,4.916667
712,1/19/09 15:40,Product2,3600,Visa,Julia,Ede,Gelderland,Netherlands,1/19/09 14:32,2/15/09 10:33,52.033333,5.666667
841,1/30/09 23:49,Product2,3600,Visa,Stephanie,Hilversum,Noord-Holland,Netherlands,11/30/08 11:54,2/21/09 14:05,52.233333,5.183333


La librería pandas nos permite resolver preguntas aun más interesantes, tales como cuáles son los países con la mayor cantidad de transacciones. Para esto, haremos uso de `group_by`, que, en palabras sencillas, nos permite agrupar las filas de un DataFrame de acuerdo a alguna(s) columna(s).

In [9]:
dataset.groupby(["Country"]).count()["Transaction_date"].sort_values(ascending=False)[0:4]

Country
United States     463
United Kingdom    100
Canada             76
Ireland            49
Name: Transaction_date, dtype: int64

Ahora queremos saber cuánto dinero fue transado por cada medio de pago.

In [10]:
dataset.groupby(["Payment_Type"])["Price"].sum()

Payment_Type
Amex          188900
Diners        133800
Mastercard    458450
Visa          849350
Name: Price, dtype: int64

#### Propuesto: ¿Cuál fue el producto más vendido dentro de Estados Unidos?

In [11]:
# Escribe tu solución aquí

El retorno de la celda anterior debería verse más o menos así:

### Agregando información al dataset

Queremos agregar una columna que indique cuán satisfecho quedó el cliente con su transacción. La medida de satisfacción que utilizaremos será una nota de 1 a 5. Primero definimos una función que entregue $n$ *ratings* aleatorios.

In [12]:
import random

def random_ratings(number):
    ratings = []
    for i in range(number):
        rating = random.choice(range(1,6))
        ratings.append(rating)
    return ratings

Ahora agregamos la columna de ratings de la siguiente manera:

In [13]:
ratings = random_ratings(len(dataset))
dataset["Rating"] = ratings

Revisemos si efectivamente se añadió la columna:

In [14]:
dataset.sample(5)

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude,Rating
410,1/7/09 13:49,Product1,1200,Diners,megan,West Hills,CA,United States,1/7/09 12:36,2/1/09 8:20,34.20111,-118.59722,1
616,1/21/09 4:46,Product1,1200,Visa,Tomasz,Klampenborg,Kobenhavn,Denmark,6/10/08 11:25,2/10/09 12:22,55.766667,12.6,1
912,1/25/09 11:35,Product3,7500,Mastercard,Anita,Fresno,TX,United States,1/24/09 9:24,2/25/09 14:22,29.53861,-95.44722,5
692,1/25/09 12:35,Product2,3600,Visa,Charlene,Sebastopol,CA,United States,1/25/09 10:42,2/14/09 10:40,38.40222,-122.82278,2
631,1/4/09 12:53,Product1,1200,Diners,Kayla,Leamington Spa,England,United Kingdom,12/11/08 7:35,2/11/09 0:04,52.3,-1.533333,4


Imaginemos que queremos cambiar los números de rating 1-5 a algo más descriptivo:

- 1: Very Dissatisfied.
- 2: Somewhat Dissatisfied.
- 3: Neither Satisfied Nor Dissatisfied.
- 4: Somewhat Satisfied.
- 5: Very Satisfied.

¿Cómo lo hacemos? El método `apply` nos ayudará mucho.

En primer lugar, conviene definir una función que dado un *rating* numérico, retorne la medida de satisfacción en palabras:


In [15]:
def convert(rating):
    if rating == 1:
        return "Very Dissatisfied"
    elif rating == 2:
        return "Somewhat Dissatisfied"
    elif rating == 3:
        return "Neither Satisfied Nor Dissatisfied"
    elif rating == 4:
        return "Somewhat Satisfied"
    else:
        return "Very Satisfied"

Posteriormente, aplicamos la función a la columna *Ratings*.

In [16]:
dataset["Rating"] = dataset["Rating"].apply(convert)

Veamos cómo quedó el dataset.

In [17]:
dataset.head()

Unnamed: 0,Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude,Rating
0,1/2/09 6:17,Product1,1200,Mastercard,carolina,Basildon,England,United Kingdom,1/2/09 6:00,1/2/09 6:08,51.5,-1.116667,Neither Satisfied Nor Dissatisfied
1,1/2/09 4:53,Product1,1200,Visa,Betina,Parkville,MO,United States,1/2/09 4:42,1/2/09 7:49,39.195,-94.68194,Neither Satisfied Nor Dissatisfied
2,1/2/09 13:08,Product1,1200,Mastercard,Federica e Andrea,Astoria,OR,United States,1/1/09 16:21,1/3/09 12:32,46.18806,-123.83,Very Satisfied
3,1/3/09 14:44,Product1,1200,Visa,Gouya,Echuca,Victoria,Australia,9/25/05 21:13,1/3/09 14:22,-36.133333,144.75,Very Satisfied
4,1/4/09 12:56,Product2,3600,Visa,Gerd W,Cahaba Heights,AL,United States,11/15/08 15:47,1/4/09 12:45,33.52056,-86.8025,Somewhat Dissatisfied
