<a href="https://colab.research.google.com/github/diflores/ayudantia-2-iic1005-2019-2/blob/master/Ayudantia_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IIC1005: Ayudantía 2

#### 21 de agosto de 2019.

###### Esta ayudantía está inspirada en la Ayudantía 2 de la versión 2017-2 de este curso. Puedes encontrar la original [aquí](https://github.com/diflores/iic1005-ayudantia-2).

## *Jupyter notebooks*

**¿Qué es un *notebook*?**

Un *notebook* es un documento generado por la *Jupyter Notebook App*. Estos documentos contienen código ejecutable y también elementos más amigables para el ser humano común, tales como párrafos, ecuaciones e hipervínculos. Estas características convierten a los *notebooks* en herramientas ideales para aprender Python, procesar datos y aventurarse *machine learning*.

Los *notebooks* se componen de una serie de celdas, que pueden ser de distintos tipos. Por lo general, utilizaremos solo dos:

- Code (para escribir código ejecutable).
- [*Markdown*](https://guides.github.com/features/mastering-markdown/) (para escribir párrafos en dicho lenguage de marcación).

La celda actual es una celda de tipo *markdown*. La siguiente, corresponde a una de tipo *code*. Puedes ejecutar su código presionando el ícono ▶️:

In [0]:
print("¡Hola mundo!")

También puedes ejecutar el código de una celda presionando shift + enter, lo que ejecutará el código y avanzará a la celda siguiente. Si deseas ejecutar el código, pero mantenerte en la celda correspondiente, utiliza ctrl + enter. Si quieres aprender más atajos de teclado, presiona esc + h

## Pandas

**¿Qué es pandas?**

Pandas es una librería de Python que nos permitirá manipular datos de manera sencilla.

**¿Por qué no utilizamos las estructuras de datos de Python para esto?**

Porque aun cuando sirvan para solucionar el problema, su uso en esta misión no es eficiente. 

### Conceptos básicos de pandas: *Series* y *DataFrames*

Pandas cuenta con dos estructuras de datos principales, las *Series* y los *DataFrames*. Una Series puede ser comprendida como una columna de datos. Un *DataFrame*, por su parte, puede ser visto como un conjunto de *Series*.

A continuación, revisaremos un ejemplo sencillo, que nos permitirá introducirnos al uso de pandas. Lo primero que debemos hacer es importar la librería:

In [0]:
import pandas as pd

En este ejemplo, utilizaremos un *dataset* de transacciones de enero de 2009, el que fue obtenido desde [aquí](https://support.spatialkey.com/spatialkey-sample-csv-data/). Lo primero que debemos hacer es cargar los datos. Para ello, la librería pandas provee un método muy útil llamado `read_csv`.

In [0]:
!wget -O SalesJan2009.csv https://gist.githubusercontent.com/diflores/e11af543eb64090d2446f231f2e84f0f/raw/94cdd2b4de0716ba70ef89b69674d53737ce8a9c/SalesJan2009.csv

In [0]:
dataset = pd.read_csv("SalesJan2009.csv")

### Explorando los datos mediante preguntas *interesantes*
Antes de manipular los datos, es conveniente explorarlos. Inicialmente, podríamos preguntarnos: ¿qué columnas contiene el *dataset* recién cargado? Podemos obtener esta información ejecutando la siguiente celda:

In [0]:
dataset.columns

**¿Cuántas filas tiene el *dataset*?**

In [0]:
len(dataset)

**¿Cómo se ve el *dataset*?**

In [0]:
dataset.sample(10)

Pandas también nos permite responder preguntas un poco más interesantes como:

**¿Cuáles son las transacciones que fueron realizadas en Noruega?**

In [0]:
dataset[dataset["Country"] == "Norway"]

**¿Cuáles son las transacciones que fueron realizadas con una tarjeta Visa en los Países Bajos?**

In [0]:
dataset[(dataset["Country"] == "Netherlands") & (dataset["Payment_Type"] == "Visa")]

La librería pandas nos permite resolver preguntas aun más interesantes, tales como **¿cuáles son los países con la mayor cantidad de transacciones?**. Para contestar esto, haremos uso de `group_by`, que, en palabras sencillas, nos permite agrupar las filas de un DataFrame de acuerdo a alguna(s) columna(s).

In [0]:
dataset.groupby(["Country"]).count()["Transaction_date"].sort_values(ascending=False)[0:4]

Ahora queremos saber cuánto dinero fue transado por cada medio de pago:

In [0]:
dataset.groupby(["Payment_Type"])["Price"].sum()

#### Propuesto: ¿Cuál fue el producto más vendido dentro de Estados Unidos?

In [0]:
# Escribe tu solución aquí
dataset[dataset["Country"] == "United States"]["Product"].value_counts()

El retorno de la celda anterior debería verse más o menos así:

### Agregando información al dataset

Queremos agregar una columna que indique cuán satisfecho quedó el cliente con su transacción. La medida de satisfacción que utilizaremos será una nota de 1 a 5. Primero definimos una función que entregue $n$ *ratings* aleatorios.

In [0]:
import random

def random_ratings(number):
    ratings = []
    for i in range(number):
        rating = random.choice(range(1,6))
        ratings.append(rating)
    return ratings

Ahora agregamos la columna de ratings de la siguiente manera:

In [0]:
ratings = random_ratings(len(dataset))
dataset["Rating"] = ratings

Revisemos si efectivamente se añadió la columna:

In [0]:
dataset.sample(5)

Imaginemos que queremos cambiar los números de rating 1-5 a algo más descriptivo:

- 1: Very Dissatisfied.
- 2: Somewhat Dissatisfied.
- 3: Neither Satisfied Nor Dissatisfied.
- 4: Somewhat Satisfied.
- 5: Very Satisfied.

¿Cómo lo hacemos? El método `apply` nos ayudará mucho.

En primer lugar, conviene definir una función que dado un *rating* numérico, retorne la medida de satisfacción en palabras:


In [0]:
def convert(rating):
    if rating == 1:
        return "Very Dissatisfied"
    elif rating == 2:
        return "Somewhat Dissatisfied"
    elif rating == 3:
        return "Neither Satisfied Nor Dissatisfied"
    elif rating == 4:
        return "Somewhat Satisfied"
    else:
        return "Very Satisfied"

Posteriormente, aplicamos la función a la columna *Ratings*:

In [0]:
dataset["Rating"] = dataset["Rating"].apply(convert)

Veamos cómo quedó el dataset:

In [0]:
dataset.head()

Esto ha sido solo una pequeña introducción a pandas. Es muy posible que en tu tarea debas emplear algunas cosas que no vimos en esta ayudantía, por lo que deberás investigar por tu cuenta. Recuerda que ante cualquier duda, los ayudantes estamos a tu completa disposición.