# Introducción a herramientas

En este cuaderno vamos a familiarizarnos un poco más con Python, NumPy y Pandas. 

NumPy es la librería más importante de procesamiento científico de Python. Lo más importante es que da acceso a arreglos de muchas dimensiones con gran desempeño. Un arreglo en Python es una lista de datos donde todos son del mismo dato y están indexados como enteros. Primero vamos a repasar brevemente listas normales para tener un punto de comparación.

In [None]:
lis = [1, 2, 3, 4]
print(lis)

In [None]:
lis[0]

In [None]:
lis[1:3]

In [None]:
lis[0:]

In [None]:
lis[-1]

Un arreglo de NumPy se puede construir con una lista. Para comenzar, debemos importar NumPy. Asegúrate de entender todo.

In [None]:
import numpy as np
a = np.array([1, 2, 3])
print(type(a))

In [None]:
print(a.shape)            
print(a[0], a[1], a[2])   

In [None]:
a[0] = 5                
print(a)                 

NumPy da funciones para crear arreglos comunes. Recuerda que las matrices son arreglos de arreglos.

In [None]:
np.zeros((2,2))

In [None]:
np.ones((3,4))

In [None]:
np.eye(5) 

In [None]:
np.random.random((2,2))

### Slicing
Slicing es un tema importante de Python. En NumPy, es slicing de arreglos es similar al de las listas. Es importante entender esto pues nos permitirá manipular matrices con facilidad.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a

In [None]:
print(a.size)
print(a.shape)

El primer elemento indica las filas y el segundo las columnas. Aquí se indica que se quiere todos los elementos hasta el anterior a la segunda fila, y todas las columnas de la primera a la tercera, sin incluirla.

In [None]:
a[:2, 1:3]

In [None]:
# Ten cuidado porque sigue apuntando a la misma localidad en la memoria de la computadora.
b = a[:2, 1:3]
b[0, 0] = 77 
a[0, 1]

### Matemáticas

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

In [None]:
x + y

In [None]:
np.add(x,y)

In [None]:
# Multiplicación por elemento
print(x * y)
print(np.multiply(x, y))

In [None]:
# Multiplicación de matrices. Es tanto un método de los arreglos como función de la librería
print(x.dot(y))
print(np.dot(x, y))

In [None]:
# TODO: Saca el promedio y desviación estandar de x
mean = ...
std = ...

print(mean)
print(std)

In [None]:
# TODO: Saca el máximo y el mínimo de x
minElem = ...
maxElem = ...

print(minElem)
print(maxElem)

In [None]:
# TODO: Saca la transpuesta de x
trans = ...
print(trans)

In [None]:
#TODO: Saca e^x
exponential = ...
print(exponential)

In [None]:
# TODO: Calcula la inversa de x
x = np.array([[1,2],[3,4]])
inv = ... 
print(inv)

In [None]:
# Agregamos una columna de 0s
x = np.array([[1,2],[3,4], [5, 6]])
a = [[0], [0], [0]]
x = np.append(x, a, axis=1)
x

## Plotting

Ahora veremos cómo hacer gráficas en Python. Corre la siguiente celda dos veces.

### Plot normal

In [None]:
import matplotlib.pyplot as plt

# Se crean 100 puntos para ir de 0 a 10
x = np.linspace(0, 10, 100)

# Se grafica
plt.plot(x, x, label='linear')

# Agregas una leyenda
plt.legend()

# Se despliega
plt.show()
print(x)

### Plot con scatter plot

In [None]:
fig = plt.figure()
plt.plot([1, 2, 3, 4], [10, 20, 25, 30], color='lightblue', linewidth=3)
plt.scatter([0.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='^')
plt.xlim(0.5, 4.5)
plt.show()

### Plot sobre plot (TODO)

In [None]:
# Crea una línea que vaya de 0 a 200 subiendo de 20 en 20
xa = np.arange(0, 10)
ya = np.arange(0, 200, 20)

# TODO Crea otra línea que vaya de 200 a 100 bajando de 10 en 10
xb = np.arange(0,10)
yb = ...

# Haz un plot linear de a y otro linear de b
plt.plot(xa, ya, label='linear1')
plt.plot(..., yb, label='linear1')

# Se despliega
plt.show()

### Histograma de distribución normal

In [None]:
mu, sigma = 0, 0.1 # promedio y distribución estandar
s = np.random.normal(mu, sigma, 1000)
hist = plt.hist(s)

## Pandas

En esta sección aprenderemos un poco de Pandas y cómo utilizarlo.

### Parte 1. Leer un CSV

Un CSV es un tipo de archivo con información separada por comas. Podemos utilizar la función read_csv para leer el archivo. En esta parte estaremos utilizando información de ciclistas de Montréal. La información es [publica](http://donnees.ville.montreal.qc.ca/dataset/velos-comptage) pero ya está en el archivo bikes.csv del repositorio. Utilizaremos la info del 2012. Este dataset tiene una lista de cuántas personas hay en 7 caminos diferentes, cada día, en Montreal.

In [None]:
import pandas as pd

In [None]:
broken_df = pd.read_csv('bikes.csv')
broken_df[:5]

Esto está claramente roto. Para comenzar, si ves la información, aquí en vez de estar separados por comas, están separados por punto y coma (;). ```read_csv``` tiene opciones que nos permitirá arreglarlo.
* cambiar el separador a ;
* parsear las fechas
* hacer que el índice sea la columna Date
* avisar que el formato tiene el día primero (DD/MM/YY en vez de MM/DD/YY)

In [None]:
fixed_df = pd.read_csv('bikes.csv', sep=';', parse_dates=['Date'], dayfirst=True, index_col='Date')
fixed_df[:5]

Pandas utiliza el DataFrame para guardar la información. Ya lo utilizaste en el problema del Titanic. El objeto DataFrame funciona como una tabla, tenemos columnas y filas. Conseguir los elementos de una columna es como extraer elementos de un diccionario de Python:

In [None]:
fixed_df["Berri 1"]

Para hacer un plot, sólo hay que agregar .plot() al DataFrame. Como hicimos el parse_date al arreglar la tabla, y marcar Date como el índice, se hará la gráfica respecto a este.

In [None]:
fixed_df['Berri 1'].plot()

También podemos graficar todas las columnas a la vez.

In [None]:
fixed_df.plot(figsize=(15, 10))

### Parte 2. Entendiendo el DataFrame y respondiendo preguntas

Ahora utilizaremos una parte de un [dataset de quejas](https://nycopendata.socrata.com/Social-Services/311-Service-Requests-from-2010-to-Present/erm2-nwe9) de New York. Varias ciudades y países tienen datasets públicos con información abierta. Puedes buscar Mexico Datos Abiertos y encontrarás mucho. En la siguiente celda cargamos el dataset. Míralo e intenta entender lo que tiene.

In [None]:
complaints = pd.read_csv('service_requests.csv')
complaints

In [None]:
## TODO: Selecciona la columna con el tipo de complaint
c_types = ...
c_types[:5]

También podemos seleccionar varias columnas a la vez

In [None]:
complaints[['Complaint Type', 'Borough']][:5]

**¿Cuál es el tipo de complain más común?** ¡Lo resuelves en una línea!

In [None]:
complaint_counts = complaints['Complaint Type'].value_counts()
complaint_counts[:10]

Podemos hacer una gráfica de barras incluso.

In [None]:
complaint_counts[:10].plot(kind='bar')

Nos podemos quedar sólo con los complaints que sean por ruido. Para hacer esto, queremos que el Complain Type sea "Noise - Street/Sidewalk".

In [None]:
noise_complaints = complaints[complaints['Complaint Type'] == "Noise - Street/Sidewalk"]
noise_complaints[:3]

¿Cómo funciona? Veamos la parte de dentro:

In [None]:
complaints['Complaint Type'] == "Noise - Street/Sidewalk"

Esto es una lista de True y False para cada fila del DataFrame. Cuando indexamos el DataFrame con este arreglo, sólo conseguiremos las filas donde el valor es verdadero. 

También podemos juntar multiples condiciones:

In [None]:
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

O quedarnos con sólo algunas columnas

In [None]:
complaints[is_noise & in_brooklyn][['Complaint Type', 'Borough', 'Created Date', 'Descriptor']][:10]

Por un lado, tenemos pd.Series, que es la estructura que compone el DataFrame.

In [None]:
pd.Series([1,2,3])

Por otro lado, tenemos el ```np.array```. Puede ser confuso porque parecen ser lo mismo. Realmente, ```pd.Series``` está compuesto por un ```np.array```. Si pones ```.values```al final del la serie, conseguirás el ```np.array```que lo compone

In [None]:
pd.Series([1,2,3]).values

**¿Cuál es el barrio que tiene más quejas por ruido?**

In [None]:
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
noise_complaints = complaints[is_noise]
noise_complaints['Borough'].value_counts()

¡Es Manhattan! ¿Pero cómo hacemos si queremos tenerlo como porcentajes? Sólo habría que dividir entre el total.

In [None]:
noise_complaint_counts = noise_complaints['Borough'].value_counts()
complaint_counts = complaints['Borough'].value_counts()

In [None]:
noise_complaint_counts / complaint_counts

In [None]:
(noise_complaint_counts / complaint_counts).plot(kind='bar')

Recuerda tener cuidado con los tipos. En este caso, salió bien, pero a veces es necesario poner .astype(float) o (float) para asegurarse que el número sea un número real y no un número entero. Esto previene muchos errores comunes, como dividir entre 0.

### Aprendiendo del dataset

Regresaremos a nuestro dataset de bicicletas de Montreal. ¿Podemos determinar si es una ciudad en la que la gente utiliza bicicleta para hacer commute o si es una ciudad que utiliza bicicleta por diversión? ¿Cuándo se usa más la bicicleta? Empezaremos mirando una de las rutas, Berri. Si la tabla de resultado sale un poco rara no te preocupes.

In [None]:
bikes = fixed_df
berri_bikes = bikes[['Berri 1']]
berri_bikes[:5]

Como vimos antes, aquí el index es Date. A partir de este índice podemos determinar qué día de la semana es. 

In [None]:
berri_bikes.index

No tenemos la info de todos los días, sólo de 310, así que no parecer ser una tarea tan fácil. Por suerte, Pandas tiene muy buenas herramientas para manejar días y series de tiempos.

In [None]:
berri_bikes.index.day

In [None]:
berri_bikes.index.weekday

Podemos agregar una columna nueva con el día de la semana de cada registro

In [None]:
berri_bikes['weekday'] = berri_bikes.index.weekday
berri_bikes[:5]

Hay un método llamado ```groupby()``` basado en un lenguaje de las bases de datos, SQL. Aquí me voy a enfocar en cómo utilizarlo. Intenta entender qué pasa, no te enfoques en el cómo lo hace. Si quieres aprender más, puedes revisar la [documentación](http://pandas.pydata.org/pandas-docs/stable/groupby.html).

En la siguiente línea lo que decimos es: Agrupa las filas por el día de la semana, y luego suma los valores con el mismo día de la semana.

In [None]:
weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)
weekday_counts

Tener días del 0 al 6 es una mala experiencia para cualquier lector de tablas, así que podemos cambiar el índice directamente.

In [None]:
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekday_counts

In [None]:
# TODO: Haz una gráfica de barras con weekday_counts

Con esto podemos concluir que los ciclistas de Montreal son más de commuting que como entretenimiento. 

Hay mucho más de estas herramientas, pero iremos aprendiendo en el camino. 