<h1 align="center"> Trabajo práctico 4 - Gestión y visualización de datos con Pandas y MatplotLib </h1>

<i>¿Cuál versión de Python estoy utilizando?</i>

In [None]:
!python -V

<div style="border: 2px solid #D24747; background-color:#F8B4B4">
<h2>Objetivos de la actividad</h2>
<ul>
<li>Utilizar las librerias Pandas y MatplotLib para manipular y visualizar conjuntos de datos</li>
<li>Introducir algunos conceptos de Ciencia de los Datos...
</ul>

El Trabajo Práctico siguiente es inspirado del <a href="https://github.com/jvns/pandas-cookbook">Pandas Cookbook</a> desarrollado por Julia Evans (2015).

<h2>0. Unas palabras sobre las herramientas de Python para la Ciencia de los Datos...</h2>

<img src="python-packages.png"></img>

<p>Cada toolkit de Python tiene sus propios objetivos:</p>
<ul>
     <li><b>Numpy</b> agrega funcionalidades en Python para soportar arreglos y matrices de gran tamaño y funciones matemáticas para manipularlas.</li>
     <li><b>SciPy</b> es una colección de algoritmos matemáticos y funciones programadas con NumPy. Agrega funciones y clases de alto nivel para facilitar la manipulación y visualización de datos.</li>
      <li><b>Pandas</b> ofrece estructuras de datos y operaciones para manipular y analizar matrices de datos numéricos y series de tiempo.</li>
    <li><b>Scikit-learn</b> es una librería Python para el Machine Learning, contiene una implementación de los principales algoritmos estandares para el aprendizaje supervisado y no supervisado.</li>
</ul>

<h2>1. Conceptos básicos: leer un DataFrame y visualizar</h2>

In [None]:
# Cargar las librerías
import pandas as pd
import matplotlib.pyplot as plt

<p>El primer dataset que queremos explorar consiste en un archivo CSV donde se encuentra información sobre cómo la gente utiliza las pistas para bicicletas de la ciudad de Montreal.</p>
<ul><li>La primera etapa consiste en cargar los datos en un objeto <i>DataFrame</i>. Un DataFrame es una de las estructuras de datos provistas por Pandas para representar los datos, consiste en una matriz en dos dimensiones (ver <a href="https://pandas.pydata.org/pandas-docs/stable/dsintro.html">más detalles</a>) donde cada fila es un dato y cada columna una característica sobre los datos.</li></ul>

In [None]:
#Cargar los datos en un DataFrame "df"
df = pd.read_csv('bike2016.csv', sep=",")
#Ver solamente las 3 primeras filas
df[:3]

<b>Pregunta: A qué corresponden los atributos y los valores?</b>

In [None]:
df = pd.read_csv('bike2016.csv', sep=",",parse_dates=['Date'],dayfirst=True, index_col="Date", encoding="latin1")
df[:3]

<b>Pregunta: 
<ul>
<li>¿De qué sirven los atributos "sep", "parse_dates", "dayfirst" y "index_col"?</li>
<li>Modifique el valor del parametro 'encoding' para evitar problemas con los caracteres</li></b>

<ul>
<li>Seleccionar una columna particular:</li>
</ul>

In [None]:
df_Berri1 = df['Berri1']
df_Berri1[:4]

<ul>
<li>Dibujar un gráfico simple con los valores de una columna:</li>
</ul>

In [None]:
df['Berri1'].plot()
plt.show()

In [None]:
#Modificar el tamaño de la figura
plt.rcParams['figure.figsize'] = (15, 5)

df['Berri1'].plot()
plt.show()

<ul>
<li>Crear un gráfico para visualizar los datos de todos los lugares</li>
</ul>

In [None]:
...

<b>Pregunta: ¿En SQL, cuáles serían las consultas equivalentes a las celdas siguientes?</b>

In [None]:
df[:5]

In [None]:
df[:3]['Boyer']

In [None]:
df[['Boyer','Maisonneuve_2']][:4]

<h2>2. Una operación muy útil en Data Science: "Group By" y "Aggregate"</h2>

<ul>
<li>En el ejercicio siguiente, vamos a responder a la pregunta siguiente: ¿Qué día los habitantes de Montreal pasan lo más por la calle 'Berri'?
</ul>

In [None]:
df['Berri1'].plot()
plt.show()

Es díficil responder a la pregunta con este gráfico... Sería ideal poder hacer un 'group by' según el día de la semana. 

In [None]:
#Creación de un dataframe con los datos de la calle 'Berri'
df_berri = df[['Berri1']].copy()
df_berri[:5]

<ul><li>df_berri es una variable de tipo DataFrame, tiene una columna particular que sirve como Index. ¿Cuál es el index de df_berri? ¿Cuál es el tipo de datos: String o Date?</li></ul>

In [None]:
df_berri.index

<b>Pregunta: ¿Qué datos devuelven las variables 'day' y 'weekday' del DatetimeIndex?</b>

In [None]:
df_berri.index.day

In [None]:
df_berri.index.weekday

<ul><li>0 corresponde a 'Lunes', 1 a 'Martes', etc. Ahora podemos agregar esta información en nuestra DataFrame:</li></ul>

In [None]:
df_berri.loc[:,'weekday'] = df_berri.index.weekday
df_berri[:5]

<b>Pregunta: ¿De qué sirve la función <i>loc()</i>?

<ul>
<li>En Pandas, las DataFrame tienen una función <i>groupby()</i> similar a SQL. Calculemos la suma de bicicletas que pasaron por la calle Berri1 agrupadas según el día de la semana:</li></ul>

In [None]:
weekday_counts = df_berri.groupby('weekday').aggregate(sum)
weekday_counts

<ul><li>Sería mejor reemplazar los valors '0', '1', '2', etc. por el nombre del día. Reemplazemos los valores de la columna index:</li></ul>

In [None]:
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekday_counts

In [None]:
#Visualizar en un histograma
weekday_counts.plot(kind='bar')
plt.show()

<b>Pregunta: ¿Cuál es la respuesta a nuestra pregunta inicial?</b>

<h2>3. Gestionar los datos de tipo String y Serie de Tiempo desde Pandas</h2>

Vimos anteriormente que Pandas ofrece funcionalidades interesantes para manipular fechas, es also interesante para manipular cadenas de caracteres.

<ul>
<li>En esta sección, jugaremos con el dataset 'weather_2012.csv' que contiene datos meteorologicos de Montreal, y trataremos responder a la pregunta científica siguiente: <i>¿Qué mes hay más nieve en Montreal?</i></li>
</ul>

In [None]:
weather_2012 = pd.read_csv('weather_2012.csv', parse_dates=True, index_col='Date/Time')
weather_2012[:5]

La columna "Weather" da precisiones sobre las condiciones climáticas en Montreal con algunas palabras claves. Cuando hay nieve, este campo contiene la palabra 'Snow'. Pandas tiene funcionalidades para manipular columnas contieniendo texto (ver <a href="http://pandas.pydata.org/pandas-docs/stable/basics.html#vectorized-string-methods">Documentación</a>), por ejemplo:

In [None]:
weather_column=weather_2012['Weather']
is_snowing = weather_column.str.contains('Snow')
is_snowing[:5]

In [None]:
is_snowing.plot()
plt.show()

<ul>
<li>Pandas tiene una función <i>resample()</i> muy práctica que permite discretizar series de tiempo según varias granularidad. Ver <a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.resample.html">documentación</a> y <a href="http://benalexkeen.com/resampling-time-series-data-with-pandas/">ejemplos</a>.Esta función es un poco similar a un Group By pero con datos temporales.</li>
<li>En nuestro ejemplo, vamos a organizar los datos de temperatura por mes ('M') tomando la mediana cómo función de agregación.</li>
</ul>

In [None]:
import numpy as np

weather_2012['Temp (C)'].resample('M').apply(np.median).plot(kind='bar')

<ul>
<li>Para responder a nuestra pregunta de investigación inicial, podemos hacer el mismo "resample" con los datos que indican si hay nieve o no. Pero necesitamos convertir el tipo de datos antes:</li>
</ul>

In [None]:
#Convertir los valores de la DataFrame is_snowing (booleano --> float)
is_snowing.astype(float)[:10]

In [None]:
is_snowing.astype(float).resample('M').apply(np.mean).plot(kind='bar')

<b>Pregunta: ¿Cuál es la respuesta a nuestra pregunta de investigación?</b>

<ul>
<li>Finalmente, podemos crear un nuevo dataset con los datos "Temperature" y "Snow" que hemos reorganizados, y visualizarlos en un mismo gráfico.
</ul>

In [None]:
temperature = weather_2012['Temp (C)'].resample('M').apply(np.median)
is_snowing = weather_2012['Weather'].str.contains('Snow')
snowiness = is_snowing.astype(float).resample('M').apply(np.mean)

# Name the columns
temperature.name = "Temperature"
snowiness.name = "Snowiness"

<ul><li>Utilizamos la función <i>concat()</i> para agrupar las dos dataframes anteriores, precisando el nombre de cada columna:</li></ul>

In [None]:
new_df_stats = pd.concat([temperature, snowiness], axis=1)
new_df_stats

In [None]:
new_df_stats.plot(kind='bar', subplots=True, figsize=(15, 10))

<h2>4. Data Science: Caso de estudio</h2>

<p>El dataset '311-service-requests' contiene datos correspondiendo a llamadas al servicio 311 de la ciudad de Nueva York. 311 es servicio para procesar situaciones no urgentes, por ejemplo: vehiculo abandonado, denuncias por ruido, semaforos que no funcionan, etc.).</p> 

In [None]:
df_nyc_311 = pd.read_csv('311-service-requests.csv', low_memory=False)
df_nyc_311[:5]

In [66]:
df_nyc_311['Borough'].value_counts()

BROOKLYN         32890
MANHATTAN        24288
QUEENS           22281
BRONX            19686
Unspecified       7107
STATEN ISLAND     4817
Name: Borough, dtype: int64

<b>Preguntas de investigación:</b>
<ul>
<li>¿Cuáles son los tipos de denuncias (Complaint Type) más frecuentes en Nueva York y por barrios ('Borough')?</li>
<li>¿Qué barrio tiene más denuncias por ruido ('Noise')?</li>
</ul>

In [None]:
#TODO...