# Cluster 2019

# clase_00: Importar data, describirla y visualizarla.

**Objetivo:**En esta primera clase aprenderemos a importar archivos .csv a python. Luego procederemos a realizar el adecuado pre-procesamiento y limpieza de datos con el fin de obtener un dataset acorde para ser analizado. Finalmente realizaremos un análisis exploratorio de los datos, con el fin de obtener estadísticas descriptivas y visualizaciones.

## **Comencemos:**

**Importamos las Librerías necesarias:** Utilizaremos Numpy para realizar calculos matriciales, pandas para manejar los datos y almacenarlos, y matplotlib junto con Seaborn para visualizar.

In [None]:
# importamos las librerías necesarias para trabajar.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Read .csv

**Read_CSV:** Descargamos de https://data.buenosaires.gob.ar/dataset/subte-viajes-molinetes el dataset de usuarios de subte por molinete del año 2017. Luego con el comando de Pandas "pd.read_csv" indicamos donde se ubica el dataset a ser leido. Una vez leido guardamos la tabla como un DataFrame de Pandas en el elemento "molinetes". Solicitaremos que el indice de nuestro dataframe importado sea la columna "PERIODO" del archvo .csv que manejamos.

In [None]:
pwd

In [None]:
ls

In [None]:
# importante detallar que el delimiter indica como estan separadas las columnas en el dataframe.
molinetes = pd.read_csv('/home/human/Dropbox/clusterai/clases/clase_00/molinetes_historico.csv', delimiter=';')

# Visualizar el dataset importado
con el comando .head() podemos ver en pantalla las primeras filas y del dataframe

In [None]:
molinetes.head()

# comando shape
si queremos saber cuantos renglones y columnas tiene el objeto en cuestion, utilizamos el comando de numpy "shape".Asi podemos ver que nuestro dataset posee mas de 11 millones de renglones y 12 columnas

In [None]:
# comando shape en el dataframe importado "molinetes"
np.shape(molinetes)

In [None]:
# Imprimimos en pantalla un reporte de un renglón sobre las dimensiones de nuestro dataframe.
# Ver que utilizamos la función de numpy "shape".
print("El dataset importado tiene "+ str(np.shape(molinetes)[0]) + " renglones y " + str(np.shape(molinetes)[1]) + " columnas")

# Verificamos si existen columnas con valores faltantes

In [None]:
# revisamos si existen columnas que contengan valores faltantes (NaNs)
col_nulls = molinetes.isnull().any()
col_nulls

# Columnas e Indices en Pandas

**Columnas e Indices en Pandas:** los dataframes de pandas se caracterizan por tener nombres explícitos por columna y por renglón (indice). Es decir que podemos llamar a un elemento (o varios) de un DataFrame por el nombre de su columna e índice.

In [None]:
# Obtenemos los nombres de las columnas del dataframe Molinetes y lo guardamos en "columnas_molinetes"
columnas_molinetes = molinetes.columns
columnas_molinetes

In [None]:
# Obtenemos los nombres de los índices (renglones) del dataframe Molinetes y lo guardamos en "instancias_molinetes"
instancias_molinetes = molinetes.index
instancias_molinetes

# Seleccionar una sola columna de un dataframe
Podremos seleccionar la o las columnas y renglones que quisiéramos para futuros análisis.

In [None]:
# seleccionamos la columna LINEA de molinetes
molinetes.LINEA.head(5)

In [None]:
# ver que tambien podriamos haber utilizado corchetes para ingresar el nombre de la columna a seleccionar
molinetes['LINEA'].head()

# Filtrar un dataframe por el valor de una columna

**Filtrar un dataframe por el valor de una columna:** Inicialmente filtraremos nuestro dataframe inicial "molinetes"por el valor "LINEA_B" de la columna "LINEA" y guardar el resultado en el dataframe "molinetes_b". 

Primero observamos que podemos aplicar una operación "booleana" donde la respuesta será True o False. De esta manera obtendremos un vector "mascara" donde indicará con True cada renglon de "molinetes" cuyo valor de la columna "LINEA" sea "LINEA_B".

In [None]:
(molinetes['LINEA'] == 'LINEA_B')

### Filtrar un dataframe por ".loc"

Para poder filtrar con una máscara booleana al dataframe "molinetes" utilizaremos la sub-función ".loc" que sirve para filtrar los dataframes de pandas de esta manera.

In [None]:
# como inicialmente queremos trabajar con los datos de la Linea B, filtramos por el valor "LINEA_B" de la columna
# "LINEA" nuestro dataframe original llamado molinetes.

molinetes_b = molinetes.loc[molinetes['LINEA'] == 'LINEA_B']

In [None]:
molinetes_b.index

In [None]:
# observamos que la cantidad de renglones del nuevo dataframe es menor al del original, puesto que solo 
# estamos considerando a los molinetes de la linea B
np.shape(molinetes_b)

In [None]:
# hacemos un head de solamente los primeros 3 renglones del nuevo dataframe "molinetes_b"
molinetes_b.head(3)

### Filtrar un dataframe con ".iloc"
Podriamos filtrar nuestro dataframe de otra manera, por ejemplo indicando simultàneamente que renglones y columnas queremos preservar. Para ello en vez de utilizar .loc utilizaremos .iloc.

In [None]:
# por ejemplo con .iloc seleccionamos los primeros 10 renglones y 3 columnas del nuevo dataframe "molinetes_b"
molinetes_b.iloc[0:10,0:3] 

#### **Consejo:** 
Para saber todos los atajos y trucos en Pandas te recomendamos que tengas a mano la "Pandas Cheat Sheet" donde encontrarás muchos consejos y sugerencias para agilizar tu trabajo. https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

# Primeras visualizaciones: Countplot

Visualización Countplot de Seaborn para las distintas lineas de subte sobre el dataframe "molinetes".

In [None]:
# con el comando "countplot" de Seaborn (importado como sns) generamos un gráfico de barras por la columna "LINEA"
sns.set_context("talk")
plt.figure(figsize=(10,6))
sns.countplot(x="LINEA", data=molinetes)
plt.title("Cantidad de viajes por linea durante 2018")
plt.show()

Visualización de Countplot de Seaborn para las distintas estaciones de la linea B.

In [None]:
# luego generamos un countplot de seaborn por la columna estación, esta vez utilizando el nuevo dataframe filtrado
# molinetes_b, que solo contiene los datos de la linea B.
plt.figure(figsize=(10,6))
ax = sns.countplot(x="ESTACION", data=molinetes_b)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")
plt.title("Cantidad de viajes molinete por estacion linea B")
plt.show()

si quisieramos imprimir en pantalla los valores unicos de la columna "ESTACION" podemos usar el comando "np.unique" de numpy

In [None]:
# imprimimos todos los valores unicos dentro de la columna "ESTACION" para el dataframe "molinetes_b"
np.unique(molinetes_b.ESTACION)

# Estadisticas Descriptivas

Con el comando de numpy .mean() puedo obtener la media del elemento seleccionado, en este caso la columna "TOTAL" del dataframe "molinetes_b".

In [None]:
media_tot_b = np.mean(molinetes_b['TOTAL'])

In [None]:
# Luego procedemos a imprimir por pantalla la media calculada mas un texto 
print("La media total de todo el año 2017 para la linea B es " + str(media_tot_b))

por medio del comando .std() de numpy podemos calcular el desvío estandard de la variable en cuestion, en este caso la columna "TOTAL" del dataframe molinetes_b

In [None]:
desvio_std_tot_b = np.std(molinetes_b['TOTAL'])
print("El desvio estándard de la variable total para todo el año 2017 es " + str(desvio_std_tot_b))

por medio del comando .describe() de pandas podemos obtener estadísticas descriptivas del elemento en cuestion, La cantidad de instancias, la media, el desvio estandard, el valor minimo, el 1er cuartil, el 2do cuartil, el 3er cuartil y el valor máximo.

In [None]:
molinetes_b['TOTAL'].describe()

# Análisis del mes de Abril para la linea B

Primero filtramos utilizando .loc el dataframe "molinetes_b" por los renglones que en la columna "PERIODO" sean iguales a "201704". Generamos un nuevo dataframe filtrando y reteniendo las instancias/renglones con indice referido al mes de Abril

In [None]:
# el filtrado se realiza mediante la accion de pandas ".loc".
molinetes_b_abril = molinetes_b.loc[molinetes_b['PERIODO'] == 201704]

In [None]:
# imprimimos por pantalla los primeros 3 renglones del mes de abril
molinetes_b_abril.head(3)

In [None]:
# Obtenemos estadísticas descriptivas de la columna "TOTAL" del mes de abril.
molinetes_b_abril['TOTAL'].describe()

# Visualización Distplot
Utilizaremos esta visualización para generar un histograma + una curva de distribución de los datos a partir de sus frecuencias poblacionales

In [None]:
# displot para la columna "TOTAL" nos generará un histograma + la distribución generada de los datos a partir de 
# sus frecuencias poblacionales.
plt.figure(figsize=(10,6))
sns.distplot(molinetes_b_abril['TOTAL'])
plt.title('Distribución de cantidad de viajes totales de molinetes. Linea B. Mes Abril.')
plt.xlabel('Cantidad de Viajes en molinete por cada 15 mins')
plt.show()

In [None]:
# displot para la columna "TOTAL" nos generará un histograma + la distribución generada de los datos a partir de 
# sus frecuencias poblacionales.
plt.figure(figsize=(10,6))
sns.distplot(molinetes_b_abril.loc[molinetes_b_abril.ESTACION == 'LEANDRO N. ALEM']['TOTAL'], label = 'Alem')
sns.distplot(molinetes_b_abril.loc[molinetes_b_abril.ESTACION == 'FEDERICO LACROZE']['TOTAL'], label = 'Lacroze')
plt.title('Distribución de cantidad de viajes de molinetes. ALEM vs LACROZE.')
plt.xlabel('Cantidad de Viajes en molinete por cada 15 mins')
plt.legend(loc='upper right')
plt.show()

In [None]:
# displot para la columna "TOTAL" nos generará un histograma + la distribución generada de los datos a partir de 
# sus frecuencias poblacionales.
plt.figure(figsize=(10,6))
sns.distplot(molinetes_b_abril.loc[molinetes_b_abril.ESTACION == 'LEANDRO N. ALEM']['TOTAL'], label = 'Alem')
#sns.distplot(molinetes_b_abril.loc[molinetes_b_abril.ESTACION == 'FEDERICO LACROZE']['TOTAL'], label = 'Lacroze')
sns.distplot(molinetes_b_abril.loc[molinetes_b_abril.ESTACION == 'MEDRANO']['TOTAL'], label = 'Medrano')
plt.title('Distribución de cantidad de viajes molinetes. ALEM vs LACROZE.')
plt.xlabel('Cantidad de Viajes en molinete por cada 15 mins')
plt.legend(loc='upper right')
plt.show()

In [None]:
# visualizamos en pantalla las columnas del dataframe de la linea B
molinetes_b_abril.columns

# Tabla Pivote para Linea B, con Estaciones y Periodos
Las tablas pivote son elementos poderosos para resumir la información de nuestro dataframe, seleccionando que datos queremos que marquen nuestros renglones, otros para las columnas y otros para los valores. En otras palabras, podemos obtener un nuevo dataframe cuyas columnas y filas las podemos definir nosotros en funcion de los valores originales.

En este caso decidimos realizar una tabla pivote donde las columnas son los valores de la columna "ESTACIONES", el indice equivale a los valores de la columna "PERIODO" y los valores equivalen a la columna "TOTAL". Finalmente, con el comando "aggfunc" indicamos que el valor de cada celda sea la suma correspondiente de TOTAL para cada columna y renglon.

In [None]:
linea_b_2017 = pd.pivot_table(molinetes_b,values = 'TOTAL',columns = 'ESTACION', index = molinetes_b.PERIODO.values, aggfunc = np.sum)

In [None]:
linea_b_2017.head(3)

Obtenemos un nuevo dataframe de 12 renglones (meses) y 17 columnas (estaciones).

In [None]:
linea_b_2017.shape

**Heatmap con Seaborn**: con el comando sns.heatmap() podremos visualizar los valores del dataframe obtenido en el ultimo paso y asi en una sola figura entender cuales son los pares "mes-estacion" de mayor cantidad de viajes.

In [None]:
plt.figure(figsize=(12,8))
sns.heatmap(linea_b_2017)
plt.title("Cantidad de viajes por mes y estacion Linea B 2017")
plt.show()

### ¿que conclusiones parciales podemos obtener en base a las visualizaciones realizadas? 

# Visualizando series de tiempo con comando "plot" de matplotlib (plt)
Utilizando el dataframe obtenido de la tabla pivote en el paso anterior, procedemos a visualizar la cantidad de pasajeros que pasaron por cada estación a lo largo de todo el año 2017.

In [None]:
plt.figure(figsize=(12,8))
plt.plot(linea_b_2017.index, linea_b_2017['ANGEL GALLARDO'], label='ANGEL GALLARDO');
plt.plot(linea_b_2017.index, linea_b_2017['CARLOS GARDEL'], label='C GARDEL');
plt.plot(linea_b_2017.index, linea_b_2017['CALLAO.B'], label='CALLAO');
plt.plot(linea_b_2017.index, linea_b_2017['DORREGO'], label='DORREGO');
plt.plot(linea_b_2017.index, linea_b_2017['ECHEVERRIA'], label='ECHEVERRIA');
plt.plot(linea_b_2017.index, linea_b_2017['FEDERICO LACROZE'], label='LACROZE');
plt.plot(linea_b_2017.index, linea_b_2017['FLORIDA'], label='FLORIDA');
plt.legend(loc='upper right')
plt.title('Cantidad de tickes de molinete por mes')
plt.ylabel('Cantidad de tickets')
plt.xlabel('Mes')
plt.show()

# Análisis de la estación Lacroze de la linea B
Creamos un dataframe llamado "molinetes_lacroze" que contiene unicamente las instancias del dataframe "molinetes_b" cuyo valor del atributo/feature "ESTACION" sea igual a "FEDERICO LACROZE"

In [None]:
molinetes_lacroze = molinetes_b.loc[molinetes_b['ESTACION']== 'FEDERICO LACROZE']

In [None]:
molinetes_lacroze.head(3)

Podriamos seleccionar varias columnas en simultáneo con doble corchete en los extremos y detallando las columnas en cuestión. Así podriamos ver que tipo de pago es el mas utilizado en los molinetes de la estación Lacroze de la linea B.

In [None]:
molinetes_lacroze[['PAX_PAGOS', 'PAX_PASES_PAGOS', 'PAX_FRANQ']].sum()

### Ejercicio 00:
Partiendo del dataframe "molinetes" crear un dataframe que contenga todos los viajes de la linea D.

In [None]:
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 

### Ejercicio 01:
Determinar cual es la estacion de mayor cantidad de viajes en la linea D durante todo el año.

In [None]:
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 

### Ejercicio 02:
Para la estación de mayor cantidad de viajes determinar cual es el mes de mayor cantidad de viajes.

In [None]:
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 

### Ejercicio 03:
Para la estación de mayor cantidad de viajes, en el mes de mayor cantidad de viajes, determinar cual es el molinete de mayor cantidad de viajes.

In [None]:
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 
### resolver el ejercicio en estas celdas. Agregar mas celdas si es necesario ### 