# Introducción al Análisis Exploratorio de Datos

Es un enfoque que comprende un conjunto de tareas para analizar conjuntos de datos para poder encontrar sus principales caracteristicas.

Estas tareas en general comprenden todo lo que tenemos que hacer desde que se formula una pregunta interesante, se reunen los datos y se desarrolla el proceso necesario para **poder responder esa pregunta**.

Su Objetivo es:

- Entender los datos.
- Ver caracteristicas de los datos.
- Detectar irregularidades (outliers) de los datos.
- Obtener valores estadisticos de los datos.
- Realizar visualizaciones rapidas que faciliten el proceso de exploracion.

Usualmente el resultado del mismo suele ser un reporte o un notebook, que reune codigo y visualizaciones para llegar a ciertas **conclusiones o insights**.

Es un proceos iterativo, que se retroalimenta.

En general realizaremos el análisis del mismo sobre un Dataframe.

## Dataframes

Conjunto de Datos en forma matricial (tabla) en don cada fila corresponde a una observacion (dato) y cada columna es un atributo correspondiente al dato (feature).

Los Dataframes tienen columnasUna columna es un vector de tamaño fijo de elementos de un mismo tipo acompañados de un indice para los mismos.

Se pueden realizar muchas operaciones sobre una columna.

operaciones matematicas o estadisticas sobre vectores como la:

- sumatoria
- promedio
- mediana
- varianza
- desviación standard.

Esto se puede aplicar una funcion a cada elemento de la columna (**map**) o aplicar una funcion a la columna entera (**apply**) en donde recibimos un vector (representando la columna) y podemos devolver un valor o un vector.

## Pandas

Implementacion de data frames (y otras estructuras de datos) en python que provee herramientas para facilitar el analisis de datos en el mundo real.

Es la implementacion que usaremos para dar nuestros primeros pasos con data frames y brindar herramientas para realizar un analisis exploratorio de datos.

Mas informacion en: [https://pypi.python.org/pypi/pandas](https://pypi.python.org/pypi/pandas)

Independientemente que la clase es una guia practica para comenzar a utilizar pandas, les recomendamos la siguiente documentacion:

- **Basics**: [http://pandas.pydata.org/pandas-docs/stable/basics.htmlhttp://pandas.pydata.org/pandas-docs/stable/basics.html](http://pandas.pydata.org/pandas-docs/stable/basics.htmlhttp://pandas.pydata.org/pandas-docs/stable/basics.html)
- **Data Merging**: [http://pandas.pydata.org/pandas-docs/stable/merging.html](http://pandas.pydata.org/pandas-docs/stable/merging.html)
- **Split-Apply-Combine**: [http://pandas.pydata.org/pandas-docs/stable/groupby.html](http://pandas.pydata.org/pandas-docs/stable/groupby.html)
- **Visualizacion**: [http://pandas.pydata.org/pandas-docs/stable/visualization.html](http://pandas.pydata.org/pandas-docs/stable/visualization.html)
- **Pandas SQL Comparison**: [http://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html#compare-with-sql-join](http://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html)

## Analisis Exploratorio de Datos: Flight Delays

Para comenzar a trabajar en la distintas operaciones que podemos realizar con un data frame vamos a trabajar con el siguiente set de datos:

[https://www.kaggle.com/usdot/flight-delays](https://www.kaggle.com/usdot/flight-delays)

El set de datos contiene informacion sobre retrasos de vuelos y cancelaciones durante el año 2015.

In [None]:
# magic function para hacer que los graficos de matplotlib se renderizen en el notebook.
%matplotlib inline

import datetime as datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('default') # Make the graphs a bit prettier
plt.rcParams['figure.figsize'] = (15, 5)

### Carga de Informacion en un Dataframe

Pandas soporta distintas fuentes de informacion en distintos formatos (desde archivos de csv, excel, hasta fuentes remotas como urls o bases de datos, etc.). En este caso vamos a cargar la informacion desde un CSV que hemos descargado previamente de kaggle. Esto lo podemos hacer con pandas con ```read_csv```. 

Inicialmente podremos ver parte del data frame para tener idea de la estructura del mismo.

In [None]:
# carga de un data frame
flights = pd.read_csv('../data/flight-delays/flights.csv', low_memory=False)

In [None]:
# vemos primeras filas del data frame
flights[:3]

In [None]:
#podemos los primeros valores
flights.head()

In [None]:
#y los ultimos
flights.tail()

In [None]:
# si queremos analizar cuales son los valores de las columnas podemos obtenerlos con .columns
for name in flights.columns.values:
    print name

Por otro lado muchas veces es necesario hacer algunas modificaciones en la forma en la que se cargan los datos del CSV dependiendo del formato del mismo, esto se puede hacer por ejemplo para ver como convertir datos (por ejemplo formatos de fechas), hasta tipos de separador, etc.


In [None]:
# por ejemplo se puede usar index_col para indicar un indice
airports = pd.read_csv('../data/flight-delays/airports.csv', sep=',', encoding='utf-8', index_col='IATA_CODE')
airports.head()

In [None]:
airlines = pd.read_csv('../data/flight-delays/airlines.csv', sep=',', encoding='utf-8')
airlines.head()

### Verificacion de Calidad de Datos

Algunas verificaciones que son utiles para ver la consistencia de los datos, en particular si vienen de una fuente de ese tipo.

Podemos verificar las dimensiones del data frame (via ```.shape```), si existen valores nulos (via ```.insnull```) en el mismo y metricas generales de las columnas o features del data frame que podemos analizar via ```.describe```


In [None]:
print(flights.shape)
print(airports.shape)
print(airlines.shape)

In [None]:
print(airlines.isnull().any())
print(airports.isnull().any())

In [None]:
print(flights.isnull().any())

In [None]:
print(flights.describe())

In [None]:
#algunas verificaciones
cancelled_flights_count = flights['CANCELLED'].sum()
#sobre el total de filas restamos aquellas que no tiene una cancelacion
flights_with_cancellation_reason = flights.shape[0] - flights.CANCELLATION_REASON.isnull().sum().sum()

In [None]:
# solo vuelos cancelados tienen razon de cancelacion?
print(cancelled_flights_count)
print(flights_with_cancellation_reason)

### Cantidad de Vuelos a Aeropuertos de Destino

In [None]:
flights['DESTINATION_AIRPORT'][:3] #realizamos una proyeccion

In [None]:
count_flights_to_airports = flights['DESTINATION_AIRPORT'].value_counts()

In [None]:
# top 20
count_flights_to_airports[:20].plot('bar')

### Que sucede yendo desde Los Angeles a Atlanta

In [None]:
# subsetting, filtering o seleccion
atl_flights = flights[flights['DESTINATION_AIRPORT'] == "ATL"]
atl_flights[:3]

In [None]:
atl_flights['DESTINATION_AIRPORT'].describe()

In [None]:
# para entender como funciona veamos la expresion
flights['DESTINATION_AIRPORT'] == "ATL"

In [None]:
# al indexar nuestro data frame con la columna de True y False solamente obtendremos aquellos con false.
# tambien es posible adicionar condiciones con operadores logicos
is_from_lax = flights['ORIGIN_AIRPORT'] == "LAX"
is_to_atl = flights['DESTINATION_AIRPORT'] == "ATL"
lax_to_atl_flights = flights[ is_from_lax & is_to_atl]
lax_to_atl_flights.head()

In [None]:
lax_to_atl_flights['DESTINATION_AIRPORT'].describe()

In [None]:
lax_to_atl_flights['CANCELLED'].value_counts()

In [None]:
lax_to_atl_flights['CANCELLATION_REASON'].value_counts().plot('bar')

## Que Aeropuerto de Origen tiene las mayor cantidad de cancelaciones

In [None]:
is_cancelled = flights['CANCELLED'] == 1
cancelled_flights = flights[is_cancelled]

In [None]:
cancelled_flights['ORIGIN_AIRPORT'].value_counts()[:10]

In [None]:
flights_per_origin_count = flights['ORIGIN_AIRPORT'].value_counts()
flights_cancelled_per_origin = cancelled_flights['ORIGIN_AIRPORT'].value_counts()

In [None]:
cancellation_ratio = flights_cancelled_per_origin.astype(float) / flights_per_origin_count.astype(float)

In [None]:
top_20_cancellation_ratio = cancellation_ratio.sort_values(ascending=False)[:20]

In [None]:
top_20_cancellation_ratio

### Cancelaciones por dia de la Semana

In [None]:
# split-apply-combine
flights.columns.values

In [None]:
day_of_week = flights[['DAY_OF_WEEK','CANCELLED']]
day_of_week

In [None]:
day_of_week_counts = day_of_week.groupby('DAY_OF_WEEK').aggregate(sum)
day_of_week_counts.index = ['Lunes', 'Martes', 'Miercoles', 'Jueves', 'Viernes', 'Sabado', 'Domingo']
day_of_week_counts

In [None]:
day_of_week_counts.plot(kind='bar')

In [None]:
day_of_week_counts.plot(kind='area')

In [None]:
operated  = flights[['MONTH','CANCELLED']][flights['CANCELLED'] == 0].groupby('MONTH').count() # operated
cancelled = flights[['MONTH','CANCELLED']][flights['CANCELLED'] != 0].groupby('MONTH').count() # cancelled


In [None]:
operated

In [None]:
operated.rename(columns={'CANCELLED': 'OPERATED'}, inplace=True)
operated

In [None]:
cancelled

In [None]:
#merge por index, inner join
operated_and_cancelled = pd.merge(operated, cancelled, right_index=True, left_index=True)
operated_and_cancelled

In [None]:
operated_and_cancelled.plot(kind="area", stacked=False)

In [None]:
operated_and_cancelled.plot(kind="bar", stacked=False)

In [None]:
operated_and_cancelled.plot(kind="bar", stacked=True)

### Utilizando los nombres de las Aerolineas

In [None]:
# left join
flights_with_airlines = pd.merge(flights, airlines, left_on='AIRLINE', right_on='IATA_CODE', how='left')

In [None]:
flights_with_airlines.head()

In [None]:
#axis indica si se aplica sobre el indice o las columnas.
flights_with_airlines.drop('IATA_CODE', axis=1, inplace=True)
flights_with_airlines.rename(columns={'AIRLINE_x': 'AIRLINE_CODE','AIRLINE_y': 'AIRLINE'}, inplace=True)

In [None]:
flights_with_airlines.head()

### Cantidad de Vuelos por Aerolinea

In [None]:
airline_flight_count = pd.DataFrame({'FLIGHT_COUNT' : flights_with_airlines.groupby(['AIRLINE'])['FLIGHT_NUMBER'].count()}).reset_index()

In [None]:
airline_flight_count

In [None]:
airline_flight_count.sort_values(by='FLIGHT_COUNT', ascending=False)

### Cantidad total de vuelos

In [None]:
airline_flight_total_count = airline_flight_count['FLIGHT_COUNT'].sum()
airline_flight_total_count

### Calculando el Porcentaje de Vuelos

In [None]:
airline_flight_count['AIRLINE_FLIGHT_PERCENTAGE'] = airline_flight_count['FLIGHT_COUNT']/airline_flight_total_count

In [None]:
airline_flight_count

Podemos realizar tambien algunas verificaciones, como que los porcentajes cierren, etc.


In [None]:
#comparar porcentaje y totales
airline_flight_count.set_index(['AIRLINE'])['FLIGHT_COUNT'].plot.pie(figsize=(8, 8),autopct='%.2f')

### Calculando Tasas de Cancelaciones y De Desvio del Vuelo a otro Aeropuerto

In [None]:
airline_cancellation_rate = pd.DataFrame({'CANCELLATION_RATE' : flights_with_airlines.groupby(['AIRLINE'])['CANCELLED'].mean()}).reset_index()

In [None]:
airline_cancellation_rate

In [None]:
airline_divertion_rate = pd.DataFrame({'DIVERTION_RATE' : flights_with_airlines.groupby(['AIRLINE'])['DIVERTED'].mean()}).reset_index()
airline_divertion_rate

### Juntando la Informacion en un mismo Data Frame

In [None]:
# left join
airline_ranking = pd.merge(airline_flight_count, airline_cancellation_rate, left_on='AIRLINE', right_on='AIRLINE', how='left')
airline_ranking

In [None]:
# left join
airline_ranking = pd.merge(airline_ranking, airline_divertion_rate, left_on='AIRLINE', right_on='AIRLINE', how='left')
airline_ranking

### Visualizando el Ranking

In [None]:
airline_ranking_sorted = airline_ranking.sort_values(by='FLIGHT_COUNT',ascending=False)

In [None]:
airline_ranking_sorted.reset_index()

Ver correlacion entre variables con scatter

In [None]:
airline_ranking_sorted.plot.scatter(x='FLIGHT_COUNT',y='CANCELLATION_RATE')

In [None]:
airline_ranking_sorted.plot.scatter(x='FLIGHT_COUNT',y='DIVERTION_RATE')

### Incorporando Fechas

In [None]:
flights_with_airlines['DATE'] = pd.to_datetime(flights[['YEAR','MONTH','DAY']], yearfirst=True)

In [None]:
flights_with_airlines.groupby('DATE').count()['SCHEDULED_DEPARTURE']

In [None]:
fig = plt.figure(figsize=(10,4));

ax = fig.add_axes([0,0,1,1]);

flights_with_airlines.groupby('DATE').count()['SCHEDULED_DEPARTURE'].plot.line(c='b', label="scheduled");
#flights_with_airlines[flights_with_airlines['CANCELLED'] == 0].groupby('DATE').count()['SCHEDULED_DEPARTURE'].plot.line(c='g', label="operated");
#flights_with_airlines[flights_with_airlines['CANCELLED'] == 1].groupby('DATE').count()['SCHEDULED_DEPARTURE'].plot.line(c='r', label="cancelled");

ax.legend();

### Modificando los datos en data frame (map, apply)

In [None]:
# pandas.Series.map
# http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html

airline_ranking_sorted['AIRLINE_FLIGHT_PERCENTAGE'].map(lambda x: x * 100)

In [None]:
## pandas.DataFrame.applymap
# hace sentido en dataframes a los que les podamos aplicar la funcion a cada elemento
# hace el mismo resultado que aplicar map por columna

am_df = pd.DataFrame(np.random.randn(3, 3))
am_df

In [None]:
am_df.applymap(lambda x: '%.2f' % x)

In [None]:
## pandas.DataFrame.apply
# 

def normalize(col):
  mu = col.mean()
  return col.map(lambda x:x-mu)

a_df = pd.DataFrame(np.random.randn(3, 3))
a_df


In [None]:
a_df.apply(normalize)