# Utilización de la librería Pandas

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("../data_IA/base_datos_2008.csv", nrows = 100000)

In [None]:
# Con head() se muestran las 5 primeras filas de nuestros dataframe.
df.head()

In [None]:
# Si queremos ver más filas, podemos hacer 
df.head(50)

In [None]:
df.tail()

In [None]:
# frac = 1 nos permite guardar el 100% de las filas, reordenamos el 100% de la BD.
df = df.sample(frac = 1)
df.head()

In [None]:
df.columns

In [None]:
# Escogemos la columna DepTime
df.DepTime

In [None]:
# Con esta instrucción nos muestra los tipos de variables que tenemos en el dataframe.
df.dtypes

In [None]:
# Otra forma de ver los datos en formato array
df.values

In [None]:
# Podemos definir un segundo dataframe con las primeras 10 filas y lo guardamos en memoria. Nos puede ayudar
# a hacer un procesamiento de parte de los datos.
df2 = df.head(10)

In [None]:
# Nos va a mostrar solo 10 filas... 
df2.head(100)

# Filtrado

In [None]:
# Obtención de información relevante de nuestras filas y columnas de BD
df = pd.read_csv("../data_IA/base_datos_2008.csv")

In [None]:
# Filtrado entendemos la información relevante de nuestra BD. 
# Si queremos obtener los 5 primeros valores de la columna ArrDelay
df["ArrDelay"].head()

In [None]:
# Podemos usar el intervalo de filas que queramos.
df[0:10]

In [None]:
df[100:1000]

In [None]:
# Todos los vuelos que se hayan retrasado > 60 minutos
df3 = df[df["ArrDelay"] > 60]

In [None]:
df3.head()

In [None]:
# Todos los vuelos que han salido de ATL (Atlanta)
df[df["Origin"] == "ATL"].head()

In [None]:
# Vamos a filtrar de forma combinada, Origen Atlanta y el retraso > 60 minutos.
# & == AND; | == OR
df[(df["Origin"] == "ATL") & (df["ArrDelay"] > 60)].head(100)

In [None]:
# Podemos seleccionar todos los vuelos cuyo origen sea Houston y Atlanta.
df[df.Origin.isin(["HOU", "ATL"])].head(100)

In [None]:
# Todos aquellos casos en los que no tenemos ningún valor en la columna ArrDelay
df[pd.isna(df["ArrDelay"])].head()

In [None]:
# Número de filas en la base de datos que no tienen ningún valor en la columna ArrDelay
len(df[pd.isna(df["ArrDelay"])])

In [None]:
len(df)

# Transformación

In [None]:
df = pd.read_csv("../data_IA/base_datos_2008.csv")

In [None]:
# Una transformación es un cambio de la estructura de nuestra BD, empezamos creando una columna nueva.
# Redondeo de una columna existente, retraso / 60.
df["HoursDelay"] = round(df["ArrDelay"] / 60)

In [None]:
# Para visualizar la transformación... 
df["HoursDelay"].head()

In [None]:
df.head()

In [None]:
# Eliminamos la columna que acabamos de crear
del(df["HoursDelay"])

In [None]:
df.head()

In [None]:
# Si queremos eliminar varias columnas a la vez, podemos hacerlo de la siguiente forma, axis = 1 indica el eje vertical(columna)
df.drop(["Diverted", "Cancelled", "Year"], axis = 1)

In [None]:
# Year sigue apareciendo, esto ocurre porque no hemos igualado a nuestro df
df.head()

In [None]:
# Si queremos que se borre y se guarde, hay que asignarlo a nuestro dataframe
df = df.drop(["Diverted", "Cancelled", "Year"], axis = 1)

# también podríamos hacer:
# df.drop(["Diverted", "Cancelled", "Year"], axis = 1, inplace = True)

In [None]:
df.head()

In [None]:
# Drop también funciona para eliminar filas de nuestra BD
df.drop(0)

In [None]:
# Borrado de las primeras 100.000 filas
df.drop(range(0,100000))

In [None]:
df.head()

In [None]:
# Creamos dos dataframes con los vuelos cuyo origen es ATL y otro df con los vuelos cuyo origen es HOU
dfATL = df[df.Origin == "ATL"]
dfHOU = df[df.Origin == "HOU"]

In [None]:
# Si queremos añadir ambos dataframes
newdf = dfATL.append(dfHOU)

In [None]:
newdf.Origin

# Agrupaciones

In [None]:
df = pd.read_csv("../data_IA/base_datos_2008.csv")

In [None]:
# Group by nos permite hacer operaciones matemáticas sencillas agrupando por categorías.
# En este caso se hace una agrupación por DayOfWeek, y se visualiza el retraso máximo de cada día de la semana.
# Trabajamos con la BD de aerolíneas completa y estudiaremos el retraso de los vuelos al llegar al destino.
# DayOfWeek -> Es una agrupación por el día de la semana, y nos da un valor de los retrasos de los vuelos ArrDelay, 
# proporcionando el valor máximo.
df.groupby(by = "DayOfWeek") ["ArrDelay"].max()

In [None]:
# Media de retraso para cada día de la semana.
df.groupby(by = "DayOfWeek") ["ArrDelay"].mean()

In [None]:
# Mínimo valor
df.groupby(by = "DayOfWeek") ["ArrDelay"].min()

In [None]:
# Número de casos, en fines de semana hay menos vuelos.
df.groupby(by = "DayOfWeek") ["ArrDelay"].count()

In [None]:
# Resumen estadístico agrupado por día de la semana
df.groupby(by = "DayOfWeek") ["ArrDelay"].describe()

In [None]:
# Podemos ver el resumen comparado de las dos variables ArrDelay DepDelay, en este tipo de comparaciones hay que asegurarse
# que estamos comparando variables del mismo tipo.
df.groupby(by = "DayOfWeek") ["ArrDelay", "DepDelay"].mean()

In [None]:
# Se pueden realizar operaciones con los objetos Group By, con esta operación podemos analizar el rango de valores
# para cada día de la semana.
df.groupby(by = "DayOfWeek") ["ArrDelay"].max() - df.groupby(by = "DayOfWeek") ["ArrDelay"].min()

In [None]:
# Creamos un nuevo Dataframe de los vuelos cuyo origen es Atlanta y Houston
dfATLHOU = df[df.Origin.isin(["ATL", "HOU"])]

In [None]:
# Podemos comparar por ciudades y días de la semana los retrasos en la llegada. Esto permite comparar en cuál de las dos
# ciudades los vuelos salen más retrasados, comparando por día de la semana.
dfATLHOU.groupby(by = ["DayOfWeek", "Origin"])["ArrDelay"].mean()

In [None]:
# Aquí podemos ver cómo afecta el retraso por cada día de la semana en ambos aeropuertos.
dfATLHOU.groupby(by = ["Origin", "DayOfWeek"])["ArrDelay"].mean()

In [None]:
# Los objetos que hemos creado por agrupación, pueden guardarse.
mygroupby = dfATLHOU.groupby(by = ["Origin", "DayOfWeek"])["ArrDelay"]

In [None]:
#mygroupby.max()
#mygroupby.min()
#mygroupby.mean()
mygroupby.describe()

# Tratar datos duplicados y perdidos

In [None]:
import pandas as pd
df = pd.read_csv("../data_IA/base_datos_2008.csv")

dfduplicate = df.append(df)

In [None]:
dfduplicate = dfduplicate.sample(frac = 1)

In [None]:
dfclean = dfduplicate.drop_duplicates()

In [None]:
len(dfclean) == len(df)

In [None]:
# Tenemos 4 filas menos en relación al dataframe original, pensábamos que el df original no tenía filas repetidas 
# y parece ser que sí.
len(dfclean)

In [None]:
len(df) - len(dfclean)

In [None]:
# Aprovechamos y realizaremos un borrado de las filas duplicadas quedándonos con el subset DayofMonth (31 días)
dfclean.drop_duplicates(subset = "DayofMonth")

In [None]:
# Vamos a ver cómo gestionamos los datos faltantes, queremos 25 entradas de las 29 totales con información relevante
df.dropna(thresh = 25)

In [None]:
# Si el df va creciendo aplicamos una función para que nos quedemos con las filas que tienen al menos n-2 datos
df.dropna(thresh=len(df.columns)-2)

In [None]:
# Si nos interesa filtrar por una columna en concreto, podemos usar la misma función con subset a la columna que queremos no 
# tenga datos NaN (vacío)
df.dropna(subset = ["CancellationCode"])

# Librería Numpy

In [None]:
# Numpy es un paquete orientado al análisis matemático y científico de datos, 
# viene incorporado dentro de Anaconda, no hay que instalarlo.
import numpy as np

In [None]:
# Creamos un numpy array
valoraciones = np.array([[8,7,8,5], [2,6,8,1], [8,8,9,5]])
valoraciones

Podemos pensar que cada una de las filas corresponden a tres clientes que han valorado cuatro productos, cada una de las 
columnas

In [None]:
# ¿Cómo podemos acceder a la información? La primera dimensión en el ejemplo [0] son las filas, la segunda las columnas [1]
valoraciones[0][1]

In [None]:
# Una alternativa es
valoraciones[0,1]

In [None]:
# Si añadimos nuevas dimensiones...
valoraciones2 = np.array([[[8,7,8,5], [2,5,4,2]], [[2,6,8,4], [8,9,7,4]], [[8,8,9,3], [10,9,10,8]]])         

In [None]:
# En este caso tenemos de igual forma tres clientes que han podido emitir sus valoraciones en años distintos.
valoraciones2

In [None]:
# Podemos acceder a los elementos de la siguiente forma. ¿A qué elemento nos estamos refiriendo?
valoraciones2[0,0,2]

In [None]:
# También podemos inicializar un array de las dimensiones del anterior, por ejemplo:
np.zeros((3,2,4))

In [None]:
# Podemos hacer operaciones entre arrays de mismo tamaño, con np.ones generamos un objeto con las dimensiones llenas de 1's.
valoraciones2 + np.ones((3,2,4))

In [None]:
valoraciones2

In [None]:
# A los arrays les podemos aplicar muchas funciones, algunos ejemplos:
# En este caso nos devuelve la media de todos los valores del array original (3,2,4)
np.mean(valoraciones2)

In [None]:
# Podemos además indicar en qué eje queremos que nos calcule la media, por ejemplo:
np.mean(valoraciones2, axis = 0)

El primer elemento devuelto es la media entre 8, 2, 8; 6.66 es la media entre 2, 8 y 10... y así sucesivamente.

In [None]:
# Podemos cambiar el eje...
np.mean(valoraciones2, axis = 1)

De esta forma el primer 5 es la media entre 8 y 2; El siguiente 5 entre 2 y 8; y el 9 entre 8 y 10.

In [None]:
# Si lo hacemos con el último eje, obtenemos:
np.mean(valoraciones2, axis = 2)

El primer 7 es la media entre todos los valores de la primera fila, el 3.25 es la media entre los valores de la segunda, y
así sucesivamente.

In [None]:
# Alguna función interesante adicional, nos permite convertir la lista inicial a las dimensiones que queramos, 3 agrupaciones
# de filas, dos filas por agrupación y dos columnas. Importante es que las dimensiones que queremos, multiplicadas tienen
# que ser igual al tamaño de los elementos de la lista que queremos particionar.
np.reshape([1,2,3,4,5,6,7,8,9,10,11,12], (3,2,2))

# Correlaciones entre variables

In [1]:
# Correlaciones entre dos variables.
# Una correlación es una relación lineal entre dos variables cuantitativas se representa como el cociente entre la covarianza
# de dos variables y el producto entre sus desviaciones estándar. Puede tomar valores entre -1 y 1, 
# cuanto más cerca de estos extremos se encuentre la relación estamos hablando de correlaciones fuertes,
# también tenemos dependiendo de esa distancia moderadas, débil y muy débil.
import pandas as pd
import numpy as np

df = pd.read_csv("../data_IA/base_datos_2008.csv", nrows = 100000)

Para más información, podéis consultar la página:
https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal  

In [2]:
np.corrcoef(df["ArrDelay"], df["DepDelay"])

array([[nan, nan],
       [nan, nan]])

In [3]:
# No existe correlación porque existen valores perdidos, vamos a quitarlos utilizando Pandas, el coeficiente de correlación
# no admite valores faltantes. Tenemos que imputarlos o quitarlos, en este caso los quitamos.
df.dropna(inplace = True, subset = ["ArrDelay", "DepDelay"])

In [4]:
# Ahora vemos una matriz de correlación entre ambas variables. Estas dos variables están muy relacionadas (0.9349), 
# retraso del avión al salir y al llegar. 
np.corrcoef(df["ArrDelay"], df["DepDelay"])

array([[1.       , 0.9422735],
       [0.9422735, 1.       ]])

In [5]:
# Añadimos una columna más y vemos que para este caso la correlación entre las dos primeras variables y la tercera es baja.
np.corrcoef([df["ArrDelay"], df["DepDelay"], df["DepTime"]])

array([[1.        , 0.9422735 , 0.23241529],
       [0.9422735 , 1.        , 0.25725889],
       [0.23241529, 0.25725889, 1.        ]])

In [6]:
df.drop(inplace = True, columns = ["Year", "Cancelled", "Diverted"])

In [7]:
# Hemos suprimido todas las columnas que no tienen valores numéricos. Ahora vemos la matriz de correlación.
df.corr()

Unnamed: 0,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,FlightNum,ActualElapsedTime,CRSElapsedTime,...,ArrDelay,DepDelay,Distance,TaxiIn,TaxiOut,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Month,,,,,,,,,,,...,,,,,,,,,,
DayofMonth,,1.0,-0.118851,-0.001168,0.003749,-0.004445,-0.001941,0.072588,0.004568,-0.006886,...,0.027501,0.007231,-0.006686,-0.012618,0.040429,-0.06165,0.055178,0.11178,-0.012357,0.079725
DayOfWeek,,-0.118851,1.0,0.031111,0.0244,0.021947,0.027785,-0.03956,0.015945,0.017744,...,0.085299,0.09822,0.017525,0.034878,0.000337,0.031015,0.008769,0.00166,0.024726,0.079787
DepTime,,-0.001168,0.031111,1.0,0.985504,0.796903,0.852191,0.023409,-0.069542,-0.065937,...,0.232415,0.257259,-0.056849,0.029098,-0.068401,0.029925,-0.018628,-0.128269,-0.022763,0.229938
CRSDepTime,,0.003749,0.0244,0.985504,1.0,0.795609,0.862782,0.023789,-0.074644,-0.07006,...,0.180684,0.2022,-0.061167,0.024048,-0.075218,-0.015536,-0.057462,-0.149643,-0.025722,0.227241
ArrTime,,-0.004445,0.021947,0.796903,0.795609,1.0,0.887002,0.011193,0.013706,0.016936,...,0.076353,0.091164,0.024675,0.044,-0.06221,-0.027949,-0.033068,-0.067516,-0.005993,-0.050018
CRSArrTime,,-0.001941,0.027785,0.852191,0.862782,0.887002,1.0,0.014385,0.025615,0.03225,...,0.142571,0.171454,0.042641,0.042752,-0.061937,-0.004882,-0.049083,-0.11946,-0.016722,0.171666
FlightNum,,0.072588,-0.03956,0.023409,0.023789,0.011193,0.014385,1.0,0.024159,0.025279,...,-0.001017,0.00281,0.01718,0.007277,0.023976,-0.020801,0.004887,0.002978,-0.007659,-0.002957
ActualElapsedTime,,0.004568,0.015945,-0.069542,-0.074644,0.013706,0.025615,0.024159,1.0,0.983501,...,-0.013101,0.020641,0.96361,0.183375,0.167747,0.021032,0.039746,0.20819,0.014323,-0.07674
CRSElapsedTime,,-0.006886,0.017744,-0.065937,-0.07006,0.016936,0.03225,0.025279,0.983501,1.0,...,-0.08845,0.003833,0.979863,0.134687,0.070776,0.047632,0.016538,0.056008,0.015098,-0.039098


In [10]:
# Podemos estudiar una a una las correlaciones entre filas y columnas. 
# Para visualizar gráficamente la matriz, redondeando a tres decimales (round) y aplicamos estilo bakcground que mostrará
# un degradado según la intensidad de la correlación.
# Esto nos permite hacer una inspección de nuestra BD, analizando correlaciones que en principio no habíamos considerado.

# df.drop(inplace = True, columns = ["Month"])
corr = round (df.corr(), 3)
corr.style.background_gradient()

# Todo esto nos permite hacer un análisis inicial de corelaciones entre variables de nuestra base de datos.

ImportError: background_gradient requires matplotlib.

<pandas.io.formats.style.Styler at 0x7f846e1ac580>