# Pandas

Para cargar datasets, crear y trabajar con conjuntos de datos en Python, nos apoyaremos en la librería `Pandas`. `Pandas` es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney. Este módulo está construido sobre `Numpy`, y su estructura de datos clave se denomina `DataFrame`. Un DataFrame permite almacenar y manipular datos tabulados en filas de observaciones, y columnas de variables.

El nombre deriva del término "datos de panel", término de econometría que designa datos que combinan una dimensión temporal con otra dimensión transversal.

In [1]:
# Cargamos las librerías pandas y numpy:
import pandas as pd
import numpy as np

# 1. Tipos de objetos en Pandas

En pandas existen tres tipos básicos de objetos todos ellos basados a su vez en Numpy:

- Series: listas, 1D
- DataFrame: tablas tabuladas, 2D
- Panels: tablas 3D

## 1.1. Series

Es la base de pandas, puedes pensar en ella como el hijo entre un array de numpy y un diccionario. Tienen índice, por lo que se puede acceder a los valores por posición o por nombre, también al estar basado en numpy es más rápido.

Las series se pueden crear tanto a partir de listas como de diccionarios.

In [29]:
pd.Series([8, 7, 9, 0])

0    8
1    7
2    9
3    0
dtype: int64

Por defecto pandas asigna un índice a cada valor de la lista empezando en 0, pero esto puede ser modificado definiendo el índice como argumento de la función.

In [30]:
s = pd.Series([8, 7, 9, 0], index = list('abcd'))
s

a    8
b    7
c    9
d    0
dtype: int64

In [31]:
s.index, s.values

(Index(['a', 'b', 'c', 'd'], dtype='object'), array([8, 7, 9, 0], dtype=int64))

## 1.2. DataFrames

Este es el objeto más frecuente dentro de pandas. Representa una tabla de *n* observaciones, y *m* columnas. Cada variable o columna del DataFrame es una Serie.

In [32]:
dfdata = {'province': ['M', 'M', 'M', 'B', 'B'],
          'population': [1.5e6, 2e6, 3e6, 5e5, 1.5e6],
          'year': [1900, 1950, 2000, 1900, 2000]}

df = pd.DataFrame(dfdata)
df

Unnamed: 0,province,population,year
0,M,1500000.0,1900
1,M,2000000.0,1950
2,M,3000000.0,2000
3,B,500000.0,1900
4,B,1500000.0,2000


# 2. Introducir datos en Pandas

## 2.1. Crear un DataFrame

La mayoría de las veces se trabajará con tablas ya existentes, pero a veces puede ser útil crear pequeñas tablas de manera instantánea a la hora de analizar como se transforman los datos a través de un proceso ETL.

Para crear una tabla podemos utilizar la función `pd.DataFrame()` de `pandas`, y pasar como argumento de la función un diccionario de Python.

In [4]:
# Definimos un diccionario:
dictionary = {'id': [1, 2, 3],
              'name': ['Bob', 'Sally', 'Scott'],
              'occupation': ['Builder', 'Baker', 'Candle Stick Maker']}

# Utilizamos la función pd.DataFrame():
df = pd.DataFrame(dictionary)
df

Unnamed: 0,id,name,occupation
0,1,Bob,Builder
1,2,Sally,Baker
2,3,Scott,Candle Stick Maker


## 2.2. Cargar ficheros

`Pandas` permite cargar ficheros en diferentes formatos mediante la familia de funciones `pd.read_[file]()`, donde *file* hace referencia al tipo de fichero a cargar (.csv, .txt, .xlsx). Se pueden modificar diferentes aspectos de la carga de un fichero incluyendo algunos de los argumentos incluídos en la función mencionada.

Una buena práctica si trabajamos con muchos ficheros es alojar en una variable la ruta de las carpeta principal, y luego ir bajando niveles de manera particularizada, de forma que la raiz se mantenga constante y no sea necesario escribir tanto código.

### 2.2.1. Cargar datos desde un .csv

Para cargar un fichero de tipo .csv la función que se utiliza es: `pd.read_csv()`.

Si el fichero .csv viene separado por comas, y está bien formateado, podremos utilizar la función sin definir ningún parámetro adicional; sin embargo, si el fichero a cargar tiene valores fuera de lo normal o alguna particularidad como filas en blanco en las cabeceras, será necesario especificar algunos parámetros.

In [39]:
# Definimos la ruta en una variable
path = "../_data/_national_survey_family_growth/nsfg.csv"

# Pasamos la ruta como argumento de la función
df_nsfg = pd.read_csv(path)
df_nsfg.head(3)

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125


Los parámetros más comunes que pueden modificarse son:
        
- `sep`: Tipo de separador del fichero delimitado, se debe colocar entre "". Ej.: "," , "|" , "/" , "@"

- `dtype`: Permite indicar el tipo de dato de la columna a cargar, string, fecha...etc, es necesario utilizar la librería NumPy para utilizarlo. Por defecto es "None".

- `header`: Permite definir que fila del dataset contiene los encabezados de las columnas. Por defecto es 0.

- `names`: Permite nombrar las columnas mediante una lista. Por defecto es "None".

- `skiprows`: Permite saltarse un número `n` de filas al leer el dataset, si ponemos por ejemplo 12, no se leería hasta la fila 13. Por defecto es 0.

- `index_col`: Permite que alguna de las columans que hemos cargado, forme parte del identificador de la fila. Por defecto es "None".

- `skip_blank_lines`: Permite decidir si las celdas que no contienen valores aparezcan en blanco, o con algún identificador como "NaN" o "NULL". Es un valore Booleano, True o False.

- `na_values`: Permite identificar otros formatos para missing values convirtiéndolos a NaN. Podemos pasar estos datos como una lista. na_values = missing_values, donde missing_values = ["?", "--", "N/A"]

- `na_filter`: Permite detectar los marcadores de los valores que falten dentro del dataset (" ", NaN...etc) y permite eliminar todas aquellas filas que tengan valores desconocidos. Es un valor Booleano, True o False.

Para ver la totalidad de argumentos que se pueden utilizar en esta función se puede estudiar la documentación propia de la libreria `Pandas`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

### 2.2.2. Cargar datos desde un .xls o .xlsx

Para cargar un fichero de Excel con extensión .xlsx o .xls podemos utilizar la función `pd.read_excel()`, y pasar como argumento de la función la ruta y el nombre del fichero.

### 2.2.3. Cargar datos desde un .txt

Generalmente los .txt suelen tener la misma estructura que un .csv, al final es un fichero de texto plano con algun símbolo a modo de separador que indica donde termina una columna y empieza la siguiente.

Para cargar estos ficheros podemos valernos también de la función `pd.read_csv()`. Podemos encontrar en numerosas ocasiones que los ficheros .txt no tengan como separadores una coma, por lo que habrá que indicar el separador mediante el argumento `sep`.

### 2.2.4. Cargar datos desde un .json

En este caso nos ayudaremos de la funcion `pd.read_json()`. Ya que los fichero .json suelen venir con una estrcutura muy definida de tipo diccionario, no suele ser necesario indicar ningún parámetro adicional dentro de la función.

```python
{"pclass":   {"0": 1,
              "1": 1,
              "2": ...}
 "survived": {"0": 1,
              "1": 1,
              "2": ...}
 "name":     {"0": "Allen, Miss. Elisabeth Walton",
              "1": "Allison, Master. Hudson Trevor",
              "2": ...}
```

### 2.2.5. Cargar datos desde un .zip

Otra opción que se puede realizar con python a la hora de cargar un fichero, es abrir un archivo comprimido en pandas, sin la necesidad de descmprimirlo, y trabajar con él en memoria, con el consecuente ahorro de espacio en disco duro que conlleva esta acción.

Para llevar a cabo esta acción se utiliza una combinación de funciones de los módulos `pandas` y `zipfile`.

In [1]:
from zipfile import ZipFile

Lo primero es abrir una conexión al archivo comprimido al que queremos acceder:

In [37]:
# Abrimos una conexión con el directorio .zip
zfile = ZipFile('C:/Users/Guillermo/Desktop/Developer/_02_github_repositories/kschool_ds_master/_data/_us_dot/_otp/On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2020_3.zip')

# Vemos que ficheros existen dentro del .zip
zfile.filelist

[<ZipInfo filename='On_Time_Reporting_Carrier_On_Time_Performance_(1987_present)_2020_3.csv' compress_type=deflate filemode='-rw-r--r--' file_size=284488780 compress_size=30367345>,
 <ZipInfo filename='readme.html' compress_type=deflate filemode='-rw-r--r--' file_size=12152 compress_size=2244>]

Una vez tenemos una conexión con los ficheros que se encuentran en el interior del archivo .zip, indicamos a cual de ellos queremos acceder:

In [38]:
# Pasamos el índice 0 porque es el primer fichero del .zip
csvfile = zfile.open(zfile.filelist[0])

La variable *zfile* es una conexión al fichero comprimido "On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2018_12.zip". Podemos utilizar esta variable para abrir una conexión a alguno de los ficheros contenido en el .zip, los cuales se comportaran como un fichero descomprimido normal que hayamos abierto con la función `open()`.

Ahora ya podemos cargar el fichero en memoria como un DataFrame de pandas. Recuerda cerrar las conexiones a los ficheros, `ZipFile.close()`.

In [39]:
flights = pd.read_csv(csvfile)

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [40]:
flights.shape

(648229, 110)

In [41]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 648229 entries, 0 to 648228
Columns: 110 entries, Year to Unnamed: 109
dtypes: float64(71), int64(20), object(19)
memory usage: 544.0+ MB


In [43]:
flights.sample(3)

Unnamed: 0,Year,Quarter,Month,DayofMonth,DayOfWeek,FlightDate,Reporting_Airline,DOT_ID_Reporting_Airline,IATA_CODE_Reporting_Airline,Tail_Number,...,Div4TailNum,Div5Airport,Div5AirportID,Div5AirportSeqID,Div5WheelsOn,Div5TotalGTime,Div5LongestGTime,Div5WheelsOff,Div5TailNum,Unnamed: 109
369108,2020,1,3,19,4,2020-03-19,WN,19393,WN,N400WN,...,,,,,,,,,,
281794,2020,1,3,3,2,2020-03-03,HA,19690,HA,N479HA,...,,,,,,,,,,
131484,2020,1,3,30,1,2020-03-30,B6,20409,B6,N959JB,...,,,,,,,,,,


In [44]:
# Cerramos la conexiones abiertas
zfile.close()
csvfile.close()

# 3. Exploración y limpieza de datos

Una vez se tienen los ficheros cargados, y con formato DataFrame de `pandas`, podremos empezar un análisis exploratorio preliminar en busca de las carácterísticas básicas de los ficheros.

El análisis exploratorio de datos (Exploratory Data Analysis, EDA) es un paso previo e imprescindible a la hora de comprender los datos con los que se va a trabajar, y altamente recomendable para llevar a cabo una correcta metodología de investigación.

El objetivo de este análisis es explorar (como bien dice su nombre), describir, resumir y visualizar la naturaleza de los datos recogidos en la investigación de interés, mediante la aplicación de técnicas simples de resumen de datos y métodos gráficos sin asumir asunciones para su interpretación. El EDA es un ciclo iterativo en el que:

1. Generas preguntas acerca de tus datos
2. Buscas respuestas visualizando, transformando y modelando tus datos
3. Usas lo que has aprendido para refinar tus preguntas y/o generar nuevas interrogantes

Para este apartado vamos a trabajar con un dataset muy conocido denominado *Titanic*, el cual recoge datos de cada integrante de la embarcación en su último trayecto.

In [119]:
## Cargamos ficheros de trabajo
path = "../_data/_titanic/titanic.csv"
df_titanic = pd.read_csv(path)

## 3.1. Valores y dimensiones

**`df.head()` y `df.tail()`: Análisis visual de los primeros y últimos valores del dataset:**

Mediante las funciones `df.head(n)` y `df.tail(n)`, podremos echar un vistazo de manera visual a los "n" primeros o últimos registros del dataset. Si no se indica el valor de la variable "n", python tomará 5 por defecto.

In [120]:
df_titanic.head(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"


**`df.shape`: Dimensiones del dataset:**

También se pueden obtener las dimensiones del DataFrame mediante la función `df.shape`.

In [121]:
dimensiones = df_titanic.shape
print("El DataFrame tiene unas dimensiones (filas x columnas) de: ", dimensiones)

El DataFrame tiene unas dimensiones (filas x columnas) de:  (1309, 14)


**`df.columns`: Nombre de las columnas del dataset:**

Otro análisis visual que se puede llevar a cabo es echar un vistazo al nombre de todas las columnas para tratar de inferir el contenido alojado en cada una de ellas. Una buena práctica es alojar todos los nombres en una lista que más adelante será útil para trabajar con ellas de forma rápida, y tener siempre a mano el nombre de todas ellas.

In [122]:
columnas = df_titanic.columns.values
print(columnas)

['pclass' 'survived' 'name' 'sex' 'age' 'sibsp' 'parch' 'ticket' 'fare'
 'cabin' 'embarked' 'boat' 'body' 'home.dest']


**`df.dtypes`: Tipo de dato en cada columna del dataset:**

Por último, dentro del análisis visual, se puede incluir también el tipo de dato que alberga cada columna, si es un string, un entero, flotante (decimal)...etc.

In [123]:
df_titanic.dtypes.head()

pclass        int64
survived      int64
name         object
sex          object
age         float64
dtype: object

**`df.unique()`: Diferentes tipos de valores en una columna:**

In [124]:
df_titanic['sex'].unique()

array(['female', 'male'], dtype=object)

**`df.column.value_counts()`: Diferentes tipos de valores en una columna, y número de ocurrencias:**

In [125]:
df_titanic['sex'].value_counts()

male      843
female    466
Name: sex, dtype: int64

## 3.2. Estadística descriptiva

**`df.info()`: Resumen de los valores faltantes por columna:**

El primer paso antes de empezar a analizar los estadísticos básicos, es estudiar los valores faltantes o missing values que contiene el DataFrame. En `pandas` un missing value se suele indicar con el símbolo `NaN`, es importante analizar el porcentaje de valores faltantes por cada columna para saber si eliminarlas, o buscar un método para sustituirlos.

Para obtener información sobre los missing values utilizaremos la función `df.info()`.

In [50]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(3), int64(4), object(7)
memory usage: 143.3+ KB


**`df.describe()`: Resumen de los estadísticos básicos de las variables numéricas:**

Esta función devuelve una serie de estadísticas para cada una de las columnas que contengan valores núméricos del DataFrame como la media, desviación estándar, valores máximos y mínimos, percentiles...etc. Estos estadísticos son calculados sin tener en cuenta los valores faltantes `NaN`.

In [52]:
## Estadísticos básicos
df_titanic.describe()

## Si queremos que nos rodendee los resultados a "n" decimales podes hacerlo añadiendo la función round(n).
df_titanic.describe().round(2)

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.29,0.38,29.88,0.5,0.39,33.3,160.81
std,0.84,0.49,14.41,1.04,0.87,51.76,97.7
min,1.0,0.0,0.17,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.9,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.45,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.28,256.0
max,3.0,1.0,80.0,8.0,9.0,512.33,328.0


También podemos indicar a la función que nos incluya las variables categóricas en el análisis incluyendo en el argumento de la funcion `include = "all"`. Dado que la mayoría de filas de esta tabla son de carñaster estadístico (cuartiles por ejemplo) las variables categóricas arrojaran valores tipo `NaN`.

In [54]:
df_titanic.describe(include = "all").round(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
count,1309.0,1309.0,1309,1309,1046.0,1309.0,1309.0,1309,1308.0,295,1307,486.0,121.0,745
unique,,,1307,2,,,,929,,186,3,27.0,,369
top,,,"Kelly, Mr. James",male,,,,CA. 2343,,C23 C25 C27,S,13.0,,"New York, NY"
freq,,,2,843,,,,11,,6,914,39.0,,64
mean,2.29,0.38,,,29.88,0.5,0.39,,33.3,,,,160.81,
std,0.84,0.49,,,14.41,1.04,0.87,,51.76,,,,97.7,
min,1.0,0.0,,,0.17,0.0,0.0,,0.0,,,,1.0,
25%,2.0,0.0,,,21.0,0.0,0.0,,7.9,,,,72.0,
50%,3.0,0.0,,,28.0,0.0,0.0,,14.45,,,,155.0,
75%,3.0,1.0,,,39.0,1.0,0.0,,31.28,,,,256.0,


## 3.3. Valores faltantes

Como hemos visto antes, dentro de un dataset podemos encontrarnos con valores que no estén informados, esto es lo que se denomina un missing values, y en Pandas se representa con el símbolo `NaN`.

Los valores que faltan en un data set pueden venir por dos razones:
* Error en la extracción de los datos
* Error en la recolección de los datos

Para lidiar con este problema, suele haber dos aproximaciones posibles en función del número de missing values:

- Eliminar la totalidad de aquellas filas o columnas que contengan missing values.
- Inferir el valor de los missing values con datos como la media, la mediana, el valor inmediatamente anterior...etc

### 3.3.1. Conteo de valores faltantes

El primer paso para tratar con los valores `NaN`, es saber cuantos hay:

- ¿son muchos y podemos eliminar toda la fila o columna?
- ¿son pocos y podemos inferirlos?

Como hemos visto en puntos anteriores, se puede utilizar la función `df.info()` para obtener el número de valores no nulos de cada columna, pero también podemos apoyarnos en funciones como `df.isna()`, o `df.isnull()` para llevar a cabo esta tarea.

**`df.isna()`: Devuelve el DataFrame en formato booleano indicado si hay `NaN` (True) o no (False):**

>*El opuesto a esta función sería `df.notna()`.*

In [56]:
df_titanic.isna().head(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,False,False,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False,True,False


Una vez tenemos la matriz con valores booleanos acerca de si hay valores faltantes o no, podemos realizarle más preguntas como saber si hay algun `NaN` por columna, o sumar todos los `NaN` por columna.

In [58]:
df_titanic.isna().any()

pclass       False
survived     False
name         False
sex          False
age           True
sibsp        False
parch        False
ticket       False
fare          True
cabin         True
embarked      True
boat          True
body          True
home.dest     True
dtype: bool

In [59]:
df_titanic.isna().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

**Missing values con valor diferente de `NaN`:**

Hay veces que no todos los dataset vienen con los datos ya trabajados y en el caso de missing values notificados con el valor `NaN`, si no que pueden venir con otros valores.

Para subsanar esta casuística podemos ayudarnos del parámetro `na_value` de la función `pd.read_csv()` e indicar mediante una lista los tipos de `NaN` que esperamos como puede ser ["?", "--", "#N/A"]; o utilizar la función `replace`.

In [60]:
## Definimos los valores de reemplazo mediante un diccionario
valores_reemplazar = {"?": np.nan,
                      "--": np.nan,
                      "#N/A": np.nan}

## Ejecutamos el reemplazo
df_titanic.replace(valores_reemplazar, inplace = True)

**Función tabla-resumen de missing values:**

In [61]:
def assess_NA(data):
    """
    Devuelve un dataframe de pandas indicando el numero total de NaN values y el porcentaje respecto del total para
    cada columna.
    
    El nombre de la variable es colocado en el index.
    
    Parámetros
    ----------
    data: dataframe
    """
    ## pandas series denoting features and the sum of their null values
    null_sum = data.isnull().sum() ## instantiate columns for missing data
    total = null_sum.sort_values(ascending = False)
    percent = ( ((null_sum / len(data.index)) * 100).round(2) ).sort_values(ascending=False)
    
    ## concatenate along the columns to create the complete dataframe
    df_NA = pd.concat([total, percent], axis = 1, keys = ['Number of NA', 'Percent NA'])
    
    ## drop rows that don't have any missing data; omit if you want to keep all rows
    df_NA = df_NA[(df_NA.T != 0).any()]
    
    return df_NA

df_NA = assess_NA(df_titanic)
df_NA

Unnamed: 0,Number of NA,Percent NA
body,1188,90.76
cabin,1014,77.46
boat,823,62.87
home.dest,564,43.09
age,263,20.09
embarked,2,0.15
fare,1,0.08


### 3.3.2. Borrado de valores faltantes

En el caso de que optemos por eliminar la totalidad de una fila o columna, podemos utilizar la función `df.dropna()`. Esta función tiene los siguientes parámetros:

- `axis`: indica si trabajamos en vertical u horizontal. 0: borra filas; 1: borra columnas.
- `how`: indica en que filas hay que trabajar. `all`: si todas las columnas tienen valores `NaN` o `NULL`; `any`: borra la fila o columna con que haya una única columna que tenga un missing value.

In [62]:
df_titanic.shape

(1309, 14)

In [63]:
## En este caso, como no hay ninguna fila que tenga todos los valores con NaN, no elimina ninguna.
df_titanic_not_nan = df_titanic.dropna(axis = 0, how = "all")
df_titanic_not_nan.shape

(1309, 14)

In [64]:
## En este caso, como todas las filas tienen algun valor NaN, elimina todas las columnas.
df_titanic_not_nan = df_titanic.dropna(axis = 0, how = "any")
df_titanic_not_nan.shape

(0, 14)

In [65]:
## En este caso, como no hay ninguna columna que tenga todos los valores con NaN, no elimina ninguna.
df_titanic_not_nan = df_titanic.dropna(axis = 1, how = "all")
df_titanic_not_nan.shape

(1309, 14)

In [66]:
## En este caso, como hay algunas columnas que tienen uno de sus valores NaN, elimina toda la columna.
df_titanic_not_nan = df_titanic.dropna(axis = 1, how = "any")
df_titanic_not_nan.shape

(1309, 7)

### 3.3.3. Imputación de valores faltantes

Cuando tenemos valores faltantes, existe una alternativa a eliminarlos, que es inferir su valor, ya sea de manera fija o en base a una metodología definidad. Las opciones más comunes suelen ser:

- A ceros: 0
- Con un string fijo: "N/A"
- Promedio del resto de valores
- Con valores numéricos circundantes

Saber qué camino tomar al manejar missing values está en gran medida marcado por el conocimiento y lo que su intuición le dice sobre los datos. Esto se obtiene paso a paso, y trabajando con conjuntos de datos que le permiten hacer preguntas significativas sobre ellos.

Para llevar a cabo esta tarea nos apoyaremos en la funcion `df.fillna()`.

**Completar con un valor definido:**

In [67]:
df_titanic_fill_na = df_titanic
df_titanic_fill_na = df_titanic_fill_na.fillna("Desconocido")
df_titanic_fill_na.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.338,B5,S,2,Desconocido,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,Desconocido,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,Desconocido,Desconocido,"Montreal, PQ / Chesterville, ON"


**Completar con reglas diferentes por cada columna:**

In [68]:
df_titanic_fill_na = df_titanic

## body se completa con el valor int 0
df_titanic_fill_na["body"] = df_titanic_fill_na["body"].fillna(0) 

## home.dest se completa con el valor string "Desconocido"
df_titanic_fill_na["home.dest"] = df_titanic_fill_na["home.dest"].fillna("Desconocido")

df_titanic_fill_na.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,0.0,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,0.0,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON"


**Completar en base a la media del resto de valores de la columna:**

In [69]:
df_titanic_fill_na = df_titanic
df_titanic_fill_na["age"] = df_titanic_fill_na["age"].fillna(df_titanic_fill_na["age"].mean())
df_titanic_fill_na.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,0.0,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,0.0,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON"


**Completar en base al valor inmediatamente anterior o posterior dentro de la columna:**

In [70]:
## Completar con el valor inmediatamente siguiente (forwardfill)
df_titanic_fill_na["age"] = df_titanic_fill_na["age"].fillna(method="ffill")

## Completar con el valor inmediatamente anterior (backfill)
df_titanic_fill_na["age"] = df_titanic_fill_na["age"].fillna(method="backfill")

# 4. Transformación de datos

La transformación de datos es el proceso en el que se cambia el formato o estructura de un dataset para poder ser usado o procesado. Otras formas de referirse a este proceso puede ser **data wrangling** o **data munging**.

El **data wrangling** es el proceso de transformar los datos de un *raw dataset* (en bruto) u otro formato, con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como puede ser su análisis o carga en un sistema determinado.

Este proceso puede incluir visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (datawarehouse) para su uso futuro, se puede denominar también a esto un proceso ETL (Extract - Transform - Load).

In [74]:
# Cargamos ficheros de trabajo
path = "../_data/_customer_churn_model/customer_churn_model.txt"
df_churn = pd.read_csv(path)

# Seleccionamos solo las columnas de tr
df_churn.head(3)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.


## 4.1. Copiar un DataFrame

Una buena práctica es hacer una copia de todos los dataframes nada más cargarlos, de modo que en cualquier momento del proceso podamos comparar nuestro dataset de trabajo con el original, para ver cómo va variando.

Para ello utilizamos la función `df.copy()`. En el argumento de la función deberemos indicar el argumento `deep = True`, de este modo aseguramos que lo que realizamos es una copia auténtica del fichero; si en este parámetro indicásemos `deep = False`, lo que estaríamos haciendo sería crear un vínculo entre ambos ficheros y cualquier modificación que realizaramos en alguno de los dos, se aplicaría en el otro, como un espejo.

In [None]:
df_churn_copy = df_churn.copy(deep = True)

## 4.2. Eliminar y añadir información en un DataFrame

### 4.2.1. Eliminar columnas y filas

Podemos eliminar columnas de un DataFrame mediante la función `df.drop(columnas, axis = 1)`. En caso de ser muchas columnas podemos almacenarlas en una variable, o al contrario, realizar una extracción de las columnas de interés eliminando por ende el resto.

In [75]:
df_churn.drop(['Account Length', 'Phone', 'Churn?', 'CustServ Calls'], axis = 1).head(2)

Unnamed: 0,State,Area Code,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge
0,KS,415,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7
1,OH,415,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7


Para eliminar las filas podermos valernos de la misma función pero indicando el índice de estas, y cambiando el argumento axis a 0. `df.drop(indice, axis = 0)`.

In [76]:
df_churn.drop([1, 2 , 3], axis = 0).head(3)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.


### 4.2.2. Eliminar duplicados

Se pueden eliminar los duplicados de un DataFrame atiendo a unos campos llave, mediante el método `df.drop_duplicates(subset, opt)`, donde *subset* hace referencia a las columnas que se van a emplear para identificar los duplicados, y *opt* diferentes argumentos que permitirán que esta función trabaje de un modo u otro.

In [135]:
df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
                   'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
                   'rating': [4, 4, 3.5, 15, 5]})
df

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
1,Yum Yum,cup,4.0
2,Indomie,cup,3.5
3,Indomie,pack,15.0
4,Indomie,pack,5.0


In [136]:
df.drop_duplicates(subset = ['brand', 'style'], keep = 'last')

Unnamed: 0,brand,style,rating
1,Yum Yum,cup,4.0
2,Indomie,cup,3.5
4,Indomie,pack,5.0


### 4.2.3. Añadir / modificar columnas

Podemos crear columnas nuevas con valores fijos indicando la tabla y el valor fijo con el que queremos completar la nueva columna. La sintaxis sería `df[columna_nueva] = valor`.

Este valor puede ser un número entero, un string, una fecha...etc.

In [80]:
## Vamos a crear un dataset mas pequeño para este ejercicio, para que sea más cómodo de trabajar:
columnas = ['Day Calls', 'Eve Calls', 'Night Calls']
df_churn_nuevo = df_churn[columnas].copy(deep = True)

## Añadimos una columna nueva que contenga el string "suman":
df_churn_nuevo['suman'] = 'suman'

## Creamos una columna que sume el número total de columnas en el día
df_churn_nuevo['total calls'] = df_churn_nuevo['Day Calls'] + df_churn_nuevo['Eve Calls'] + df_churn_nuevo['Night Calls']
        
df_churn_nuevo.head(3)

Unnamed: 0,Day Calls,Eve Calls,Night Calls,suman,total calls
0,110,99,91,suman,300
1,123,103,103,suman,329
2,114,110,104,suman,328


A las prácticas anteriores de crear columnas, se le pueden añadir condicionales de modo que se realicen ciertas operaciones en función de que se cumplan unas condiciones prefijadas o no. Como Python es un lenguaje muy versatil, se puede realizar de diferentes formas, a continuación analizaremos algunas de ellas.

**Mediante diccionarios:**

In [81]:
## Creamos una tabla de muestra.
df = pd.DataFrame({'Id': ['A', 'B', 'C', 'D'],
                   'Value': [10, 9, 8, 7]})

## Definimos el diccionario que contiene los pares de datos, y mapeamos los valores
diccionario = {'A': 1, 'B': 2, 'C': 3, 'D': 4} 
df['Value_2'] = df['Id'].map(diccionario)

df

Unnamed: 0,Id,Value,Value_2
0,A,10,1
1,B,9,2
2,C,8,3
3,D,7,4


**Mediante una función que contenga los condicionales definidos. Este metodo es más lento, pero permite jugar con los valores de diferentes columnas:**

In [82]:
## Creamos el dataframe:
df = pd.DataFrame({'Type': ['A', 'B', 'B', 'C'],
                   'Set': ['Z', 'Z', 'X', 'Y']})

## Definimos la función con sus condicionales:
def set_color(row):
    if row["Set"] == "Z":
        return "red"
    elif row["Type"] == "C":
        return "blue"
    else:
        return "green"

## Creamos la columna nueva con los resultados de la función:
df = df.assign(color = df.apply(set_color, axis=1))
df

Unnamed: 0,Type,Set,color
0,A,Z,red
1,B,Z,red
2,B,X,green
3,C,Y,blue


**Mediante la función select de la librería NumPy:**

In [83]:
## Creamos el dataframe:
df = pd.DataFrame({'Type': ['A', 'B', 'B', 'C'],
                   'Set': ['Z', 'Z', 'X', 'Y']})

## Definimos los diferentes condicionales:
conditions = [
    (df['Set'] == 'Z') & (df['Type'] == 'A'),
    (df['Set'] == 'Z') & (df['Type'] == 'B'),
    (df['Type'] == 'B')]
choices = ['yellow', 'blue', 'purple']

## Mapeamos
df['color'] = np.select(conditions, choices, default='black')
df

Unnamed: 0,Type,Set,color
0,A,Z,yellow
1,B,Z,blue
2,B,X,purple
3,C,Y,black


**Mediante una función lambda:**

In [129]:
## Creamos el dataframe:
df = pd.DataFrame({'Ciudad': ['Madrid', 'Sevilla', 'Barcelona', 'Cádiz'],
                   'Abreviacion': ['MAD', 'SE', 'BCN', 'CDZ']})

df['Capital'] = df['Abreviacion'].apply(lambda abrv: 'Capital' if abrv == 'MAD' else np.nan)
df

Unnamed: 0,Ciudad,Abreviacion,Capital
0,Madrid,MAD,Capital
1,Sevilla,SE,
2,Barcelona,BCN,
3,Cádiz,CDZ,


### 4.2.4. Dumificar variables

De forma habitual trabajaremos con datos que contienen información con variables categóricas, continuas, discretas...etc, esto puede marcar significativamente el modelo de machine learning que terminemos utilizando. No obstante, existe una práctica denominada dumificación de variables, que consiste en convertir una variable categórica con $n$ posible valores, a $n$ columnas con valores dicotómicos.

Esta dumificación, puede permitir por ejemplo incuir variables cualitativas en modelos de regresión lineal, los cuales en principio están acotados a datos de tipo cuantitativo.

Para dumificar una variable se utiliza la función `pd.get_dummies(df['column'], prefix)`:

In [84]:
## Creamos un DataFrame
diccionario = {'id': ['Juan', 'Luis', 'Ana', 'Raquel'],
               'genero': ['masculino', 'masculino', 'femenino', 'femenino']}
df = pd.DataFrame(diccionario)

## Dumificamos el género
df_dummy = pd.get_dummies(df["genero"], prefix = "genero")

df_dummy

Unnamed: 0,genero_femenino,genero_masculino
0,0,1
1,0,1
2,1,0
3,1,0


### 4.2.5. Discretizar variables

Es posible pasar de una variable continua, de una variable discreta pero con multitud de valores, a una agrupada en unos rangos definidos.

Para ello se puede utilizar el método `.cut(variable, rangos)`.

In [20]:
# Para una distribución de edades de entre 0 y 99 años, agruparlas en rangos
ages = np.random.randint(0, 99, size = 100)
ranges = [0, 2, 12, 19, 35, 99]
pd.cut(ages, ranges).value_counts()

(0, 2]       1
(2, 12]      8
(12, 19]     5
(19, 35]    19
(35, 99]    67
dtype: int64

### 4.2.6. Manipular variables de tipo string

Python permite trabajar con strings dentro de un dataframe, del mismo modo que se trabaja con estos objetos de forma natural en python.

Para ello, se debe utilizar el atributo `.str()` con cualquier variable de un dataframe, siempre y cuando se pase como serie y no como dataframe.

In [23]:
creatures = pd.DataFrame({'creature': 'fairy goblin orc elf mammoth narwhal'.split()})
creatures

Unnamed: 0,creature
0,fairy
1,goblin
2,orc
3,elf
4,mammoth
5,narwhal


In [26]:
creatures['creature'].str.capitalize()

0      Fairy
1     Goblin
2        Orc
3        Elf
4    Mammoth
5    Narwhal
Name: creature, dtype: object

In [28]:
creatures['creature'].str.upper()

0      FAIRY
1     GOBLIN
2        ORC
3        ELF
4    MAMMOTH
5    NARWHAL
Name: creature, dtype: object

In [29]:
creatures['creature'].str[-1]

0    y
1    n
2    c
3    f
4    h
5    l
Name: creature, dtype: object

In [48]:
# Del fichero flights cargado anteriormente, quedarse solo con aquellas columnas que contengan la plabra 'Origin'
flights.columns[flights.columns.str.contains('Origin')]

Index(['OriginAirportID', 'OriginAirportSeqID', 'OriginCityMarketID', 'Origin',
       'OriginCityName', 'OriginState', 'OriginStateFips', 'OriginStateName',
       'OriginWac'],
      dtype='object')

In [49]:
flights[flights.columns[flights.columns.str.contains('Origin')]].sample(5)

Unnamed: 0,OriginAirportID,OriginAirportSeqID,OriginCityMarketID,Origin,OriginCityName,OriginState,OriginStateFips,OriginStateName,OriginWac
24216,10208,1020803,30208,AGS,"Augusta, GA",GA,13,Georgia,34
138464,12892,1289208,32575,LAX,"Los Angeles, CA",CA,6,California,91
319506,11433,1143302,31295,DTW,"Detroit, MI",MI,26,Michigan,43
629625,10721,1072102,30721,BOS,"Boston, MA",MA,25,Massachusetts,13
274510,12917,1291703,31066,LCK,"Columbus, OH",OH,39,Ohio,44


## 4.3. Ordenar conjunto de datos

Hay veces que por motivos de visualización o de análisis de los datos, es convenientes conocer los valores máximos de una variable, o simplemente tener ordenado un dataset bajo un cierto criterio.

En pandas contamos con el método `.sort_values()` que permite ordenar DataFrames.

In [113]:
# Creamos una serie que contenga los salarios de los empleados de una empresa
salaries = pd.Series([150000, 90000, 120000, 30000, 10000, 5000, 40000, 50000, 80000, 35000, 27000, 14000])

# Los ordenamos de mayor a menor
salaries.sort_values(ascending = False)

0     150000
2     120000
1      90000
8      80000
7      50000
6      40000
9      35000
3      30000
10     27000
11     14000
4      10000
5       5000
dtype: int64

Mediante el método `.sort_index()` se pueden ordenar variables en base a su índice. 

In [114]:
salaries.sort_index(ascending = False)

11     14000
10     27000
9      35000
8      80000
7      50000
6      40000
5       5000
4      10000
3      30000
2     120000
1      90000
0     150000
dtype: int64

Adicionalmente también existe un método que permite obtener la posición que ocupan los elementos de una variable en su versión ordenada, este método es `.rank()`.

In [115]:
salaries.rank()

0     12.0
1     10.0
2     11.0
3      5.0
4      2.0
5      1.0
6      7.0
7      8.0
8      9.0
9      6.0
10     4.0
11     3.0
dtype: float64

## 4.4. Crear subconjuntos de datos

Es posible que muchas veces, de todo el DataFrame con el que vamos a trabajar, nos interesen solo algunas columnas. También puede ocurrir que para un análisis en concreto queramos utilizar tablas auxiliares creando un subconjunto de datos del DataFrame principal.

### 4.4.1. Subconjunto de columnas

La sintaxis a seguir a la hora de extraer un subconjunto de columnas de un dataframe, es la siguiente:

`df_destino = df_origen[["nombre_columna_1", "nombre_columna_2", [...], [...], "nombre_columna_n"]]`

También se puede almacenar todas las columnas que queramos en una lista, y pasarla como argumento en la estructura anterior.

In [85]:
columnas = ['State', 'Area Code', 'Day Mins', 'Day Calls', 'Night Mins', 'Night Calls']
df_churn_new = df_churn[columnas]

df_churn_new.head(3)

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
0,KS,415,265.1,110,244.7,91
1,OH,415,161.6,123,254.4,103
2,NJ,415,243.4,114,162.6,104


### 4.4.2. Subconjunto de filas

Al igual que se ha en el punto anterior, también se pueden crear subconjuntos de datos filtrando por determinadas filas. En este caso, lo haremos en base al índice de los registros.

**Nota: es importante tener en cuenta que en Python, el primer registro tiene índice 0.**

La sintaxis a seguir es: `df_destino = df_origen [fila_inicio:fila_fin]`

Existen dos casos particulares, que permiten elegir desde el inicio del fichero hasta el registro `x`, o desde el registro `X` hasta el final del mismo:

- `df_destino = df_origen[:x]`
- `df_destino = df_origen[x:]`

In [86]:
df_churn_new2 = df_churn_new[:5]
df_churn_new2

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
0,KS,415,265.1,110,244.7,91
1,OH,415,161.6,123,254.4,103
2,NJ,415,243.4,114,162.6,104
3,OH,408,299.4,71,196.9,89
4,OK,415,166.7,113,186.9,121


### 4.4.3. Subconjuntos de filas y columnas en base a condiciones booleanas

En los DataFrames de Pandas existen múltiples formas de seleccionar los registros de las filas y columnas, siendo dos de las más importantes `iloc` y `loc`. La primera permite seleccionar los elementos en base a la posición de las filas y columnas dentro del DataFrame (utilizando índices), mientras que la segunda permite seleccionar mediante índices.

- `iloc`: en base a la posición. Sintaxis: `df.iloc[filas, columnas]`.
- `loc`: en base a etiquetas. Sintaxis: `df.loc[filas, columnas]`.

Para incluir los condicionales se deben pasar como argumentos de la función en la parte de las filas. Hay que tener en cuenta que para concatenar operadores lógicos en pandas se debe utilizar el símbolo `&` para el operador `and`; y el símbolo `|` para el operador `or`.

- `&` = `and`
- `|` = `or`

Ejemplo de la sintaxis:

`df.loc[df[columna_1] > x & df[columna_1] < y , [columan_1, columna_2]]`

*¡Nota!: con el método `.iloc` solo se coge el inicio pero no el fin, por eso al hacer `data.iloc[0:5]` selecciona desde la fila 0 hasta la 4, a diferencia del método `.loc` `data.loc[0:5]` el cual coge desde la fila 0 hasta la fila 5.*

In [87]:
## Creamos un DataFrame para realizar los ejercicios
columnas = ['State', 'Area Code', 'Day Mins', 'Day Calls', 'Night Mins', 'Night Calls']
df_churn_new = df_churn[columnas]

df_churn_new.head(3)

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
0,KS,415,265.1,110,244.7,91
1,OH,415,161.6,123,254.4,103
2,NJ,415,243.4,114,162.6,104


In [88]:
## Seleccionar todas las columnas desde el principio hasta la fila 10
df_churn_new.loc[:10, :]

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
0,KS,415,265.1,110,244.7,91
1,OH,415,161.6,123,254.4,103
2,NJ,415,243.4,114,162.6,104
3,OH,408,299.4,71,196.9,89
4,OK,415,166.7,113,186.9,121
5,AL,510,223.4,98,203.9,118
6,MA,510,218.2,88,212.6,118
7,MO,415,157.0,79,211.8,96
8,LA,408,184.5,97,215.8,90
9,WV,415,258.6,84,326.4,97


In [89]:
## Seleccionar las dos primeras columnas de las primeras 5 filas
df_churn_new.loc[:5, ['State', 'Area Code']]

Unnamed: 0,State,Area Code
0,KS,415
1,OH,415
2,NJ,415
3,OH,408
4,OK,415
5,AL,510


In [91]:
## Seleccionar las columnas State y Day Calls de aquellos registros que tengan más de 100 llamadas al día y
## que sean del estado de "KS" o "OH". Mostrar los 5 primeros resultados.

df_churn_new.loc[(df_churn_new["Day Calls"]>100) & ((df_churn_new["State"]=="KS") | (df_churn_new["State"]=="OH")),
                 ["State", "Day Calls"]].head()

Unnamed: 0,State,Day Calls
0,KS,110
1,OH,123
152,OH,116
156,OH,120
179,KS,122


También podemos emplear métodos más sencillos si solo queremos filtrar filas en base a condicionales y queremos todas las columnas del DataFrame, esta forma de filtrar un dataset también es conocido como máscara.

In [92]:
df_churn_new[df_churn_new['State'].isin(['AL', 'MO'])][:5]

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
5,AL,510,223.4,98,203.9,118
7,MO,415,157.0,79,211.8,96
28,MO,415,190.0,109,181.5,102
112,AL,408,161.0,117,227.7,113
118,MO,510,113.7,117,177.6,118


In [93]:
df_churn_new[df_churn_new['Day Mins'] > 300][:5]

Unnamed: 0,State,Area Code,Day Mins,Day Calls,Night Mins,Night Calls
15,NY,415,332.9,67,160.6,128
76,DC,415,300.3,109,270.1,73
156,OH,415,337.4,120,153.9,114
197,TX,510,326.5,67,181.7,102
230,MD,408,312.0,109,217.6,74


## 4.5. Agregaciones

Otra de las operaciones más comunes que se pueden encontrar dentro del ámbito del Data Wrangling es la agrupación de los datos en base a alguna/s de las columnas del dataset.

Para llevar a cabo esta operación se utiliza la función `df.groupby(['columna_1', 'columna_2'])`. Detrás de esta sintaxis, se pueden añadir otras funciones para sumarizar los valores, obtener la media, o contar el número de filas del resto de variables.

In [94]:
## Calcular el número de minutos totales hablados y llamadas por estado. 5 primero resultados:
df_churn_new[['State', 'Day Mins', 'Day Calls']].groupby(["State"]).sum().head()

Unnamed: 0_level_0,Day Mins,Day Calls
State,Unnamed: 1_level_1,Unnamed: 2_level_1
AK,9276.0,4954
AL,14880.8,7928
AR,9686.4,5618
AZ,10982.7,6407
CA,6241.2,3553


In [96]:
## Calcular el número total de minutos de día, y la media de llamadas diarias. 5 primero resultados:
df_churn_new.groupby(["State"]).agg({"Day Mins": "sum", "Day Calls": "mean"}).reset_index().round(2).head()

Unnamed: 0,State,Day Mins,Day Calls
0,AK,9276.0,95.27
1,AL,14880.8,99.1
2,AR,9686.4,102.15
3,AZ,10982.7,100.11
4,CA,6241.2,104.5


**Ejercicio:**

*Del fichero de vuelos 'flights', obtener:*

- *1. 10 aviones con mayor retraso*
- *2. 10 aviones con mayor número de vuelos, y la media de retrasos*
- *3. Los aviones con peor retraso, y que tengan más de 10 vuelos.*
- *4. Ciudades con mayor número de aeropuertos*
- *5. Áreas comerciales con mayor número de aeropuertos*
- *6. Áreas comerciales con mayor número de aeropuertos, y qué aeropuertos engloba*

In [54]:
interesting_columns= ['FlightDate', 'DayOfWeek', 'Reporting_Airline', 'Tail_Number', 'Flight_Number_Reporting_Airline', 'Origin', 'OriginCityName', 'OriginStateName', 'OriginCityMarketID', 'Dest', 'DestCityName', 'DestStateName', 'DestCityMarketID', 'DepTime', 'DepDelay', 'AirTime', 'Distance']

flights = flights[interesting_columns]
flights.head()

Unnamed: 0,FlightDate,DayOfWeek,Reporting_Airline,Tail_Number,Flight_Number_Reporting_Airline,Origin,OriginCityName,OriginStateName,OriginCityMarketID,Dest,DestCityName,DestStateName,DestCityMarketID,DepTime,DepDelay,AirTime,Distance
0,2020-03-09,1,9E,N669CA,4677,DTW,"Detroit, MI",Michigan,31295,PVD,"Providence, RI",Rhode Island,30721,1412.0,-11.0,84.0,615.0
1,2020-03-09,1,9E,N669CA,4677,PVD,"Providence, RI",Rhode Island,30721,DTW,"Detroit, MI",Michigan,31295,1646.0,-4.0,102.0,615.0
2,2020-03-07,6,9E,N980EV,4678,DTW,"Detroit, MI",Michigan,31295,TVC,"Traverse City, MI",Michigan,35380,1539.0,-5.0,42.0,207.0
3,2020-03-07,6,9E,N980EV,4678,TVC,"Traverse City, MI",Michigan,35380,DTW,"Detroit, MI",Michigan,31295,1743.0,-16.0,35.0,207.0
4,2020-03-07,6,9E,N836AY,4680,AZO,"Kalamazoo, MI",Michigan,30469,DTW,"Detroit, MI",Michigan,31295,1344.0,-5.0,30.0,113.0


In [55]:
# 1. 10 aviones con mayor retraso
flights.groupby('Tail_Number')['DepDelay'].mean().sort_values(ascending = False).head(10)

Tail_Number
N669UA    199.000000
N2142U    190.000000
N762AN     73.000000
N812AA     72.769231
N9008U     68.225000
N388AA     61.736842
N343AN     61.400000
N112AN     58.750000
N14106     56.000000
N29968     56.000000
Name: DepDelay, dtype: float64

In [56]:
# 2. 10 aviones con mayor número de vuelos, y la media de retrasos
flights.groupby('Tail_Number')['DepDelay'].agg(['mean', 'count']).sort_values('count', ascending = False).head(10)

Unnamed: 0_level_0,mean,count
Tail_Number,Unnamed: 1_level_1,Unnamed: 2_level_1
N494HA,-2.579661,295
N488HA,-2.178082,292
N489HA,-5.634483,290
N493HA,-3.04878,287
N475HA,-3.845018,271
N490HA,-1.52963,270
N481HA,-2.973077,260
N485HA,-0.521236,259
N479HA,-2.25098,255
N484HA,-0.794466,253


In [57]:
# 3. Los aviones con peor retraso, y que tengan más de 10 vuelos.
delays = flights.groupby('Tail_Number')['DepDelay'].agg(['mean', 'count']).sort_values('mean', ascending = False)
delays[delays['count'] > 10].head(10)

Unnamed: 0_level_0,mean,count
Tail_Number,Unnamed: 1_level_1,Unnamed: 2_level_1
N812AA,72.769231,26
N9008U,68.225,40
N388AA,61.736842,19
N343AN,61.4,25
N112AN,58.75,12
N204UA,55.866667,30
N447UA,53.727273,22
N940AN,50.465753,73
N904NK,49.424242,99
N397AN,47.4375,16


In [60]:
# 4. Ciudades con mayor número de aeropuertos
flights.drop_duplicates(['OriginCityName', 'Origin'])\
       .groupby(['OriginCityName'])[['Origin']]\
       .count()\
       .sort_values('Origin', ascending = False)\
       .head()

Unnamed: 0_level_0,Origin
OriginCityName,Unnamed: 1_level_1
"Houston, TX",2
"New York, NY",2
"Chicago, IL",2
"Columbus, OH",2
"Mobile, AL",2


In [None]:
flights.groupby(['OriginCityName'])[['Origin']]\
       .nunique()\
       .sort_values('Origin', ascending = False)\
       .head(10)

In [61]:
# 5. Áreas comerciales con mayor número de aeropuertos
flights.drop_duplicates(['OriginCityMarketID', 'Origin'])\
       .groupby(['OriginCityMarketID'])[['Origin']]\
       .count()\
       .sort_values('Origin', ascending = False)\
       .head(10)

Unnamed: 0_level_0,Origin
OriginCityMarketID,Unnamed: 1_level_1
31703,6
32575,5
30721,3
32457,3
30852,3
30466,2
30977,2
33667,2
30194,2
32467,2


In [62]:
# 6. Áreas comerciales con mayor número de aeropuertos, y qué aeropuertos engloba
flights.groupby(['OriginCityMarketID'])['Origin']\
       .agg(['nunique', 'unique'])\
       .sort_values(by = 'nunique', ascending = False)\
       .head(10)

Unnamed: 0_level_0,nunique,unique
OriginCityMarketID,Unnamed: 1_level_1,Unnamed: 2_level_1
31703,6,"[JFK, LGA, HPN, EWR, SWF, ISP]"
32575,5,"[LAX, ONT, SNA, BUR, LGB]"
30721,3,"[PVD, BOS, MHT]"
32457,3,"[SFO, SJC, OAK]"
30852,3,"[DCA, IAD, BWI]"
30466,2,"[PHX, AZA]"
30977,2,"[ORD, MDW]"
33667,2,"[ORF, PHF]"
30194,2,"[DFW, DAL]"
32467,2,"[MIA, FLL]"


## 4.6. Combinación de DataFrames

En muchas ocasiones nos podemos encontrar con que los conjuntos de datos no se encuentran agregados en una única tabla, ya sea porque por ejemplo trabajamos con series temporales y los datos se guardan cada día en un fichero distinto, o porque la BBDD con la que trabajamos distribuye la información en diferentes tablas.

### 4.6.1. Concatenar

Concatenar es el proceso en el que se junta información que tiene el mismo formato, ya sea en sentido horizontal o vertical:

- Concatenar vertical: Ficheros con el mismo número de columnas y coincidentes en el orden de éstas. Concatenar vertical coloca las información del segundo fichero debajo del primero, aumentando el número de filas pero manteniéndose constante el número de columnas.

- Concatenar horizontal: Ficheros con el mismo número de filas, y que el index de cada fichero es coincidente. Concatenar horizontal coloca la información del segundo fichero a la derecha del primero, aumentando el número de columnas pero manteniéndose constante el número de filas.

Para realizar este proceso en Python utilizaremos la función `df_new = pd.concat([df1, df2, ..., dfn], axis)`. Debemos indicar el sentido de la concatenación mediante el argumento `axis`.

- `axis = 0` para el concatenamiento vertical
- `axis = 1` para el concatenamiento horizontal

Para realizar el ejemplo de este ejercicio creamos unos nuevos datasets más sencillos.

In [100]:
# Creamos dos ficheros con las mismas columnas, pero diferente información en cada observación

dict_1 = {'nombre': ['juan', 'juana', 'juanita'],
          'sector': ['salud', 'educación', 'tercer sector'],
          'edad': [23, 24, 25]}
df1 = pd.DataFrame(dict_1)

dict_2 = {'nombre': ['juanito', 'juanin', 'juanon'],
          'sector': ['salud', 'educación', 'tercer sector'],
          'edad': [26, 29, 32]}
df2 = pd.DataFrame(dict_2)

# Concatenamos los ficheros verticalmente, uno debajo del otro
df_total = pd.concat([df1, df2], axis = 0).reset_index()
df_total

Unnamed: 0,index,nombre,sector,edad
0,0,juan,salud,23
1,1,juana,educación,24
2,2,juanita,tercer sector,25
3,0,juanito,salud,26
4,1,juanin,educación,29
5,2,juanon,tercer sector,32


### 4.6.2. Joins

Los Joins sirven para combinar filas de dos o más tablas basándose en un campo común entre ellas, devolviendo por tanto datos de diferentes tablas, están basados en los Joins de SQL. Para llevar a cabo esta operación en Python se utiliza la función `pd.merge(df1, df2, how, left_on, right_on, suffixes)`.

Para especificar el tipo de join se debe indicar mediante el argumento `how`.

- `how = 'left'`: Left Join
- `how = 'right'`: Right Join
- `how = 'inner'`: Inner Join
- `how = 'outer'`: Full-Outer Join

Mediante los argumentos `left_on` y `right_on` se indican los campos que actúan como llaves entre ambos DataFrames.

Adicionalmente podemos completar tambien el argumento `suffixes` para identificar aquellas columnas con nombres iguales de que tabla proceden. Un ejemplo podría ser `suffixes=('_left', '_right')`.

Otro punto a mencionar de la funcion `pd.merge()` de `pandas` es que por defecto es del tipo 1 $\rightarrow$ n. Es decir, si para un registro de la primera tabla, existen 2 registros en la segunda, el fichero de salida tendrá dos registros para este caso, esto se debe a la función `pd.merge()` está basada en el producto cartesiano.

Para llevar a cabo esta parte cargamos unos ficheros nuevos:

In [101]:
## Cargamos ficheros de trabajo
mainpath = "../_data/_clientes_carteras"

filename = "clientes.xlsx"
fullpath = mainpath + "/" + filename
df_clientes = pd.read_excel(fullpath)

filename = "carteras.xlsx"
fullpath = mainpath + "/" + filename
df_carteras = pd.read_excel(fullpath)

filename = "gestores.xlsx"
fullpath = mainpath + "/" + filename
df_gestores = pd.read_excel(fullpath)

In [103]:
df_clientes

Unnamed: 0,id_cliente,des_cliente
0,1,Juan Juánez
1,2,Luis Luisez
2,3,Diego Diéguez
3,4,Ana García
4,5,Isabel Preysler
5,6,Ana de Armas
6,7,Belen Estébanez
7,8,Roberto Carlos Jr.
8,9,Florentino Fernández
9,10,David Broncano


In [104]:
df_carteras

Unnamed: 0,id_cliente,id_cartera,des_cartera
0,1,C0001,Cartera 1
1,2,C0001,Cartera 1
2,3,C0001,Cartera 1
3,4,C0001,Cartera 1
4,5,C0001,Cartera 1
5,6,C0002,Cartera 2
6,7,C0003,Cartera 3
7,8,C0004,Cartera 4
8,9,C0004,Cartera 4
9,11,C0010,Cartera 10


In [105]:
df_gestores

Unnamed: 0,id_cartera,id_gestor,des_gestor
0,C0001,G0001,Ana Botín
1,C0002,G0001,Ana Botín
2,C0003,G0001,Ana Botín
3,C0003,G0002,Andrea Orcel
4,C0004,G0002,Andrea Orcel


**Left Join:**

Este tipo de Join muestra todos los resultados de la primera tabla A (o de la izquierda), y en caso de haber match el valor de los registros de la segunda tabla B, si no existe correspondencia obtendremos como resultado un valor `NaN`.

In [107]:
# Analizamos si los clientes tiene una cartera asignada o no:

pd_left_join = pd.merge(df_clientes,
                        df_carteras,
                        how = 'left',
                        left_on = 'id_cliente',
                        right_on = 'id_cliente')

pd_left_join

Unnamed: 0,id_cliente,des_cliente,id_cartera,des_cartera
0,1,Juan Juánez,C0001,Cartera 1
1,2,Luis Luisez,C0001,Cartera 1
2,3,Diego Diéguez,C0001,Cartera 1
3,4,Ana García,C0001,Cartera 1
4,5,Isabel Preysler,C0001,Cartera 1
5,6,Ana de Armas,C0002,Cartera 2
6,7,Belen Estébanez,C0003,Cartera 3
7,8,Roberto Carlos Jr.,C0004,Cartera 4
8,9,Florentino Fernández,C0004,Cartera 4
9,10,David Broncano,,


Vemos que todos tienen una cartera asignada menos David Broncano, a pesar de no tener cartera, como se ha realizado un left join aparece el cliente pero con el valor de la cartera `NaN`.

**Right Join:**

Es la misma tipología del Left Join, solo que la primera tabla en este caso es la de la derecha. Como buena práctica se suele establecer el uso único del Left Join, de modo que la estructura siempre similar, y facilitar el entendimiento del código.

**Inner Join:**
    
Este tipo de Join devuelve sólo aquellas filas donde haya un match, es decir, las filas donde el valor del campo de la tabla A que se utiliza para hacer el Join coincida con el valor del campo correspondiente en la tabla B.

In [108]:
pd_inner_join = pd.merge(df_clientes,
                         df_carteras,
                         how = 'inner',
                         left_on = 'id_cliente',
                         right_on = 'id_cliente')

pd_inner_join

Unnamed: 0,id_cliente,des_cliente,id_cartera,des_cartera
0,1,Juan Juánez,C0001,Cartera 1
1,2,Luis Luisez,C0001,Cartera 1
2,3,Diego Diéguez,C0001,Cartera 1
3,4,Ana García,C0001,Cartera 1
4,5,Isabel Preysler,C0001,Cartera 1
5,6,Ana de Armas,C0002,Cartera 2
6,7,Belen Estébanez,C0003,Cartera 3
7,8,Roberto Carlos Jr.,C0004,Cartera 4
8,9,Florentino Fernández,C0004,Cartera 4


Como vimos en el punto anterior, David Broncano no tiene una cartera asignada, por lo que en este caso no aparece en el resultado. Si quisieramos quedarnos solo con auqellos registros que no han cruzado, deberíamos realizar un Left Join, y después añadir otra query para quedarnos solo con aquellos que tienen valores `NaN`.

Por otro lado, podemos comprobar que este tipo de Joins por defecto es del tipo 1 $\rightarrow$ n. Es decir, si para un registro de la primera tabla, existen 2 registros en la segunda, el fichero de salida tendrá dos registros para este caso.

Podemos comprobarlo en nuestros ficheros para el caso de Belen Estébanez, la cual tiene dos gestores de cartera.

In [109]:
pd_inner_join2 = pd.merge(pd_left_join,
                         df_gestores,
                         how = 'inner',
                         left_on = 'id_cartera',
                         right_on = 'id_cartera')

pd_inner_join2

Unnamed: 0,id_cliente,des_cliente,id_cartera,des_cartera,id_gestor,des_gestor
0,1,Juan Juánez,C0001,Cartera 1,G0001,Ana Botín
1,2,Luis Luisez,C0001,Cartera 1,G0001,Ana Botín
2,3,Diego Diéguez,C0001,Cartera 1,G0001,Ana Botín
3,4,Ana García,C0001,Cartera 1,G0001,Ana Botín
4,5,Isabel Preysler,C0001,Cartera 1,G0001,Ana Botín
5,6,Ana de Armas,C0002,Cartera 2,G0001,Ana Botín
6,7,Belen Estébanez,C0003,Cartera 3,G0001,Ana Botín
7,7,Belen Estébanez,C0003,Cartera 3,G0002,Andrea Orcel
8,8,Roberto Carlos Jr.,C0004,Cartera 4,G0002,Andrea Orcel
9,9,Florentino Fernández,C0004,Cartera 4,G0002,Andrea Orcel


**Full Outer Join:**
    
Este Join permite combinar los datos de dos tablas mostrando tanto los datos que cumplen la llave de cruce como los que no, éstos últimos apareceran con el valor `NaN`.

In [110]:
pd_outer_join = pd.merge(df_clientes,
                         df_carteras,
                         how = 'outer',
                         left_on = 'id_cliente',
                         right_on = 'id_cliente')

pd_outer_join

Unnamed: 0,id_cliente,des_cliente,id_cartera,des_cartera
0,1,Juan Juánez,C0001,Cartera 1
1,2,Luis Luisez,C0001,Cartera 1
2,3,Diego Diéguez,C0001,Cartera 1
3,4,Ana García,C0001,Cartera 1
4,5,Isabel Preysler,C0001,Cartera 1
5,6,Ana de Armas,C0002,Cartera 2
6,7,Belen Estébanez,C0003,Cartera 3
7,8,Roberto Carlos Jr.,C0004,Cartera 4
8,9,Florentino Fernández,C0004,Cartera 4
9,10,David Broncano,,


## 4.7. Pivot Tables

Una pivot table es una herramienta análoga a las tablas dinámicas de Excel, que permite cruzar la información de un DataFrame definiendo que variables se quieren mostrar como columnas, y cuales como filas.

Adicionalmente también se puede mostrar valores como la media, porcentajes...etc.

La sintaxis es `df.pivot_table(index, columns, values)`.

In [67]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo", "bar", "bar", "bar", "bar"],
                   "B": ["one", "one", "one", "two", "two", "one", "one", "two", "two"],
                   "C": ["small", "large", "large", "small", "small", "large", "small", "small", "large"],
                   "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                   "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})

df

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
2,foo,one,large,2,5
3,foo,two,small,3,5
4,foo,two,small,3,6
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


In [68]:
table = pd.pivot_table(df,
                       values='D',
                       index=['A', 'B'],
                       columns=['C'],
                       aggfunc=np.sum)

table

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


In [63]:
# Media de los retrasos por aerolinea (y numero de vuelo), y por día de la semana
flights.pivot_table(index = ['Reporting_Airline', 'Flight_Number_Reporting_Airline'],
                    columns = 'DayOfWeek',
                    values = 'DepDelay')

Unnamed: 0_level_0,DayOfWeek,1,2,3,4,5,6,7
Reporting_Airline,Flight_Number_Reporting_Airline,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
9E,4677,-7.500000,,,,,,
9E,4678,,,,,,-10.5,
9E,4680,,,,,,-4.5,
9E,4682,,,,,,,-1.00
9E,4685,,,,,,,-6.50
...,...,...,...,...,...,...,...,...
YX,6139,-5.666667,-4.833333,-6.833333,-8.250000,-2.4,-7.0,11.25
YX,6140,-3.000000,16.000000,-10.500000,-11.333333,31.0,,-6.40
YX,6003,-4.333333,-3.500000,-7.000000,2.500000,435.0,,-1.50
YX,6118,-2.000000,-8.000000,-5.500000,-6.000000,-2.0,-5.0,-4.50


# 5. Bibliografía

- KSchool Data Science Master Ed. 23.
- Udemy - Curso Completo de Machine Learning: Data Science en Python por Juan Gabriel Gomila.
- https://docs.python.org/3/library/zipfile.html
- https://pandas.pydata.org/pandas-docs/stable/index.html