# Sesión 12: Pandas

En esta sesión vamos a hacer una breve introducción a Pandas, para ello nos basaremos en el [capítulo dedicado a este tema de nuestro libro de referencia](https://wesmckinney.com/book/pandas-basics).



## Principales métodos de Pandas

**[Pandas](http://pandas.pydata.org)** es una librería que proporciona una gran cantidad de métodos para el análisis de datos. Los científicos de datos suelen trabajar con datos almacenados en tablas usando ficheros con formatos como `.csv`, `.tsv`, o `.xlsx`. La librería Pandas proporciona la funcionalidad necesaria para cargar, procesar y analizar dichos datos tabulares usando *queries* al estilo SQL.

Las principales estructuras de datos en Pandas se implementan con las clases `Series` y `DataFrame`. La primera de ellas es un array indexado de una dimensión donde todos los elementos de dicho array tienen el mismo tipo. La segunda es una estructura de dos dimensiones (es decir, una tabla) donde todos los datos de una columna tienen el mismo tipo. Los `DataFrames` son una buena manera de representar datos reales: las filas se corresponden con las instancias (ejemplos, observaciones, etc.), y las columnas corresponden a los descriptores de dichas instancias.

Para este notebook comenzamos cargando, además de la librería pandas, la librería [numpy](http://www.numpy.org/).

In [None]:
import numpy as np
import pandas as pd

## Estructura de datos en Pandas

En pandas hay dos estructuras de datos principales: las ``Series`` y los ``DataFrames``.


### Series

Una ``Serie`` en Pandas es un objeto similar a un array 1-dimensional que contiene una secuencia de valores del mismo tipo, junto con un array de etiquetas de datos llamada índice. La ``Serie`` más simple está formada por un array de datos.

In [None]:
s1 = pd.Series([4,7,-5,3])
print(s1.array,s1.index)
s1

También podemos proporcionar un índice a nuestra ``Serie``.

In [None]:
s2 = pd.Series([4,7,-5,3],index=["d","b","c","a"])
print(s2.array,s2.index)
s2

La diferencia principal con los arrays de numpy es que podemos seleccionar valores usando las etiquetas de los índices.

In [None]:
print(s2["a"])
s2["d"] = 6
s2[["c","a","d"]]
# También podemos usar la posición
# s2[0:2]

También podemos usar las operaciones al estilo de numpy e incluso las funciones de esta librería.

In [None]:
s2[s2>0]

In [None]:
s2*2

In [None]:
np.exp(s2)

### Dataframes

Un ``DataFrame`` representa una tabla rectangular de datos y contiene una colección ordenada de columnas con un nombre asociado. Cada columna puede tener un tipo diferente (numérico, booleano, string, etc.). El ``DataFrame`` tiene dos índices: uno por fila y otro por columna.

Hay muchas formas de construir un ``DataFrame``, aunque la más común es a partir de un diccionario con listas de igual longitud de arrays.


In [None]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df = pd.DataFrame(data)
df

El ``DataFrame`` resultante tendrá un índice asignado de forma automática, como en las ``Series``, y la columnas se ordenerán siguiendo el orden de las claves proporcionadas.

### Acceso a elementos del ``DataFrame``

Los métodos ``head`` y ``tail`` devuelven respectivamente las 5 primeras y las 5 últimas filas del ``DataFrame``.

In [None]:
df.head()
df.tail()

El acceso a una columna del ``DataFrame`` es análogo al de las ``Series``usando o bien la notación de diccionario o la notación de atributo.

In [None]:
df.year
#df["year"]

Las filas también pueden ser recuperadas usando los atributos ``iloc`` y ``loc`` (el primero obtiene las filas en base a los índices enteros, mientras que el segundo se basa en las etiquetas de los ejes).

In [None]:
df.loc[1]
# df.iloc[[0,3]]

Las columnas se pueden modificar por asignación. Por ejemplo, podemos crear una nueva columna y asignarle un valor escalar o un array de valores. Esta asignación solo se puede realizar con la notación de diccionario no con la de punto de acceso a atributo.

In [None]:
df["debt"] = 16.5
df

In [None]:
df["debt"] = np.arange(6.)
df

También es posible asignar una ``Serie``, cuyas etiquetas serán alineadas con las del índice del ``DataFrame``.

In [None]:
df["debt"] = pd.Series([-1.2,-1.5,1.7],index=[2,4,5])
df # Notar que aparecen valores nulos

También es posible crear un ``DataFrame`` con un diccionario anidado en otro diccionario.

In [None]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},"Nevada": {2001: 2.4, 2002: 2.9}}
df2 = pd.DataFrame(populations)
df2 # Notar que valores desconocidos se ponen a NaN

Es posible usar la notación de Numpy para transponer un  ``DataFrame``.

In [None]:
df2.T

La lista completa de las cosas que se le pueden pasar al constructor de un  ``DataFrame`` pueden verse en el [libro de Python for Data Analysis](https://wesmckinney.com/book/pandas-basics#tbl-table_dataframe_constructor).

## Guardando y cargando datos

Normalmente, un ``DataFrame`` no se construye directamente, sino que se carga desde un fichero de texto o una base de datos. Vamos a empezar guardando los ``DataFrames`` que hemos creado.

Uno de los formatos más comunes para ello es el formato CSV (Comma Separated Value).

In [None]:
df.to_csv("ejemplo1.csv")
!cat ejemplo1.csv

Como podemos ver los datos se han separado por comas, pero tambien se pueden separar con otros delimitadores (esto habrá que tenerlo en cuenta a la hora de cargar posteriormente los datos).

In [None]:
df.to_csv("ejemplo1_barra.csv",sep="|")
!cat ejemplo1_barra.csv

Notar que se guardan cabeceras de columnas e índices. Ambas opciones se pueden deshabilitar.

In [None]:
df.to_csv("ejemplo1_sin_indices.csv",index=False, header=False)
!cat ejemplo1_sin_indices.csv

In [None]:
df.to_csv("ejemplo1_sin_indice.csv",index=False)
!cat ejemplo1_sin_indice.csv

In [None]:
df.to_csv("ejemplo1_sin_cabecera.csv", header=False)
!cat ejemplo1_sin_cabecera.csv

También es posible guardar los datos en formato JSON, HTML o XML.

In [None]:
df.to_json("ejemplo1.json")
!cat ejemplo1.json

In [None]:
df.to_html("ejemplo1.html")
!cat ejemplo1.html

In [None]:
df.to_xml("ejemplo1.xml")
!cat ejemplo1.xml

Veámos ahora las distintas opciones para cargar un ``DataFrame``. Habitualmente nos encontramos ficheros CSV cuya primera fila indica el nombre de las columnas (pero no disponemos de un índice, es decir como el fichero ejemplo1_sin_indice.csv).

In [None]:
df1 = pd.read_csv("ejemplo1_sin_indice.csv")
df1

¿Qué ocurre si nuestro fichero no contiene el nombre de las columnas?

In [None]:
pd.read_csv("ejemplo1_sin_indices.csv")
# pd.read_csv("ejemplo1_sin_indices.csv",header=None)
# pd.read_csv("ejemplo1_sin_indices.csv",names=["state","year","pop","debt"])

¿Y si contiene un índice?

In [None]:
pd.read_csv("ejemplo1.csv")
# pd.read_csv("ejemplo1.csv",index_col=0)

¿Y si el delimitador no es una coma?

In [None]:
pd.read_csv("ejemplo1_barra.csv")
pd.read_csv("ejemplo1_barra.csv",sep="|",index_col=0)

De forma similar se pueden leer los ficheros JSON, HTML, o XML.

In [None]:
pd.read_json("ejemplo1.json")
pd.read_html("ejemplo1.html")
pd.read_xml("ejemplo1.xml")

## Principales métodos de Pandas

Vamos a demostrar los principales métodos de pandas usando un [dataset de la fidelidad de clientes de una compañía de telefonía](https://bigml.com/user/francisco/gallery/dataset/5163ad540c0b5e5b22000383). Lo primero que hacemos es descargar dicho dataset.

In [None]:
!wget https://raw.githubusercontent.com/IA1819/Datasets/master/telecom_churn.csv -O telecom_churn.csv

Vamos a leer los datos, usando la función `read_csv` y almacenando el resultado en un DataFrame llamado `df`. A continuación mostramos las 5 primeras instancias del dataset usando el método `head` del DataFrame:

In [None]:
df = pd.read_csv('telecom_churn.csv')
df.head()

En los notebooks de Jupyter, los DataFrames de Pandas se muestran usando las tablas vistas en la celda anterior.

En este caso cada fila corresponde con un cliente, una **instancia**, y las columnas son los **descriptores** de dicha instancia.

Vamos ahora a ver las dimensiones de nuestros datos, los nombres de los descriptores, y los tipos de los descriptores.

La siguiente función nos muestra la dimensión del dataset.

In [None]:
print(df.shape)

A partir de la salida anterior, podemos ver que la tabla contiene 3333 filas y 20 columnas.

Vamos a mostrar los nombres de las columnas usando el atributo `columns` del DataFrame:

In [None]:
print(df.columns)

También podemos udar el método `info()` para mostrar información general sobre el DataFrame.

In [None]:
print(df.info())

`bool`, `int64`, `float64` y `object` son los tipos de datos de nuestros descriptores. En la celda anterior podemos ver que hay un descriptor lógico (de tipo `bool`), 3 descriptores categóricos (los de tipo `object`), y 16 descriptores numéricos. Con el mismo método podemos ver si faltan valores para alguna instancia. Aquí vemos que no ya que cada columna contiene 3333  observaciones, el mismo número de filas que vimos anteriormente con `shape`.

Es posible cambiar el tipo de una  columna con el método `astype`. Vamos aplicar este método al descriptor `Churn` para convertirlo al tipo `int64`:

In [None]:
df['Churn'] = df['Churn'].astype('int64')

El método `describe` muestra características estadísticas básicas de cada descriptor numérico. En concreto, el número de valores nulos, la media, la desviación típica, el rango (mediante los valores mínimo y máximo), la mediana (indicado mediante el cuartil 50), y los cuartiles 0.25 y 0.75.

In [None]:
df.describe()

Para ver estadísticas de descriptores no númericos, es necesario indicar explícitamente los tipos de datos que nos interesan en el parámetro `include`.

In [None]:
df.describe(include=['object', 'bool'])

Para descriptores categóricos (de tipo `object`) y booleanos (tipo `bool`), podemos usar el método `value_counts`. Vamos a ver la distribución de valores del descriptor `Churn` (que indica si un cliente es leal a la empresa):

In [None]:
df['Churn'].value_counts()

2850 usuarios son leales a la empresa, su valor de `Churn` es 0. Para calcular porcentajes, hay que pasar `normalize=True` a la función `value_counts`.

In [None]:
df['Churn'].value_counts(normalize=True)


### Ordenando

Un DataFrame se puede ordenar por el valor de uno de sus descriptores. Por ejemplo, podemos ordenar nuestro dataset por el valor de *Total day charge* (usamos `ascending=False` para ordenar en orden decreciente):


In [None]:
df.sort_values(by='Total day charge', ascending=False).head()

También es posible ordenar por múltiples descriptores.

In [None]:
df.sort_values(by=['Churn', 'Total day charge'],
        ascending=[True, False]).head()


### Indexando y obteniendo datos

Un DataFrame se puede indexar de diferentes maneras.

Para obtener una única fila, se puede usar la construcción `DataFrame['Name']`. Vamos a usar esta construcción para responder a la pregunta de **¿Cuál es la proporción de abandonos de nuestra compañía?**


In [None]:
df['Churn'].mean()


El 14.5%, un valor bastante malo.

El **indexado condicional** de una columna también es algo muy útil. La sintaxix es `df[P(df['Name'])]`, donde  `P` es alguna condición lógica que es comprobada para cada elemento de la columna `Name`. El resultado de dicho indexado es el Dataframe que consta solo de las filas que satisfacen la condición `P` en la columna `Name`.

Vamos a usar esto para responder a las siguientes preguntas: **¿Cuál es la media de los atributos numéricos de los usuarios que abandonan la compañía?**


In [None]:
df[df['Churn'] == 1].describe().mean()

**¿Cuánto tiempo (en media) pasan los clientes que abandonan la compañía hablando por telefono durante el día?**

In [None]:
df[df['Churn'] == 1]['Total day minutes'].mean()

**¿Cuál es la duración máxima de las llamadas internacionales entre los clientes fieles (`Churn == 0`) que no tienen un plan internacional?**



In [None]:
df[(df['Churn'] == 0) & (df['International plan'] == 'No')]['Total intl minutes'].max()

También podemos usar el método ``query``.

In [None]:
df.query("Churn == 0 and `International plan` == 'No'")['Total intl minutes'].max()

Los DataFrames se pueden indexar por el nombre de la columna (etiqueta), por el nombre de la fila (índice) o por el número de serie de una fila. El método `loc` se usa para indexar por nombre, mientras que el método `iloc()` se utiliza para indexar por número.

En el siguiente ejemplo, estamos diciendo *dame los valores de las filas con los índices de 0 a 5 (ambos incluídos) y de las columnas de State a Area code (ambas incluídas)*.


In [None]:
df.loc[0:5, 'State':'Area code']

En el siguiente ejemplo decimos *dame los valores de las 5 primeras filas en las tres primeras columnas* (daros cuenta que estamos usando el mismo formato que utilizabamos para realizar el slicing de listas).

In [None]:
df.iloc[0:5, 0:3]

Si necesitamos la primera o última instancia de un dataframe podemos usar respectivamente `df[:1]` y `df[-1:]`.

In [None]:
df[:1]

In [None]:
df[-1:]

Diferencia entre ``loc`` e ``iloc``.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data
# data.loc["Colorado"]
# data.loc[["Colorado","Utah"]]
# data.iloc[2]
# data.iloc[[2,1]]
# data.loc[:"Utah", "two"]
# data.iloc[:, :3][data.three > 5]


### Aplicando funciones a las celdas, columnas y filas

Para aplicar funciones a una columna se usa el método `apply()`. Por ejemplo, a continuación mostramos cómo obtener el valor máximo de los distintos descriptores del dataset.


In [None]:
df.apply(np.max)
# df.apply(np.max,axis=1)

El método `apply` también se puede aplicar a las filas. Para ello es necesario especificar `axis=1`. La funciones lambda suelen ser muy útiles en estos casos. Por ejemplo, si necesitamos seleccionar todos los estados que comienzan por W podemos hacer algo como lo siguiente:

In [None]:
df[df['State'].apply(lambda state: state[0] == 'W')].head()

El método `map` se puede utilizar para reemplazar valores en una columna pasándole un diccionario de la forma `{old_value: new_value}` como argumento:

In [None]:
d = {'No' : False, 'Yes' : True}
df['International plan'] = df['International plan'].map(d)
df.head()

Lo mismo se puede hacer con el método `replace`:

In [None]:
df = df.replace({'Voice mail plan': d})
df.head()


### Agrupando

En general, para hacer grupos de datos en Pandas debemos utilizar una construcción como la siguiente.



```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Primero, el método `groupby` divide `grouping_columns` por sus valores, que se convierten en un nuevo índice en el dataframe resultante.
2. Seguidamente, las columnas de interés se seleccionan (`columns_to_show`). Si no se incluye `columns_to_show` se muestran todas las clausulas que no hayan sido agrupadas.
3. Finalmente, una o varias funciones se aplican para obtener los grupos por las columnas seleccionadas.

Por ejemplo, a continuación se muestra cómo agrupar los datos con respecto a los valores del descriptor  `Churn` y se muestran estadísticas de tres columnas para cada grupo:

In [None]:
columns_to_show = ['Total day minutes', 'Total eve minutes',
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

Vamos a hacer algo parecido, pero en este caso pasando una lista de funciones a `agg()`:

In [None]:
columns_to_show = ['Total day minutes', 'Total eve minutes',
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])


### Tablas resumen

Suponed que queremos ver cómo las muestras de nuestro dataset se distribuyen en el contexto de dos variables: `Churn` e `International plan`. Para ello podemos construir una tabla de contingencia usando el método `crosstab`:



In [None]:
pd.crosstab(df['Churn'], df['International plan'])

Podemos ver que la mayoría de usuarios son leales a la compañía (Churn 0) y que no usan un Plan Internacional (International plan con valor False), 2664 usuarios.


### Transformaciones de un DataFrame

En Pandas también es posible añadir columnas a un DataFrame.

Por ejemplo, si queremos calcular el número total de llamadas para cada usuario podemos crear un objeto de tipo Series llamado `total_calls` y pegarlo en el DataFrame:



In [None]:
total_calls = df['Total day calls'] + df['Total eve calls'] + \
              df['Total night calls'] + df['Total intl calls']
df.insert(loc=len(df.columns), column='Total calls', value=total_calls)
# El parámetro loc indica la posición detrás de la que se insertará el objeto Series.
# En este caso queremos insertarlo al final, por lo que usamos el valor de len(df.columns).
df.head()

También es posible crear una columna sin necesidad de usar un objeto de tipo Series. Por ejemplo, a continuación mostramos cómo crear una columna con el coste total de las llamadas para cada usuario.

In [None]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + \
                     df['Total night charge'] + df['Total intl charge']
df.head()

Para eliminar filas o columnas se usa el método `drop` al que se le pasan los índices requeridos y el parámetro `axis` (donde `1` indica que eliminas columnas, y `0` o nada que eliminas filas). El argumento `inplace` indica si se cambia el DataFrame original (con `inplace=False`, el método `drop` no cambia el DataFrame existente y devuelve un nuevo Dataframe donde se han eliminado las filas o columnas; con `inplace=True`, por el contrario, se modifica el DataFrame).

In [None]:
df.drop(['Total charge', 'Total calls'], axis=1, inplace=True)
df.drop([1, 2]).head()

## Ejercicios

A continuación se proponen una serie de ejercicios con un nuevo dataset.

Comenzamos descargando el dataset de los supervivientes del Titanic.

In [None]:
!wget https://raw.githubusercontent.com/IA1819/Datasets/master/titanic_train.csv -O titanic_train.csv

Carga dicho dataset en la variable `df`.

In [None]:
import pandas as pd
df = pd.read_csv("titanic_train.csv")

Muestra las primeras instancias de dicho dataset.

In [None]:
df.head()

Muestra los tipos de los distintos descriptores del dataset.

In [None]:
print(df.info())

Muestra los pasajeros que embarcaron en Cherbourg (Embarked=C) y pagaron más de 200 libras por su ticket (fare > 200).

In [None]:
df[(df["Embarked"] == "C") & (df["Fare"] > 200)]

Vamos a crear un nuevo descriptor con la edad de los pasajeros, para lo que definimos la siguiente función.

In [None]:
def age_category(age):
    '''
    < 30 -> 1
    >= 30, <55 -> 2
    >= 55 -> 3
    '''
    if age < 30:
        return 1
    elif age < 55:
        return 2
    elif age >= 55:
        return 3

A continuación añadimos el nuevo descriptor usando el método `apply`.

In [None]:
df['Age_category'] = df['Age'].apply(age_category)
df.head()

Responde a las siguientes preguntas. Para ello, incluye el código necesario y edita la celda que contiene el texto **Respuesta.**

¿Cuál era la proporción entre hombres y mujeres que iba a bordo?

In [None]:
df["Sex"].value_counts(normalize=True)*100

**Respuesta**: *El 64.7% eran hombres y el 35.2% eran mujeres*

Utiliza una tabla de contingencia para averiguar cuántos hombres iban en segunda clase.

In [None]:
contingencia = pd.crosstab(df["Sex"], df["Pclass"])
print(contingencia)

**Respuesta**. *Iban 108 hombres en segunda clase*

¿Cuál era la media y la desviación típica del precio de los tickets (descriptor Fare)?

In [None]:
media_precio = df["Fare"].mean()
desv_precio = df["Fare"].std()

print("Media del Fare:", media_precio)
print("Desviación típica del Fare:", desv_precio)

**Respuesta**. *La media es de 32.2 y la desviación de 49.6*

¿Es verdad que la media de edad de los supervivientes es inferior a la de los pasajeros que fallecieron?

In [None]:
media_supervivientes = df[df["Survived"] == 1]["Age"].mean()
media_no_supervivientes = df[df["Survived"] == 0]["Age"].mean()

print("Media edad supervivientes:", media_supervivientes)
print("Media edad fallecidos:", media_no_supervivientes)

**Respuesta**. *Falso, es mayor la media de fallecidos*

¿Es verdad que hubo más pasajeros menores de 30 años que sobrevivieron que aquellos mayores de 55?

In [None]:
# Menores de 30 que sobrevivieron
menores30 = df[(df["Age"] < 30) & (df["Survived"] == 1)]
num_menores30 = menores30.shape[0]

# Mayores de 55 que sobrevivieron
mayores55 = df[(df["Age"] >= 55) & (df["Survived"] == 1)]
num_mayores55 = mayores55.shape[0]

print("Menores de 30 que sobrevivieron:", num_menores30)
print("Mayores de 55 que sobrevivieron:", num_mayores55)

**Respuesta**. *Verdadero, hubieron mas pasajeros menores de 30 que sobrevivieron*

¿Es verdad que sobrevivieron más mujeres que hombres?

In [None]:
# Mujeres que sobrevivieron
mujeres_sup = df[(df["Sex"] == "female") & (df["Survived"] == 1)]
num_mujeres_sup = mujeres_sup.shape[0]

# Hombres que sobrevivieron
hombres_sup = df[(df["Sex"] == "male") & (df["Survived"] == 1)]
num_hombres_sup = hombres_sup.shape[0]

print("Mujeres sobrevivieron:", num_mujeres_sup)
print("Hombres sobrevivieron:", num_hombres_sup)

**Respuesta**. *Verdadero, sobrevivieron mas mujeres que hombres*

¿Cuál es el nombre más común entre los hombres que iban abordo? Para ello deberás crear una nueva columna que contenga solo el nombre de los pasajeros. Dicha columna deberás construirla a partir de la columna que contiene el nombre completo. Añade tantas celdas de código como necesites.  

In [None]:
#columna que contenga solo el nombre de los pasajeros.
df["Nombre_temp"] = df["Name"].str.split(",").str[1]
df["Nombre"] = df["Nombre_temp"].str.split().str[1]
hombres = df[df["Sex"] == "male"]
hombres["Nombre"].value_counts().head()

**Respuesta**.*El nombre mas comun es William*

## Entrega

Recuerda guardar tus cambios en tu repositorio.