# pandas

[`pandas`](https://pandas.pydata.org) es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

**Índice**

* [Estructuras de datos](#Tipos-de-datos)
* [Carga de datos](#Carga-de-datos)
* [Exploración inicial de los datos](#Exploración-básica-de-los-datos)
* [Etiquetas de filas y columnas](#Etiquetas-de-filas-y-columnas)
* [Indexación](#Indexación)
 * [Indexación por etiquetas y posición numérica](#Indexación-por-etiquetas-y-posición-numérica)
 * [Indexación mediante Series de boolean](#Indexación-mediante-Series-de-boolean)
* [Creación, modificación y borrado de filas y columnas](#Creación,-modificación-y-borrado-de-filas-y-columnas)
 * [Eliminación de datos nulos](#Eliminación-de-datos-nulos)
* [Agrupaciones](#Agrupaciones)

In [None]:
import numpy as np
import pandas as pd

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html): para datos de una dimensión. Sería similar a una lista de elementos.
* [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html): para datos de dos dimensiones. En este caso, sería equivalente a una tabla de una base de datos o una hoja de cálculo. Esta estructura es la más utilizada en `pandas`.

Existe también una tercera estructura, [`Panel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Panel.html), para tipos de datos de tres dimensiones, pero su utilización ha sido desaprobada en la versión 0.20.0.

Internamente, las columnas de un `DataFrame` están formadas por objetos `Series`. 

## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros de texto como CSV, Microsoft Excel, HTML, bases de datos y HDF5:

* `pandas.read_csv`
* `pandas.read_excel`
* `pandas.read_html`
* `pandas.read_sql`
* `pandas.read_hdf5`

En este tutorial utilizaremos la lectura de ficheros de texto: [`pd.read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a cargar el conjunto de datos de las flores Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos), que es muy utilizado en las introducciones a Data Science. 

Este conjunto de datos contiene información sobre las dimensiones de tipos de flores Iris y está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Versicolor, Setosa y Virginica.

¿Qué es un sépalo?
![Pétalo vs sépalo](../../images/04_01_pet_sep.png)

Iris Versicolor
![Verisocolor](../../images/04_02_iris_versicolor.png)

Iris Setosa 
![Setosa](../../images/04_03_iris_setosa.png)

Iris Virginica
![Viriginica](../../images/04_04_iris_virginica.png)

In [None]:
# Cargamos los datos del fichero CSV y creamos un DataFrame
df = pd.read_csv('../../data/04_01_iris.csv')

# Imprimimos los datos cargados: las primeras 15 filas
df.head(15)

## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [None]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

In [None]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

In [None]:
# Podemos saber las dimensiones de nuestro DataFrame de la siguiente forma
df.shape

In [None]:
# Si lo necesitamos, podemos transformar los datos a un ndarray fácilmente
df.values

## Etiquetas de filas y columnas

`pandas` permite etiquetar fácilmente las columnas y filas de los `DataFrame` con los nombres que deseemos. En el caso de Series, tendremos únicamente etiquetas para las filas.

Por ejemplo, veamos las etiquetas que tenemos en nuestro `DataFrame`:

In [None]:
# Muestra las etiquetas o nombres de las filas
df.index

In [None]:
# Muestra el nombre de las columnas
df.columns

Destacar que en todos los casos obtenemos objetos de la clase [`Index`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.html). Esta clase contiene en realidad un `ndarray`, que podemos obtener utlizando también `values`:

In [None]:
# Obtenemos el ndarray correspondiente al nombre de las filas
df.index.values

Si lo deseamos, podemos cambiar los nombres de las filas y columnas de forma muy sencilla. Veamos cómo podemos hacerlo:

In [None]:
# Cambiamos el nombre de las filas asignando el nuevo nombre directamente a index:
df.index = np.arange(500, 650) # Crea un ndarray desde el número 500 hasta el 649, 150 elementos en total
df.head()

In [None]:
# Y para cambiar el nombre de las columnas lo hacemos de una forma muy similar
df.columns = ['A', 'B', 'C', 'D', 'E']
df.head()

In [None]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('../../data/04_01_iris.csv')

## Indexación 

Una de las grandes ventajas de `pandas` es que ofrece una gran flexibilidad para indexar datos, es decir, seleccionar un subconjunto del total de datos que hemos cargado.

Debemos tener en cuenta que en la indexación numérica **empezamos a contar desde cero**. Por este motivo, la posición de la primera fila y primera columna será 0.

Hay muchas formas de indexar datos en `pandas`. Vamos a ver las más útiles.

### Indexación por etiquetas y posición numérica

In [None]:
# Podemos seleccionar una columna directamente a partir del nombre de la columna y utlizando []
df['species'].head()

In [None]:
# También podemos seleccionar un conjunto de columnas a partir de una lista de los nombres de las columnas

cols = ['sepal length (cm)', 'species'] # Columnas que queremos cargar

df[cols].head()

In [None]:
# Para seleccionar una celda, debemos llamar a .loc e indicar la fila y columna de la celda que deseamos cargar
df.loc[1, 'sepal length (cm)']

In [None]:
# También podemos seleccionar una fila en concreto: especificamos el nombre de la fila y : para indicar que
# queremos cargar todas las columnas
df.loc[1, :]

In [None]:
# Asimismo es posible consultar el valor de una celda mediante códigos numéricos mediante iloc (i de integer)
# Por ejemplo, si queremos cargar la celda (fila 51, columna 4) podemos hacerlo del siguiente modo
# ¡Ver que empezamos a contar desde cero!
df.iloc[50, 3]

In [None]:
# pandas también permite acceder a las columnas mediante el nombre de la columna después del dataframe,
# siempre que sea un identificador Python válido (por ejemplo, sin espacios en blanco) y no tenga el mismo
# nombre que un método propio de pandas para el dataframe

# ¡Cuidado! No está recomendado utilizarlo en producción porque podría ocurrir que en el futuro se añada un 
# método con el mismo nombre que nuestra columna

df.species.head()

### Indexación mediante `Series` de `boolean`


En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.

Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.

In [None]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond.sample(20, random_state=5) # Imprimimos una selección aleatoria de la lista de valores para ver qué contiene

In [None]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

In [None]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

In [None]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)].head() # Filtra todas las 'virginica' que cumplan alguna de las condiciones 2 o bien 3 o ambas

## Creación, modificación y borrado de filas y columnas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y modificar o borrar su contenido .

In [None]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

In [None]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

In [None]:
# Para borrar una columna podemos utilizar el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

In [None]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

In [None]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

In [None]:
# Para modificar una celda, podemos utilizar iloc
df.iloc[0, 0] = 9999.0 # Modifica la celda que se encuentra en la primera fila y primera columna
df.head()

In [None]:
# Y también loc
# Modifica la segunda celda de la columna 'sepal minus petal length (cm)'
df.loc[6, 'sepal minus petal length (cm)'] = 9999.0 
df.head()

In [None]:
# Finalmente, para cambiar el contenido en más de una celda podemos utilizar la función replace
# Esta función ofrece muchísimas opciones, aquí mostramos la más sencilla:
df = df.replace(9999.0, 1111.0) # Busca todos los valores 9999.0 y cámbialos por 1111.0
df.head()

### Eliminación de datos nulos

En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [None]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]

In [None]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

In [None]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('../../data/04_01_iris.csv')

## Agrupaciones 

Mediante `pandas` resulta muy sencillo crear agrupaciones de datos y realizar operaciones sobre ellos. Básicamente, las agrupaciones consisten en dos pasos:

1. Dividir la tabla de datos en diversos grupos, con el método [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).
1. Aplicar una función a los grupos generados, que devolverá un nuevo objeto `Series` o `DataFrame` con el resultado de la función aplicada después de agregar los datos. Habitualmente, utilizaremos el método [`agg`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html).


In [None]:
# Primer paso: agrupamos por tipo de especie
grupos = df.groupby('species')

In [None]:
# Segundo paso: aplicamos una función, por ejemplo, la media
grupos.agg('mean') # equivale también a escribir .mean()

In [None]:
# Cualquier función que realice un cálculo sobre los grupos nos servirá, por ejemplo, una función de NumPy
df.groupby('species').agg(np.sum) # equivale a escribir .sum()

In [None]:
# Una función muy utilizada es contar el número de elementos por grupo:
df.groupby('species').agg('count') # equivale a escribir .count()

In [None]:
# Y aplicar una lista de funciones
df.groupby('species').agg(['min', 'max', 'median', 'mean', 'std'])

**Practicando**

**EJERCICIO 1**. Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio '../../data/04_01_iris.csv'. Y después, muestra el contenido únicamente de las primeras 15 filas de las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`.

**Importante**: Si en ejercicios posteriores tienes algún problema y quieres cargar de nuevo estos datos, ejecuta de nuevo la celda siguiente para cargar de nuevo los datos originales.

In [None]:
%load ../../solutions/04_01_df_columnas.py

**EJERCICIO 2**. Muestra el contenido de la celda de la quinta fila y la cuarta columna del dataframe `df` numéricamente. Recuerda que empezamos a contar desde cero:

In [None]:
%load ../../solutions/04_02_df_fila_columna.py

**EJERCICIO 3**. De nuestro `DataFrame` de flores Iris que tenemos en la variable `df`, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm.

In [None]:
%load ../../solutions/04_03_df_boolean_1.py

**EJERCICIO 4**. Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

In [None]:
%load ../../solutions/04_04_df_boolean_2.py

**EJERCICIO 5**. Ahora muestra el ndarray correspondiente a las etiquetas de las filas de la variable `df`.

In [None]:
%load ../../solutions/04_05_df_rows.py

**EJERCICIO 6**. Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma línea si quieres.

In [None]:
%load ../../solutions/04_06_df_mean_std.py

**EJERCICIO 7**. Duplica una vez todas las filas que sean del tipo Virginica, añádelas a `df` y finalmente muestra el número de filas y columnas resultantes.

In [None]:
%load ../../solutions/04_07_df_duplica.py

**EJERCICIO 8**. Utilizando el mismo dataset que tenemos cargado en la variable `df`, calcula el sumatorio de todos los valores al cuadrado de todas las columnas (ancho y largo de los sépalos y ancho y largo de los pétalos) para cada especie.

**Pista**: deberás declarar una nueva función.

In [None]:
%load ../../solutions/04_08_df_agg.py

**EJERCICIO 9**. Crea un nuevo `DataFrame` que llamaremos `df_girado`, que tomará los valores de `df` pero en esta nueva variable las filas de `df` pasarán a ser las columnas de esta variable y las columnas de `df` pasarán a ser las filas. Es decir, giraremos completamente el conjunto de datos que hemos cargado en `df` inviertiendo filas y columnas.

Intenta hacerlo únicamente con funciones indicadas en este notebook :-)

In [None]:
df_girado = pd.DataFrame() # Creamos un DataFrame vacío



In [None]:
%load ../../solutions/04_09_df_girado.py