In [None]:
import numpy as np
import pandas as pd

# pandas

`pandas` es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

**Índice**

* [Estructuras de datos](#Tipos-de-datos)
* [Carga de datos](#Carga-de-datos)
* [Exploración inicial de los datos](#Exploración-básica-de-los-datos)
* [Indexación](#Indexación)
 * [Indexación por etiquetas y posición numérica](#Indexación-por-etiquetas-y-posición-numérica)
 * [Indexación mediante Series de boolean](#Indexación-mediante-Series-de-boolean)
* [Creación y borrado de columnas y filas](#Creación-y-borrado-de-columnas-y-filas)
 * [Eliminación de datos nulos](#Eliminación-de-datos-nulos)

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* `Series`: para datos de una dimensión. Sería equivalente a una lista de elementos.
* `DataFrame`: para datos de dos dimensiones. En este caso, sería equivalente a una tabla de datos.

Existe también una tercera estructura, Panel, para tipos de datos de tres dimensiones, pero su utilización ha sido desaprobada.

In [None]:
# Podemos definir un DataFrame a partir de listas
df = pd.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8]])
df

In [None]:
# También a partir de métodos de NumPy
df = pd.DataFrame(np.ones((3, 3)))
df

## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros planos (como CSV), Microsoft Excel, HTML, bases de datos y HDF5:

* pd.read_csv
* pd.read_excel
* pd.read_html
* pd.read_sql
* pd.read_hdf5

En este tutorial utilizaremos la lectura de ficheros de texto: pd.read_csv.

El conjunto de datos de Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos) está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Setosa, Versicolor y Virginica.

In [None]:
# Cargamos los datos del fichero CSV
df = pd.read_csv('../../data/04_01_iris.csv')

# Imprimimos los datos cargados con pandas
df

Ver que en esta importación `pandas` ha añadido una columna con una secuencia de números para cada fila de forma automática. Es posible especificar nombres para las filas, al igual que para las columnas y `pandas` crea estos nombres de forma automática si no se los especificamos.

## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [None]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

In [None]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

In [None]:
# Devuelve las primeras 5 filas
df.head(5) # es igual a escribir df.head(), porque por defecto devuelve 5

In [None]:
# Muestra las últimas 5 filas
df.tail(5) # es igual a escribir df.tail(), porque por defecto devuelve 5

In [None]:
# Muestra únicamente el nombre de las columnas
df.columns

In [None]:
# Para ver las dimensiones de los datos cargados podemos hacerlo del siguiente modo
# Devuelve 150 filas por 5 columnas
df.shape

## Indexación 

Una de las grandes ventajas de `pandas` es que ofrece una gran flexibilidad para indexar datos, es decir, seleccionar un subconjunto del total de datos que hemos cargado.

Hay muchas formas de indexar datos en `pandas`. Vamos a ver las más útiles.

### Indexación por etiquetas y posición numérica

In [None]:
# Podemos seleccionar una columna directamente a partir del nombre de la columna y utlizando []
df['species'].head()

In [None]:
# También podemos seleccionar un conjunto de columnas a partir de una lista de los nombres de las columnas

cols = ['sepal length (cm)', 'species'] # Columnas que queremos cargar

df[cols].head()

In [None]:
# Para seleccionar una celda, debemos llamar a .loc e indicar la fila y columna de la celda que deseamos cargar
df.loc[1, 'sepal length (cm)']

In [None]:
# También podemos seleccionar una fila en concreto: especificamos el nombre de la fila y : para indicar que
# queremos cargar todas las columnas
df.loc[1, :]

In [None]:
# Asimismo es posible consultar el valor de una celda mediante códigos numéricos mediante iloc (i de integer)
# Por ejemplo, si queremos cargar la celda (fila 51, columna 4) podemos hacerlo del siguiente modo
# ¡Ver que empezamos a contar desde cero!
df.iloc[50, 3]

In [None]:
# pandas también permite acceder a las columnas mediante el nombre de la columna después del dataframe,
# siempre que sea un identificador Python válido (por ejemplo, sin espacios en blanco) y no tenga el mismo
# nombre que un método propio de pandas para el dataframe

# ¡Cuidado! No está recomendado utilizarlo en producción porque podría ocurrir que en el futuro se añada un 
# método con el mismo nombre que nuestra columna

df.species.head()

**Practicando**

**EJERCICIO 1**. Selecciona únicamente las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`:

In [None]:
%load ../../solutions/04_01_df_columnas.py

**EJERCICIO 2**. Selecciona la celda de la fila 140 y la columna 4 del dataframe `df`:

In [None]:
%load ../../solutions/04_02_df_fila_columna.py

### Indexación mediante `Series` de `boolean`


En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.

Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.

In [None]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond # Imprimimos la lista de valores verdadero o falso para ver qué contiene

In [None]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

In [None]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

In [None]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)] # Filtra todas las 'virginica' que cumplan alguna de las condiciones 2 o bien 3 o ambas

**Practicando**

**EJERCICIO 3**. De nuestro `DataFrame` de flores Iris, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm

In [None]:
%load ../../solutions/04_03_df_boolean_1.py

**EJERCICIO 4**. Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

In [None]:
%load ../../solutions/04_04_df_boolean_2.py

## Creación y borrado de columnas y filas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y borrar parte de su contenido.

In [None]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

In [None]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

In [None]:
# Para borrar una columna podemos utilizr el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

In [None]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

In [None]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

### Eliminación de datos nulos

En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [None]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]

In [None]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

**Practicando**

**EJERCICIO 5**. Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio `'../../data/04_01_iris.csv'`. Y después, muestra el número de filas y columnas del fichero cargado.

Si en ejercicios posteriores tienes algún problema y quieres cargar de nuevo estos datos, ejecuta de nuevo la celda siguiente.

In [None]:
%load ../../solutions/04_05_df_carga.py

**EJERCICIO 6**. Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma celda.

In [None]:
%load ../../solutions/04_06_df_mean_std.py

**EJERCICIO 7**. Duplica una vez todas las filas que sean del tipo Virginica, añádelas a `df` y finalmente muestra el número de filas y columnas resultantes.

In [None]:
%load ../../solutions/04_07_df_duplica.py