In [1]:
import numpy as np
import pandas as pd

# pandas

`pandas` es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

**Índice**

* [Estructuras de datos](#Tipos-de-datos)
* [Carga de datos](#Carga-de-datos)
* [Exploración inicial de los datos](#Exploración-básica-de-los-datos)
* [Indexación](#Indexación)
 * [Indexación por etiquetas y posición numérica](#Indexación-por-etiquetas-y-posición-numérica)
 * [Indexación mediante Series de boolean](#Indexación-mediante-Series-de-boolean)
* [Creación y borrado de columnas y filas](#Creación-y-borrado-de-columnas-y-filas)
 * [Eliminación de datos nulos](#Eliminación-de-datos-nulos)

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* `Series`: para datos de una dimensión. Sería equivalente a una lista de elementos.
* `DataFrame`: para datos de dos dimensiones. En este caso, sería equivalente a una tabla de datos.

Existe también una tercer estructura, Panel, para tipos de datos de tres dimensiones, pero su utilización ha sido desaprobada.

In [2]:
# Podemos definir un DataFrame a partir de listas
df = pd.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8]])
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


In [3]:
# También a partir de métodos de NumPy
df = pd.DataFrame(np.ones((3, 3)))
df

Unnamed: 0,0,1,2
0,1.0,1.0,1.0
1,1.0,1.0,1.0
2,1.0,1.0,1.0


## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros planos (como CSV), Microsoft Excel, HTML, bases de datos y HDF5:

* pd.read_csv
* pd.read_excel
* pd.read_html
* pd.read_sql
* pd.read_hdf5

En este tutorial utilizaremos la lectura de ficheros de texto: pd.read_csv.

El conjunto de datos de Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos) está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Setosa, Versicolor y Virginica.

In [4]:
# Cargamos los datos del fichero CSV
df = pd.read_csv('../../data/04_01_iris.csv')

# Imprimimos los datos cargados con pandas
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


Ver que en esta importación `pandas` ha añadido una columna con una secuencia de números para cada fila de forma automática. Es posible especificar nombres para las filas, al igual que para las columnas y `pandas` crea estos nombres de forma automática si no se los especificamos.

## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [5]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [6]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
species              150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


In [7]:
# Devuelve las primeras 5 filas
df.head(5) # es igual a escribir df.head(), porque por defecto devuelve 5

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [8]:
# Muestra las últimas 5 filas
df.tail(5) # es igual a escribir df.tail(), porque por defecto devuelve 5

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [9]:
# Muestra únicamente el nombre de las columnas
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'species'],
      dtype='object')

In [10]:
# Para ver las dimensiones de los datos cargados podemos hacerlo del siguiente modo
# Devuelve 150 filas por 5 columnas
df.shape

(150, 5)

## Indexación 

Una de las grandes ventajas de `pandas` es que ofrece una gran flexibilidad que ofrece para indexar datos, es decir, seleccionar un subconjunto del total de datos que hemos cargado.

Hay muchas formas de indexar datos en `pandas`. Vamos a ver las más útiles.

### Indexación por etiquetas y posición numérica

In [11]:
# Podemos seleccionar una columna directamente a partir del nombre de la columna y utlizando []
df['species'].head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

In [12]:
# También podemos seleccionar un conjunto de columnas a partir de una lista de los nombres de las columnas

cols = ['sepal length (cm)', 'species'] # Columnas que queremos cargar

df[cols].head()

Unnamed: 0,sepal length (cm),species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa


In [13]:
# Para seleccionar una celda, debemos llamar a .loc e indicar la fila y columna de la celda que deseamos cargar
df.loc[1, 'sepal length (cm)']

4.9

In [14]:
# También podemos seleccionar una fila en concreto: especificamos el nombre de la fila y : para indicar que
# queremos cargar todas las columnas
df.loc[1, :]

sepal length (cm)       4.9
sepal width (cm)          3
petal length (cm)       1.4
petal width (cm)        0.2
species              setosa
Name: 1, dtype: object

In [15]:
# Asimismo es posible consultar el valor de una celda mediante códigos numéricos mediante iloc (i de integer)
# Por ejemplo, si queremos cargar la celda (fila 51, columna 4) podemos hacerlo del siguiente modo
# ¡Ver que empezamos a contar desde cero!
df.iloc[50, 3]

1.4

In [16]:
# pandas también permite acceder a las columnas mediante el nombre de la columna después del dataframe,
# siempre que sea un identificador Python válido (por ejemplo, sin espacios en blanco) y no tenga el mismo
# nombre que un método propio de pandas para el dataframe

# ¡Cuidado! No está recomendado utilizarlo en producción porque podría ocurrir que en el futuro se añada un 
# método con el mismo nombre que nuestra columna

df.species.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

**Practicando**

**EJERCICIO 1**. Selecciona únicamente las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`:

In [18]:
%load ../../solutions/04_01_df_columnas.py

Unnamed: 0,sepal length (cm),sepal width (cm),species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
5,5.4,3.9,setosa
6,4.6,3.4,setosa
7,5.0,3.4,setosa
8,4.4,2.9,setosa
9,4.9,3.1,setosa


**EJERCICIO 2**. Selecciona la celda de la fila 140 y la columna 4 del dataframe `df`:

In [20]:
%load ../../solutions/04_02_df_fila_columna.py

'virginica'

### Indexación mediante `Series` de `boolean`


En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.

Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.

In [21]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond # Imprimimos la lista de valores verdadero o falso para ver qué contiene

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
120     True
121     True
122     True
123     True
124     True
125     True
126     True
127     True
128     True
129     True
130     True
131     True
132     True
133     True
134     True
135     True
136     True
137     True
138     True
139     True
140     True
141     True
142     True
143     True
144     True
145     True
146     True
147     True
148     True
149     True
Name: species, Length: 150, dtype: bool

In [22]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica


In [23]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
113,5.7,2.5,5.0,2.0,virginica
119,6.0,2.2,5.0,1.5,virginica
146,6.3,2.5,5.0,1.9,virginica


In [24]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)] # Filtra todas las 'virginica' que cumplan alguna de las condiciones 2 o bien 3 o ambas

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
104,6.5,3.0,5.8,2.2,virginica
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
113,5.7,2.5,5.0,2.0,virginica
114,5.8,2.8,5.1,2.4,virginica
115,6.4,3.2,5.3,2.3,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica


**Practicando**

**EJERCICIO 3**. De nuestro `DataFrame` de flores Iris, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm

In [26]:
%load ../../solutions/04_03_df_boolean_1.py

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
18,5.7,3.8,1.7,0.3,setosa
22,4.6,3.6,1.0,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa


**EJERCICIO 4**. Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

In [28]:
%load ../../solutions/04_04_df_boolean_2.py

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
60,5.0,2.0,3.5,1.0,versicolor
79,5.7,2.6,3.5,1.0,versicolor
93,5.0,2.3,3.3,1.0,versicolor
98,5.1,2.5,3.0,1.1,versicolor


## Creación y borrado de columnas y filas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y borrar parte de su contenido.

In [29]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,5.1,3.5,1.4,0.2,setosa,3.7
1,4.9,3.0,1.4,0.2,setosa,3.5
2,4.7,3.2,1.3,0.2,setosa,3.4
3,4.6,3.1,1.5,0.2,setosa,3.1
4,5.0,3.6,1.4,0.2,setosa,3.6


In [30]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
146,6.3,2.5,5.0,1.9,virginica,1.3
147,6.5,3.0,5.2,2.0,virginica,1.3
148,6.2,3.4,5.4,2.3,virginica,0.8
149,5.9,3.0,5.1,1.8,virginica,0.8
150,5.0,3.0,2.0,1.0,,3.0


In [31]:
# Para borrar una columna podemos utilizr el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

Unnamed: 0,sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,3.5,1.4,0.2,setosa,3.7
1,3.0,1.4,0.2,setosa,3.5
2,3.2,1.3,0.2,setosa,3.4
3,3.1,1.5,0.2,setosa,3.1
4,3.6,1.4,0.2,setosa,3.6


In [32]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
0,0.2,setosa,3.7
1,0.2,setosa,3.5
2,0.2,setosa,3.4
3,0.2,setosa,3.1
4,0.2,setosa,3.6


In [33]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,0.4,setosa,3.7
6,0.3,setosa,3.2
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


### Eliminación de datos nulos

En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [34]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
150,1.0,,3.0


In [35]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
145,2.3,virginica,1.5
146,1.9,virginica,1.3
147,2.0,virginica,1.3
148,2.3,virginica,0.8
149,1.8,virginica,0.8


**Practicando**

**EJERCICIO 5**. Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio `'../../data/04_01_iris.csv'`. Y después, muestra el número de filas y columnas del fichero cargado.

Si en ejercicios posteriores tienes algún problema y quieres cargar de nuevo estos datos, ejecuta de nuevo la celda siguiente.

In [37]:
%load ../../solutions/04_05_df_carga.py

(150, 5)

**EJERCICIO 6**. Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma celda.

In [39]:
%load ../../solutions/04_06_df_mean_std.py

2.9739999999999998 0.3224966381726376


**EJERCICIO 7**. Duplica una vez todas las filas que sean del tipo Virginica, añádelas a `df` y finalmente muestra el número de filas y columnas resultantes.

In [41]:
%load ../../solutions/04_07_df_duplica.py

(200, 5)