# pandas

[`pandas`](https://pandas.pydata.org) es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

**Índice**

* [Estructuras de datos](#Tipos-de-datos)
* [Carga de datos](#Carga-de-datos)
* [Exploración inicial de los datos](#Exploración-básica-de-los-datos)
* [Etiquetas de filas y columnas](#Etiquetas-de-filas-y-columnas)
* [Indexación](#Indexación)
 * [Indexación por etiquetas y posición numérica](#Indexación-por-etiquetas-y-posición-numérica)
 * [Indexación mediante Series de boolean](#Indexación-mediante-Series-de-boolean)
* [Creación, modificación y borrado de filas y columnas](#Creación,-modificación-y-borrado-de-filas-y-columnas)
 * [Eliminación de datos nulos](#Eliminación-de-datos-nulos)
* [Agrupaciones](#Agrupaciones)

In [1]:
import numpy as np
import pandas as pd

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html): para datos de una dimensión. Sería similar a una lista de elementos.
* [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html): para datos de dos dimensiones. En este caso, sería equivalente a una tabla de una base de datos o una hoja de cálculo. Esta estructura es la más utilizada en `pandas`.

Existe también una tercera estructura, [`Panel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Panel.html), para tipos de datos de tres dimensiones, pero su utilización ha sido desaprobada en la versión 0.20.0.

Internamente, las columnas de un `DataFrame` están formadas por objetos `Series`. 

## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros de texto como CSV, Microsoft Excel, HTML, bases de datos y HDF5:

* `pandas.read_csv`
* `pandas.read_excel`
* `pandas.read_html`
* `pandas.read_sql`
* `pandas.read_hdf5`

En este tutorial utilizaremos la lectura de ficheros de texto: [`pd.read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a cargar el conjunto de datos de las flores Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos), que es muy utilizado en las introducciones a Data Science. 

Este conjunto de datos contiene información sobre las dimensiones de tipos de flores Iris y está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Versicolor, Setosa y Virginica.

¿Qué es un sépalo?
![Pétalo vs sépalo](../../images/04_01_pet_sep.png)

Iris Versicolor
![Verisocolor](../../images/04_02_iris_versicolor.png)

Iris Setosa 
![Setosa](../../images/04_03_iris_setosa.png)

Iris Virginica
![Viriginica](../../images/04_04_iris_virginica.png)

In [3]:
# Cargamos los datos del fichero CSV y creamos un DataFrame
df = pd.read_csv('../../data/04_01_iris.csv')

# Imprimimos los datos cargados: las primeras 15 filas
df.head(15)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [4]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [5]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
species              150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


In [6]:
# Podemos saber las dimensiones de nuestro DataFrame de la siguiente forma
df.shape

(150, 5)

In [7]:
# Si lo necesitamos, podemos transformar los datos a un ndarray fácilmente
df.values

array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.

## Etiquetas de filas y columnas

`pandas` permite etiquetar fácilmente las columnas y filas de los `DataFrame` con los nombres que deseemos. En el caso de Series, tendremos únicamente etiquetas para las filas.

Por ejemplo, veamos las etiquetas que tenemos en nuestro `DataFrame`:

In [8]:
# Muestra las etiquetas o nombres de las filas
df.index

RangeIndex(start=0, stop=150, step=1)

In [9]:
# Muestra el nombre de las columnas
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'species'],
      dtype='object')

Destacar que en todos los casos obtenemos objetos de la clase [`Index`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.html). Esta clase contiene en realidad un `ndarray`, que podemos obtener utlizando también `values`:

In [10]:
# Obtenemos el ndarray correspondiente al nombre de las filas
df.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149])

Si lo deseamos, podemos cambiar los nombres de las filas y columnas de forma muy sencilla. Veamos cómo podemos hacerlo:

In [11]:
# Cambiamos el nombre de las filas asignando el nuevo nombre directamente a index:
df.index = np.arange(500, 650) # Crea un ndarray desde el número 500 hasta el 649, 150 elementos en total
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
500,5.1,3.5,1.4,0.2,setosa
501,4.9,3.0,1.4,0.2,setosa
502,4.7,3.2,1.3,0.2,setosa
503,4.6,3.1,1.5,0.2,setosa
504,5.0,3.6,1.4,0.2,setosa


In [12]:
# Y para cambiar el nombre de las columnas lo hacemos de una forma muy similar
df.columns = ['A', 'B', 'C', 'D', 'E']
df.head()

Unnamed: 0,A,B,C,D,E
500,5.1,3.5,1.4,0.2,setosa
501,4.9,3.0,1.4,0.2,setosa
502,4.7,3.2,1.3,0.2,setosa
503,4.6,3.1,1.5,0.2,setosa
504,5.0,3.6,1.4,0.2,setosa


In [13]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('../../data/04_01_iris.csv')

## Indexación 

Una de las grandes ventajas de `pandas` es que ofrece una gran flexibilidad para indexar datos, es decir, seleccionar un subconjunto del total de datos que hemos cargado.

Debemos tener en cuenta que en la indexación numérica **empezamos a contar desde cero**. Por este motivo, la posición de la primera fila y primera columna será 0.

Hay muchas formas de indexar datos en `pandas`. Vamos a ver las más útiles.

### Indexación por etiquetas y posición numérica

In [14]:
# Podemos seleccionar una columna directamente a partir del nombre de la columna y utlizando []
df['species'].head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

In [15]:
# También podemos seleccionar un conjunto de columnas a partir de una lista de los nombres de las columnas

cols = ['sepal length (cm)', 'species'] # Columnas que queremos cargar

df[cols].head()

Unnamed: 0,sepal length (cm),species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa


In [16]:
# Para seleccionar una celda, debemos llamar a .loc e indicar la fila y columna de la celda que deseamos cargar
df.loc[1, 'sepal length (cm)']

4.9

In [17]:
# También podemos seleccionar una fila en concreto: especificamos el nombre de la fila y : para indicar que
# queremos cargar todas las columnas
df.loc[1, :]

sepal length (cm)       4.9
sepal width (cm)          3
petal length (cm)       1.4
petal width (cm)        0.2
species              setosa
Name: 1, dtype: object

In [18]:
# Asimismo es posible consultar el valor de una celda mediante códigos numéricos mediante iloc (i de integer)
# Por ejemplo, si queremos cargar la celda (fila 51, columna 4) podemos hacerlo del siguiente modo
# ¡Ver que empezamos a contar desde cero!
df.iloc[50, 3]

1.4

In [19]:
# pandas también permite acceder a las columnas mediante el nombre de la columna después del dataframe,
# siempre que sea un identificador Python válido (por ejemplo, sin espacios en blanco) y no tenga el mismo
# nombre que un método propio de pandas para el dataframe

# ¡Cuidado! No está recomendado utilizarlo en producción porque podría ocurrir que en el futuro se añada un 
# método con el mismo nombre que nuestra columna

df.species.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

### Indexación mediante `Series` de `boolean`


En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.

Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.

In [20]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond.sample(20, random_state=5) # Imprimimos una selección aleatoria de la lista de valores para ver qué contiene

82     False
134     True
114     True
42     False
109     True
57     False
1      False
70     False
25     False
84     False
66     False
133     True
102     True
107     True
26     False
23     False
123     True
130     True
21     False
12     False
Name: species, dtype: bool

In [21]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica


In [22]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
113,5.7,2.5,5.0,2.0,virginica
119,6.0,2.2,5.0,1.5,virginica
146,6.3,2.5,5.0,1.9,virginica


In [23]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)].head() # Filtra todas las 'virginica' que cumplan alguna de las condiciones 2 o bien 3 o ambas

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
104,6.5,3.0,5.8,2.2,virginica
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica


## Creación, modificación y borrado de filas y columnas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y modificar o borrar su contenido .

In [24]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,5.1,3.5,1.4,0.2,setosa,3.7
1,4.9,3.0,1.4,0.2,setosa,3.5
2,4.7,3.2,1.3,0.2,setosa,3.4
3,4.6,3.1,1.5,0.2,setosa,3.1
4,5.0,3.6,1.4,0.2,setosa,3.6


In [25]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
146,6.3,2.5,5.0,1.9,virginica,1.3
147,6.5,3.0,5.2,2.0,virginica,1.3
148,6.2,3.4,5.4,2.3,virginica,0.8
149,5.9,3.0,5.1,1.8,virginica,0.8
150,5.0,3.0,2.0,1.0,,3.0


In [26]:
# Para borrar una columna podemos utilizar el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

Unnamed: 0,sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,3.5,1.4,0.2,setosa,3.7
1,3.0,1.4,0.2,setosa,3.5
2,3.2,1.3,0.2,setosa,3.4
3,3.1,1.5,0.2,setosa,3.1
4,3.6,1.4,0.2,setosa,3.6


In [27]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
0,0.2,setosa,3.7
1,0.2,setosa,3.5
2,0.2,setosa,3.4
3,0.2,setosa,3.1
4,0.2,setosa,3.6


In [28]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,0.4,setosa,3.7
6,0.3,setosa,3.2
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [29]:
# Para modificar una celda, podemos utilizar iloc
df.iloc[0, 0] = 9999.0 # Modifica la celda que se encuentra en la primera fila y primera columna
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,9999.0,setosa,3.7
6,0.3,setosa,3.2
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [30]:
# Y también loc
# Modifica la segunda celda de la columna 'sepal minus petal length (cm)'
df.loc[6, 'sepal minus petal length (cm)'] = 9999.0 
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,9999.0,setosa,3.7
6,0.3,setosa,9999.0
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [31]:
# Finalmente, para cambiar el contenido en más de una celda podemos utilizar la función replace
# Esta función ofrece muchísimas opciones, aquí mostramos la más sencilla:
df = df.replace(9999.0, 1111.0) # Busca todos los valores 9999.0 y cámbialos por 1111.0
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,1111.0,setosa,3.7
6,0.3,setosa,1111.0
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


### Eliminación de datos nulos

En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [32]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
150,1.0,,3.0


In [33]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
145,2.3,virginica,1.5
146,1.9,virginica,1.3
147,2.0,virginica,1.3
148,2.3,virginica,0.8
149,1.8,virginica,0.8


In [34]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('../../data/04_01_iris.csv')

## Agrupaciones 

Mediante `pandas` resulta muy sencillo crear agrupaciones de datos y realizar operaciones sobre ellos. Básicamente, las agrupaciones consisten en dos pasos:

1. Dividir la tabla de datos en diversos grupos, con el método [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).
1. Aplicar una función a los grupos generados, que devolverá un nuevo objeto `Series` o `DataFrame` con el resultado de la función aplicada después de agregar los datos. Habitualmente, utilizaremos el método [`agg`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html).


In [35]:
# Primer paso: agrupamos por tipo de especie
grupos = df.groupby('species')

In [36]:
# Segundo paso: aplicamos una función, por ejemplo, la media
grupos.agg('mean') # equivale también a escribir .mean()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.418,1.464,0.244
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [37]:
# Cualquier función que realice un cálculo sobre los grupos nos servirá, por ejemplo, una función de NumPy
df.groupby('species').agg(np.sum) # equivale a escribir .sum()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,250.3,170.9,73.2,12.2
versicolor,296.8,138.5,213.0,66.3
virginica,329.4,148.7,277.6,101.3


In [38]:
# Una función muy utilizada es contar el número de elementos por grupo:
df.groupby('species').agg('count') # equivale a escribir .count()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


In [41]:
# Y aplicar una lista de funciones
df.groupby('species').agg(['min', 'max', 'median', 'mean', 'std'])

Unnamed: 0_level_0,sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm)
Unnamed: 0_level_1,min,max,median,mean,std,min,max,median,mean,std,min,max,median,mean,std,min,max,median,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
setosa,4.3,5.8,5.0,5.006,0.35249,2.3,4.4,3.4,3.418,0.381024,1.0,1.9,1.5,1.464,0.173511,0.1,0.6,0.2,0.244,0.10721
versicolor,4.9,7.0,5.9,5.936,0.516171,2.0,3.4,2.8,2.77,0.313798,3.0,5.1,4.35,4.26,0.469911,1.0,1.8,1.3,1.326,0.197753
virginica,4.9,7.9,6.5,6.588,0.63588,2.2,3.8,3.0,2.974,0.322497,4.5,6.9,5.55,5.552,0.551895,1.4,2.5,2.0,2.026,0.27465


**Practicando**

**EJERCICIO 1**. Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio '../../data/04_01_iris.csv'. Y después, muestra el contenido únicamente de las primeras 15 filas de las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`.

**Importante**: Si en ejercicios posteriores tienes algún problema y quieres cargar de nuevo estos datos, ejecuta de nuevo la celda siguiente para cargar de nuevo los datos originales.

In [43]:
%load ../../solutions/04_01_df_columnas.py

Unnamed: 0,sepal length (cm),sepal width (cm),species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
5,5.4,3.9,setosa
6,4.6,3.4,setosa
7,5.0,3.4,setosa
8,4.4,2.9,setosa
9,4.9,3.1,setosa


**EJERCICIO 2**. Muestra el contenido de la celda de la quinta fila y la cuarta columna del dataframe `df` numéricamente. Recuerda que empezamos a contar desde cero:

In [45]:
%load ../../solutions/04_02_df_fila_columna.py

0.2

**EJERCICIO 3**. De nuestro `DataFrame` de flores Iris que tenemos en la variable `df`, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm.

In [47]:
%load ../../solutions/04_03_df_boolean_1.py

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
18,5.7,3.8,1.7,0.3,setosa
22,4.6,3.6,1.0,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa


**EJERCICIO 4**. Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

In [48]:
%load ../../solutions/04_04_df_boolean_2.py

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
60,5.0,2.0,3.5,1.0,versicolor
79,5.7,2.6,3.5,1.0,versicolor
93,5.0,2.3,3.3,1.0,versicolor
98,5.1,2.5,3.0,1.1,versicolor


**EJERCICIO 5**. Ahora muestra el ndarray correspondiente a las etiquetas de las filas de la variable `df`.

In [49]:
%load ../../solutions/04_05_df_rows.py

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149])

**EJERCICIO 6**. Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma línea si quieres.

In [50]:
%load ../../solutions/04_06_df_mean_std.py

2.974 0.32249663817263746


**EJERCICIO 7**. Duplica una vez todas las filas que sean del tipo Virginica, añádelas a `df` y finalmente muestra el número de filas y columnas resultantes.

In [58]:
%load ../../solutions/04_07_df_duplica.py

(200, 5)

**EJERCICIO 8**. Utilizando el mismo dataset que tenemos cargado en la variable `df`, calcula el sumatorio de todos los valores al cuadrado de todas las columnas (ancho y largo de los sépalos y ancho y largo de los pétalos) para cada especie.

**Pista**: deberás declarar una nueva función.

In [62]:
%load ../../solutions/04_08_df_agg.py

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1259.09,591.25,108.64,3.54
versicolor,1774.86,388.47,918.2,89.83
virginica,4379.8,894.66,3112.32,417.86


**EJERCICIO 9**. Crea un nuevo `DataFrame` que llamaremos `df_girado`, que tomará los valores de `df` pero en esta nueva variable las filas de `df` pasarán a ser las columnas de esta variable y las columnas de `df` pasarán a ser las filas. Es decir, giraremos completamente el conjunto de datos que hemos cargado en `df` inviertiendo filas y columnas.

Intenta hacerlo únicamente con funciones indicadas en este notebook :-)

In [None]:
df_girado = pd.DataFrame() # Creamos un DataFrame vacío



In [63]:
%load ../../solutions/04_09_df_girado.py

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,190,191,192,193,194,195,196,197,198,199
sepal length (cm),5.1,4.9,4.7,4.6,5,5.4,4.6,5,4.4,4.9,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
sepal width (cm),3.5,3,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.1,3.1,2.7,3.2,3.3,3,2.5,3,3.4,3
petal length (cm),1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5,5.2,5.4,5.1
petal width (cm),0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2,2.3,1.8
species,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica
