# 3.1. Introducción a Pandas I.

- Pandas es la librería que más vais a utilizar. De hecho, a partir de ahora, todos los módulos los vamos a ver en Pandas (visualización, series temporales...)
- Por dentro Pandas tiene Numpy. Por eso es importante ver primero Numpy.

- Al igual que numpy puede que tengamos que instalarla con: *pip install pandas*

In [None]:
import pandas as pd

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Pandas Data Structures

Dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento específico:<br/>
<ul>
<li><b>Series:</b> Para información unidimensional.</li>
<li><b>DataFrame:</b> Para información tabular.</li>
</ul>

Son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame.

### Series

Una serie es una estructura de datos unidimensional que contiene:<br/>
<ul>
<li>Un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por NumPy.</li>
<li>Un array de etiquetas/<i>labels</i>: asociando una etiqueta a cada dato del array anterior y que se denomina <b>índice</b>, aunque no es obligatorio la especificación del mismo.</li>
</ul>

Podemos crear, por ejemplo, una serie a partir de una lista

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

Si no indicamos nada, por defecto índice es un rango desde 0 hasta el número de elementos (igual que en R)

Con values obtenemos los valores y con index, el índice

In [None]:
obj.values

In [None]:
obj.index 

Para la creación de Series contamos con una función "constructor" (Series) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en la Serie y podrá ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a los valores de la Serie y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).</li>
<li><b>dtype:</b> Que podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [None]:
obj2

- Como ya hemos visto, disponemos de dos atributos para recuperar los datos y el índice de una serie de forma independiente.

In [None]:
obj2.index

In [None]:
obj2.values

- Se puede estraer los elementos de la serie utilizando el índice.

In [None]:
obj2['a']

- Se pueden asignar valores usando el índice

In [None]:
obj2['d'] = 6

Podemos recuperar diversos valores usando una lista de índices

In [None]:
obj2[['c', 'a', 'd']]

Podemos usar índices booleanos para extraer los valores

In [None]:
obj2[obj2 > 0]

- Podemos realizar operaciones sobre la Serie.

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

In [None]:
obj2.mean()

Recordemos que esta es la manera correcta de hacer operaciones

In [None]:
np.mean(obj2)

- Podemos comprobar si un elemento está presente en la Serie (está en el index).

In [None]:
obj2

In [None]:
'b' in obj2

In [None]:
'e' in obj2

- Podemos crear series a partir de un dict

In [None]:
sdata = {
    'Ohio': 35000, 
    'Texas': 71000, 
    'Oregon': 16000, 
    'Utah': 5000
}
obj3 = pd.Series(sdata)
obj3

Podemos poner un nombre a la serie. 

- Esto es útil a la hora de hacer un plot, dado que aparece ya el nombre en el gráfico diréctamente.
- O cuando creamos DF, el nombre del vector será el nombre de la columna

In [None]:
obj3.name = 'population'

In [None]:
obj3

- Los índices son inmutables, lo que impide que cambiemos un valor de índice de forma independiente. Sin embargo, podemos modificar un índice completo por otro.

In [None]:
print(obj3)

obj3.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj3

### DataFrame
Un DataFrame es una estructura de información tabular (bidimensional) con las siguientes propiedades:<br/>
<ul>
<li>Está compuesta por una serie ordenada de filas y una serie ordenada de columnas.</li>
<li>Tiene, por tanto, un índice para las filas y otro para las columnas.</li>
<li>Cada columna puede tener un tipo de NumPy diferente.</li>
<li>Puede ser visto como un diccionario de Series, todas ellas compartiendo el mismo índice. Es decir, cada columna es un serie.</li>
</ul>

### Creación de Dataframes
Para la creación de DataFrames contamos con una función "constructor" (DataFrame) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en el DataFrmae y podrá ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensional, una Serie u otro DataFrame.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas).</li>
<li><b>columns:</b> Es opcional, contiene las etiquetas que queremos asignar a las columnas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_columnas).</li>
<li><b>dtype:</b> Es opcional, fijará el tipo de todas las columnas y podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

<b>IMPORTANTE:</b> Si el número de columnas no coincide, se creara un DataFrame y se asignará NaN en los huecos.

Creamos un DF, por ejemplo, a partir de un diccionario

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
frame

Para ver qué pinta tiene, podemos consultar los primeros registros con head

In [None]:
frame.head(2)

O los últimos con tail (exáctamente igual que en R)

In [None]:
frame.tail(3)

Describe nos da un resumen estadístico de las columnas numéricas. Muy útil para un análisis exploratorio.

In [None]:
frame.describe()

Podemos incluir los nombres que queramos a las columnas

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Podemos definir índices para filas y columnas. Pero si ponemos columnas o filas de más, se rellenarán con NaN

In [None]:
frame2 = pd.DataFrame(data, 
                      columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])

In [None]:
frame2

Con index recuperamos el índice de las filas

In [None]:
frame2.index

Con colums recuperamos el índice de las columnas

In [None]:
frame2.columns

Y con values, los elementos de datafre, sin los índices

In [None]:
frame2.values

### Indexación y slicing en pandas

<center>
<img src="imgs/pd4.png"  alt="drawing" width="700"/>
<img src="imgs/pd5.png"  alt="drawing" width="700"/>
</center>

Creamos una serie y un dataframe para practicar la indexación

In [None]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4),
                         index=['f1', 'f2', 'f3', 'f4'],
                         columns=['c1','c2','c3','c4'])
dataframe

#### Indexación por atributo de clave

- Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame, mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta. Siempre y cuando el nombre no tenga espacios.

In [None]:
serie.a

In [None]:
dataframe.c1

#### Indexación con sintáxis [ ] directa

In [None]:
serie['a']

In [None]:
dataframe['c1']

El problema de hacerlo así, es que no queda muy claro que estamos accediendo a una serie o un df, cuando vemos el código de otra persona, o nuestro código en el futuro.

#### Indexación con método .loc - Por claves

Por ello, se suele utilizar el método .loc (localizador de índices)

Podemos extraer la fila1

In [None]:
dataframe.loc['f1']

Podemos extraer la columna 3

In [None]:
dataframe.loc[: ,'c3']

Podemos indicar una fila y una columna determinada

In [None]:
dataframe.loc['f1', 'c1']

Podemos usar rangos

In [None]:
dataframe.loc['f1':'f2', 'c1':'c3']

#### Indexación con método .iloc - Por índices

- iloc es localizador por integer. Funciona exáctamente igual que loc, pero en vez de indicar el nombre del índice, indicamos su posición en el índice.
- Tanto loc, como iloc, son muy comunes y es la manera correcta de indexar en series y dataframes.

In [None]:
dataframe.iloc[1:, 2:]

#### Vamos a ver varios ejemplos con series para asentar conocimientos:

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

Podemos recuperar el valores de muchas maneras

In [None]:
obj['b']

In [None]:
obj.b

In [None]:
obj[1]

In [None]:
obj.loc['b']

In [None]:
obj.iloc[1]

Y si queremos recuperar más de un valor...

In [None]:
obj[2:4]

In [None]:
obj.iloc[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj.loc[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj.iloc[[1, 3]]

In [None]:
obj['b':'c']

In [None]:
obj.loc['b':'c']

Y, por supuesto, utilizar índices booleanos

In [None]:
obj < 2

In [None]:
obj[obj < 2]

Así como hacer asignaciones

In [None]:
obj.loc['b':'c'] = 5
obj

#### Lo mismo con DataFrame. Vamos a ver varios ejemplos para asentar conocimientos:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

A la hora de hacer loc, debemos ser conscientes de que son dos dimensiones

In [None]:
data.loc[:,'two']

In [None]:
data[['three', 'one']]

In [None]:
data.loc[:,['three', 'one']]

Podemos usar índices booleanos

In [None]:
data['three'] > 5

In [None]:
data[data['three'] > 5]

In [None]:
data.loc[data['three'] > 5, :]

También podemos indexar mediante posiciones

In [None]:
data[:2]

In [None]:
data.iloc[:2, :]

Así como usar máscaras booleanas para indexar información

In [None]:
data < 5

In [None]:
data[data < 5]

Si no queremos que nos devuelva la estructura del dataframe, llena de NaA. Podemos indicar que nos devuelva los valores.

In [None]:
data.values[data < 5]

O para asignar

In [None]:
data[data < 5] = 0
data

Más ejemplos con loc e iloc

In [None]:
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[2] # Si solo indicamos una posición son las filas

In [None]:
data.iloc[[0, 2], [3, 0, 1]] # Podemos indicar posiciones separadas mediante listas

In [None]:
data.loc[:'Utah', 'two']

A ver si lo habéis comprendido. ¿Qué hace la siguiente instrucción?

In [None]:
data.iloc[:, :3][data.three > 5]

El elemento "paso" también puede utilizarse en la indexación

In [None]:
print(data)

data.iloc[::2, :]

### Asignación en pandas
- Podemos asignar valores a columnas o filas
- Generamos un DF con todos los valores con NAN

In [None]:
frame2 = pd.DataFrame(     
    columns=['year', 'state', 'pop', 'debt'],
    index=['one', 'two', 'three', 'four', 'five', 'six']
)

In [None]:
frame2

Puedo asignar de golpe valores a una columna, con solo especificar su nombre

In [None]:
frame2['debt'] = 16.5
frame2

Si el nombre de la columna no existe, la nueva columna se crea inmediatamente

In [None]:
frame2['debt_2'] = 14
frame2

Podemos usar listas, rangos, vectores... para asignar valores

In [None]:
np.arange(6.)

In [None]:
frame2['debt'] = np.arange(6.)
frame2

A partir de una serie con los mismos índices, también podemos asignar valores a las columnas.

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

In [None]:
frame2['debt'] = val
frame2

###  Eliminación de columnas.

Eliminar una columna es tan facil como usar el comando del

In [None]:
del frame2['state']
frame2

También podemos hacerlo mediante indexación y reasignación

In [None]:
frame2 = frame2.iloc[:, :-1]
frame2

Otra manera de hacerlo es mediante drop (le pasas el nombre y el eje sobreo que el quieres eliminar)

In [None]:
frame_dropped = frame2.drop('pop', axis=1)
frame_dropped

In [None]:
frame_dropped = frame2.drop('four', axis=0)
frame_dropped

De hecho, podemos eliminar varias filas sin indicar el axis (simplemente metiéndolas en una lista).

In [None]:
frame2.drop(['two', 'five'])

Por defecto devuelve una copia del df modificado. Pero tiene un parámetro implace, que modificaría el propio df, sin devolver nada

In [None]:
frame2.drop(['debt', 'pop'], axis=1, inplace = True)
frame2

Podemos consultar el nombre de las columnas con columns

In [None]:
frame2.columns

Y el de las filas con index

In [None]:
frame2.index

### Por último

- Se pueden crear un Dataframe a partir de un diccionario de diccionarios:

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

- Los DF se pueded transponer.
- Pero hay que tener cuidado porque al cambiar los índices, todo el código que hayas realizado en base a los nombres de las filas y columnas, dejará de funcionar.

In [None]:
frame3.T

- Si no tenemos los datos (ya sea para filas o columnas), se generaran NaN.

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

___
# Ejercicios

**3.1.1.**  Crea un dataframe a partir del diccionario, usando la lista como índice.

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

**3.1.2.**  Muestra una descripción de los datos.

**3.1.3.**  Muestra las 2 primeras filas.

**3.1.4.**  Muestra la tercera columna.

**3.1.5.**  Selecciona las columnas animal y age.

**3.1.6.**  Elimina la columna visits sin generar un nuevo DF.

**3.1.8.**  Elimina la fila c.

**3.1.9.**  Crea una columna nueva con los valores de 0 a 8

**3.1.10.** Crea a partir de los siguientes datos un Data Frame

- planets: "Mercury", "Venus", "Earth", "Mars", "Jupiter", "Saturn", "Uranus", "Neptune"
- type: "Terrestrial planet", "Terrestrial planet", "Terrestrial planet", "Terrestrial planet", "Gas giant", "Gas giant", "Gas giant", "Gas giant"
- diameter 0.382, 0.949, 1, 0.532, 11.209, 9.449, 4.007, 3.883
- rotation 58.64, -243.02, 1, 1.03, 0.41, 0.43, -0.72, 0.67
- rings FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE, TRUE

Resuelve los siguientes apartados:

- Selecciona la información de los tres primeros planetas.
- Selecciona la información de los últimos tres planetas.
- Selecciona la columna diameter de los últimos seis planetas. 
- Selecciona sólo los planetas que tienen anillos.
- Selecciona los planetas que tienen un diámetro inferior al de la tierra .
- Ordena el Data Frame según el diámetro de los planetas, ascendentemente.