## 11. Librería Pandas

**pandas** es una librería *open source* que nos proporciona estructuras de datos y herramientas de análisis de datos potentes y fáciles de usar en Python.

Se puede instalar en nuestro entorno virtual con el siguiente comando:

```
pipenv install pandas
```

In [None]:
import pandas as pd

Se utiliza el alias `pd` como estándar de facto par el uso de **pandas**.

### Series

Una serie representa una secuencia de datos unidimensional, y se crea pasándole a pandas una lista de datos.

In [None]:
s = pd.Series([1,3,5,np.nan,6,8])
s

### DataFrame

Un objeto `DataFrame` representa una estructura tabular bi-dimensional que contiene datos potencialmente heterogéneos, con filas etiquetadas.

Se pueden crear a partir de un diccionario, o de un `array` de NumPy.

In [None]:
df = pd.DataFrame({
    'A' : 1.,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
    'D' : np.array([3] * 4,dtype='int32'),
    'E' : pd.Categorical(["test","train","test","train"]),
    'F' : 'foo' 
})
df

In [None]:
df.dtypes

Podemos utilizar una serie para especificar la columna de índice.

In [None]:
dates = pd.date_range('20130101', periods=6)
dates

In [None]:
df2 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df2

### Ejes

En un DataFrame de `pandas` se pueden realizar operaciones a lo largo de los dos ejes, o `axis`.

- Si en una operación especificamos `axis=0` nos referimos a loas índices, es decir, estaremos diciendo que la operación se realiza para todas las filas.
- Si en una operación especificamos `axis=1` estaremos diciendo que la operación se realiza para todas las columnas.


![Axis](./img/axis.jpg)

### Visualización de datos

In [None]:
df2.head(2)

In [None]:
df2.tail(2)

In [None]:
df2.index

In [None]:
df2.columns

#### DataFrame.to_numpy()

El método `.to_numpy()` de un DataFrame nos da una representación en una estructura de datos de `numpy` de los datos del DataFrame,

In [None]:
df2.to_numpy()

#### Describe

El método `.describe()` nos muestra un resumen estadístico de los datos.

In [None]:
df2.describe()

#### Transposición

Podemos obtener el DataFrame transpuesto de uno dado a través del atributo `T`.

In [None]:
df2.T

#### Ordenación

Podemos ordenar los datos por alguno de los ejes o por valores.

In [None]:
df2.sort_index(axis=1, ascending=False)

In [None]:
df2.sort_values(by='B')

### Selección 

Podemos obtener una selección de los datos usando los métodos estándar de Python o `numpy` para la obtener *slices* en listas o matrices.

Además, `pandas` proporcia métodos especializados (y optimizados) para el acceso a los datos:

`.loc`

Se utiliza principalmente para acceder por etiqueta. Soporta los siguietnes tipos de entradas:

- Una etiqueta única: df.loc['a']
- Una lista o array de etiqueta: df.loc[['a', 'b', 'c']]
- Un *slice* con etiquetas: df.loc[a':'f']

`.iloc`

Se utiliza principalmente para acceder posición. Soporta los siguietnes tipos de entradas:

- Una entero: df.iloc[0]
- Una lista o array de enteros: df.iloc[[0, 1, 2]]
- Un *slice* : df.loc[1:3]


Tipo de objeto | Selección      | Valor retornado
---------------|----------------|-------------------------------------
Series         | series[label]  | valor escalar
DataFrame      | frame[colname] | La serie correspondiente a `colname`

In [None]:
df2['A']

In [None]:
df2.A

In [None]:
df2[0:3]

In [None]:
df2['20130102':'20130104']

In [None]:
df2.loc[dates[0]]

In [None]:
df2.loc[:, ['A', 'B']]

In [None]:
df2.loc['20130102':'20130104', ['A', 'B']]

In [None]:
df2.loc['20130102', ['A', 'B']]

In [None]:
df2.iloc[3]

In [None]:
df2.iloc[3:5, 0:2]

#### Indexación condicional

Se puede acceder a las columnas que cumplan una condición concreta, indicando la condición en el selector.

In [None]:
df2[df2.A > 0]

### Operaciones

Se pueden realizar operaciones estadísticas básicas llamando a los métodos correspondientes.

In [None]:
df2.mean()

In [None]:
df2['A'].mean()

In [None]:
df2.mean(axis=1)

Se pueden aplicar funciones a los datos.

In [None]:
df2.apply(np.cumsum)

In [None]:
df2.apply(lambda x: x.max() - x.min())

In [None]:
df2.apply(lambda x: x.max() - x.min(), axis=1)

### Uniones

La librería `pandas` proporciona diferentes métodos para la unión de Series o DataFrame.

#### Concat

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

In [None]:
pieces = [df[:3], df[3:7], df[7:]]
pieces

In [None]:
pd.concat(pieces)

#### Join

In [None]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

In [None]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

In [None]:
pd.merge(left, right, on='key')

#### Append

In [None]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
df

In [None]:
s = df.iloc[3]
s

In [None]:
df.append(s, ignore_index=True)

### Agrupamientos

Cuando hablamos de agrupar datos en `pandas` nos referimos a un proceso que inplica uno o más de los siguientes pasos:

- Separar los datos en grupos basados en algún criterio
- Aplicar una función para cada grupo de forma independiente
- Combinar los resultados en una estructura de datos

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

In [None]:
df.groupby('A').sum()

In [None]:
df.groupby(['A', 'B']).sum()