(pandas)=
# Pandas

En esta sección haremos una introducción a la librería [pandas](https://pandas.pydata.org/) de Python, una herramienta muy útil para **el análisis de datos**. Proporciona estructuras de datos y operaciones para manipular y analizar datos de manera rápida y eficiente, así como funcionalidades de lectura y escritura de datos en diferentes formatos, como CSV, Excel, SQL, entre otros. También permite realizar operaciones matemáticas y estadísticas en los datos, así como visualizarlos en gráficos y tablas de manera cómoda gracias a su integración con **numpy** y **matplotlib**. En resumen, pandas es una librería muy útil para cualquier persona que trabaje con datos y necesite realizar análisis y operaciones en ellos de manera rápida y eficiente.

<div style="display: flex; align-items: center; justify-content: center;">
    <img src="https://drive.google.com/uc?id=1HTFx_ZaV6QywEjp_6Dd_NVe78L7oyzsX"/>
</div>

La integración entre numpy y pandas se realiza mediante el uso de los arrays de numpy como el tipo de dato subyacente en las estructuras de datos de pandas. Esto permite que pandas utilice la eficiencia y la velocidad de cálculo de numpy en sus operaciones, mientras que proporciona una interfaz de usuario más amigable y especializada para trabajar con datos tabulares.

Normalmente el módulo se suele importar con el alias `pd`

In [1]:
import pandas as pd
import numpy as np

## Series

Una **serie** de pandas es una estructura de datos unidimensional, junto con una secuencia de etiquetas para cada dato denominada **índice**. Podemos crear una serie de pandas a través de una lista de Python 

In [2]:
s = pd.Series([4, 7, -5, 3])
s

0    4
1    7
2   -5
3    3
dtype: int64

En este ejemplo vemos que pandas asigna por defecto un índice numérico que etiqueta los datos que le hemos pasado mediante la lista. Pandas gestiona estos datos como un array de numpy, que es accesible mediante el atributo `values`. También observamos que el tipo de numpy elegido ha sido `int64`

In [3]:
s.values

array([ 4,  7, -5,  3])

El índice está disponible en el atributo `index`. En este caso crea un objeto similar al `range` de Python, pero más generalmente serán instancias de `pd.Index`

In [4]:
s.index

RangeIndex(start=0, stop=4, step=1)

<div style="display: flex; align-items: center; justify-content: center;">
    <img src="https://drive.google.com/uc?id=17YVcnJlr72tSlmnyF8inGCNPXw-nUMD4"/>
</div>

Podemos proporcionar un índice cuando creemos la serie

In [5]:
s2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [6]:
s2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

También podemos añadirle un atributo `name` tanto `pd.Series` como a un índice

In [7]:
s2.name = "test"
s2.index.name = "letras"
s2

letras
d    4
b    7
a   -5
c    3
Name: test, dtype: int64

La noción de índice en pandas generaliza en cierto sentido los índices de numpy. Igual que en numpy, podemos acceder a los elementos de la series a través del índice y modificarlos

In [8]:
s2["a"]

-5

In [9]:
s2["a"] = 6
s2

letras
d    4
b    7
a    6
c    3
Name: test, dtype: int64

Podemos tambíen indicar una subserie

In [10]:
s2[['c', 'a', 'd']]

letras
c    3
a    6
d    4
Name: test, dtype: int64

Las operaciones que estarían disponibles sobre el array subyacente a la serie se pueden aplicar directemante a la misma 

In [11]:
s2[s2 > 5]

letras
b    7
a    6
Name: test, dtype: int64

In [12]:
s2*2

letras
d     8
b    14
a    12
c     6
Name: test, dtype: int64

In [13]:
np.exp(s2)

letras
d      54.598150
b    1096.633158
a     403.428793
c      20.085537
Name: test, dtype: float64

De hecho, una manera muy frecuente de crear una serie es a partir de un diccionario. Las claves se ordenarán y formarán el índice de la serie, como en el siguiente ejemplo:

In [14]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
s3 = pd.Series(sdata)
s3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Si queremos introducir un orden específico entre las claves del diccionario, entonces podemos combinar el pasar el diccionario junto con la lista de etiquetas ordenadas:

In [15]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
s4 = pd.Series(sdata, index=states)
s4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Nótese que solo se incluye en el índice lo incluido en la lista (por ejemplo `Utah` no forma parte del índice a pesar de que es una clave del diccionario). Como `California` no es una clave del diccionario, pero se ha incluido en el índice, se incluye con valor `NaN`(*Not a Number*), que es la manera en pandas para indicar valores inexistentes. 

Con `isnull` podemos localizar qué entradas de la serie tienen valores inexistentes:

In [16]:
s4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

En las series, como con los arrays de numpy, podemos realizar operaciones vectorizadas. Lo interesante aquí es que las operaciones se *alinean* por las correspondientes etiquetas. Por ejemplo:

In [17]:
s3 + s4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Los tipos que solemos manejar en las series de pandas son similares que los de numpy, aunque existe un tipo particular de pandas bastante útil, que nos permite usar funcionalidades y ahorrar memoria, el tipo `category`

In [18]:
s = pd.Series(
    ["s", "m", "l", "xs", "xl"], 
    dtype="category"
)
s

0     s
1     m
2     l
3    xs
4    xl
dtype: category
Categories (5, object): ['l', 'm', 's', 'xl', 'xs']

:::{exercise}
:label: pandas-series

Carga las series `city_mpg` y `highway_mpg` con el siguiente código
```
url = "https://github.com/mattharrison/datasets/raw/master/data/vehicles.csv.zip"
df = pd.read_csv(url)
city_mpg = df.city08
highway_mpg = df.highway08
``` 
- ¿Cuántos elementos hay en las series? ¿De qué tipo son? 
- Calcula el mínimo, el máximo y la mediana de la Serie de precios utilizando las funciones min, max y median respectivamente.
- Utiliza la función pd.cut para dividir la Serie de precios en cuatro categorías: "bajo", "medio-bajo", "medio-alto" y "alto", utilizando los cuartiles como límites de las categorías.
- Cuenta el número de elementos en cada categoría utilizando la función `value_counts`.
- Realiza un histograma y un gráfico de barras.

:::