# La librería `pandas`

`pandas` es una librería para el análisis de datos en
Python, que fue desarrollada por Wes McKynney in 2008. Es uno de los
proyectos apoyados por [NumFOCUS](https://numfocus.org), una asociación
que fomenta proyectos y prácticas open source.

Destaca por su gran riqueza de procedimientos para manipular y procesar
datos, en particular datos con una componente temporal y su integración
con numpy.

Para usar `pandas` en un programa o en un notebook, lo importamos con su
alias.

In [2]:
import pandas as pd

# Los dos objetos básicos en pandas

`pandas` define dos clases básicas

-  `Series`: corresponden a vectores de datos.

    -   Es un vector unidimensional.

    -   Tienen un "índice" (`index`) que contiene etiquetas para cada
        dato. Las etiquetas no tienen por que ser únicas.

    -   Tienen opcionalmente un nombre (`name`).

-   `DataFrame`: Es una estructura 2D que contiene conjuntos de datos,

    -   Se puede pensar en una tabla bidimensional, donde cada fila
        representa un individuo, cada columna es un que corresponde a
        una variable o característica del individuo.

    -   Un tiene un "índice" (`index`) con etiquetas asociadas a cada
        individuo. Las etiquetas no tienen por qué ser únicas.

    -   Cada columna tiene un nombre.

    -   Podemos ver un `DataFrame` como un `dict` de `Series`: las
        claves son los nombres de las columnas, sus valores son las
        `Series`.

# Series
La manera general de crear un Series es `pd.Series(data, index=None)`

-   `data` puede ser un vector o iterable (por ejemplo una lista), un o
    un valor escalar.

-   Si no se proporciona un valor para `index`, se usarán enteros por defecto

-   Admite el argumento opcional `name`.

Ejemplos:

In [None]:
import pandas as pd

edades = pd.Series(
    {
        "Pedro": 28,
        "maria":22,
    },
    name="edad"
)

edades = pd.Series(
    [20,21,22],
    index=["Maria","Sexo","asd"],
    name="edad"
)

esperanza_adicional = pd.Series(
    [51.4,64,45],
    index=["Maria","Sexo","asd"],
    name="esperanza"
)

print(edades)
print(esperanza_adicional)
sum = edades + esperanza_adicional
print(sum)


## Índices en Pandas Series

Los `index` son un concepto clave en `Series` o , en particular porque
sirven para "alinear" las series cuando se combinan a través de
operaciones, como sumas, restas, etc\...

In [None]:

s1 = pd.Series(
    [3,2.5,-1,18],
    index=["a","b","c","d"]
)
s2 = pd.Series(
    [3,2.5,-1],
    index=["b","c","d"]
)
print(s1+s2)

### Ejemplo con índices duplicados


Podéis encontrar en la referencia de la API de Pandas todos los
atributos y métodos asociados a un [`Serie`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)
## Métodos de Pandas Series

Estos métodos permiten aplicar una operación al conjunto de la Serie,
sin tener que hacer un bucle recorriendo sus elementos.\
Por ejemplo:

In [None]:
s1.ab

# Data frames
La estructura de datos principal de pandas La manera general de crear un
DataFrame es `pd.DataFrame(data, index=None, columns=None)`
-   `data` puede ser un array numpy, un iterable (por ejemplo una lista
    de listas), un `Series`.

-   Si no se proporciona un valor para `index`, se usarán enteros por defecto

-   El argumento `columns` indica las etiquetas para las columnas.

-   `data` puede ser un `dict` donde las pares `key`:`value` son etiqueta:valores de
    cada columna.

Ejemplos:

In [7]:

df1 = pd.DataFrame(
[    [3,"r"],
    [2.3,"a"],
    [4,"b"],
],
    index=["a","b","c"],
)
print(df1)

     0  1
a  3.0  r
b  2.3  a
c  4.0  b


también podría ser un `dict` de `Series` , lo que permite más flexibilidad con los
índices:

In [9]:
df1 = pd.DataFrame(
    {
        "x":pd.Series([3,2.5,-1], index=["a","b","c"]),
        "color": pd.Series(["r","g","b"], index=["a","b","c"])  
    }
)
print(df1)
# Columnas = x y color

     x color
a  3.0     r
b  2.5     g
c -1.0     b


## Métodos y atributos útiles con DataFrame 
Si df es un pandas DataFrame

### Métodos útiles para hacerse una idea del conjunto:
- `df.info()`: número de filas, columnas y tipo de datos 
- `df.describe()`: resumen numérico de cada columna 
- `df.head(7)`: las 7 primeras filas 
- `df.tail(7)`:  las 7 últimas filas 
### Atributos útiles:
- `df.shape`: Dimensión del conjunto 
- `df.columns`:  etiquetas de las columnas 
- `df.index`: etiquetas de las filas
- `df.values` valores como ndarray de numpy
-  `df.dtypes` tipos de datos de cada columna

In [10]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x       3 non-null      float64
 1   color   3 non-null      object 
dtypes: float64(1), object(1)
memory usage: 72.0+ bytes


# Leeremos siempre los datos desde una fuente externa

En todas las prácticas leeremos los datos desde una fuente externa.

-   Desde un fichero local que nos habremos descargado

-   Desde un fichero situado en internet

-   Desde una API de un servicio

Para leer desde un archivo local, usaremos casi siempre `pd.read_csv`, que permite
muchísima flexibilidad.

utiliza las primeras líneas del fichero para adivinar su estructura. Por
ejemplo, infiere cómo están separados las columnas, si tiene cabecera,
etc. Por lo tanto, en muchos casos, bastará con

`pd.read_csv(<camino hasta el fichero de datos>)`

Por ejemplo

## Parámetros más útiles de `pd.read_csv`
En el caso en que tuvieramos que especificar parámetros porque no ha adivinado correctamente la estructura del
fichero, éstos son útiles:

- `sep`: un `str` que contiene el caracter que delimita las columnas

-  `skiprows`: un entero, número de filas que salta al inicio del fichero.
    También puede ser una lista de los índices de filas.

-   `encoding`: la codificación del fichero. Normalmente será 'utf-8', pero podría
    ser 'latin-1'.

-   `thousands`: un `str` que contiene el caracter que separa los miles

-   `dec`: un `str` que contiene el caracter que hace de separador decimal.

Por ejemplo

## Las operaciones más frecuentes implican trabajar con subconjuntos
Esos subconjuntos de un DataFrame pueden ser de diferentes tipos:

-   Extraigo un conjunto de columnas relevantes, descartando otras.
-   Me quedo con un subconjunto de filas que cumplen un determinado
    criterio
-   Una combinación de las dos opciones anteriores

### Extraer columnas
Para extraer un conjunto de columnas relevantes La manera más sencilla
es indicar entre llaves una etiqueta o una lista de las etiquetas de
columnas que deseo extraer


Para seleccionar solamente una columna:


In [5]:
import numpy as np
import pandas as pd

In [10]:
rng = np.random.default_rng(314)
datos = pd.DataFrame(
    np.round(rng.uniform(-5,5,(4,3)),1),
    columns = ["x1","x2","x3"]
)
datos["y"] = ["a","b","b", "c"]
datos
    

Unnamed: 0,x1,x2,x3,y
0,4.2,2.1,2.5,a
1,0.7,-3.7,-2.3,b
2,-2.4,-2.1,4.0,b
3,0.3,-1.5,1.9,c


Para seleccionar varias columnas


In [15]:
datos[["x2","x3"]]

Unnamed: 0,x2,x3
0,2.1,2.5
1,-3.7,-2.3
2,-2.1,4.0
3,-1.5,1.9


## Extraer filas basándose en un criterio
Para seleccionar filas basándose en un criterio lógico La manera más
sencilla es indicar entre corchetes un objeto de tipo vector (lista, array
numpy, Series) booleano (True o False)

Por ejemplo:


Unnamed: 0,x2,x3
0,2.1,2.5
1,-3.7,-2.3
2,-2.1,4.0
3,-1.5,1.9


In [16]:
datos[[False,True, True, False]]

Unnamed: 0,x1,x2,x3,y
1,0.7,-3.7,-2.3,b
2,-2.4,-2.1,4.0,b


Podemos proporcionar un Series calculado


In [17]:
datos[datos["y"]=="b"]

Unnamed: 0,x1,x2,x3,y
1,0.7,-3.7,-2.3,b
2,-2.4,-2.1,4.0,b


## Construimos un dataframe de ejemplo, usando valores aleatorios
Usamos el generador de números seudo aleatorios de `numpy`, fijando su semilla

In [1]:
import numpy as np
rng = np.random.default_rng(314)
x = np.round(rng.uniform(-5, 5, (4, 3)), 1)
datos = pd.DataFrame(
    x,
    columns=['x1', 'x2', 'x3']
    )
datos['y'] = ['a', 'b', 'b', 'c']
datos

Unnamed: 0,x1,x2,x3,y
0,4.2,2.1,2.5,a
1,0.7,-3.7,-2.3,b
2,-2.4,-2.1,4.0,b
3,0.3,-1.5,1.9,c


## La manera más general de seleccionar filas y/o columnas
Los dos métodos más flexibles y generales para seleccionar filas y/o
columnas

-   El método `loc` permite seleccionar filas y/o columnas a través de
    las etiquetas (index o nombres de columnas) o usando vectores
    booleanos

-   El método `iloc` permite seleccionar filas y/o columnas a través de
    sus posiciones (filas o columnas) o usando vectores booleanos

### El método `loc[]`
El método `loc[]` Se aplica con corchetes, separamos la especificación de
filas y columnas por una coma.

`df.loc[especificacion_filas, especificacion_columnas]`

-   Si no hay especificación para filas, usamos ":" para indicar que las
    seleccionamos todas:


In [18]:
# Extraigo solo las filas 0 y 2 y columnas x1 y y 
datos.loc[[0,2],["x1","y"]]


Unnamed: 0,x1,y
0,4.2,a
2,-2.4,b


 Podemos usar un vector booleano, tanto para filas como para columnas.


In [20]:
datos.loc[[False,False,False,True],[False,False,False,True]]

Unnamed: 0,y
3,c


O combinar vectores booleanos con especificación de etiquetas


### El método `iloc[]`
El método `iloc[]` Se aplica con corchetes, separamos la especificación de
filas y columnas por una coma. Utilizamos sus posiciones para
seleccionar filas o columnas. No admite vectores booleanos.


In [22]:
# iloc va con numeros de fila o columna
datos.iloc[[0,1], 1]

0    2.1
1   -3.7
Name: x2, dtype: float64

### El método `loc[]` trabaja con etiquetas

El método `loc` trabaja con etiquetas, por lo que es necesario ser
cautos si el index de nuestro DataFrame son los enteros. Considerad el
DataFrame `datos_2` que corresponde a `datos` con los valores ordenados según los valores de `x2`:


In [24]:
datos_2 = datos.sort_values("x2")
datos_2

Unnamed: 0,x1,x2,x3,y
1,0.7,-3.7,-2.3,b
2,-2.4,-2.1,4.0,b
3,0.3,-1.5,1.9,c
0,4.2,2.1,2.5,a


In [26]:
print(datos_2.iloc[0,0])
print(datos_2.loc[0,"x1"])


0.7
4.2


## Cortes (slices) en DataFrames
Al igual que para listas, es posible especificar cortes (slices) en
DataFrames o Series, usando ":". El corte incluye las columnas o filas
comprendidas entre los dos extremos de la especificación.

Añadid al DataFrame `datos` el índice `['a1', 'a2', 'a3', 'a4']` 


In [28]:
datos.index = ["a1","a2","a3","a4"]
datos

Unnamed: 0,x1,x2,x3,y
a1,4.2,2.1,2.5,a
a2,0.7,-3.7,-2.3,b
a3,-2.4,-2.1,4.0,b
a4,0.3,-1.5,1.9,c


-   Para `loc`, usamos especificación por etiquetas:


In [29]:
datos.loc["a2":"a3","x2":"y"]

Unnamed: 0,x2,x3,y
a2,-3.7,-2.3,b
a3,-2.1,4.0,b



-   Para `iloc`, usamos posiciones


In [30]:
datos

Unnamed: 0,x1,x2,x3,y
a1,4.2,2.1,2.5,a
a2,0.7,-3.7,-2.3,b
a3,-2.4,-2.1,4.0,b
a4,0.3,-1.5,1.9,c


In [32]:
datos.iloc[1:3, 1:]

Unnamed: 0,x2,x3,y
a2,-3.7,-2.3,b
a3,-2.1,4.0,b



### Cambiar valores en subconjuntos de un DataFrame

Usando `loc` o `iloc` es posible cambiar los valores en un subconjunto
del DataFrame.

Considerad el DataFrame datos:

Podemos fijar el subconjunto a un único valor, por ejemplo, fijamos los valores de la columna `y` en las filas `a2` y `a4` a `NaN`


In [37]:
datos.loc[["a2","a4"],"y"] = np.nan
datos

Unnamed: 0,x1,x2,x3,y
a1,4.2,2.1,2.5,a
a2,0.7,-3.7,-2.3,
a3,-2.4,-2.1,4.0,b
a4,0.3,-1.5,1.9,


### Cambiar valores en subconjuntos de un DataFrame

También podemos asignar a un subconjunto un objeto de tipo vector
(lista, numpy array, Series o DataFrame) de dimensiones compatibles con
el subconjunto.

Por ejemplo para el mismo subconjunto que en el párrafo anterior, cambiamos sus valores a 'YES' y 'NO'


In [38]:
datos.loc[["a2","a4"],"y"] = ["YES","NO"]
datos

Unnamed: 0,x1,x2,x3,y
a1,4.2,2.1,2.5,a
a2,0.7,-3.7,-2.3,YES
a3,-2.4,-2.1,4.0,b
a4,0.3,-1.5,1.9,NO



### Cambiar valores en subconjuntos de un DataFrame
Si usamos un Series o DataFrame, los índices deben coincidir

In [42]:
# Esto dara NaN porque una serie tiene INDICES. Aqui como tienen de indices 0 y 1 por edfecto saldra NaN
# Si le indico el indice me dara luego lo correcto
datos.loc[["a2","a4"],"y"] = pd.Series(["PEDRO","MAR"])
print(datos)
datos.loc[["a2","a4"],"y"] = pd.Series(["PEDRO","MAR"], index=["a2","a4"])
print(datos)

     x1   x2   x3    y
a1  4.2  2.1  2.5    a
a2  0.7 -3.7 -2.3  NaN
a3 -2.4 -2.1  4.0    b
a4  0.3 -1.5  1.9  NaN
     x1   x2   x3      y
a1  4.2  2.1  2.5      a
a2  0.7 -3.7 -2.3  PEDRO
a3 -2.4 -2.1  4.0      b
a4  0.3 -1.5  1.9    MAR



### Cambiar valores en subconjuntos de un DataFrame

A veces se usa indexación en cadena en lugar de usar `loc`: Recordad el
DataFrame datos:
`datos[(datos['y'] == 'b')]['y']` y `datos.loc[(datos['y'] == 'b'), 'y']`  devuelven el mismo objeto, sin embargo NO se debe usar la primera forma para asignar valores al subconjunto del dataframe resultante:
No debemos usar: `datos[ (datos['y'] == 'b')]['y'] = 'B'`
y sí usar en su lugar `loc`:
`datos.loc[(datos['y'] == 'b'), 'y'] = 'B'`


## 

## 

## 