# Pandas

* [Repositorio de Pandas](https://github.com/pandas-dev/pandas)
* [Documentación Oficial](https://pandas.pydata.org/)

***

**Pandas** es una herramienta/*framework* esencial para trabajar con datos tabulares y series temporales. Su utilidad radica en su capacidad para manipular y analizar datos de manera eficiente, facilitando las tareas comunes en el análisis de datos, como la limpieza, la transformación y la visualización.

### Principales estructuras de datos proporcionadas por Pandas

* **Series**: Una estructura unidimensional que puede albergar cualquier tipo de datos y está etiquetada, facilitando el acceso a los datos mediante etiquetas.

* **DataFrame**: Una estructura de datos bidimensional similar a una hoja de cálculo con etiquetas de fila y columna, que permite almacenar y manipular datos de manera eficiente.

### Beneficios de usar Pandas
* Manipulación de datos eficiente: Pandas proporciona métodos y funciones optimizados para la manipulación de datos, como la limpieza, la filtración, la agregación y la transformación.

* Manejo de datos faltantes: Pandas facilita el manejo de valores nulos o faltantes en los conjuntos de datos, permitiendo su identificación y tratamiento de manera sencilla.

* Integración con otras bibliotecas: Se integra fácilmente con otras bibliotecas populares de Python, como NumPy, Matplotlib y scikit-learn, proporcionando un entorno completo para el análisis de datos.

* Operaciones de series temporales: Ofrece funciones avanzadas para trabajar con datos de series temporales, como la resampling y la interpolación.

* Entrada y salida de datos: Permite la lectura y escritura de datos en varios formatos, incluyendo CSV, Excel, SQL, y más, facilitando la interoperabilidad con otras herramientas y sistemas.

In [None]:
# por convensión, se importa bajo el siguiente nombre

import pandas as pd

print(pd.__version__)

***
## Series (*pd.Series*)

[Documentación de pd.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series)

Una pd.Series es una estructura de datos unidimensional que puede almacenar cualquier tipo de datos, como números enteros, números de punto flotante, cadenas, objetos de Python, entre otros. La pd.Series se puede ver como una columna en una hoja de cálculo o una columna en una tabla de base de datos.

#### Algunas características:
1. Índice: Cada elemento en una Series está asociado a un índice. El índice puede ser automático (números enteros por defecto) o personalizado, lo que permite un acceso más fácil y eficiente a los datos.

1. Datos: La Series almacena los datos como un arreglo unidimensional. Puedes acceder a estos datos mediante el índice.

1. Etiquetas: Puedes asignar etiquetas a la Series para identificar más fácilmente sus componentes. Esto facilita el acceso y manipulación de datos.

### Crear una pd.Series

In [None]:
# para crear una serie se requiere de un conjunto de datos unidimensionales

data = [1,2,3,4,5,6]

serie = pd.Series(data)

print(serie)
print('Es una pd.Series -->', type(serie))
# como se puede ver, la serie posee dos columnas. La columna ubicada a la izquierda representa el index de la pd.Series; mientras que la restante, los valores de la serie

In [None]:
# al crear la pd.Series se puede, además, definir el índice (index) de la misma

data = range(10)
idx = [f'idx_{i}' for i in range(10)]

print(pd.Series(data, index=idx))

In [None]:
# las pd.Series también pueden ser creadas a partir de un dict

d = {'id0': 0, 'id1': 1, 'id2': 2}

print(pd.Series(d))

### Características de la pd.Series

In [None]:
# es posible obtener cierta información de la serie bajo análisis

serie_1 = pd.Series([1,2,3,4,5,6])
serie_2 = pd.Series([0.5, 1.0, 1.5, 2.0, 2.5])
serie_3 = pd.Series(['a', 'b', 'c', 'd'])

# tamaño de la misma
print('La serie_1 posee {} elementos, y sus datos son del tipo {}.'.format(serie_1.shape[0], serie_1.dtypes))
print('La serie_2 posee {} elementos, y sus datos son del tipo {}.'.format(serie_2.shape[0], serie_2.dtypes))
print('La serie_3 posee {} elementos, y sus datos son del tipo {}.'.format(serie_3.shape[0], serie_3.dtypes))

# algo equivalente se puede obtener usando el método 'size'
print('Tamanño serie 1: {}.'.format(serie_1.size))



In [None]:
# es posible analizar si la serie posee valores nulos

serie_1 = pd.Series([1,2,3,4,5,6])
serie_2 = pd.Series([1,2,None,4,5,None])

# alternativa 1: revisar en forma general si dicha serie posee valores nulos. En caso de que exista al menos uno, devuelve True.
print('La serie 1 posee nulos?', serie_1.hasnans)
print('La serie 2 posee nulos?', serie_2.hasnans)

# alternativa 2: revisar elemento a elemento y devolver un valor True/False en cada posición de la serie

print('Elementos nulos en la serie 1', serie_1.isna(), sep='\n')
print('Elementos nulos en la serie 2', serie_2.isna(), sep='\n')

In [None]:
# cantidad de elementos únicos en la series y cantidad de cada tipo de elemento
data = ['auto'] * 10 + ['moto'] * 12 + ['camion'] * 3
serie = pd.Series(data)

print(f'La serie posee {serie.nunique()} elementos únicos.', f'Los valores únicos son {serie.unique()}.', f'Y se distribuyen de la siguiente forma:', serie.value_counts(normalize=True), sep='\n')

In [None]:
# para visualizar la serie en forma parcial, se usa el método 'head' o 'tail'

print(serie.head(5))
print(serie.tail(2))

***
### Operaciones con pd.Series

1. Operaciones matemáticas (vectoriales)
1. Operaciones estadísticas
1. Comparaciones lógicas
1. Filtrado y Slicing
1. Interacción con Numpy
1. Concatenar
1. Relleno de valores faltantes
1. Agrupación y operaciones agrupadas


#### Operaciones matemáticas

In [None]:
##### Función Auxiliar para generar data #####
import numpy as np

rng = np.random.default_rng(9999)

data_1 = rng.normal(4, 0.5, size=100)
data_2 = rng.exponential(2.5, size=100)
data_3 = rng.uniform(0, 50, size=100).astype(int)
data_4 = rng.uniform(25, 60, size=100).astype(int)

serie_1 = pd.Series(data_1)
serie_2 = pd.Series(data_2)
serie_3 = pd.Series(data_3)
serie_4 = pd.Series(data_4)

In [None]:
# suma, resta, multiplicación y división

print('Suma')
suma = serie_1 + serie_2
print(suma.head())

print('Resta')
resta = serie_1 - serie_2
print(resta.head())

print('Multiplicación')
mult = serie_1 * serie_2
print(mult.head())

print('División')
div = serie_1 / serie_2
print(div.head())

print('Suma de un escalar')
suma_esc = serie_3 + 10
print(suma_esc.head())

print('Producto de un escalar')
mult_esc = serie_3 * 1.75
print(mult_esc.head())

print('Potencia')
pot = serie_2.pow(2) # equivalente a serie_2**2

# todas estas operaciones tiene un método de pandas asociado, pero la sintaxis es más compleja y se obtiene el mismo resultado en el mismo tiempo de cómputo

#### Operaciones estadísticas

In [None]:
# promedio, desvío y percentiles

promedio = serie_1.mean()
desvio = serie_1.std()
perc = serie_1.quantile([0.25, 0.5, 0.75])

print(f'Promedio: {round(promedio, 4)}', f'Desvío: {round(desvio, 4)}', 'Percentiles:', perc, sep='\n')

In [None]:
# máximo, mínimo, moda, n-mayores y n-menores

maximo = serie_4.max()
minimo = serie_4.min()
moda = serie_4.mode()
n_mayores = serie_4.nlargest(5)
n_menores = serie_4.nsmallest(5)

print(f'Máximo: {maximo}', f'Mínimo: {minimo}', f'Moda: {moda}', 'n_mayores:', n_mayores, 'n_menores', n_menores, sep='\n')

In [None]:
# cumsum, pct_change

print('Suma acumulada')
suma_acumulada = serie_3.cumsum()
display(pd.concat([serie_3, suma_acumulada],axis=1).rename(columns={0:'Original', 1:'Suma Acumulada'}).head(10))

print('Porcentaje de cambio')
pct = serie_4.pct_change() * 100
display(pd.concat([serie_4, pct],axis=1).rename(columns={0:'Original', 1:'% Cambio'}).head(10))

#### Operaciones lógicas

In [None]:
# los elementos de una serie puieden ser comparados contra un valor específico o contra otra serie
# es posible utilizar los signos: ">", "<", ">=", "<=", "==", "!="
# o los métodos: gt, lt, ge, le, eq, ne 

serie = pd.Series([10, 12, 44, 60, 19, 25, 20])
serie_comp = pd.Series([14, 10, 44, 55, 20, 25, 27])
k = 20

# gt o ge
print(serie > k)
print(serie.ge(k))
print(serie.ge(serie_comp))

# lt o le
print(serie < k)
print(serie.le(k))
print(serie.le(serie_comp))

# eq o nn
print(serie == k)
print(serie.ne(k))
print(serie.eq(serie_comp))


In [None]:
# posible concatenar múltiples operaciones lógicas

(serie > 0.75 * k) & (serie < 1.25 * k)

In [None]:
# operador between

serie.between(k, 2*k)

#### Filtrado y Slicing

Todas las operaciones lógicas pueden ser usadas para filtrar o hacer slicing en las pd.Series.

In [None]:
# las Series nos permiten filtrar elementos en base a cierta condiciones o condiciones

cond_1 = serie_3 > 25
serie_filtrada = serie_3[cond_1]

print(f'Serie original: {serie_3.size}. Serie filtrada: {serie_filtrada.size}')

cond_2 = serie_3 <= 45
serie_filtrada_2 = serie_3[cond_1 & cond_2] # & --> 'Y'

print(f'Serie original: {serie_3.size}. Serie filtrada: {serie_filtrada_2.size}')

cond_3 = (serie_3 < 5) | (serie_3 > 45) # | --> 'O'
serie_filtrada_3 = serie_3[cond_3]

print(f'Serie original: {serie_3.size}. Serie filtrada: {serie_filtrada_3.size}')

### Todas estas operaciones también se pueden realizar usando el método 'loc'. Este método es mayormente usado en los pd.DataFrame's

print('Ejemplo usando "loc":')
cond_1 = serie_3 > 25
serie_filtrada = serie_3.loc[cond_1]
print(f'Serie original: {serie_3.size}. Serie filtrada: {serie_filtrada.size}')

In [None]:
# otra alternativa es filtrar por el valor del índice (o index). Para ello se usa el método "iloc"

idx = 26

print(f'Me devuelve el elemento ubicado en la posición {idx}:', serie_3.iloc[26])

print(f'Me devuelve los elementos ubicados luego de la posición {idx}:', serie_3.iloc[26:])

print(f'Me devuelve los elementos ubicados antes de la posición {idx}:', serie_3.iloc[:26])

In [None]:
# otra forma de filtrar es usando el método "isin()"

cond_isin = serie_3.isin([4, 12, 16, 20, 43])
serie_3[cond_isin]

#### Interacción con Numpy

In [None]:
import numpy as np

In [None]:
# las pd.Series pueden ser trasnformadas en un np.array

serie = pd.Series([1, 2, 3, 4, 5])
print(serie)
print(type(serie))

array = serie.values
print(array)
print(type(array))

In [None]:
# las operaciones y funciones de Numpy pueden ser aplicadas directamente a las pd.Series

serie = pd.Series(np.arange(1, 25, 1))
print(serie.head())

# np.where()
print('\nnp.where (1)', np.where(serie > 15, 100, 0), sep = '\n')

print('\nnp.where (2)', serie[np.where(serie%2 == 0)[0]], sep = '\n')

# np.power()
print('\nnp.power', np.power(serie, 3), sep='\n')

### todas las unfuncs de NumPy pueden aplicadas a las pd.Series

#### Concatenar pd.Series

* Existe la capacidad de *unir* dos o más ```pd.Series``` por medio de la función ```pd.concat```
* La operación de *unir* dichas series se conoce como **concatenar**
* Puede ser realizada de dos formas:

##### Verticalmente: 

```
Serie 1
```
| Índice | Serie 1 | 
|--------|---------|
| a      | 1       |
| b      | 2       |
| c      | 3       |
```
Serie 2
```
| Índice | Serie 2 |
|--------|---------|
| d      | 4       |
| e      | 5       |

```
Serie Concatenada
```
| Índice | Serie Concatenada |
|--------|-------------------|
| a      | 1                 |
| b      | 2                 |
| c      | 3                 |
| d      | 4                 |
| e      | 5                 |


In [None]:
serie_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
serie_2 = pd.Series([4, 5], index=['d', 'e'])

pd.concat([serie_1, serie_2], axis = 0) # axis = 0 representa 'vertical' o 'columna'

##### Horizontalmente: 

```
Serie 1
```
| Índice | Serie 1 | 
|--------|---------|
| a      | 1       |
| b      | 2       |
| c      | 3       |
```
Serie 2
```
| Índice | Serie 2 |
|--------|---------|
| a      | 4       |
| b      | 5       |

```
Serie Concatenada
```
| Índice | Serie 1 | Serie 2 |
|--------|---------|---------|
| a      | 1       | 4       |  
| b      | 2       | 5       |
| c      | 3       | NaN    |


In [None]:
# la unión de las filas se realiza a nivel de index, es decir, se concatenan aquellos comn el mismo index
serie_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
serie_2 = pd.Series([4, 5], index=['a', 'b'])

pd.concat([serie_1, serie_2], axis = 1) # axis = 0 representa 'horizontal' o 'fila'

In [None]:
# si los indexes están repetidos en la misma serie, se produce un error!
serie_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
serie_2 = pd.Series([4, 5], index=['a', 'a'])

try:
    pd.concat([serie_1, serie_2], axis = 1) # axis = 0 representa 'horizontal' o 'fila'
except ValueError:
    print('Se produjo un error!')

### Llenado de valores faltantes

Puede ocurrir que la fuente de datos a usar posean valores nulos (en otras palabras, posiciones en las cuales la serie no posee valor alguno). Para sobrepasar ese problema, se poseen diversas alternativas:
* filtrar valores nulos
* completar/computar dichas posiciones con determinados valor
    * con valor arbitrario (```fillna(n)```)
    * con valor estadístico de la serie (```fillna(n_stat)```)
    * con valor posterior/anterior (```ffill()```, ```bfill()```)

In [None]:
##### Función Auxiliar para generar data #####
import numpy as np

rng = np.random.default_rng(9999)

data = rng.choice(a=[np.nan,0, 10, 20, 30, 40, 50], p=[1/7]*7, size=100)

serie = pd.Series(data).astype('Int32')

print('Distribución de valores en la serie')
serie.value_counts(dropna=False, normalize=True) * 100


In [None]:
# con valor arbitrario

k = 32

serie_fillna_k = serie.fillna(k)

serie_fillna_k.value_counts(dropna=False, normalize=True) * 100


In [None]:
# con valor estadístico

media = int(serie.mean())

serie_fillna_mean = serie.fillna(media)

serie_fillna_mean.value_counts(dropna=False, normalize=True) * 100

In [None]:
# con valor psoterior o anterior

serie_ffill = serie.ffill()
print('ffill', serie_ffill.value_counts(dropna=False, normalize=True) * 100, sep='\n')

serie_bfill = serie.bfill()
print('\nbfill', serie_bfill.value_counts(dropna=False, normalize=True) * 100, sep='\n')

In [None]:
1. Relleno de valores faltantes
1. Agrupación y operaciones agrupadas