# Pandas

* [Repositorio de Pandas](https://github.com/pandas-dev/pandas)
* [Documentación Oficial](https://pandas.pydata.org/)

***

**Pandas** es una herramienta/*framework* esencial para trabajar con datos tabulares y series temporales. Su utilidad radica en su capacidad para manipular y analizar datos de manera eficiente, facilitando las tareas comunes en el análisis de datos, como la limpieza, la transformación y la visualización.

### Principales estructuras de datos proporcionadas por Pandas

* **Series**: Una estructura unidimensional que puede albergar cualquier tipo de datos y está etiquetada, facilitando el acceso a los datos mediante etiquetas.

* **DataFrame**: Una estructura de datos bidimensional similar a una hoja de cálculo con etiquetas de fila y columna, que permite almacenar y manipular datos de manera eficiente.

### Beneficios de usar Pandas
* Manipulación de datos eficiente: Pandas proporciona métodos y funciones optimizados para la manipulación de datos, como la limpieza, la filtración, la agregación y la transformación.

* Manejo de datos faltantes: Pandas facilita el manejo de valores nulos o faltantes en los conjuntos de datos, permitiendo su identificación y tratamiento de manera sencilla.

* Integración con otras bibliotecas: Se integra fácilmente con otras bibliotecas populares de Python, como NumPy, Matplotlib y scikit-learn, proporcionando un entorno completo para el análisis de datos.

* Operaciones de series temporales: Ofrece funciones avanzadas para trabajar con datos de series temporales, como la resampling y la interpolación.

* Entrada y salida de datos: Permite la lectura y escritura de datos en varios formatos, incluyendo CSV, Excel, SQL, y más, facilitando la interoperabilidad con otras herramientas y sistemas.

In [1]:
# por convensión, se importa bajo el siguiente nombre

import pandas as pd

print(pd.__version__)

1.5.3


***
## Series (*pd.Series*)

[Documentación de pd.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series)

Una pd.Series es una estructura de datos unidimensional que puede almacenar cualquier tipo de datos, como números enteros, números de punto flotante, cadenas, objetos de Python, entre otros. La pd.Series se puede ver como una columna en una hoja de cálculo o una columna en una tabla de base de datos.

#### Algunas características:
1. Índice: Cada elemento en una Series está asociado a un índice. El índice puede ser automático (números enteros por defecto) o personalizado, lo que permite un acceso más fácil y eficiente a los datos.

1. Datos: La Series almacena los datos como un arreglo unidimensional. Puedes acceder a estos datos mediante el índice.

1. Etiquetas: Puedes asignar etiquetas a la Series para identificar más fácilmente sus componentes. Esto facilita el acceso y manipulación de datos.

### Crear una pd.Series

In [14]:
# para crear una serie se requiere de un conjunto de datos unidimensionales

data = [1,2,3,4,5,6]

serie = pd.Series(data)

print(serie)
print('Es una pd.Series -->', type(serie))
# como se puede ver, la serie posee dos columnas. La columna ubicada a la izquierda representa el index de la pd.Series; mientras que la restante, los valores de la serie

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
Es una pd.Series --> <class 'pandas.core.series.Series'>


In [6]:
# al crear la pd.Series se puede, además, definir el índice (index) de la misma

data = range(10)
idx = [f'idx_{i}' for i in range(10)]

print(pd.Series(data, index=idx))

idx_0    0
idx_1    1
idx_2    2
idx_3    3
idx_4    4
idx_5    5
idx_6    6
idx_7    7
idx_8    8
idx_9    9
dtype: int64

In [8]:
# las pd.Series también pueden ser creadas a partir de un dict

d = {'id0': 0, 'id1': 1, 'id2': 2}

print(pd.Series(d))

id0    0
id1    1
id2    2
dtype: int64


### Características de la pd.Series

In [16]:
# es posible obtener cierta información de la serie bajo análisis

serie_1 = pd.Series([1,2,3,4,5,6])
serie_2 = pd.Series([0.5, 1.0, 1.5, 2.0, 2.5])
serie_3 = pd.Series(['a', 'b', 'c', 'd'])

# tamaño de la misma
print('La serie_1 posee {} elementos, y sus datos son del tipo {}.'.format(serie_1.shape[0], serie_1.dtypes))
print('La serie_2 posee {} elementos, y sus datos son del tipo {}.'.format(serie_2.shape[0], serie_2.dtypes))
print('La serie_3 posee {} elementos, y sus datos son del tipo {}.'.format(serie_3.shape[0], serie_3.dtypes))

# algo equivalente se puede obtener usando el método 'size'
print('Tamanño serie 1: {}.'.format(serie_1.size))



La serie_1 posee 6 elementos, y sus datos son del tipo int64.
La serie_2 posee 5 elementos, y sus datos son del tipo float64.
La serie_3 posee 4 elementos, y sus datos son del tipo object.
Tamanño serie 1: 6


In [None]:
# es posible analizar si la serie posee valores nulos

serie_1 = pd.Series([1,2,3,4,5,6])
serie_2 = pd.Series([1,2,None,4,5,None])

# alternativa 1: revisar en forma general si dicha serie posee valores nulos. En caso de que exista al menos uno, devuelve True.
print('La serie 1 posee nulos?', serie_1.hasnans)
print('La serie 2 posee nulos?', serie_2.hasnans)

# alternativa 2: revisar elemento a elemento y devolver un valor True/False en cada posición de la serie

print('Elementos nulos en la serie 1', serie_1.isna(), sep='\n')
print('Elementos nulos en la serie 2', serie_2.isna(), sep='\n')

In [None]:
# cantidad de elementos únicos en la series y cantidad de cada tipo de elemento
data = ['auto'] * 10 + ['moto'] * 12 + ['camion'] * 3
serie = pd.Series(data)

print(f'La serie posee {serie.nunique()} elementos únicos.', f'Los valores únicos son {serie.unique()}.', f'Y se distribuyen de la siguiente forma:', serie.value_counts(normalize=True), sep='\n')

In [None]:
# para visualizar la serie en forma parcial, se usa el método 'head' o 'tail'

print(serie.head(5))
print(serie.tail(2))

***
### Operaciones con pd.Series

1. Operaciones matemáticas (vectoriales)
1. Operaciones estadísticas
1. Filtrado y Slicing
1. Comparacionbes lógicas
1. Interacción con Numpy
1. Concatenar
1. Relleno de valores faltantes
1. Agrupación y operaciones agrupadas


#### Operaciones matemáticas

In [34]:
##### Función Auxiliar para generar data #####
import numpy as np

rng = np.random.default_rng(9999)

data_1 = rng.normal(4, 0.5, size=100)
data_2 = rng.exponential(2.5, size=100)
data_3 = rng.uniform(0, 50, size=100).astype(int)
data_4 = rng.uniform(25, 60, size=100).astype(int)

serie_1 = pd.Series(data_1)
serie_2 = pd.Series(data_2)
serie_3 = pd.Series(data_3)
serie_4 = pd.Series(data_4)

In [None]:
# suma, resta, multiplicación y división

print('Suma')
suma = serie_1 + serie_2
print(suma.head())

print('Resta')
resta = serie_1 - serie_2
print(resta.head())

print('Multiplicación')
mult = serie_1 * serie_2
print(mult.head())

print('División')
div = serie_1 / serie_2
print(div.head())

print('Suma de un escalar')
suma_esc = serie_3 + 10
print(suma_esc.head())

print('Producto de un escalar')
mult_esc = serie_3 * 1.75
print(mult_esc.head())

print('Potencia')
pot = serie_2.pow(2) # equivalente a serie_2**2

# todas estas operaciones tiene un método de pandas asociado, pero la sintaxis es más compleja y se obtiene el mismo resultado en el mismo tiempo de cómputo

#### Operaciones estadísticas

In [60]:
# promedio, desvío y percentiles

promedio = serie_1.mean()
desvio = serie_1.std()
perc = serie_1.quantile([0.25, 0.5, 0.75])

print(f'Promedio: {round(promedio, 4)}', f'Desvío: {round(desvio, 4)}', 'Percentiles:', perc, sep='\n')

Promedio: 3.9459
Desvío: 0.521
Percentiles:
0.25    3.598423
0.50    3.923102
0.75    4.258447
dtype: float64


In [62]:
# máximo, mínimo, moda, n-mayores y n-menores

maximo = serie_4.max()
minimo = serie_4.min()
moda = serie_4.mode()
n_mayores = serie_4.nlargest(5)
n_menores = serie_4.nsmallest(5)

print(f'Máximo: {maximo}', f'Mínimo: {minimo}', f'Moda: {moda}', 'n_mayores:', n_mayores, 'n_menores', n_menores, sep='\n')

Máximo: 59
Mínimo: 25
Moda: 0    38
dtype: int32
n_mayores:
4     59
53    58
67    58
20    55
61    55
dtype: int32
n_menores
1     25
6     25
89    25
63    26
15    27
dtype: int32


In [None]:
# cumsum, pct_change

print('Suma acumulada')
suma_acumulada = serie_3.cumsum()
display(pd.concat([serie_3, suma_acumulada],axis=1).rename(columns={0:'Original', 1:'Suma Acumulada'}).head(10))

print('Porcentaje de cambio')
pct = serie_4.pct_change() * 100
display(pd.concat([serie_4, pct],axis=1).rename(columns={0:'Original', 1:'% Cambio'}).head(10))
