# Pandas

* [Repositorio de Pandas](https://github.com/pandas-dev/pandas)
* [Documentación Oficial](https://pandas.pydata.org/)

***
## DataFrame (pd.DataFrame)

[Documentación de pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame)

**Pandas DataFrame** es una **estructura de datos bidimensional y etiquetada**, diseñada para manejar y analizar datos tabulares en el entorno de programación Python. Su desarrollo se basa en la biblioteca NumPy y proporciona funcionalidades adicionales para facilitar la manipulación y análisis de datos.

#### Características Principales:

* **Bidimensionalidad**: Un DataFrame consiste en filas y columnas, organizando los datos en una tabla rectangular. Cada columna puede contener diferentes tipos de datos, permitiendo la representación de información heterogénea.

* **Etiquetado**: Tanto las filas como las columnas están etiquetadas, lo que facilita el acceso y la manipulación de datos. Los índices y nombres de columnas pueden ser personalizados para reflejar la naturaleza específica de los datos.

* **Integración con NumPy**: Se basa en la eficiente biblioteca NumPy, permitiendo operaciones vectorizadas y aprovechando las ventajas de la computación numérica en Python.

#### Ventajas de Pandas DataFrame:

* **Facilidad de Uso**: Proporciona una interfaz intuitiva y fácil de usar para realizar operaciones complejas en datos tabulares.

* **Manejo de Datos Faltantes**: Ofrece herramientas para manejar valores nulos o faltantes de manera eficiente, evitando la pérdida de información durante el análisis.

* **Operaciones de Series Temporales**: Incorpora funcionalidades avanzadas para el trabajo con datos de series temporales, facilitando el análisis de tendencias a lo largo del tiempo.

* **Entrada y Salida de Datos**: Permite la lectura y escritura de datos en varios formatos, como CSV, Excel, SQL, y más, favoreciendo la interoperabilidad con otras herramientas y sistemas.

* **Operaciones de Agrupación y Agregación**: Facilita la agrupación de datos basada en criterios específicos y la aplicación de funciones de agregación para resumir la información.

#### Funcionalidades Clave:

* **Indexación y Selección Eficiente**: Permite el acceso y manipulación de datos utilizando etiquetas de filas y columnas, así como índices booleanos.

* **Operaciones Estadísticas y Matemáticas**: Proporciona métodos integrados para realizar cálculos estadísticos, operaciones matemáticas y transformaciones en los datos.

* **Visualización Integrada**: Se integra con bibliotecas de visualización como Matplotlib y Seaborn, facilitando la creación de gráficos y visualizaciones de datos.

* **Manipulación de Datos Complejos**: Ofrece funcionalidades para la limpieza, filtración, combinación y transformación de datos complejos, lo que facilita la preparación de datos para el análisis.

**Agenda**

* Creación de pd.DataFrame
* Analogía/relación entre pd.DataFrame y pd.Series
* Características
* Operaciones vectoriales
* Operaciones matemáticas
* Operaciones estadísticas
* Operaciones lógicas
* Filtrado y slicing
* Interacción con NumPy
* Concatenar y Merges
* Relleno de valores faltantes
* Agrupación y operaciones agrupadas
* Leer y guardar pd.DataFrame desde csv, parquet y url.

***
### Crear un pd.DataFrame

Existen diversas formas de generar un pd.DataFrame a partir de las siguientes estructuras:
1. *dict*
1. *pd.Series* (o *list*)
1. *np.ndarray*

En todas las alternativas se debe usar el constructor de *Pandas*: ```pd.DataFrame(...)```

*Existen otras maneras adicionales de hacerlo, pero para el alcance de este curso las que se presentan anteriormente son suficientes.*

In [None]:
# importar la librería
import pandas as pd

In [None]:
# 1. dict

# definir un dict
d = {'columna_1': [0,1,2,3,4,5,6,7,8,9], 'columna_2': [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]}

# por convensión se lo llama "df"
df = pd.DataFrame(data = d)

# "display" permite ver el datafgrame (es otra alternativa)
display(df)

In [None]:
print('df es un pd.DataFrame:', type(df))

In [None]:
# 2. pd.Series o lists

serie_1 = pd.Series([i**2 for i in range(10)], name='valores_cuadrados')
serie_2 = pd.Series([i + 5 for i in range(10)], name= 'valores_mas_5')

# usar la función pd.concat (vista en el notebook anterior)
df = pd.concat([serie_1, serie_2],axis=1)

display(df.head())

In [None]:
lista_1 = [i**2 for i in range(10)]
lista_2 = [i + 5 for i in range(10)]

col_names = ['valores_cuadrados', 'valores_mas_5']

# usar la función pd.concat (vista en el notebook anterior)
df = pd.concat([serie_1, serie_2],axis=1)

# cambiar los nombres ya que las listas NO tienen nombres
df.columns = col_names

display(df.head())


In [None]:
# 3. np.ndarray

import numpy as np

# crea el array y camniar el shape a una sola columna
array_1d = np.array([range(0, 20, 2)]).reshape((-1,))

df = pd.DataFrame(array_1d, columns=['columna 1'])

display(df.head())


In [None]:
array_nd = np.random.random(size=(20, 3))

df = pd.DataFrame(array_nd, columns=[f'columna {i}' for i in range(array_nd.shape[1])])

display(df.head())

### Analogía/relación entre pd.DataFrame y pd.Series

Es importante resaltar que existe una clara relación entre ```pd.DataFrame``` y ```pd.Series```: un ```pd.DataFrame``` es **un conjunto de** ```pd.Series``` **concatenadas de forma horizontal**.

Mediante el uso de *slcing* (visto en el notebook previo y que posteriormente será ampliado en este notebook) se puede demostrar esta afirmación:


In [None]:
d = {'columna_1': [0,1,2,3,4,5,6,7,8,9], 'columna_2': [10,11,12,13,14,15,16,17,18,19]}

df = pd.DataFrame(data = d)

col_1 = df['columna_1']
col_2 = df['columna_2']

In [None]:
print(f'- df es un {type(df)}', f'col_1 es una {type(col_1)}', f'col_2 es una {type(col_2)}', sep='\n- ')

### Slicing

Una funcionalidad muy importante de los pd.DataFrame es poder 'aislar' las columnas que lo componen y realizar cálculos con ellas sin afectar el resto de las columnas.

Para ello existen tres formas diferentes.

In [None]:
d = {'columna_1': range(20), 'columna_2': range(20)}

df = pd.DataFrame(data = d)

In [None]:
# en estos 3 casos se extrae la columna seleccionada como una pd.Series

# alternativa 1
display(df['columna_1'].head())

# alternativa 2
display(df.loc[:, 'columna_1'].head())

# alternativa 3
display(df.iloc[:, 0].head())

In [None]:
# sin embargo, si se busca extraer dicha columna pero con el tipo de pd.DataFrame se recurre a la siguiente sintaxis

# alternativa 1
display(df[['columna_1']].head())

# alternativa 2
display(df.loc[:, ['columna_1']].head())

# alternativa 3
display(df.iloc[:,[0]].head())


En resumen,
```python

df['columna_1'] ---> extrae pd.Series

df[['columna_1']] ---> extrae pd.DataFrame

```

**Importante: Esto implica que la gran mayoría de las operaciones que funcionan en las pd.Series con aplicables a los pd.DataFrame!!!**

### Características de un pd.DataFrame

In [None]:
array_int = np.random.choice(a=[10, 20, 30, 40, 50], size=(40, 6))
df_int = pd.DataFrame(array_int, columns=[f'columna {i}' for i in range(array_int.shape[1])], dtype=int)

array_float = np.random.random(size=(50, 5))
df_float = pd.DataFrame(array_float, columns=[f'columna {i}' for i in range(array_float.shape[1])],dtype=float)

array_str = np.random.choice(a= ['a', 'b', 'c'], size=(35, 6))
df_str = pd.DataFrame(array_str, columns=[f'columna {i}' for i in range(array_str.shape[1])], dtype=str)

In [None]:
for n, df in enumerate([df_int, df_float, df_str]):
    print('El df #{} posee {} registros y {} columnas.\nSus datos son del tipo\n{}\n'.format(n+1, df.shape[0], df.shape[1], df.dtypes))

In [None]:
# es posible analizar si el df posee valores nulos y ver en qué columnas se encuentran

df_nans = pd.DataFrame(np.random.choice(a=[np.nan, 1, 2, 3 ,4, 5], size=(100, 5)), columns=[f'columna_{i}' for i in range(5)])


In [None]:
# con el método "isna()" se puede visualizar, mediante un dataframe de valores booleanos, si el valor de cierta posición es nulo
df_nans.isna().head()

In [None]:
# se pueden sumar dichas columnas de booleanos y obtener la cantidad de nulos en cada columna
df_nans.isna().sum()

In [None]:
# y volverlas a sumar para saber la cantidad total de nulos en el dataframe
df_nans.isna().sum().sum()

In [None]:
# se puede ver el nombre de las columnas
df_nans.columns.tolist()

In [None]:
# cantidad de elementos únicos en cada columna y cantidad de cada tipo de elemento
for col in df_str.columns:
    print('\n--', col)
    print(df_str[col].value_counts())

In [None]:
# para visualizar el df en forma parcial, se usa el método 'head' o 'tail'

display(df.head(5))
display(df.tail(2))

### Operaciones vectorizadas

La vectorización es un concepto clave en el ámbito de la ciencia de datos y la programación computacional que sirve como un elemento fundamental para el manejo eficiente de datos en bibliotecas como Pandas. La idea se refiere fundamentalmente a la capacidad de realizar operaciones en conjuntos completos de datos, en lugar de iterar a través de cada elemento de manera individual.

Este enfoque optimizado proporciona un rendimiento más eficiente al procesar grandes conjuntos de datos, ya que aprovecha las operaciones vectoriales implementadas en bibliotecas como NumPy y Pandas. En lugar de ejecutar operaciones en cada elemento de forma secuencial, la vectorización permite realizar cálculos en bloques de datos de manera simultánea, mejorando significativamente la velocidad de ejecución.

En el contexto de Pandas, la vectorización permite realizar operaciones aritméticas, de comparación y aplicar funciones universales (ufuncs) a nivel de DataFrame o Serie de manera eficiente. Esta capacidad es crucial para el análisis y la manipulación eficientes de grandes conjuntos de datos, ya que evita la necesidad de bucles explícitos y facilita la escritura de código más conciso y legible. En resumen, la vectorización es una herramienta esencial que contribuye a la eficiencia y capacidad de procesamiento en la manipulación de datos en entornos de ciencia de datos y programación computacional.

Ver:
* [What Is A Vectorized Operation In Pandas](https://vegibit.com/what-is-a-vectorized-operation-in-pandas/#the-concept-of-vectorization-a-general-overview)

In [None]:
import pandas as pd
import numpy as np
import time

In [None]:
data = np.random.randint(1, 100, size=100_000)
df = pd.DataFrame(data)

In [None]:
start_time = time.time()
df_loop = df.copy()

for row in range(df.shape[0]):
    df_loop.iloc[row] = df_loop.iloc[row]**2

print("Proceso por medio de un loop: ", time.time() - start_time, "segundos") # con 100_000 datos tarda aprox entre 23 y 30 segundos...

In [None]:
start_time = time.time()

df_vect = df.copy()
df_vect = df_vect**2

print("Proceso por medio de un loop: ", time.time() - start_time, "segundos") # con 100_000 datos tarda aprox 0.0009 segundos...

# el loop tardó unas 27.000 veces más que la opoeración vectorial!!!!!

In [None]:
pd.concat([df, df_loop, df_vect], axis = 1).sample(10) # se obtienen los mismos resultados en una mínima fracción de tiempo!

***
**Dado que se demostró el potencial de la vectorización, todas las operaciones que se realizarán en los pd.DataFrame's se realizarán de forma vectorial. Por suerte, la librería Pandas y NumPy proveen gran cantidad de funciones y métodos que permiten tomar esa ventaja y aplicarla sin ninguna clase de complicación.**
***

### Operaciones matemáticas

In [None]:
df_1 = pd.DataFrame(np.random.randint(low=0, high=100, size=(100, 5)), columns=[f'columna_{i}' for i in range(5)])
df_2 = pd.DataFrame(np.random.randint(low=20, high=150, size=(100, 2)), columns=[f'columna_{i}' for i in range(2)])

In [None]:
# suma, resta, multiplicación y división

print('Suma')
suma = df_1['columna_0'] + df_1['columna_1']
print(suma.head())

print('Resta')
resta = df_1['columna_2'] - df_1['columna_3']
print(resta.head())

print('Multiplicación')
mult = df_1['columna_0'] * df_2['columna_0']
print(mult.head())

print('División')
div = df_1['columna_4'] / df_1['columna_2']
print(div.head())

print('Suma de un escalar')
suma_esc = df_2['columna_1'] + 10
print(suma_esc.head())

print('Producto de un escalar')
mult_esc = df_1['columna_0'] * 1.75
print(mult_esc.head())

print('Potencia')
pot = df_1['columna_3'].pow(2) # equivalente a serie_2**2

# todas estas operaciones tiene un método de pandas asociado, pero la sintaxis es más compleja y se obtiene el mismo resultado en el mismo tiempo de cómputo
# a diferencia de las pd.Series, nos permite además aplicar la operación en cuestión a más de una columna
df_1[['columna_0', 'columna_1']] + df_2[['columna_0', 'columna_1']]

In [None]:
# a diferencia de las pd.Series, nos permite además aplicar la operación en cuestión a más de una columna
suma = df_1[['columna_0', 'columna_1']] + df_2[['columna_0', 'columna_1']]
display(suma.head())

### Operaciones estadísticas

In [None]:
# Pandas posee un método que permite hacer un primer abordaje descriptivo muy rápido

df_1.describe()

In [None]:
# promedio, desvío y percentiles

promedio = df_1.mean()
desvio = df_1.std()
perc = df_1.quantile([0.25, 0.5, 0.75])

print(f'Promedio:\n{round(promedio, 4)}', f'Desvío:\n{round(desvio, 4)}', 'Percentiles:', perc, sep='\n')

In [None]:
# también se pueden calcular para una columna puntual

promedio = df_1['columna_4'].mean()
desvio = df_1['columna_4'].std()
perc = df_1['columna_4'].quantile([0.25, 0.5, 0.75])

print(f'Promedio:\n{round(promedio, 4)}', f'Desvío:\n{round(desvio, 4)}', 'Percentiles:', perc, sep='\n')

In [None]:
# máximo, mínimo, mediana

maximo = df_2.max()
minimo = df_2.min()
med  = df_2.median()

print(f'Máximo:\n{maximo}', f'Mínimo:\n{minimo}', f'Moda:\n{med}', sep='\n')

In [None]:
# máximo, mínimo, moda, n-mayores y n-menores

maximo = df_1['columna_4'].max()
minimo = df_1['columna_4'].min()
med = df_1['columna_4'].median()
n_mayores = df_1['columna_4'].nlargest(5)
n_menores = df_1['columna_4'].nsmallest(5)

print(f'Máximo: {maximo}', f'Mínimo: {minimo}', f'Moda: {med}', 'n_mayores:', n_mayores, 'n_menores', n_menores, sep='\n')

### Operaciones lógicas

In [None]:
df_1 = pd.DataFrame(np.random.randint(low=0, high=100, size=(100, 5)), columns=[f'columna_{i}' for i in range(5)])
df_2 = pd.DataFrame(np.random.randint(low=20, high=150, size=(100, 2)), columns=[f'columna_{i}' for i in range(2)])
k = 20

# gt o ge
print(df_1['columna_4'] > k)
print(df_1['columna_4'].ge(k))
print(df_1['columna_0'].ge(df_1['columna_2']))

# lt o le
print(df_2['columna_0'] < k)
print(df_2['columna_0'].le(k))
print(df_2['columna_1'].le(df_1['columna_3']))

# eq o ne
print(df_1['columna_4'] == k)
print(df_1['columna_2'].ne(k))
print(df_1['columna_3'].eq(df_1['columna_0']))

In [None]:
# nos permite además aplicar la operación en cuestión a más de una columna

display((df_1[['columna_2', 'columna_4']] > k).head())

In [None]:
# permite múltiples condiciones
print((df_2['columna_0'] > 0.75 * k) & (df_2['columna_0'] < 1.25 * k))

# e incluso en múltiples columnas
print((df_2['columna_0'] > 45) & (df_2['columna_1'] < 65))


### Filtrado y slicing

In [None]:
datos = {'Nombre': ['Mike', 'James', 'Tom', 'Sarah'],
         'Edad': [25, 30, 22, 35],
         'Ciudad': ['Nueva York', 'Chicago', 'Chicago', 'Nueva York']}

df = pd.DataFrame(datos)

In [None]:
## filtrar por una sola condición

# filtrar personas mayores de 25 años
resultado_filtrado = df[df['Edad'] > 25]

print("DataFrame original:")
display(df)

print("\nPersonas mayores de 25 años:")
display(resultado_filtrado)

In [None]:
## filtrar por varias condiciones

# filtrar personas mayores de 25 años y que viven en Nueva York
resultado_filtrado = df[(df['Edad'] > 25) & (df['Ciudad'] == 'Nueva York')]

print("\nPersonas mayores de 25 años que viven en Nueva York:")
display(resultado_filtrado)


In [None]:
# para aquellos que tienen edad igual a 22 y viven en Chicago, seleccionar solo la columna 'Nombre'
resultado_slicing = df.loc[(df['Edad']==22) & (df['Ciudad']=='Chicago'), ['Nombre']]

print("DataFrame original:")
print(df)

print("\nColumnas 'Nombre' y 'Ciudad' seleccionadas:")
display(resultado_slicing)


In [None]:
# seleccionar las filas 1 a 2
resultado_slicing = df.iloc[1:3]

print("\nFilas 1 a 2 seleccionadas:")
display(resultado_slicing)


### Concatenar y Merges

In [None]:
data = np.column_stack([np.random.randint(low=0, high=5, size=100),np.random.randint(low=0, high=100, size=(100, 5))])
data_ = np.column_stack([np.random.randint(low=0, high=5, size=100),np.random.uniform(low=0, high=100, size=(100, 5))])

In [None]:
df_1 = pd.DataFrame(data, columns=['columna_id']+[f'columna_{i}' for i in range(data.shape[1]-1)])
df_2 = pd.DataFrame(data_, columns=['columna_id']+[f'columna_{i}' for i in range(data_.shape[1]-1)])

#### Concatenar

* Existe la capacidad de *unir* dos o más ```pd.DataFrame``` por medio de la función ```pd.concat```
* La operación de *unir* dichas series se conoce como **concatenar**
* Puede ser realizada de dos formas:

##### Verticalmente: 

```
DataFrame 1
```
| Índice | Columna 1 |  Columna 2 |
|--------|---------|--------------|
| a      | 1       | 1            |
| b      | 2       | 2            |
| c      | 3       | 3            |
```
DataFrame 2
```
| Índice | Columna 1 |  Columna 2 |
|--------|---------|--------------|
| d      | 4       | 4            |
| e      | 5       | 5            |

```
Columna Concatenada
```
| Índice | Columna 1 Concatenada | Columna 2 Concatenada |
|--------|-------------------|--------------|
| a      | 1       | 1            |
| b      | 2       | 2            |
| c      | 3       | 3            |
| d      | 4       | 4            |
| e      | 5       | 5            |

In [None]:
df_concat = pd.concat([df_1, df_2], axis = 0) # axis = 0 representa 'vertical' o 'columna'

print('Shape df original:', df.shape)
print('Shape df concatenado:', df_concat.shape)

##### Horizontalmente: 

```
DataFrame 1
```
| Índice | Columna 1 |  Columna 2 |
|--------|---------|--------------|
| a      | 1       | 1            |
| b      | 2       | 2            |
| c      | 3       | 3            |
```
DataFrame 2
```
| Índice | Columna 3 |  Columna 4 |
|--------|---------|--------------|
| a      | 4       | 4            |
| b      | 5       | 5            |

```
Columna Concatenada
```
| Índice | Columna 1 Concatenada | Columna 2 Concatenada | Columna 3 Concatenada | Columna 4 Concatenada |
|--------|-------------------|--------------|---------|---------|
| a      | 1       | 1            | 4       | 5      |
| b      | 2       | 2            | 4       | 5      |
| c      | 3       | 3            | NaN       | Nan      |


In [None]:
df_concat = pd.concat([df_1, df_2.iloc[:, 1:]], axis = 1) # axis = 1 representa 'horizontal' o 'fila'

print('Shape df original:', df.shape)
print('Shape df concatenado:', df_concat.shape)

#### Merge

En Pandas, la función ```merge``` se utiliza para combinar dos o más DataFrames basándose en una o más columnas comunes. Esta operación es similar a los joins en SQL y proporciona una forma poderosa de combinar datos en función de claves específicas.

**Sintaxis básica**

```python

pd.merge(df_1, --> dataframe en posición izquierda
         df_2, --> dataframe en posición derecha
         how=str, --> forma en la que se realizará el merge
         on=str, --> nombre de la/s columna/s que se usará/n para hacer el merge
         ...
         # si se quiere unir por medio de columnas con nombres diferentes
         left_on=str, --> nombre de la/s columna/s que se usará/n para hacer el merge por izquierda
         right_on=str,--> nombre de la/s columna/s que se usará/n para hacer el merge por derecha
         ...
         # si los dataframes que se quieren unir tiene los mismos nombres de columnas
         suffixes=("_x", "_y") --> se le adiciona a cada columna repetida para diferenciarlas
         )

```

In [None]:
# DataFrame de base
df1 = pd.DataFrame({'clave': ['A', 'B', 'C'], 'valor1': [1, 2, 3]})
df2 = pd.DataFrame({'clave': ['B', 'C', 'D'], 'valor2': [4, 5, 6]})

##### **Inner Join**: devuelve solo las filas que tienen valores coincidentes en ambas tablas. Es la operación predeterminada.

In [None]:
# Inner Join
resultado_inner = pd.merge(df1, df2, on='clave', how='inner')
display(resultado_inner)

##### **Left Join**: devuelve todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho. Si no hay coincidencias, se llenarán con valores NaN.

In [None]:
# Left Join
resultado_left = pd.merge(df1, df2, on='clave', how='left')
display(resultado_left)

##### **Right Join**: devuelve todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo. Si no hay coincidencias, se llenarán con valores NaN.

In [None]:
# Right Join
resultado_right = pd.merge(df1, df2, on='clave', how='right')
display(resultado_right)

##### **Outer Join (Full Outer Join)**: devuelve todas las filas de ambos DataFrames, llenando con valores NaN donde no hay coincidencias.

In [None]:
# Outer Join
resultado_outer = pd.merge(df1, df2, on='clave', how='outer')
display(resultado_outer)

##### Ejemplo usando 'left_on' y 'right_on'

In [None]:
df1 = pd.DataFrame({'key_left': ['A', 'B', 'C'], 'value_left': [1, 2, 3]})
df2 = pd.DataFrame({'key_right': ['B', 'C', 'D'], 'value_right': [4, 5, 6]})

# merge usando left_on and right_on
resultado_merge = pd.merge(df1, df2, left_on='key_left', right_on='key_right', how='inner')
display(resultado_merge)

##### Ejemplo usando 'suffixes'

In [None]:
df3 = pd.DataFrame({'clave': ['A', 'B', 'C'], 'valor': [1, 2, 3]})
df4 = pd.DataFrame({'clave': ['B', 'C', 'D'], 'valor': [4, 5, 6]})

# Merge usando suffixes
resultado_suffixes = pd.merge(df3, df4, on='clave', how='left', suffixes=('_left', '_right'))
display(resultado_suffixes)

### Llenado de datos faltantes

Puede ocurrir que la fuente de datos a usar posean valores nulos (en otras palabras, posiciones en las cuales la serie no posee valor alguno). Para sobrepasar ese problema, se poseen diversas alternativas:
* filtrar valores nulos
* completar/computar dichas posiciones con determinados valor
    * con valor arbitrario (```fillna(n)```)
    * con valor estadístico de la serie (```fillna(n_stat)```)
    * con valor posterior/anterior (```ffill()```, ```bfill()```)
* completar con valores extraídos de otras columnas
* completas con valores relativos a otras columnas

In [None]:
### Data Auxliar ###

data1 = np.random.choice(a=[np.nan, 10, 20 , 30, 40, 50], p=[0.1, 0.2, 0.2, 0.2, 0.15, 0.15], size=(1000, 2))

data2= np.random.normal(loc=50, scale=15, size=(1000, 2))

df = pd.DataFrame(np.column_stack([data1, data2]), columns=['a', 'b', 'c', 'd'])

print('Shape df original:', df.shape)

In [None]:
# 1. a- filtrar valores nulos

df_dropna = df.dropna()
print('Shape df SIN NULOS:', df_dropna.shape)

In [None]:
# 1. b- filtrar por los valores nulos de una o más columna/s

df_filt = df.loc[(~df['b'].isna()) & (~df['a'].isna())]  # podría usar además el método "notnull"
print('Shape df filtrando por columna:', df_dropna.shape)

In [None]:
# 2. completar con un valor específico

df_fillna = df.fillna({"a": 0, "b": 1, "c": 2, "d": 3}) # indico que valor asignar a los valores nulos de cada columna

null_idxs = df[df['a'].isna()].index[:5]

display(df_fillna.iloc[null_idxs])

In [None]:
# 3. completar con valor estadístico

# calculo la media de cada columna
means = df.mean()

display(df.fillna(means))

In [None]:
# 4. completar con un valor extraído de otra columna

# se completa con el valor que se encuentra en la misma ppsición para la columna 'b'
df.loc[df['a'].isna(), 'a'] = df.loc[df['a'].isna(), 'b'] 

In [None]:
# 5. completar con un valor relativo a otra/s columna/s

value = np.mean((df['c'] * 2) / df['d'])

df[['b']].fillna(value)

### Agrupación y operaciones agrupadas

* [Pandas Groupby - Documentación](https://pandas.pydata.org/docs/user_guide/groupby.html)
* [Pandas Groupby - GeekForGeeks](https://www.geeksforgeeks.org/python-pandas-dataframe-groupby/)

La agrupación y las operaciones agrupadas en Pandas son esenciales para realizar análisis y cálculos estadísticos sobre conjuntos de datos que contienen categorías o grupos específicos. La función principal para llevar a cabo estas operaciones es ```groupby```.

In [None]:
data = {'Producto': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'A'],
        'Region': ['Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur'],
        'Ventas': [100, 150, 120, 80, 200, 180, 250, 220]}

df = pd.DataFrame(data)

In [None]:
# Agrupar por 'Producto' y 'Region'
grupo_df = df.groupby(['Producto', 'Region'])

In [None]:
# Calcular la suma y el promedio de ventas por grupo
resultados_agrupados = grupo_df.agg({'Ventas': ['sum', 'mean']})

display(resultados_agrupados)

In [None]:
# Calcular el máximo y mínimo de ventas por grupo
resultados_agrupados = grupo_df.agg({'Ventas': ['max', 'min']})

display(resultados_agrupados)

In [None]:
# Filtrar solo las filas donde las ventas superan el promedio del grupo
filtrado_por_promedio = df[df['Ventas'] > grupo_df['Ventas'].transform('mean')]

display(filtrado_por_promedio)

In [None]:
# Agrupar solo por 'Region'
grupo_df = df.groupby('Region')

# Obtener el producto más vendido y el total de valor por región
resultados_agrupados = grupo_df.agg({'Producto': lambda x: x.mode().iloc[0],
                                     'Ventas': 'sum'})

display(resultados_agrupados)

### Lectura y escritura de datos

* [Documentación Pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html)

Pandas permite realiza realziar operaciones de **lectura** y **escritura** de **datos en formato tabular**.

Los principales formatos (que son de interés para este curso) son:


* ```csv``` (Comma-Separated Values):

    * Descripción: Formato de archivo simple que utiliza comas para separar valores. Es legible por humanos y ampliamente utilizado para almacenar datos tabulares.
    * Uso común: Intercambio de datos tabulares entre aplicaciones, almacenamiento de datos en bruto.
    * Ejemplo de extensión de archivo: *.csv*

* ```parquet```:

    * Descripción: Formato de almacenamiento de datos de columna eficiente para análisis de Big Data. Diseñado para ser eficiente en términos de espacio y velocidad de lectura/escritura.
    * Uso común: Almacenamiento de grandes conjuntos de datos, especialmente en entornos de big data.
    * Ejemplo de extensión de archivo: *.parquet*

* ```pickle```:

    * Descripción: Formato de serialización en Python. Permite convertir objetos Python en una secuencia de bytes y viceversa.
    * Uso común: Almacenamiento y carga de objetos complejos de Python, persistencia de modelos de aprendizaje automático.
    * Ejemplo de extensión de archivo: *.pkl*, *.pickle*

* ```url``` (Uniform Resource Locator):

    * Descripción: No es un formato de archivo per se, sino una dirección única que identifica una ubicación en la web. Puede apuntar a archivos de diferentes formatos, y la lectura/escritura depende del formato específico.
    * Uso común: Acceso a recursos en línea, lectura/escritura de datos directamente desde/hacia la web.
    * Ejemplo: *https://ejemplo.com/datos.csv*

<br>

* **Métodos/funciones principales**

    * **Lectura**: ```pd.read_*``` (es una *función* de Pandas)
    * **Escritura**: ```df.to_*``` (es un *método* de la clase pd.DataFrame)

*El ```*``` se reemplaza por el tipo de archivo que se desea.*

In [None]:
### Genero data auxiliar ###
n_cols = 5
df = pd.DataFrame(np.random.randint(low=0, high=1000, size=(100, n_cols)), columns=[f'columna_{i}' for i in range(n_cols)])

### Creo una carpeta donde guardar los datos que se generen en este notebook ###

import os

path = "../data/Modulo-0" # en este path se almacenarán los datos

os.makedirs(path, exist_ok=True)
print('Carpetas generadas ok!')

####  **csv**

##### ```to_csv```
***Parámetros:***
* ```path_or_buf``` (str or file-like): Ruta del archivo CSV o un objeto de archivo para escribir.
* ```sep``` (str, default=','): Delimitador a utilizar en el archivo CSV para separar campos.
* ```header``` (bool or list of str, default=True): Indica si escribir o no el encabezado. Si es una lista de strings, se utilizará como el encabezado.
* ```index``` (bool, default=True): Indica si escribir o no el índice del DataFrame.

In [None]:
file = 'mi_archivo.csv'

print(os.path.join(path, file)) # me devuelve la unión de la ubicación de la carpeta más el nombre del archivo

In [None]:
# escritura

df.to_csv(os.path.join(path, file), sep=';', index=False)

##### ```read_csv```

***Parámetros:***

* ```filepath_or_buffer``` (str o objeto de tipo archivo): Ruta del archivo CSV o un objeto de archivo que se va a leer.

* ```sep``` (str, default=','): Delimitador utilizado en el archivo CSV para separar campos.

* ```header``` (int, list of int, default='infer'): Número de filas que se deben usar como encabezado o una lista de números de fila para utilizar como encabezados. Si es 'infer', intentará inferir automáticamente el encabezado.

* ```names``` (array-like, optional): Lista de nombres para asignar a las columnas.

* ```index_col``` (int, str, sequence[int/str], or False, default=None): Columna(s) que se deben utilizar como índice del DataFrame. Puede ser el número de la columna o el nombre de la columna.

* ```usecols``` (list-like or callable, optional): Columnas a seleccionar para cargar. Si es una función, se aplicará a cada línea con el índice devuelto por index_col.

* ```nrows``` (int, default=None): Cantidad de filas a cargar.

In [None]:
# lectura

read_df = pd.read_csv(os.path.join(path, file), sep=';')

print('Shape read_df:', read_df.shape)
read_df.head()

In [None]:
read_df = pd.read_csv(os.path.join(path, file), sep=';', usecols=['columna_1', 'columna_3'], nrows=50)

print('Shape read_df:', read_df.shape)
read_df.head()

#### **parquet**

```to_parquet```

***Parámetros***:

* ```path``` (str): Ruta del archivo Parquet.

* ```engine``` (str, optional): Motor de escritura. Puede ser 'auto', 'pyarrow', o 'fastparquet'. El valor 'auto' intenta utilizar 'pyarrow', pero cambia a 'fastparquet' si no está disponible.

* ```compression``` (str, optional): Método de compresión a utilizar. Puede ser 'snappy', 'gzip', o 'brotli'.

* ```index``` (bool, default=True): Indica si escribir o no el índice del DataFrame.

* ```partition_cols``` (list, optional): Lista de columnas por las que particionar el DataFrame al escribir en formato Parquet.

In [None]:
file = 'mi_archivo.parquet'

print(os.path.join(path, file)) # me devuelve la unión de la ubicación de la carpeta más el nombre del archivo

In [None]:
# escritura

df.to_parquet(os.path.join(path, file), index=False)

```read_parquet```

***Parámetros***
* ```path``` (str): Ruta del archivo Parquet.

* ```engine``` (str, optional): Motor de lectura. Puede ser 'auto', 'pyarrow', o 'fastparquet'. El valor 'auto' intenta utilizar 'pyarrow', pero cambia a 'fastparquet' si no está disponible.

* ```columns``` (list, optional): Lista de columnas a leer desde el archivo Parquet.

In [None]:
# lectura

read_df = pd.read_parquet(os.path.join(path, file))

print('Shape read_df:', read_df.shape)
read_df.head()

#### **pickle**

```to_pickle```

In [None]:
file = 'mi_archivo.pkl'

print(os.path.join(path, file)) # me devuelve la unión de la ubicación de la carpeta más el nombre del archivo

In [None]:
# escritura

df.to_pickle(os.path.join(path, file))

```read_pickle```

In [None]:
read_df = pd.read_pickle(os.path.join(path, file))

print('Shape read_df:', read_df.shape)
read_df.head()

#### **URL**

In [None]:
# link o url del archivo
url = "https://gist.githubusercontent.com/bobbyhadz/9061dd50a9c0d9628592b156326251ff/raw/381229ffc3a72c04066397c948cf386e10c98bee/employees.csv"

# se usa el mismo read_csv ya que el formato de 'csv', lo que cambia es la ubicación del archivo a cargar, que en este caso es una url
data = pd.read_csv(url, sep=',', encoding='utf-8')

display(data)