<a href="https://colab.research.google.com/github/amorelo01/IA_UdeA_AndresZ/blob/main/M2_S7_Pandas02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="banner" height="252px" width="1080px" src="https://docs.google.com/uc?export=download&id=1SqbMIjMfsMlSukiTyfMJ0VMuDlP2hGhx"  align="center" hspace="10px" vspace="0px" ></p>

Este notebook continua con el repaso de algunas de las funcionalidades que más usaremos en pandas para el análisis de datos. Para ello, continuaremos usando llos datos asociados a los precios de productos agrícolas en las distintas plazas de mercado del país. En particular, usaremos una base de datos previamente construida para el mes de febrero de 2020 y Agosto de 2021



In [None]:
import pandas as pd
df_precio = pd.read_csv('https://raw.githubusercontent.com/endorgobio/SA_visualiser/master/data/output.csv', index_col=0)
df_precio['fechaCaptura']= pd.to_datetime(df_precio['fechaCaptura'])
df_precio['mes'] = df_precio['fechaCaptura'].dt.month
df_precio

# <font color='056938'> **Ordenar los datos dentro de un dataframe** </font>

Los datos de un dataframe pueden ordenenarse respecto a una o varias columnas usando la función `sort_values(by=['column1', 'column2'])`.

Por ejemplo, podemos estar interesados en ordenar los datos del dtaframe df_precios, respecto a cada producto y las fechas. Note que usamos el parametro `inplace=True` para que el cambio sea persistente

In [None]:
df_precio.sort_values(by=['producto', 'ciudad', 'fechaCaptura'], inplace=True)
df_precio

# <font color='056938'> **Agrupar datos** </font><font color='8EC044'> **- groupby()** </font>









`groupby` se refiere a un proceso que implica uno o más de los siguientes pasos:

1. **Dividir** los datos en grupos según ciertos criterios.
2. **Aplicar** una función a cada grupo de manera independiente.
3. **Combinar** los resultados en una estructura de datos.

En el paso de aplicación usualmente se realiza alguna de las siguientes acciones:

* Agregación: calcular una medida de resumen (centralidad, variabilidad, posición o forma) para cada grupo. Algunos ejemplos incluyen:
   - Calcular sumas o promedios del grupo.
   - Calcular tamaños o conteos de grupo.
   
* Transformación: realizar algunos cálculos específicos del grupo y devolver un objeto indexado similar. Algunos ejemplos incluyen:
   - Estandarizar datos (puntuación z) dentro de un grupo.
   - Rellenar NA dentro de grupos con un valor derivado de cada grupo.
   
* Filtrado: descartar algunos grupos, de acuerdo con un cálculo a nivel de grupo que evalúa a Verdadero o Falso. Algunos ejemplos incluyen:
   - Descartar datos que pertenezcan a grupos con pocos miembros.
   - Filtrar datos basados en la suma o el promedio del grupo.




## <font color='056938'> **Dividir** </font>

En `pandas`, un objeto `groupby` es un objeto que representa una agrupación de datos basada en uno o más criterios.

Este objeto `groupby` no contiene directamente los datos agrupados, sino que proporciona una forma de acceder a estos grupos y realizar operaciones en ellos.

En su forma más simple, debemos especificar la variable respecto a la cual deseamos realizar la agrupación, la variable que se agrupará y la medida de resumen que deseamos calcular.

En un `DataFrame`, obtenemos un objeto `GroupBy` llamando a `groupby()`. Este método devuelve una instancia de `pandas.api.typing.DataFrameGroupB`y.

En el ejemplo del conjunto de datos `df_precios` podríamos agrupar, por ejemplo  por las columnas `ciudad`, `productos` o ambas

In [None]:
group_precio = df_precio.groupby('ciudad')

La función `len()` de python nos permitirá saber el número de agrupaciones obtenidas

In [None]:
len(group_precio)

El atributo `groups` retorna un diccionario con los grupos obtenidos. Note por ejemplo como prodríamos obtener las claves asociadas a dicho diccionario  

In [None]:
print('groupby retorna un objeto de tipo: ', type(group_precio.groups))
group_precio.groups.keys()

Incluso, es posible iteratar sobre los grupos creados. Note por ejemplo como iteramos sobre los grupos imprimiendo su nombre y el número de elementos que contienen

In [None]:
for name, group in df_precio.groupby('ciudad'):
  print(f'El grupo {name} tiene {len(group)} elementos')

Adicionalmente es posible agrupar sobre múltiples columnas, pasando para ello como lista las columnas sobre las que se desea agrupar

```Python
df.groupby(['columna1', 'columna2'])
```




#### <font color='46B8A9'> **Ejercicio** </font>  
Imprima los nombres y número de elementos de los grupos resultantes de agrupar `df_precios` respecto a `ciudad` y `producto`

In [None]:
# Inserte aquí su respuesta


### <font color='8EC044'> **Selección de un grupo** </font>

Un  grupo específico puede ser seleccionado utilizando `get_group()`, Por ejemplo, obtengamos los elementos del grupo asociado a `ARMENIA`. Note que en este caso obtenemos un `DataFrame`.

In [None]:
df_grouped = df_precio.groupby('ciudad')
df_grouped.get_group("ARMENIA")

#### <font color='46B8A9'> **Ejercicio** </font>  

En el `DataFrame` agrupado por ciudades y productos, obtenga el grupo correspondiente a la ciudad de `ARMENIA` y el producto `Zanahoria`

In [None]:
# Inserte aquí su respuesta
df_grouped = df_precio.groupby(['ciudad', 'producto'])
df_grouped.get_group(('ARMENIA','Zanahoria'))

## <font color='056938'> **Aplicar** </font>


### <font color='8EC044'> **Agregación** </font>
Una agregación es una operación `GroupBy` que reduce la dimensión del objeto de agrupación. El resultado de una agregación es, o al menos se trata como, un valor escalar para cada columna en un grupo.


Por ejemplo, deseamos obtener el máximo de cada una de las columnas en un grupo de interés.

In [None]:
df_grouped = df_precio.groupby(['ciudad', 'producto'])[['precioPromedio', 'fechaCaptura']].max()
df_grouped

El argumento `as_index`  determina si los valores utilizados para agrupar los datos deben tratarse como índices en el resultado final o como columnas

In [None]:
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)[['precioPromedio', 'fechaCaptura']].max()
df_grouped

Algunos de los métodos de agregación disponibles en `groupby` son:

| Método de Agregación | Descripción                                       |
|-----------------------|---------------------------------------------------|
| `count()`             | Cuenta el número de elementos en cada grupo.      |
| `sum()`               | Calcula la suma de los valores en cada grupo.     |
| `mean()`              | Calcula la media de los valores en cada grupo.    |
| `median()`            | Calcula la mediana de los valores en cada grupo.  |
| `min()`               | Encuentra el valor mínimo en cada grupo.          |
| `max()`               | Encuentra el valor máximo en cada grupo.          |
| `std()`               | Calcula la desviación estándar de cada grupo.      |
| `var()`               | Calcula la varianza de cada grupo.                |
| `first()`             | Devuelve el primer valor de cada grupo.           |
| `last()`              | Devuelve el último valor de cada grupo.           |
| `prod()`              | Calcula el producto de los valores en cada grupo. |



#### <font color='46B8A9'> **Ejercicio** </font>  

Use `GroupBy` para calcular la media del precio promedio de cada producto en cada ciudad

In [None]:
# Inserte aquí su respuesta
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)['precioPromedio'].mean()
df_grouped

**El método `aggregate()`**

Permite realizar la agregación directamente pasando  cualquiera de los métodos implementados por defecto en pandas. Adicionalmente, el método suele llamarse con la abreviación `agg()`  

Note por ejemplo como obtenemos el mismo resultado para el máximo de cada una de las columnas en un grupo de interés que ya realizamos anteriormente

In [None]:
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)['precioPromedio'].agg("max")
df_grouped

Pueden pasarse más de una función para ser aplicadas simultaneamente:

In [None]:
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)['precioPromedio'].agg(["sum", "mean", "max"])
df_grouped


También es posible usar funciones definidas por el usuario para realizar la agrupación.

In [None]:
# Definimos una función
def custom_function(x):
    return x.max() - x.min()

df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)['precioPromedio'].agg(custom_function)
df_grouped


Por último, es posible agregar los datos generando varias medidas numéricas al mismo tiempo usando la función `agg()` y dar nombres específicos a cada columna obtenida

In [None]:
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False).agg(
    promedio = ('precioPromedio', 'mean'),
    maximo = ('precioPromedio', 'max'),
    fecha_min = ('fechaCaptura', min),
    rango = ('precioPromedio', custom_function)
    )

df_grouped

#### <font color='46B8A9'> **Ejercicio** </font>  

Genere una agrupación de los datos que presente para cada producto en cada ciudad, la media del precio promedio, la fecha mínima y máxima en que se tomaron registros y el número de registros no nulos existentes

In [None]:
# Inserte aquí su respuesta
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False).agg(
    promedio = ('precioPromedio', 'mean'),
    fecha_min = ('fechaCaptura', 'min'),
    fecha_max = ('fechaCaptura', 'max'),
    validos = ('precioPromedio', 'count'),
    )

df_grouped

### <font color='8EC044'> **Transformación** </font>

Las transformaciones se refieren a operaciones que devuelven un nuevo `DataFrame` con la misma forma que el original, pero con valores ajustados en función de operaciones de agrupación. Las transformaciones se aplican a cada grupo de forma independiente y luego los resultados se combinan nuevamente.

Las transformaciones son diferentes de las agregaciones en que mantienen la forma original del DataFrame, mientras que las agregaciones típicamente reducen la dimensionalidad de los datos al producir un único valor resumen para cada grupo.

Note por ejemplo, que si queremos adicionar al dataframe una variable que indique para cada registro el máximo de todos los precios promedio durante el periodo de observación `precioMaximo_obs` podriamos hacerlo de la siguiente forma:


In [None]:
df_grouped = df_precio.groupby(['producto', 'ciudad'], as_index=False)['precioPromedio']
df_precio['precioMaximo_obs'] = df_grouped.cummax()
df_precio.sample(5)


Algunas de las funciones predefinidas son:

| Función       | Descripción                                                                                          |
|---------------|------------------------------------------------------------------------------------------------------|
| `fillna`      | Rellena valores faltantes dentro de cada grupo con un valor específico.                             |
| `ffill`, `bfill` | Rellena valores faltantes dentro de cada grupo utilizando el valor anterior o siguiente.          |
| `rank`        | Asigna rangos dentro de cada grupo basados en los valores de una o más columnas.                    |
| `cumcount`    | Calcula el conteo acumulativo dentro de cada grupo.                                                  |
| `cummax`      | Calcula el máximo acumulativo dentro de cada grupo.                                                  |
| `cummin`      | Calcula el mínimo acumulativo dentro de cada grupo.                                                  |
| `cumprod`     | Calcula el producto acumulativo dentro de cada grupo.                                                |
| `cumsum`      | Calcula la suma acumulativa dentro de cada grupo.                                                    |
| `diff`        | Calcula la diferencia entre valores adyacentes dentro de cada grupo.                                 |
| `pct_change`  | Calcula el cambio porcentual entre valores adyacentes dentro de cada grupo.                          |
| `shift`       | Desplaza valores hacia arriba o hacia abajo dentro de cada grupo.                                    |



#### <font color='46B8A9'> **Ejercicio** </font>  
Agregue una columna al DataFrame `df_precios`, que enumere ascendentemente las observaciones de un mismos producto en cada ciudad. Así por ejemplo para los registros de `Ahuyama` en `BARRANQUILLA`, debe numerarlos desde 0 hasta el número de registros existentes en ese grupo

In [None]:
# Escriba aqui su respuesta
df_grouped = df_precio.groupby(["ciudad", "producto"])["precioPromedio"]
df_precio['contador'] = df_grouped.cumcount()

df_precio

Similar al método de agregación, el método `transform()` puede aceptar strings para los métodos de transformación predefinidos o incluso para funciones credas por el usuario.

Considere el ejemplo en el que calculamos el valor de la distribución normal unitaria asociado a cada precio promedio del producto en cada ciudad.

In [None]:
# Definimos la función
def calcular_puntaje_z(group):
    mean = group.mean()
    std = group.std()
    return (group - mean) / std

# Calculamos la nueva columna usando transform
df_precio['valor_normal'] = df_grouped.transform(calcular_puntaje_z)
df_precio

Estas y otras formas de realizar la agrupación se resumen en la siguiente tabla

| Sintaxis | Descripción |
| --- | --- |
| df.groupby('columna') | Agrupa el DataFrame `df` por la columna especificada |
| df.groupby(['columna1', 'columna2']) | Agrupa el DataFrame `df` por las columnas especificadas |
| df.groupby('columna').mean() | Agrupa el DataFrame `df` por la columna especificada y calcula la media de cada grupo |
| df.groupby('columna').agg(func) | Agrupa el DataFrame `df` por la columna especificada y aplica una función de agregación personalizada `func` a cada grupo |
| df.groupby('columna').apply(func) | Agrupa el DataFrame `df` por la columna especificada y aplica una función personalizada `func` a cada grupo |
| df.groupby('columna').filter(func) | Agrupa el DataFrame `df` por la columna especificada y filtra los grupos que cumplen con una condición dada por la función `func` |


# <font color='056938'> **Resumir y organizar datos - pivot_table()** </font>

Una `pivot_table` es una herramienta  útil para resumir y analizar datos tabulares. Esta toma datos en forma de DataFrame y realiza una operación de agregación en ellos, agrupando los datos según los valores de una o más columnas. Luego, presenta los resultados en una tabla fácilmente interpretable.

Los  `pivot_table`, consideran los siguientes elementos:

1. **Índice**: Las columnas que se usarán para agrupar los datos. Estas se mostrarán en el índice de la tabla resultante.
  
2. **Columnas**: Las columnas que se utilizarán para segmentar aún más los datos. Estas se mostrarán como columnas en la tabla resultante.
  
3. **Valores**: Las columnas que se utilizarán para calcular las agregaciones. Se aplicará una función de agregación a estos valores.

4. **Función de agregación**: La función que se utilizará para resumir los datos. Esto puede ser una función incorporada como `sum`, `mean`, `count`, `min`, `max`, etc., o una función personalizada.



In [None]:
pivot_table = df_precio.pivot_table(index=['producto', 'mes'], columns='ciudad', values='precioPromedio', aggfunc=['mean', 'max'])
pivot_table

El formato obtenido para la estructura de datos al usar la función pivot_table() es denomindao usualmente formato amplio (`wide format`), mientras que la estructura que originalmente tenian nuestros datos corresponde a un formato largo (`long format`)



# <font color='056938'> **Iterar sobre `DataFrames`** </font>

Es común que queramos iterar sobre los registros de un Dataframe, o incluso sobre sus columnas. Esto puede lograrse usando directamente el indice de cada registro o las opciones de `loc` e `iloc`

In [None]:
df = df_precio.sample(5) # obtengamos una muestra para no imprimir todos los registros

for ind in df.index:
    print(df['producto'][ind], df['ciudad'][ind], df['precioPromedio'][ind] )

Sin embargo, una forma más eficiente de hacerlo es a través del método `iterrows()`. El cual permite iterar sobre un `DataFrame`, devolviendo pares de índice y fila para cada fila en el `DataFrame`. Cada par consiste en un índice de fila y una Serie que representa los datos de esa fila.

In [None]:
df = df_precio.sample(5) # obtengamos una muestra para no imprimir todos los registros

for index, row in df.iterrows():
     print(row['producto'], row['ciudad'], row['precioPromedio'])


### <font color='46B8A9'> **Ejercicio** </font>

Considere los datos de precios diarios del SIPSA obtenidos como archivo `csv`, de la cual hemos eliminado la primera y las tres últimas filas

In [None]:
import pandas as pd

df = pd.read_excel('https://www.dane.gov.co/files/operaciones/SIPSA/anex-SIPSADiario-01ago2023.xlsx')
n =  len(df)
df = df.drop([0, n-1,n-2,n-3])
df.head(6)

Considere la función que extrae los nombres de las ciudades asociadas al dataframe obtenido

In [None]:
def nombres_ciudades(df):

  nombres = df.loc[1] # Extraemos la fila con los nombres de las ciudades
  # Obtenemos solo los nombres de las ciudades
  ciudades = [texto.split()[0].replace(",", "") for texto in nombres if str(texto) != 'nan' ]
  col0 = ciudades.pop(0) # Removemos el primer elemento que no es una ciudad

  return ciudades

ciudades= nombres_ciudades(df)
ciudades

Cree un nuevo `DataFrame`  llamado `df_long` que contenga la información suministrada en el formato extenso (long). El `DataFrame` resultante denerá verse de la siguiente forma:

![](https://docs.google.com/uc?export=download&id=1PmgzBzt8i0wW84LQmtHH7y1oj4tdJhRN)



In [None]:
# Inserte aquí su respuesta


In [None]:
import pandas as pd

df_long = pd.DataFrame(data, columns=['producto', 'ciudad', 'precio', 'varianza'])
df_long

# <font color='056938'> **Visualización de datos** </font>

Aunque tendremos un módulo dedicado a la visualización de datos, es importante señalar que pandas cuenta con sus propias herramientas de visualización. Tienen la ventaja de ser sencillas de usar, pero tienen algunas limitaciones para gráficos más complejos o para aquellos que buscamos gráficos con mucho poder visual.

Finalmente, es posible crear gráficos directamente desde `pandas` de forma sencilla. Creemos por ejemplo un gráfico de barras del valor promedio del indice de accesibilidad por año. En este caso gráficaremos el precio promedio de la Ahuyama en las distintas plazas de mercado del país durante el periodo de estudio.

In [None]:
# Filtramos solo registros de Ahuyama
df_ahuyama = df_precio[df_precio['producto']=='Ahuyama']
# Agrupamos por ciudades con respecto al precio promedio
grouped = df_ahuyama.groupby('ciudad', as_index=False)['precioPromedio'].mean()
# Haga gráfico de barras
grouped.plot.bar(x='ciudad', y='precioPromedio')

Algunas otras opciones de gráficos son:


| Tipo de gráfico | Función de Pandas | Descripción |
| --- | --- | --- |
| Gráfico de línea | `DataFrame.plot()` | Muestra los datos como una serie de puntos conectados por líneas rectas. Útil para ver la tendencia de los datos a lo largo del tiempo. |
| Gráfico de barras | `DataFrame.plot.bar()` | Muestra los datos como barras verticales u horizontales, útil para comparar datos de diferentes categorías. |
| Gráfico de barras apiladas | `DataFrame.plot.bar(stacked=True)` | Similar al gráfico de barras, pero las barras se apilan una encima de la otra. Útil para comparar la contribución de cada categoría a un total. |
| Gráfico de dispersión | `DataFrame.plot.scatter()` | Muestra la relación entre dos conjuntos de datos como una serie de puntos. Útil para ver si hay una correlación entre los dos conjuntos de datos. |
| Gráfico de área | `DataFrame.plot.area()` | Muestra los datos como un área sombreada debajo de una línea. Útil para ver la evolución de los datos a lo largo del tiempo. |
| Gráfico de pastel | `DataFrame.plot.pie()` | Muestra los datos como un diagrama de pastel, donde cada sección representa un porcentaje del total. Útil para ver la distribución de los datos. |
| Gráfico de caja | `DataFrame.plot.box()` | Muestra los datos como una caja y un conjunto de bigotes, útil para ver la distribución de los datos y detectar valores atípicos. |

#### <font color='46B8A9'> **Ejercicio** </font>

Genere un gráfico que permita ver la evolución temporal del precio de la Ahuyama en la plaza de mercado de Medellín

In [None]:
# Inserte aquí su respuesta


# <font color='056938'> **Funciones y librerias para la adquisición de datos** </font>

De momento hemos hecho una revisión sobre funciones básicas para la adquisición de datos, en particular usando pandas. Sin embargo, existe un conjunto amplio de herramientas para ser exploradas.

De manera colaborativa, vamos a identificar y describer algunas de esas **joyitas** que estan disponibles pero son poco exploradas

## <font color='46B8A9'> **Ejercicio** </font>

Identifique una función de `pandas`, una libreria alterna o una `API` a un servicio, que considere sea de utilidad para la adquisición de datos. Para ello, cada uno debera preparar un notebook donde describe
 la función o la libreria con un solo ejemplo de aplicación. El enlace a dicho notebook debe subirse en el espacio creado para ello en la plataforma:

 Considere los siguientes dos ejemplos:



### <font color='8EC044'> **Ejemplo 1** </font>

La función `explode()` en `pandas` se utiliza para transformar cada elemento de una columna con estructuras tipo lista (como listas o arreglos) en filas separadas. Es útil cuando tienes una columna con listas y quieres "expandirlas" de modo que cada elemento de la lista se convierta en su propia fila, manteniendo el resto de los datos del DataFrame sin cambios.

Considere el siguiente dataframe donde estan las fechas en las que se contacto cada uno de los clientes

In [None]:
import pandas as pd

# DataFrame de ejemplo con una columna de listas
df = pd.DataFrame({
    'cliente': ['cliente1', 'cliente2','cliente3'],
    'fecha': ['2024-06-01', ['2024-06-01', '2024-06-03'], ['2024-06-01', '2024-06-05','2024-06-07']]
})

df

Note que algunos clientes tienen una lista de fechas en las que consultaron.

Deseariamos tener un registro asociado a cada consulta

In [None]:
# Usamos explode para expandir las listas en la columna 'B'
exploded_df = df.explode('fecha')
exploded_df.reset_index(inplace=True)
exploded_df

### <font color='8EC044'> **Ejemplo 2** </font>

`ydata-profiling` es una biblioteca de Python utilizada para generar informes detallados de análisis exploratorio de datos (EDA). Anteriormente se conocía como `pandas-profiling`. La biblioteca automatiza la creación de perfiles para DataFrames de pandas, ofreciendo información como tipos de datos, valores faltantes, distribuciones, correlaciones y resúmenes estadísticos.

Esta biblioteca simplifica la comprensión de los datos, ayudando a los usuarios a obtener insights rápidamente sin necesidad de una inspección manual.

Para su uso primero instalamos la libreria

In [None]:
!pip install ydata-profiling

Una vez instalada, importamos las funciones que usaremos.

Un primer reporte de la base de datos que leemos puede obtenerse así:

In [None]:
from ydata_profiling import ProfileReport, compare

df_precio = pd.read_csv('https://raw.githubusercontent.com/endorgobio/SA_visualiser/master/data/output.csv', index_col=0)
df_precio

report = ProfileReport(df_precio, title="Profiling Report")
report

Asuma ahora que definimos la variable `fechaCaptura` para ser del tipo `datetime`. Adicionalmente, creamos la variable mes

In [None]:
df_precio['fechaCaptura']= pd.to_datetime(df_precio['fechaCaptura'])
df_precio['mes'] = df_precio['fechaCaptura'].dt.month


In [None]:

new_report = ProfileReport(df_precio, title="Test")

comparison_report = report.compare(new_report)
comparison_report
# comparison_report.to_file("comparison.html")