[![imag/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Transformación de *dataframes* y series.

En la mayoría de los casos los conjuntos de datos (*datasets*) a los que se accede con *Pandas* incluyen información que debe de ser ajustada o extraída.

En este capítulo se explorarán algunas herramientas que permiten transformar a los *dataframes* y series de *Pandas* a fin de extraer y mostrar información de diversos modos.

In [None]:
import pandas as pd
import numpy as np

## *Dataframe* ilustrativo.

El *dataframe* ```poblacion``` contiene datos ficticios de un muestreo poblacional de animales en diveras regiones geográficas.

In [None]:
poblacion = pd.DataFrame({'Animal':('lobo',
                                    'coyote',
                                   'jaguar',
                                   'cerdo salvaje',
                                    'tapir',
                                    'venado',
                                    'ocelote',
                                    'puma'),
                         'Norte_I':(12,
                                   np.NAN,
                                    None,
                                    2,
                                    4,
                                    2,
                                    14,
                                    5
                                   ),
                          'Norte_II':(23,
                                    4,
                                    25,
                                    21,
                                    9,
                                    121,
                                    1,
                                    2
                                   ),
                         'Centro_I':(15,
                                    23,
                                    2,
                                    120,
                                    40,
                                    121,
                                    0,
                                    5),
                         'Sur_I':(28,
                                  46,
                                  14,
                                  156,
                                  79,
                                  12,
                                  2,
                                  np.NAN)}).set_index('Animal')

In [None]:
poblacion

## El método ```transpose()```.

Este método permite cambiar los ejes de un dataframe y regresará un nuevo dataframe en el que los índices de los renglones serán los de las columnas y viceversa.
```
df.transpose()
```

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.transpose.html

**Ejemplo:**

* La siguiente celda creará un dataframe con nombre ```poblaciones``` el cual es el resultadso de ejecutar el método ```transpose()``` del dataframe ```poblacion```.

In [None]:
poblaciones = poblacion.transpose()

In [None]:
poblaciones

## El método ```melt()```.

Al analizar un dataset, es común identificar elementos de este que infuyen en el resultado de otro.

El método ```melt()``` permite extraer datos a partir de un *dataframe*, identificando causas (```id_vars ```) y efectos (```value_vars```), permitiendo hacer más explícita esta relación.

Este metódo crea un nuevo *datafram*e en el que las columnas enumeradas como ```value_vars``` se presentan en función de las columnas enumeradas como ```id_vars```.

```
df.melt(id_vars=[<col i1>, <col i2>, ... <col in>], 
 value_vars=[<col v1>, <col v2>, ... <columnas vn>,
 var_name='<nombre de variable>',
 value_name='<nombre de valores>'])
```

Donde:

* ```<col ix>``` son las columnas que se designan como variables independientes.
* ```<col vx>``` son las columnas que se designan como variables dependientes de las columnas definidas en ```id_vars```.
* ```<nombre de variable>``` es el nombre que se le peude dar a la columna ```'variable'```.
* ```<nombre de valores>``` es el nombre que se le peude dar a la columna ```'value'```.

El *dataframe* resultante presentará:

* Las columnas listadas en el parámetro ```id_vars```. 
* Una columna llamada por defecto ```variable``` que contendrá en sus renglones los nombres de las columnas listadas en el parámetro ```value_vars```. El nombre de esta columna puede asignarse mediante el parámetro ``` var_name```.
* Una columna llamada por defecto ```value``` que contendrá los valores contenidos a su vez en las columnas listadas en el parámetro ```value_vars```. El nombre de esta columna puede asignarse mediante el parámetro ``` value_name```.

El *dataframe* mostrará las diversas combinaciones posibles entre las variables idependientes que están relacionads a las variables dependientes y los índices serán numéricos.

**Ejemplos:**

* La siguiente celda regresará un dataframe creado a partir de ```poblaciones``` en el que la columna ```'lobo'``` se enlista en el parámetro ```id_vars``` y la columna ```venado``` se enlista en el parámetro ```value_vars```.

In [None]:
poblaciones.melt(id_vars=["lobo"], value_vars=["venado"])

* La siguiente celda regresará un dataframe creado a partir de ```poblaciones``` en el que:
 * ```id_vars=["lobo", "coyote"]```
 * ```value_vars=["venado"]```.

In [None]:
poblaciones.melt(id_vars=["lobo", "coyote"], value_vars=["venado"])

* La siguiente celda regresará un dataframe creado a partir de ```poblaciones``` en el que:
 * ```id_vars=["lobo", "coyote"]```
 * ```value_vars=["venado, "cerdo salvaje"]```.
 * ```var_name="presa"```, 
 * ```value_name="población"```

In [None]:
poblaciones.melt(id_vars=["lobo", "coyote"], value_vars=["venado", "cerdo salvaje"], 
                 var_name="presa", value_name="población")

## El método ```stack()```.

Este método transforma a un *dataframe* en una serie.

```
df.stack()
```

Las serie resultante cuenta con más de un índice y por eso se conocen como *MultiIndex*.

In [None]:
poblacion

In [None]:
serie_poblacion = poblacion.stack()

In [None]:
serie_poblacion 

In [None]:
type(poblacion.stack())

In [None]:
serie_poblacion.index

In [None]:
serie_poblacion['lobo']

In [None]:
serie_poblacion['lobo']['Norte_I']

## El método ```unstack()```.

Convierte una serie creada con el método ```stack()``` en un dataframe.

In [None]:
serie_poblacion.unstack()

## El método ```pivot()```.

Este método permite crear estructuras de *dataframes* a partir de columnas un *dataframe* base.

```
df.pivot(columns=<id_col>, index=<id_index>, values=<id_val>)
```
Donde:

* ```<id_col>``` es las columna del *dataframe* que corresponde a las columnas del nuevo *dataframe*.
* ```<id_index>``` es las columna del *dataframe* que corresponde a los índices del nuevo *dataframe*.
* ```<id_val>``` es las columna del *dataframe* que corresponde a los valores del nuevo *dataframe*.

**NOTA:** Los valores que se utilizarán para crear un nuevo *dataframe* deben de ser del mismo tamaño.

In [None]:
observaciones = pd.DataFrame({'region':('Norte', 'Norte', 'Norte',
                                        'Sur', 'Sur', 'Sur',
                                        'Este', 'Este', 'Este',
                                        'Oeste', 'Oeste', 'Oeste'),
                             'horario':('madrugada', 'tarde', 'media_noche',
                                        'madrugada', 'tarde', 'media_noche',
                                        'madrugada', 'tarde', 'media_noche',
                                        'madrugada', 'tarde', 'media_noche'),
                              'peatones':(153, 589, 35,
                                          215, 702, 87,
                                          95, 806, 22,
                                          290, 1390, 150),
                             'vehículos': (np.NaN, 1003, 304,
                                          506, 1421, 150,
                                          271, 1863, 198,
                                          948, 2279, 804)})

In [None]:
observaciones

In [None]:
observaciones.pivot(columns='region', 
                    values='peatones', 
                    index='horario')

In [None]:
observaciones.pivot(columns='region', 
                    values='vehículos', 
                    index='horario')

## El método ```pivot_table()```.

El método ```pivot_table()``` me permite crear tablas del mismo modo que ```pivot()```, pero no es necesario que el tamaño de la nueva tabla sea igual al de la original.

In [None]:
observaciones_2 = pd.DataFrame({'region':('Norte', 'Norte', 'Norte',
                                        'Sur', 'Sur', 'Sur', 'Sur',
                                        'Este', 'Este', 'Este',
                                        'Oeste', 'Oeste', 'Oeste'),
                             'horario':('madrugada', 'tarde', 'media_noche',
                                        'madrugada', 'tarde', 'media_noche', 'madrugada',
                                        'madrugada', 'tarde', 'media_noche',
                                        'madrugada', 'tarde', 'media_noche'),
                              'peatones':(153, 589, 35,
                                          215, 702, 87, 221,
                                          95, 806, 22,
                                          290, 1390, 150),
                             'vehiculos': (np.NaN, 1003, 304,
                                          506, 1421, 150, np.NaN,
                                          271, 1863, 198,
                                          948, 2279, 804)})

**Ejemplo:**

In [None]:
observaciones_2

In [None]:
observaciones_2.pivot(columns='region', 
                    values='vehiculos', 
                    index='horario')

In [None]:
observaciones_2.pivot_table(columns='region', 
                    values='vehiculos', 
                    index='horario')

In [None]:
observaciones_2.pivot_table(columns='region', 
                    values='peatones', 
                    index='horario')

In [None]:
np.mean([215,221])

In [None]:
observaciones_2.pivot_table(columns='region', 
                    values='peatones', 
                    index='horario',
                    aggfunc=np.sum)

In [None]:
observaciones_2.pivot_table(columns='region', 
                    values='peatones')

In [None]:
observaciones_2.pivot(columns='region', 
                    values='peatones')

## Ejemplo de aplicación.

In [None]:
poblacion

In [None]:
poblacion.transpose().melt(id_vars=['lobo', 'coyote', 'jaguar'], value_vars=["tapir"])

## El método ```crosstab()```.

El método ```crosstab()``` permite crear tablas cruzadas (tabulaciones cruzadas) que muestran la frecuencia o agregaciones entre dos o más variables categóricas.

A diferencia de ```pivot()``` y ```pivot_table()``` que reorganizan datos existentes, ```crosstab()``` es una función de nivel superior que cuenta ocurrencias o agrega valores entre categorías.

```python
pd.crosstab(index=<serie>, 
             columns=<serie>,
             values=<serie>,
             aggfunc=<función>,
             margins=True)  # Mostrar totales
```

Donde:
* ```index```: Serie que define las filas de la tabla cruzada
* ```columns```: Serie que define las columnas
* ```values```: (Opcional) Serie con valores a agregar
* ```aggfunc```: Función de agregación (sum, mean, count, etc.)
* ```margins```: Si True, agrega totales de filas y columnas

https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html


**Ejemplo 1: Tabla cruzada simple (conteos)**


**Ejemplo 2: Tabla cruzada con agregación de valores**


**Ejemplo 3: Tabla cruzada con totales (márgenes)**


## Comparación: pivot_table() vs crosstab()

| Aspecto | `pivot_table()` | `crosstab()` |
|---------|-----------------|---------------|
| **Fuente** | Datos en dataframe | Dos o más series |
| **Uso principal** | Reorganizar datos existentes | Análisis cruzado/tablas de contingencia |
| **Valor por defecto** | Promedio | Conteo |
| **Cuando usar** | Pivotear columnas de un dataframe | Crear tablas de frecuencia |
| **Tipo de datos** | Requiere dataframe | Funciona con series individuales |

**Ejemplo:**
```python
# pivot_table: tomar columnas de un dataframe existente
df.pivot_table(values='ventas', index='region', columns='producto')

# crosstab: crear tabla cruzada de dos series
pd.crosstab(df['region'], df['producto'])
```


## Equivalente en Polars

Polars no tiene un método `crosstab()` directo, pero puedes lograr el mismo resultado con `pivot()`:

```python
import polars as pl

# Crear tabla cruzada similar a pd.crosstab
df_pl = pl.DataFrame(transacciones)
df_pl.pivot(
    index='region',
    columns='producto',
    values='ventas',
    aggregate_function='sum'
)
```

**Ventaja:** Polars es significativamente más rápido con datasets grandes.


<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2017-2026.</p>