 # **<font color="DarkBlue">Unir, combinar y remodelar 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Manipulando datos </font>**

<p align="justify">
En muchas aplicaciones de análisis de datos, la información no se encuentra en un único lugar o formato. Los datos pueden estar distribuidos en múltiples archivos o bases de datos, o bien organizados de maneras que no son inmediatamente adecuadas para el análisis. Esto puede presentar desafíos importantes, ya que antes de poder analizar los datos, es fundamental reunirlos, limpiarlos y reestructurarlos de manera adecuada.
<br><br>
Afortunadamente, <strong>Pandas</strong> ofrece una serie de herramientas poderosas para abordar estos desafíos y hacer que el manejo de grandes volúmenes de datos sea más eficiente y flexible. Entre estas herramientas se incluyen funciones para combinar, unir y reorganizar datos de diferentes fuentes. Estas operaciones son esenciales para integrar información dispersa en un único DataFrame que pueda ser analizado de forma efectiva.
<br><br>
Una de las características clave que utilizaremos es el concepto de <em>indexación jerárquica</em> en <strong>Pandas</strong>. Este tipo de indexación permite trabajar con múltiples niveles de etiquetas en los ejes de un DataFrame o Series, lo que resulta muy útil cuando los datos tienen una estructura más compleja, como jerarquías o relaciones multinivel. A lo largo de este proceso, aprenderemos a utilizar esta técnica para simplificar la manipulación de datos.
<br><br>
Luego, profundizaremos en las manipulaciones de datos específicas, como la fusión (<em>merge</em>), concatenación (<em>concatenate</em>) y agrupación (<em>groupby</em>). Estas operaciones no solo nos permitirán combinar datos de manera eficiente, sino que también serán útiles para reorganizarlos en el formato más adecuado para su análisis, simplificando el procesamiento de grandes conjuntos de datos.
</p>


 # **<font color="DarkBlue">Indezación jerárquica</font>**

<p align="justify">
La indexación jerárquica es una característica esencial de Pandas que facilita trabajar con datos organizados en múltiples niveles de índices, permitiendo tener dos o más niveles en un mismo eje. Esto es particularmente útil cuando se desea analizar datos con varias categorías o dimensiones, pero en un formato tabular de menor complejidad.
<br><br>
En lugar de utilizar un formato de matriz tridimensional, Pandas permite representar datos de mayor dimensión en una estructura bidimensional, como un DataFrame, sin perder la capacidad de acceder y manipular datos de distintos niveles. Con la indexación jerárquica, puedes realizar operaciones más complejas, como agrupar datos o seleccionar subconjuntos específicos, sin tener que reorganizar el conjunto de datos original.
</p>

👀 Ejemplo:

<p align="justify">
🚀 Supongamos que trabajas con los datos de ventas de una empresa que tiene filiales en diferentes ciudades y vende varios productos. Quieres analizar las ventas de cada producto por ciudad, en diferentes trimestres del año.



In [None]:
import pandas as pd
import numpy as np

In [None]:
# Datos de ejemplo: ventas trimestrales por ciudad y producto

arrays = [
    ['Buenos Aires', 'Buenos Aires', 'Buenos Aires', 'Córdoba', 'Córdoba', 'Córdoba', 'Rosario', 'Rosario', 'Rosario'],
    ['Q1', 'Q2', 'Q3', 'Q1', 'Q2', 'Q3', 'Q1', 'Q2', 'Q3']
]

In [None]:
arrays

[['Buenos Aires',
  'Buenos Aires',
  'Buenos Aires',
  'Córdoba',
  'Córdoba',
  'Córdoba',
  'Rosario',
  'Rosario',
  'Rosario'],
 ['Q1', 'Q2', 'Q3', 'Q1', 'Q2', 'Q3', 'Q1', 'Q2', 'Q3']]

In [None]:
index = pd.MultiIndex.from_arrays(arrays, names=('Ciudad', 'Trimestre'))

In [None]:
index

MultiIndex([('Buenos Aires', 'Q1'),
            ('Buenos Aires', 'Q2'),
            ('Buenos Aires', 'Q3'),
            (     'Córdoba', 'Q1'),
            (     'Córdoba', 'Q2'),
            (     'Córdoba', 'Q3'),
            (     'Rosario', 'Q1'),
            (     'Rosario', 'Q2'),
            (     'Rosario', 'Q3')],
           names=['Ciudad', 'Trimestre'])

In [None]:
# Ventas de productos en diferentes ciudades y trimestres

data = {'Producto A': [200, 220, 250, 180, 190, 210, 160, 170, 180],
        'Producto B': [150, 160, 170, 130, 140, 145, 120, 125, 130],
        'Producto C': [100, 110, 120, 90, 95, 105, 80, 85, 90]}

In [None]:
df = pd.DataFrame(data, index=index)

In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Producto A,Producto B,Producto C
Ciudad,Trimestre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Buenos Aires,Q1,200,150,100
Buenos Aires,Q2,220,160,110
Buenos Aires,Q3,250,170,120
Córdoba,Q1,180,130,90
Córdoba,Q2,190,140,95
Córdoba,Q3,210,145,105
Rosario,Q1,160,120,80
Rosario,Q2,170,125,85
Rosario,Q3,180,130,90


<p align="justify">
💗 Lo que estás viendo es una vista mejorada de un DataFrame con un MultiIndex como índice...

<p align="justify">
🏷 Entonces, con <code>MultiIndex</code> creamos un índice jerárquico utilizando las ciudades y los trimestres como niveles del índice. Este tipo de indexación nos permite organizar los datos en diferentes niveles, de manera que podamos acceder a las ventas por ciudad y trimestre de una manera más ordenada.
<br><br>
Al utilizar indexación jerárquica, puedes seleccionar datos específicos.
<br><br>
Por ejemplo, si quieres obtener las ventas del "Producto A" en "Buenos Aires" durante el primer trimestre, puedes hacer lo siguiente...



In [None]:
# Seleccionar ventas del Producto A en Buenos Aires durante el Q1

ventas_ba_q1_PA = df.loc[('Buenos Aires', 'Q1'), 'Producto A']
ventas_ba_q1_PA


200

In [None]:
# Seleccionar las ventas en Buenos Aires durante el Q1

ventas_ba_q1 = df.loc[('Buenos Aires', 'Q1')]
ventas_ba_q1


Unnamed: 0_level_0,Buenos Aires
Unnamed: 0_level_1,Q1
Producto A,200
Producto B,150
Producto C,100


<p align="justify">
Este tipo de indexación jerárquica es útil cuando manejas grandes volúmenes de datos categorizados en varios niveles, como ventas por ubicación y periodo de tiempo. Puedes fácilmente filtrar, agrupar o comparar las ventas por ciudad o trimestre, lo que te proporciona un análisis más flexible y detallado para la toma de decisiones empresariales.








 ## **<font color="DarkBlue">Método xs</font>**

👀 Vemos nuestro DataFrame

In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Producto A,Producto B,Producto C
Ciudad,Trimestre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Buenos Aires,Q1,200,150,100
Buenos Aires,Q2,220,160,110
Buenos Aires,Q3,250,170,120
Córdoba,Q1,180,130,90
Córdoba,Q2,190,140,95
Córdoba,Q3,210,145,105
Rosario,Q1,160,120,80
Rosario,Q2,170,125,85
Rosario,Q3,180,130,90


👀 y ahora queremos solo el segundo trimestre de todo...

In [None]:
# Seleccionar las ventas en el segundo trimestre (Q2) para todas las ciudades y productos

ventas_q2 = df.xs('Q2', level='Trimestre')
ventas_q2


Unnamed: 0_level_0,Producto A,Producto B,Producto C
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Buenos Aires,220,160,110
Córdoba,190,140,95
Rosario,170,125,85


<p align="justify">
<code>xs()</code>: El método <code>.xs()</code> te permite seleccionar datos en un nivel específico del índice jerárquico. Aquí, seleccionamos todas las ventas correspondientes al segundo trimestre (Q2) en todas las ciudades.
<br><br>
El parámetro <code>level='Trimestre'</code> indica que estamos filtrando en el nivel de trimestres. De esta forma vemos las ventas de Q2 en las ciudades de Buenos Aires, Córdoba y Rosario para los productos A, B y C.



In [None]:
# Seleccionar las ventas de Córdoba

ventas_cordoba = df.xs('Córdoba', level='Ciudad')
ventas_cordoba


Unnamed: 0_level_0,Producto A,Producto B,Producto C
Trimestre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Q1,180,130,90
Q2,190,140,95
Q3,210,145,105


<p align="justify">
La indexación jerárquica desempeña un papel importante en la reestructuración de datos y en operaciones basadas en grupos, como la formación de una tabla dinámica.

 ## **<font color="DarkBlue">Método unstack</font>**

In [None]:
# Creamos un DataFrame con ventas trimestrales jerárquicas (índice jerárquico)

index = pd.MultiIndex.from_product(
    [['Buenos Aires', 'Córdoba', 'Rosario'], ['Producto A', 'Producto B', 'Producto C'], ['Q1', 'Q2', 'Q3', 'Q4']],
    names=['Ciudad', 'Producto', 'Trimestre']
)

In [None]:
# Generamos datos aleatorios de ventas

data = np.random.randint(100, 500, size=(36,))
df = pd.DataFrame(data, index=index, columns=['Ventas'])

In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Ventas
Ciudad,Producto,Trimestre,Unnamed: 3_level_1
Buenos Aires,Producto A,Q1,150
Buenos Aires,Producto A,Q2,499
Buenos Aires,Producto A,Q3,229
Buenos Aires,Producto A,Q4,463
Buenos Aires,Producto B,Q1,238
Buenos Aires,Producto B,Q2,288
Buenos Aires,Producto B,Q3,283
Buenos Aires,Producto B,Q4,237
Buenos Aires,Producto C,Q1,431
Buenos Aires,Producto C,Q2,225


In [None]:
# Usamos unstack() para pivotar el nivel "Trimestre" como columnas

df_unstacked = df.unstack(level='Trimestre')
print("\nDataFrame después de aplicar unstack() sobre el nivel 'Trimestre':")
df_unstacked



DataFrame después de aplicar unstack() sobre el nivel 'Trimestre':


Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,Trimestre,Q1,Q2,Q3,Q4
Ciudad,Producto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Buenos Aires,Producto A,150,499,229,463
Buenos Aires,Producto B,238,288,283,237
Buenos Aires,Producto C,431,225,440,122
Córdoba,Producto A,120,471,442,475
Córdoba,Producto B,133,445,296,240
Córdoba,Producto C,127,267,142,414
Rosario,Producto A,227,211,353,449
Rosario,Producto B,371,234,462,133
Rosario,Producto C,493,109,122,494


<p align="justify">
Convierte uno de los niveles del índice jerárquico en columnas. En este caso, el nivel Trimestre pasa a ser columnas, lo que permite una visualización más plana de los datos.
<br><br>
Este método es útil para reorganizar datos jerárquicos. Por ejemplo, puede ser usado para analizar ventas por ciudad y producto a lo largo de varios trimestres, permitiendo comparar el rendimiento entre períodos de forma más clara cuando se deshacen los niveles de índice con <code>unstack()</code>

In [None]:
df_unstacked

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,Trimestre,Q1,Q2,Q3,Q4
Ciudad,Producto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Buenos Aires,Producto A,150,499,229,463
Buenos Aires,Producto B,238,288,283,237
Buenos Aires,Producto C,431,225,440,122
Córdoba,Producto A,120,471,442,475
Córdoba,Producto B,133,445,296,240
Córdoba,Producto C,127,267,142,414
Rosario,Producto A,227,211,353,449
Rosario,Producto B,371,234,462,133
Rosario,Producto C,493,109,122,494


👀 Los niveles jerárquicos pueden tener nombres:

In [None]:
df_unstacked.index.names

FrozenList(['Ciudad', 'Producto'])

In [None]:
df_unstacked.columns.names

FrozenList([None, 'Trimestre'])

👀 Podemos ver cuántos niveles tiene un índice accediendo a su atributo <code>nlevels</code>:

In [None]:
df_unstacked.index.nlevels

2

 ## **<font color="DarkBlue">Reordenando</font>**

In [None]:
df = df_unstacked
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,Trimestre,Q1,Q2,Q3,Q4
Ciudad,Producto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Buenos Aires,Producto A,150,499,229,463
Buenos Aires,Producto B,238,288,283,237
Buenos Aires,Producto C,431,225,440,122
Córdoba,Producto A,120,471,442,475
Córdoba,Producto B,133,445,296,240
Córdoba,Producto C,127,267,142,414
Rosario,Producto A,227,211,353,449
Rosario,Producto B,371,234,462,133
Rosario,Producto C,493,109,122,494


<p align="justify">
<code>swaplevel()</code> intercambia dos niveles del índice jerárquico. En este caso, intercambiamos los niveles Ciudad y Producto, de forma que las ventas se agrupen primero por producto y luego por ciudad.

In [None]:
# Usamos swaplevel() para intercambiar los niveles 'Ciudad' y 'Producto'

df_swapped = df.swaplevel('Ciudad', 'Producto')
print("\nDataFrame después de aplicar swaplevel('Ciudad', 'Producto'):")
df_swapped


DataFrame después de aplicar swaplevel('Ciudad', 'Producto'):


Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,Trimestre,Q1,Q2,Q3,Q4
Producto,Ciudad,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Producto A,Buenos Aires,150,499,229,463
Producto B,Buenos Aires,238,288,283,237
Producto C,Buenos Aires,431,225,440,122
Producto A,Córdoba,120,471,442,475
Producto B,Córdoba,133,445,296,240
Producto C,Córdoba,127,267,142,414
Producto A,Rosario,227,211,353,449
Producto B,Rosario,371,234,462,133
Producto C,Rosario,493,109,122,494


<p align="justify">

<code>sort_index()</code> reorganiza el DataFrame según el índice jerárquico, ordenando alfabéticamente o numéricamente los niveles después de haber sido intercambiados. Esto ayuda a ordenar y organizar los datos de forma más legible y estructurada.


In [None]:
# Usamos sort_index() para ordenar el índice jerárquico

df_sorted = df_swapped.sort_index()
print("\nDataFrame después de aplicar sort_index():")
df_sorted


DataFrame después de aplicar sort_index():


Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,Trimestre,Q1,Q2,Q3,Q4
Producto,Ciudad,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Producto A,Buenos Aires,150,499,229,463
Producto A,Córdoba,120,471,442,475
Producto A,Rosario,227,211,353,449
Producto B,Buenos Aires,238,288,283,237
Producto B,Córdoba,133,445,296,240
Producto B,Rosario,371,234,462,133
Producto C,Buenos Aires,431,225,440,122
Producto C,Córdoba,127,267,142,414
Producto C,Rosario,493,109,122,494


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>