 # **<font color="DarkBlue">Operaciones entre DataFrames y Series 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Tipos de operaciones</font>**

<p align="justify">
Las operaciones entre DataFrames y Series en Pandas permiten realizar cálculos y transformaciones eficientes sobre los datos. Estas operaciones son fundamentales para el análisis de datos, ya que permiten manipular y combinar diferentes fuentes de datos, aplicar funciones matemáticas y lógicas, y generar nuevas métricas.
<br><br>
Ejemplo, una empresa está evaluando las ventas y costos de productos en diferentes tiendas, y aplica un descuento específico a las ventas en función de la tienda.




In [None]:
import pandas as pd

In [None]:
# Datos de ventas por tienda y producto
data = {
    'Tienda': ['Tienda A', 'Tienda A', 'Tienda B', 'Tienda B', 'Tienda C', 'Tienda C'],
    'Producto': ['Producto 1', 'Producto 2', 'Producto 1', 'Producto 2', 'Producto 1', 'Producto 2'],
    'Ventas': [20000, 15000, 18000, 16000, 22000, 19000],
    'Costo': [12000, 10000, 11000, 9500, 13000, 11500],
    'Cantidad Vendida': [500, 400, 450, 420, 550, 480]
}

In [None]:
# Creando el DataFrame
df = pd.DataFrame(data)

In [None]:
# Descuentos aplicados por tienda
descuentos = pd.Series({
    'Tienda A': 0.05,  # 5% de descuento
    'Tienda B': 0.10,  # 10% de descuento
    'Tienda C': 0.07   # 7% de descuento
})

 ## **<font color="DarkBlue">Operaciones Aritméticas</font>**

<p align="justify">
Calcular la ganancia bruta (Ventas - Costo) para cada producto en cada tienda.

In [None]:
df['Ganancia Bruta'] = df['Ventas'] - df['Costo']

In [None]:
df[['Tienda', 'Producto', 'Ganancia Bruta']]

Unnamed: 0,Tienda,Producto,Ganancia Bruta
0,Tienda A,Producto 1,8000
1,Tienda A,Producto 2,5000
2,Tienda B,Producto 1,7000
3,Tienda B,Producto 2,6500
4,Tienda C,Producto 1,9000
5,Tienda C,Producto 2,7500


 ## **<font color="DarkBlue">Operaciones de Alineación</font>**

<p align="justify">
Aplicar el descuento a las ventas para obtener las ventas ajustadas después del descuento.



In [None]:
df['Ventas Ajustadas'] = df['Ventas'] * (1 - df['Tienda'].map(descuentos))

In [None]:
df[['Tienda', 'Producto', 'Ventas Ajustadas']]

Unnamed: 0,Tienda,Producto,Ventas Ajustadas
0,Tienda A,Producto 1,19000.0
1,Tienda A,Producto 2,14250.0
2,Tienda B,Producto 1,16200.0
3,Tienda B,Producto 2,14400.0
4,Tienda C,Producto 1,20460.0
5,Tienda C,Producto 2,17670.0


 ## **<font color="DarkBlue">Aplicación de Funciones</font>**

<p align="justify">
Calcular el precio medio por unidad vendida en cada tienda.

In [None]:
df['Precio Medio'] = df['Ventas'] / df['Cantidad Vendida']

In [None]:
df[['Tienda', 'Producto', 'Precio Medio']]

Unnamed: 0,Tienda,Producto,Precio Medio
0,Tienda A,Producto 1,40.0
1,Tienda A,Producto 2,37.5
2,Tienda B,Producto 1,40.0
3,Tienda B,Producto 2,38.095238
4,Tienda C,Producto 1,40.0
5,Tienda C,Producto 2,39.583333


 ## **<font color="DarkBlue">Operaciones entre DataFrames y Series</font>**

<p align="justify">
Para analizar cómo los descuentos afectan la ganancia bruta, podemos calcular la ganancia neta ajustada.
<br><br>
Ejemplo: Calcular la ganancia neta ajustada aplicando los descuentos a las ventas y luego restar el costo.



In [None]:
df['Ganancia Neta Ajustada'] = (df['Ventas'] * (1 - df['Tienda'].map(descuentos))) - df['Costo']

In [None]:
df[['Tienda', 'Producto', 'Ganancia Neta Ajustada']]

Unnamed: 0,Tienda,Producto,Ganancia Neta Ajustada
0,Tienda A,Producto 1,7000.0
1,Tienda A,Producto 2,4250.0
2,Tienda B,Producto 1,5200.0
3,Tienda B,Producto 2,4900.0
4,Tienda C,Producto 1,7460.0
5,Tienda C,Producto 2,6170.0


 # **<font color="DarkBlue">Apply() y map()</font>**

<p align="justify">
En Pandas, aplicar y mapear funciones son métodos fundamentales para transformar y manipular datos en un DataFrame o en las Series.


 ## **<font color="DarkBlue">Aplicación de Funciones (apply)</font>**

<p align="justify">
El método apply se utiliza para aplicar una función a lo largo de un eje (filas o columnas) en un DataFrame o a cada elemento en una Serie. Es muy versátil y permite aplicar funciones personalizadas o integradas a los datos.
<br><br>
Uso en Series
<br><br>
Cuando se usa apply en una Serie, la función se aplica a cada elemento de la Serie.
<br><br>
Uso en DataFrames
<br><br>
Cuando se usa apply en un DataFrame, se puede especificar el eje sobre el cual aplicar la función (axis=0 para columnas y axis=1 para filas).



<p align="justify">
Supongamos que una empresa de comercio electrónico tiene un DataFrame con información de ventas, incluyendo la fecha de venta, el monto total de la venta y la categoría de producto. La empresa quiere calcular el descuento aplicado a cada venta basado en la categoría del producto y agregar una columna que indique si una venta es alta, media o baja, basándose en el monto total de la venta.



In [None]:
# Datos de ventas
data = {
    'Fecha': ['2024-01-15', '2024-02-20', '2024-03-05', '2024-04-10', '2024-05-22'],
    'Monto Total': [1500, 3000, 2500, 1000, 3500],
    'Categoría': ['Electrónica', 'Ropa', 'Electrónica', 'Accesorios', 'Electrónica']
}

In [None]:
# Creación del DataFrame
df = pd.DataFrame(data)

In [None]:
# Descuentos por categoría
descuentos = {
    'Electrónica': 0.1,   # 10% de descuento
    'Ropa': 0.15,         # 15% de descuento
    'Accesorios': 0.05    # 5% de descuento
}

<p align="justify">
Calculando el Monto con Descuento
<br><br>
Primero, se aplicará una función para calcular el monto ajustado después del descuento basado en la categoría del producto.

In [None]:
# Función para aplicar el descuento basado en la categoría
def aplicar_descuento(fila):
    descuento = descuentos[fila['Categoría']]
    return fila['Monto Total'] * (1 - descuento)

In [None]:
df['Monto con Descuento'] = df.apply(aplicar_descuento, axis=1)
df

Unnamed: 0,Fecha,Monto Total,Categoría,Monto con Descuento
0,2024-01-15,1500,Electrónica,1350.0
1,2024-02-20,3000,Ropa,2550.0
2,2024-03-05,2500,Electrónica,2250.0
3,2024-04-10,1000,Accesorios,950.0
4,2024-05-22,3500,Electrónica,3150.0


<p align="justify">
Clasificando Ventas
<br><br>
Luego, se puede usar apply para clasificar las ventas como alta, media o baja basado en el monto total.

In [None]:
# Función para clasificar las ventas
def clasificar_venta(monto):
    if monto > 3000:
        return 'Alta'
    elif monto > 1500:
        return 'Media'
    else:
        return 'Baja'

In [None]:
# Aplicar la función a la columna 'Monto Total'
df['Clasificación Venta'] = df['Monto Total'].apply(clasificar_venta)
df

Unnamed: 0,Fecha,Monto Total,Categoría,Monto con Descuento,Clasificación Venta
0,2024-01-15,1500,Electrónica,1350.0,Baja
1,2024-02-20,3000,Ropa,2550.0,Media
2,2024-03-05,2500,Electrónica,2250.0,Media
3,2024-04-10,1000,Accesorios,950.0,Baja
4,2024-05-22,3500,Electrónica,3150.0,Alta


 ## **<font color="DarkBlue">Mapeo de Funciones (map)</font>**

<p align="justify">
El método map se utiliza para aplicar una función a cada elemento de una Serie. Es útil cuando se tiene una Serie y se quiere realizar una transformación sencilla o se desea reemplazar valores con base en un mapeo.
<br><br>
Uso en Series
<br><br>
map es ideal para reemplazar valores en una Serie utilizando un diccionario de mapeo o una función. Usando el mismo DataFrame, si la empresa quiere agregar una columna que muestre el descuento en formato porcentual basado en la categoría del producto, se puede usar map.



In [None]:
df['Descuento (%)'] = df['Categoría'].map(lambda cat: descuentos[cat] * 100)
df

Unnamed: 0,Fecha,Monto Total,Categoría,Monto con Descuento,Clasificación Venta,Descuento (%)
0,2024-01-15,1500,Electrónica,1350.0,Baja,10.0
1,2024-02-20,3000,Ropa,2550.0,Media,15.0
2,2024-03-05,2500,Electrónica,2250.0,Media,10.0
3,2024-04-10,1000,Accesorios,950.0,Baja,5.0
4,2024-05-22,3500,Electrónica,3150.0,Alta,10.0


- apply: Permite aplicar funciones a lo largo de un eje de un DataFrame o a cada elemento de una Serie. Es útil para transformaciones más complejas y para aplicar funciones personalizadas a cada fila o columna.

- map: Permite aplicar funciones o realizar reemplazos de valores en una Serie. Es ideal para transformaciones simples o mapeo directo de valores.

<p align="justify">
Otro ejemplo
<br><br>
Supongamos que una empresa de análisis financiero tiene un DataFrame que contiene las previsiones de ingresos y costos para diferentes departamentos en distintas regiones. Los valores en el DataFrame están en formato bruto, y la empresa quiere convertir todos los valores a miles de unidades para facilitar la lectura y comparación.




In [None]:
# Datos financieros
data = {
    'Región': ['Norte', 'Sur', 'Este', 'Oeste'],
    'Ingresos Departamento A': [100000, 150000, 120000, 130000],
    'Ingresos Departamento B': [90000, 160000, 110000, 140000],
    'Costos Departamento A': [50000, 80000, 60000, 70000],
    'Costos Departamento B': [45000, 85000, 58000, 65000]
}

In [None]:
# Creación del DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,100000,90000,50000,45000
1,Sur,150000,160000,80000,85000
2,Este,120000,110000,60000,58000
3,Oeste,130000,140000,70000,65000


<p align="justify">
La empresa quiere convertir todos los valores numéricos en el DataFrame de unidades completas a miles de unidades (es decir, dividir todos los valores por 1,000).



In [None]:
# Función para convertir valores a miles de unidades
def convertir_a_miles(x):
    return x / 1000

In [None]:
# Aplicar la función a cada elemento del DataFrame
df.iloc[:, 1:] = df.iloc[:, 1:].map(convertir_a_miles)
df

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,100.0,90.0,50.0,45.0
1,Sur,150.0,160.0,80.0,85.0
2,Este,120.0,110.0,60.0,58.0
3,Oeste,130.0,140.0,70.0,65.0


 # **<font color="DarkBlue">Ordenando y clasificando</font>**

<p align="justify">
Ordenar y clasificar son operaciones fundamentales en el análisis de datos con Pandas. Estas operaciones permiten organizar los datos de manera que se pueda trabajar de manera más eficiente y extraer información más relevante.
<br><br>
A continuación se explica cómo funcionan estas operaciones, seguidas de ejemplos utilizando los métodos:

- sort_index(),
- sort_values() y
- rank().



 ## **<font color="DarkBlue">Ordenar por Valores</font>**

<p align="justify">
Ahora, la empresa quiere identificar qué producto ha tenido más ventas en la región "Norte" ordenando las ventas de mayor a menor.



In [None]:
df

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,100.0,90.0,50.0,45.0
1,Sur,150.0,160.0,80.0,85.0
2,Este,120.0,110.0,60.0,58.0
3,Oeste,130.0,140.0,70.0,65.0


In [None]:
# Ordenar el DataFrame por las ventas en la región "Norte"
df_sorted_values = df.sort_values(by="Región", ascending=False)

In [None]:
# Mostrar el DataFrame ordenado por ventas en la región Norte
df_sorted_values

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
1,Sur,150.0,160.0,80.0,85.0
3,Oeste,130.0,140.0,70.0,65.0
0,Norte,100.0,90.0,50.0,45.0
2,Este,120.0,110.0,60.0,58.0


 ## **<font color="DarkBlue">Ordenando por indice</font>**

<p align="justify">
Supongamos que la empresa quiere ordenar los datos por la región de forma alfabética.

In [None]:
# Ordenar el DataFrame por el índice (Región)
df_sorted_index = df_sorted_values.sort_index()

In [None]:
# Mostrar el DataFrame ordenado por índice
df_sorted_index

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,100.0,90.0,50.0,45.0
1,Sur,150.0,160.0,80.0,85.0
2,Este,120.0,110.0,60.0,58.0
3,Oeste,130.0,140.0,70.0,65.0


 ## **<font color="DarkBlue">Clasificar con rank()</font>**

<p align="justify">
Finalmente, la empresa desea clasificar los productos en cada región según el número de ventas, donde el producto más vendido obtiene el rango más alto.

In [None]:
df

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,100.0,90.0,50.0,45.0
1,Sur,150.0,160.0,80.0,85.0
2,Este,120.0,110.0,60.0,58.0
3,Oeste,130.0,140.0,70.0,65.0


In [None]:
# Clasificar los productos por sus ventas en cada región
df_rank = df.iloc[:, 1:].rank(axis=1, method='dense', ascending=False)
df_rank

Unnamed: 0,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,1.0,2.0,3.0,4.0
1,2.0,1.0,4.0,3.0
2,1.0,2.0,3.0,4.0
3,2.0,1.0,3.0,4.0


In [None]:
# Agregar la columna 'Región' de vuelta al DataFrame clasificado
df_rank.insert(0, 'Región', df['Región'])
df_rank

Unnamed: 0,Región,Ingresos Departamento A,Ingresos Departamento B,Costos Departamento A,Costos Departamento B
0,Norte,1.0,2.0,3.0,4.0
1,Sur,2.0,1.0,4.0,3.0
2,Este,1.0,2.0,3.0,4.0
3,Oeste,2.0,1.0,3.0,4.0


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
