<p align="center">
  <span style="color:Navy; font-size:200%; font-weight:bold; vertical-align:middle;">
    Temas Selectos: Python para Ciencias de la Tierra
  </span>
  <img src="attachment:image.png" alt="ENCiT" width="150" style="vertical-align:middle; margin-left:20px;"/>
</p>

<p align="center" style="line-height:1.2;">
  <span style="color:RoyalBlue; font-size:160%;">Tema 1: Introducción</span><br/>
  <span style="color:DodgerBlue; font-size:140%;">Notebook 5: Pandas </span><br/>
  <span style="font-size:100%;color:forestgreen"> Escuela Nacional de Ciencias de la Tierra  |  Semestre 2026-I</span>
</p>

---

## **<font color="ForestGreen">  ¿Por qué Pandas? </font>**

_Pandas_ es una poderosa biblioteca de Python utilizada principalmente para la manipulación y análisis de datos en el ámbito de la ciencia de datos. Su funcionalidad y utilidad radican en su capacidad para trabajar con conjuntos de datos tabulares de manera eficiente y flexible. Algunas de las características clave de Pandas incluyen:

- Estructuras de Datos Flexibles: Pandas proporciona dos estructuras de datos principales: Series y DataFrame. Una Serie es una matriz unidimensional que puede contener datos de cualquier tipo, mientras que un DataFrame es una estructura bidimensional similar a una tabla que organiza los datos en filas y columnas, lo que permite la manipulación de datos tabulares de manera intuitiva.

- Manipulación de Datos: Pandas ofrece una amplia gama de funcionalidades para la manipulación de datos, incluyendo la selección, filtrado, agregación, transformación y visualización de datos. Estas operaciones permiten limpiar y preparar los datos para su análisis de manera eficiente.

- Integración con otras bibliotecas: Pandas se integra perfectamente con otras bibliotecas populares de Python utilizadas en ciencia de datos, como NumPy, Matplotlib y Scikit-learn, lo que permite un flujo de trabajo completo para el análisis y modelado de datos.

En el campo de las *Ciencias de la Tierra*, Pandas se utiliza ampliamente para la manipulación y análisis de datos geoespaciales, así como para la exploración y visualización de datos climáticos, geológicos, hidrológicos y ambientales. Con Pandas, los científicos de la Tierra pueden cargar, limpiar y analizar conjuntos de datos complejos, realizar cálculos estadísticos y crear visualizaciones informativas que ayuden a comprender mejor los fenómenos naturales y los procesos terrestres.

En resumen, Pandas es una herramienta fundamental en el arsenal de cualquier científico de datos y profesional en Ciencias de la Tierra, ya que proporciona las herramientas necesarias para explorar y comprender datos tabulares de manera efectiva y eficiente.

Para saber más de pandas, revisar: https://aprendeconalf.es/docencia/python/manual/pandas/

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import datetime

El objeto principal de pandas es un `DataFrame`. Un DataFrame en Pandas es una estructura de datos bidimensional etiquetada y tabular que se utiliza para almacenar y manipular conjuntos de datos de forma similar a una hoja de cálculo o una tabla de base de datos. Esencialmente, un DataFrame consta de **filas y columnas**, donde cada columna puede contener datos de diferentes tipos, como enteros, flotantes, cadenas de caracteres u otros objetos de Python. Por esta razón cuando pensemos en Pandas, frecuentemente pensamos en **tablas**.

Pandas trabaja alrededor del objeto DataFrame porque proporciona una manera poderosa y flexible de organizar, analizar y manipular datos tabulares. 

Existen varias maneras de crear un objeto `DataFrame`, empecemos por las más sencillas y explícitas.

In [3]:
# Creación de un DataFrame a partir de un diccionario
data = {
    'Nombre': ['Juan', 'María', 'Pedro', 'Ana','Jorge','Carlos'],
    'Edad': [25, 30, 35, 40,21,20],
    'Ciudad': ['Madrid', 'Puebla', 'Xalapa', 'Huatulco','Zitacuaro','Xalapa']
}
df = pd.DataFrame(data)


In [4]:
# Mostrar los primeros registros del DataFrame
print("Primeros registros del DataFrame:")
print(df.head())
print("Ultimos registros del DataFrame:")
print(df.tail())

Primeros registros del DataFrame:
  Nombre  Edad     Ciudad
0   Juan    25     Madrid
1  María    30     Puebla
2  Pedro    35     Xalapa
3    Ana    40   Huatulco
4  Jorge    21  Zitacuaro
Ultimos registros del DataFrame:
   Nombre  Edad     Ciudad
1   María    30     Puebla
2   Pedro    35     Xalapa
3     Ana    40   Huatulco
4   Jorge    21  Zitacuaro
5  Carlos    20     Xalapa


In [5]:
# Obtener información sobre el DataFrame
print("Información del DataFrame:")
print(df.info())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  6 non-null      object
 1   Edad    6 non-null      int64 
 2   Ciudad  6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes
None


In [6]:
# Selección de columnas
print("Selección de columnas:")
print(df['Nombre'])
print(df[['Nombre', 'Edad']])

Selección de columnas:
0      Juan
1     María
2     Pedro
3       Ana
4     Jorge
5    Carlos
Name: Nombre, dtype: object
   Nombre  Edad
0    Juan    25
1   María    30
2   Pedro    35
3     Ana    40
4   Jorge    21
5  Carlos    20


Las operaciones con columnas en Pandas son muy comunes y útiles para calcular estadísticas resumidas de los datos. Aquí se muestra cómo usar `df.mean()` y `df.sum()` para calcular el promedio y la suma de las columnas de un DataFrame. Noten que a Pandas no le gusta que le pida uno calcular promedios de cosas que no son números como la columna de edad. 

In [7]:
# Operaciones con columnas
print("Operaciones con columnas (promedio) de la columna Edad:")
print(df['Edad'].mean())

Operaciones con columnas (promedio) de la columna Edad:
28.5


In [8]:
# Operaciones con columnas
print("Operaciones con columnas (suma):")
print(df['Edad'].sum())

Operaciones con columnas (suma):
171


### **Filtrado y operaciones con columnas en Pandas**

Una de las grandes ventajas de Pandas es la posibilidad de **filtrar datos** fácilmente usando condiciones, así como **crear y manipular columnas** de manera muy flexible.  

- **Filtrado:** se pueden aplicar condiciones sobre las columnas y obtener sólo las filas que cumplen con ellas.  
- **Operaciones con columnas:** podemos generar nuevas columnas a partir de operaciones con las existentes.  

Ejemplos:

In [9]:
# Filtrado de datos para seleccionar solo cuando la edad sea mayor a 30
print("Filtrado de datos:")
print(df[df['Edad'] > 30])

Filtrado de datos:
  Nombre  Edad    Ciudad
2  Pedro    35    Xalapa
3    Ana    40  Huatulco


In [10]:
# Manipulación de columnas
print("Manipulación de columnas:")
# se puede crear una columna nueva
df['Edad_doble'] = df['Edad'] * 2
print(df)

Manipulación de columnas:
   Nombre  Edad     Ciudad  Edad_doble
0    Juan    25     Madrid          50
1   María    30     Puebla          60
2   Pedro    35     Xalapa          70
3     Ana    40   Huatulco          80
4   Jorge    21  Zitacuaro          42
5  Carlos    20     Xalapa          40


Podemos agregar columnas si queremos, pero **tienen** que tener el número correcto de filas. Es decir, si el dataframe tiene 10 filas, tengo que especificar una columna con ese número de filas. 

In [11]:
df['Pais/Estado']=['España','Puebla','Veracruz','Michoacan','Oaxaca','Veracruz']
print(df)

   Nombre  Edad     Ciudad  Edad_doble Pais/Estado
0    Juan    25     Madrid          50      España
1   María    30     Puebla          60      Puebla
2   Pedro    35     Xalapa          70    Veracruz
3     Ana    40   Huatulco          80   Michoacan
4   Jorge    21  Zitacuaro          42      Oaxaca
5  Carlos    20     Xalapa          40    Veracruz


Si especificamos un número incorrecto de valores en las filas, no se puede agregar una columna adicional

In [19]:
df['Numeros']=np.arange(1,6)
print(df)

ValueError: Length of values (5) does not match length of index (6)

Finalmente, podemos hacer cambios directamente en nuestro dataframe, si quisiéramos cambiar algún valor. 

Una, de varias, maneras de hacer esto es con el atributo `loc`, que se utiliza para hacer cambios específicos en partes. 

`df.loc[condicion,columna]=nuevo_valor`

Por ejemplo, para cambiar los estados de las ciudades de Huatulco y Zitacuaro, podemos hacer:

In [13]:
df.loc[df.Ciudad=='Huatulco','Pais/Estado']='Oaxaca'
df.loc[df.Ciudad=='Zitacuaro','Pais/Estado']='Michoacan'
print(df)

   Nombre  Edad     Ciudad  Edad_doble Pais/Estado
0    Juan    25     Madrid          50      España
1   María    30     Puebla          60      Puebla
2   Pedro    35     Xalapa          70    Veracruz
3     Ana    40   Huatulco          80      Oaxaca
4   Jorge    21  Zitacuaro          42   Michoacan
5  Carlos    20     Xalapa          40    Veracruz


### **<font color="ForestGreen">  Agrupando ando </font>**

En la siguiente celda se agrupan los datos por ciudad y se obtiene el promedio de la edad para cada grupo. En nuestro ejemplo sólo Carlos y Pedro son de la misma ciudad. Entonces sólo será el valor de Xalapa el que se verá diferente. 

Se muestran, además, dos maneras diferentes de hacer lo mismo. 

La primera utiliza la sintaxis de `df.groupby` y un `.agg` dentro de agg tenemos que señalar primero la columna y luego la operación que queremos hacer. O sea `.agg({Edad:mean})` hace el promedio de la columna edad para el grupo que tengamos. 

Otra manera, un poco más directa es hacer `df.groupby('Ciudad').mean()`. 

Es decir, primero con groupby agrupamos los datos por ese valor de esa columna y luego sacamos el promedio. 


In [15]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble,Pais/Estado
0,Juan,25,Madrid,50,España
1,María,30,Puebla,60,Puebla
2,Pedro,35,Xalapa,70,Veracruz
3,Ana,40,Huatulco,80,Oaxaca
4,Jorge,21,Zitacuaro,42,Michoacan
5,Carlos,20,Xalapa,40,Veracruz


In [17]:
# Agrupación y agregación de datos
print(" Agrupación y agregación de datos:")
grouped2 = df.groupby('Ciudad')['Edad'].mean()
print(grouped2)
grouped1 = df.groupby('Ciudad').agg({'Edad': 'mean'})
print(grouped1)

 Agrupación y agregación de datos:
Ciudad
Huatulco     40.0
Madrid       25.0
Puebla       30.0
Xalapa       27.5
Zitacuaro    21.0
Name: Edad, dtype: float64
           Edad
Ciudad         
Huatulco   40.0
Madrid     25.0
Puebla     30.0
Xalapa     27.5
Zitacuaro  21.0


Pandas tiene muchísimas ventajas. Una de ellas es que se pueden acceder a los datos e índices rápidos para hacer gráficas. Por ejemplo, una gráfica de barras se puede ver rápidamente así:

In [26]:
df_ordenado = df.sort_values(by='Edad')
print(df_ordenado)

   Nombre  Edad     Ciudad  Edad_doble Pais/Estado
5  Carlos    20     Xalapa          40    Veracruz
4   Jorge    21  Zitacuaro          42   Michoacan
0    Juan    25     Madrid          50      España
1   María    30     Puebla          60      Puebla
2   Pedro    35     Xalapa          70    Veracruz
3     Ana    40   Huatulco          80      Oaxaca


---
<a name='ej-1'></a>
### **<font color="DodgerBlue">Ejercicio 9 - *Arriba los jóvenes* </font>**

<font color="DarkBlue"> 1. Seleccione del dataframe que hemos utilizado sólo valores donde la edad doble sea menor o igual a 70. </font>
    
<font color="DarkBlue"> 2. De esos datos restantes, obtenga el promedio de la edad. </font>
    
---

### **<font color="ForestGreen">  La importancia del índice </font>**

En la celda anterior vimos que utilizamos algo así como `df.index`, pero qué es esto del índice se preguntarán ustedes. Vamos a verlo con otro dataframe. Uno que podemos imaginar como los datos de un supermercado que ha registrado ciertas compras a diferentes horas del día. 

![image.png](attachment:image.png)

In [27]:
# Creamos una lista de fechas
fechas = [datetime.datetime.today() - datetime.timedelta(days=x) for x in range(25)]

# Creamos un diccionario con datos aleatorios
data = {
    'ID': range(1, 26),
    'Nombre': ['Producto ' + str(i) for i in range(1, 26)],
    'Cantidad': np.random.randint(1, 100, size=25),
    'Precio': np.random.uniform(1, 100, size=25),
    'Fecha': fechas
}

# Creamos el DataFrame
df = pd.DataFrame(data)

# Mostramos el DataFrame
df

Unnamed: 0,ID,Nombre,Cantidad,Precio,Fecha
0,1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130
1,2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143
2,3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147
3,4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149
4,5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151
5,6,Producto 6,22,78.434033,2025-08-16 13:04:17.109154
6,7,Producto 7,57,27.05107,2025-08-15 13:04:17.109156
7,8,Producto 8,19,68.854266,2025-08-14 13:04:17.109161
8,9,Producto 9,76,40.929554,2025-08-13 13:04:17.109165
9,10,Producto 10,54,91.105082,2025-08-12 13:04:17.109168


El índice en Pandas, `df.index` es una parte fundamental de los DataFrames y Series. Sirve como etiqueta para las filas o elementos de los datos almacenados en estas estructuras de datos. El índice proporciona una identificación única para cada fila y facilita el acceso, la manipulación y la comprensión de los datos almacenados.

Utilidad del índice en Pandas:

1. **Identificación única de filas**: El índice garantiza que cada fila en un DataFrame o Serie tenga una identificación única. Esto permite acceder a filas específicas utilizando etiquetas de índice o realizar operaciones basadas en la ubicación de las filas.

2. **Selección y filtrado de datos**: Pandas permite seleccionar y filtrar datos utilizando etiquetas de índice, lo que facilita la manipulación de conjuntos de datos grandes y complejos. Por ejemplo, puedes seleccionar filas específicas utilizando `df.loc[]` o realizar selecciones basadas en condiciones utilizando operadores de comparación.

3. **Alineación de datos**: Pandas realiza alineación automática de datos basada en el índice durante operaciones aritméticas y de combinación de datos. Esto asegura que las operaciones se realicen correctamente incluso cuando los datos no tienen el mismo orden o las mismas etiquetas de índice.

4. **Operaciones de conjunto**: El índice facilita la realización de operaciones de conjuntos, como la unión, la intersección y la diferencia, entre conjuntos de datos. Esto es especialmente útil al combinar o comparar datos de diferentes fuentes.

5. **Facilita la manipulación de datos temporales**: En el caso de datos temporales, el índice puede representar marcas de tiempo o fechas. Esto permite realizar operaciones de manipulación de series temporales de manera eficiente y realizar análisis basados en el tiempo.

En resumen, el índice en Pandas desempeña un papel crucial en la organización, manipulación y análisis de datos. Proporciona una forma eficiente y poderosa de acceder, filtrar y alinear datos, así como realizar operaciones basadas en etiquetas de fila. Comprender y utilizar el índice de manera efectiva es esencial para trabajar con éxito con conjuntos de datos en Pandas.

Vamos a ir viendo cada uno de estos por partes. 

In [28]:
# funcionalidad 1
print(df.head())
# solo el indice
print(df.head().index)

   ID      Nombre  Cantidad     Precio                      Fecha
0   1  Producto 1        14  36.199228 2025-08-21 13:04:17.109130
1   2  Producto 2        57  14.899322 2025-08-20 13:04:17.109143
2   3  Producto 3        31  88.242695 2025-08-19 13:04:17.109147
3   4  Producto 4        53  96.930012 2025-08-18 13:04:17.109149
4   5  Producto 5        43  28.110895 2025-08-17 13:04:17.109151
RangeIndex(start=0, stop=5, step=1)


In [29]:
# para ver la primer fila de nuestra base de datos
print(df.loc[df.index[0]])

ID                                   1
Nombre                      Producto 1
Cantidad                            14
Precio                       36.199228
Fecha       2025-08-21 13:04:17.109130
Name: 0, dtype: object


In [30]:
# ahora la ultima
print(df.loc[df.index[-1]])

ID                                  25
Nombre                     Producto 25
Cantidad                            29
Precio                       89.253649
Fecha       2025-07-28 13:04:17.109198
Name: 24, dtype: object


In [31]:
# slice para los primeros 5 elementos del dataframe
print(df.loc[df.index<5])

   ID      Nombre  Cantidad     Precio                      Fecha
0   1  Producto 1        14  36.199228 2025-08-21 13:04:17.109130
1   2  Producto 2        57  14.899322 2025-08-20 13:04:17.109143
2   3  Producto 3        31  88.242695 2025-08-19 13:04:17.109147
3   4  Producto 4        53  96.930012 2025-08-18 13:04:17.109149
4   5  Producto 5        43  28.110895 2025-08-17 13:04:17.109151


El índice puede ser modificado una vez que ya se hizo el dataframe. Hay dos maneras de hacer esto. Una es redefiniendo el indice y otra con la función `set_index()` que toma como argumento opcional `inplace=True` para decirle que modifique al objeto `df` directamente sin tener que guardarlo en otra variable. Sin `inplace=True`, no se guardaría nuestro resultado.

In [32]:
# primera manera
df.index=df['Fecha']
df.head()

Unnamed: 0_level_0,ID,Nombre,Cantidad,Precio,Fecha
Fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2025-08-21 13:04:17.109130,1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130
2025-08-20 13:04:17.109143,2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143
2025-08-19 13:04:17.109147,3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147
2025-08-18 13:04:17.109149,4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149
2025-08-17 13:04:17.109151,5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151


In [33]:
# primera manera
df.set_index('ID',inplace=True)
df.head()

Unnamed: 0_level_0,Nombre,Cantidad,Precio,Fecha
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130
2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143
3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147
4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149
5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151


Ahora vamos a hacer otro ejemplo para ver cómo Pandas hace las operaciones con dataframes a partir del índice. Esto es el punto 3 de los 5 de arriba. 

Si el índice está bien pensado y escrito en Pandas, podemos hacer muchas cosas. En este caso, vamos a hacer dos nuevos dataframes, uno para la cantidad y otro para el precio de los productos anteriores. Sus valores serán aleatorios. Pero si queremos calcular una operación de dos dataframes diferentes, necesitamos del índice.


In [40]:
# Suponiendo que df1 contiene los datos de ventas y df2 contiene los precios de los productos
df_ventas = pd.DataFrame({
    'ID': range(1, 26),
    'Cantidad': np.random.randint(1, 100, size=25)
})

df_precios = pd.DataFrame({
    'ID': range(1, 26),
    'Precio': np.random.uniform(1, 100, size=25)
})

print('Ventas')
print(df_ventas.head())
print('Precio')
print(df_precios.head())

Ventas
   ID  Cantidad
0   1        70
1   2        15
2   3        53
3   4        38
4   5        62
Precio
   ID     Precio
0   1  22.067223
1   2  98.352603
2   3  61.111110
3   4   4.397195
4   5  94.650464


In [41]:
# Establecemos el índice en ambos DataFrames
df_ventas.set_index('ID', inplace=True)
df_precios.set_index('ID', inplace=True)

# Calculamos el total de ventas multiplicando la cantidad vendida por el precio unitario
total_ventas = df_ventas['Cantidad'] * df_precios['Precio']

# Mostramos el resultado
total_ventas.head()

ID
1    1544.705637
2    1475.289039
3    3238.888846
4     167.093410
5    5868.328788
dtype: float64

El punto 4. **Operaciones de conjunto**: se refiere a que podemos hacer ciertas operaciones con 2 dataframes que nos permitan unirlos o evaluar cosas en común. 

Los principales métodos para hacer esto son:

- `merge()`:
        El método `merge()` se utiliza para combinar dos DataFrames en función de una o más columnas que tengan valores comunes.
        Puedes especificar las columnas clave de combinación utilizando los parámetros left_on y right_on si las columnas tienen nombres diferentes en los DataFrames, o usar `left_index=True` y `right_index=True` si deseas combinar en función de los índices.
        El método `merge()` es más flexible y poderoso que `join()` y puede manejar casos más complejos de combinación de datos.

- `join()`:
        El método `join()` es similar a merge(), pero está diseñado para combinar DataFrames en función de sus índices.
        Por defecto, `join()` realiza una combinación de tipo "left join", donde las filas del DataFrame de la izquierda se conservan y se completan con valores correspondientes del DataFrame de la derecha.
        `join()` es conveniente cuando quieres combinar DataFrames en función de sus índices y cuando los DataFrames comparten los mismos nombres de columnas. Join se utiliza de manera diferente a `merge` ya que su sintaxis es del tipo `DataFrame.join(DataFrame2)`.

- `concatenate()`:
        La función `concatenate()` se utiliza para concatenar DataFrames a lo largo de un eje específico (por defecto, a lo largo del eje 0, es decir, las filas).
        Puedes especificar una lista de DataFrames que deseas concatenar y Pandas los combinará a lo largo del eje especificado.
        `concatenate()` es útil cuando deseas combinar múltiples DataFrames sin realizar una combinación basada en valores de columna o índice.

- `intersection()`:
        El método `intersection()` se utiliza para encontrar la intersección de los índices (o columnas) de dos DataFrames o Series.
        Puedes usar `intersection()` para encontrar los elementos que son comunes en los índices de los DataFrames.
        Esto es útil para identificar los elementos compartidos entre dos conjuntos de datos y puede ser útil al realizar operaciones de conjunto o al comparar datos.

En resumen, `merge()`, `join()`, `concatenate()` e `intersection()` son funciones y métodos fundamentales en Pandas que te permiten combinar, unir y manipular DataFrames y Series de manera eficiente y flexible. La elección de cuál utilizar depende de tus necesidades específicas y del tipo de operación que deseas realizar.

In [42]:
# Encontrar los productos que aparecen en ambos DataFrames
productos_en_comun = df_ventas.index.intersection(df_precios.index)

# Mostrar los productos en común
print("Productos en común:")
print(productos_en_comun)


Productos en común:
Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
       19, 20, 21, 22, 23, 24, 25],
      dtype='int64', name='ID')


In [36]:
# df_ventas y df_precios tienen el mismo índice 'ID' entonces podemos unirlos
df_combinado = pd.merge(df_ventas, df_precios, left_index=True, right_index=True)

# Mostrar el DataFrame combinado
df_combinado.head()

Unnamed: 0_level_0,Cantidad,Precio
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,45,56.313615
2,61,20.725604
3,91,54.280167
4,94,71.806123
5,29,46.802686


---
<a name='ej-1'></a>
### **<font color="DodgerBlue">Ejercicio 10 - *Jugando con Pandas* </font>**

![image.png](attachment:image.png)

<font color="DarkBlue"> 1. Utilice el método de join para unir los dataframes `df_ventas` y `df_precios` así como le hicimos con merge. Imprima el resultado.
    
<font color="DarkBlue"> Extra (2). Utilizando el objeto `df`, repita la operación de calcular el total de ventas como el producto de la columna "Ventas" con "Precio". Calcula la suma de este resultado y obtenga el total de ventas final. 
    
---

### **<font color="ForestGreen">  Transformaciones de Pandas </font>**

Las funciones `lambda` $\lambda$ y el método `apply()` son herramientas poderosas en Pandas para realizar operaciones personalizadas en DataFrames: 

- Una función lambda es una función anónima y pequeña que se define en una sola línea de código.

- Se utilizan comúnmente para definir funciones simples y de una sola expresión.

- Tienen una sintaxis básica: `lambda` _argumentos_: expresión.

- Las funciones lambda son útiles cuando necesitas una función rápida y temporal para realizar una tarea específica.

- Se pueden utilizar en combinación con muchas funciones de Python y de Pandas, como map(), filter(), reduce(), y también con el método apply() de Pandas.

In [37]:
# Definir una función lambda para convertir dólares a euros (1 EURO = 18.45 MXN)
convertir_a_euros = lambda precio: precio * 1/18.45

# Aplicar la transformación a la columna 'Precio (USD)' usando apply y la función lambda
df['Precio (EUR)'] = df['Precio'].apply(convertir_a_euros)
df.head()

Unnamed: 0_level_0,Nombre,Cantidad,Precio,Fecha,Precio (EUR)
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130,1.962018
2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143,0.807551
3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147,4.782802
4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149,5.253659
5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151,1.523626


In [38]:
# Definir una función lambda para convertir la cantidad de algo pero a docenas en enteros
cantidad_en_docenas = lambda cantidad: int(cantidad/12)

# Aplicar la transformación a la columna 'Precio (USD)' usando apply y la función lambda
df['Docenas'] = df['Cantidad'].apply(cantidad_en_docenas)
df.head()

Unnamed: 0_level_0,Nombre,Cantidad,Precio,Fecha,Precio (EUR),Docenas
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130,1.962018,1
2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143,0.807551,4
3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147,4.782802,2
4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149,5.253659,4
5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151,1.523626,3


También podemos usar funciones pre-fabricadas para hacer transformaciones 

In [39]:
def calcular_cuadrado(x):
    return x ** 2

df['Precio al cuadrado'] = df['Precio'].apply(calcular_cuadrado)
df.head()

Unnamed: 0_level_0,Nombre,Cantidad,Precio,Fecha,Precio (EUR),Docenas,Precio al cuadrado
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Producto 1,14,36.199228,2025-08-21 13:04:17.109130,1.962018,1,1310.384134
2,Producto 2,57,14.899322,2025-08-20 13:04:17.109143,0.807551,4,221.989787
3,Producto 3,31,88.242695,2025-08-19 13:04:17.109147,4.782802,2,7786.773277
4,Producto 4,53,96.930012,2025-08-18 13:04:17.109149,5.253659,4,9395.427172
5,Producto 5,43,28.110895,2025-08-17 13:04:17.109151,1.523626,3,790.222428


---

<a name='ej-11'></a>
### **<font color="DodgerBlue">Ejercicio 11 - *Viaje al pasado* </font>**

<font color="DarkBlue">  1. Utilice una función `lambda` para calcular el año de nacimiento de cada individuo del primer dataframe del notebook (a partir de la columna `Edad`) y guarde el resultado en una nueva columna llamada `Año de nacimiento`. 
    
<font color="DarkBlue"> 2. Muestre el dataframe actualizado.  
    
--- 