### **Ejercicio 1: Limpiar y transformar columnas de texto**
Dado el siguiente DataFrame de productos:

In [1]:
import pandas as pd

data = {
    'Producto': ['Café', 'té', ' chocolate', ' Cacao '],
    'Precio': [100, 80, 150, 120],
    'Categoría': ['bebidas calientes', 'bebidas calientes', 'snacks dulces', ' bebidas calientes ']
}

df_productos = pd.DataFrame(data)

1. Elimina los espacios en blanco de las columnas **Producto**.
2. Convierte todos los valores de la columna **Categoría** a mayúsculas.
3. Reemplaza la categoría 'snacks dulces' por 'postres'.
4. Crea una nueva columna que indique si el precio es mayor o igual a 120. Usa una función `lambda` para esto.

In [3]:
df_productos['Producto'] = df_productos['Producto'].str.replace(" ", "")
df_productos

Unnamed: 0,Producto,Precio,Categoría
0,Café,100,bebidas calientes
1,té,80,bebidas calientes
2,chocolate,150,snacks dulces
3,Cacao,120,bebidas calientes


In [4]:
df_productos['Categoría'] = df_productos['Categoría'].str.upper()
df_productos

Unnamed: 0,Producto,Precio,Categoría
0,Café,100,BEBIDAS CALIENTES
1,té,80,BEBIDAS CALIENTES
2,chocolate,150,SNACKS DULCES
3,Cacao,120,BEBIDAS CALIENTES


In [5]:
df_productos['Categoría'] = df_productos['Categoría'].str.replace("SNACKS DULCES", "POSTRES")
df_productos

Unnamed: 0,Producto,Precio,Categoría
0,Café,100,BEBIDAS CALIENTES
1,té,80,BEBIDAS CALIENTES
2,chocolate,150,POSTRES
3,Cacao,120,BEBIDAS CALIENTES


In [11]:
df_productos['Columna4'] = df_productos['Precio'].apply(lambda x: True if x >= 120 else False)
df_productos

Unnamed: 0,Producto,Precio,Categoría,Columna4
0,Café,100,BEBIDAS CALIENTES,False
1,té,80,BEBIDAS CALIENTES,False
2,chocolate,150,POSTRES,True
3,Cacao,120,BEBIDAS CALIENTES,True


### **Ejercicio 2: Limpieza de duplicados y manejo de datos faltantes**
Dado el siguiente DataFrame de empleados:

In [12]:
data_empleados = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Luis', 'Juan', 'Ana'],
    'Edad': [29, 45, None, 40, 35, 29],
    'Departamento': ['Ventas', 'Finanzas', 'RRHH', 'Finanzas', 'Marketing', None]
}

df_empleados = pd.DataFrame(data_empleados)

In [13]:
df_empleados

Unnamed: 0,Nombre,Edad,Departamento
0,Ana,29.0,Ventas
1,Luis,45.0,Finanzas
2,Pedro,,RRHH
3,Luis,40.0,Finanzas
4,Juan,35.0,Marketing
5,Ana,29.0,


1. Elimina las filas duplicadas en base a la columna **Nombre**. Quédate con la persona `más joven´.
2. Llena los valores faltantes de la columna **Edad** con la media de las edades.
3. Llena los valores faltantes de la columna **Departamento** con el valor 'Desconocido'.
4. Ordena el DataFrame por edad de forma descendente.

In [16]:
df_empleados = df_empleados.sort_values(by=['Nombre', 'Edad'])
df_empleados

Unnamed: 0,Nombre,Edad,Departamento
0,Ana,29.0,Ventas
5,Ana,29.0,
4,Juan,35.0,Marketing
3,Luis,40.0,Finanzas
1,Luis,45.0,Finanzas
2,Pedro,,RRHH


In [17]:
df_empleados.drop_duplicates(inplace=True, subset = 'Nombre')
df_empleados

Unnamed: 0,Nombre,Edad,Departamento
0,Ana,29.0,Ventas
4,Juan,35.0,Marketing
3,Luis,40.0,Finanzas
2,Pedro,,RRHH


In [19]:
edad_media = df_empleados['Edad'].mean()
df_empleados['Edad'] = df_empleados['Edad'].fillna(edad_media)
df_empleados

Unnamed: 0,Nombre,Edad,Departamento
0,Ana,29.0,Ventas
4,Juan,35.0,Marketing
3,Luis,40.0,Finanzas
2,Pedro,34.666667,RRHH


In [None]:
# no hay vacíos en Departamento

In [20]:
df_empleados = df_empleados.sort_values(by='Edad', ascending=False)
df_empleados

Unnamed: 0,Nombre,Edad,Departamento
3,Luis,40.0,Finanzas
4,Juan,35.0,Marketing
2,Pedro,34.666667,RRHH
0,Ana,29.0,Ventas


### **Ejercicio 3: Aplicar funciones a las columnas**
Dado un DataFrame de ventas de productos:

In [21]:
data_ventas = {
    'Producto': ['Café', 'Té', 'Jugo', 'Agua'],
    'Precio': [120, 80, 90, 60],
    'Cantidad': [3, 5, 2, 8]
}

df_ventas = pd.DataFrame(data_ventas)

1. Calcula el total de ventas (Precio * Cantidad) y agrégalo como una nueva columna.
2. Crea una nueva columna llamada **Descuento** que aplique un descuento del 10% si el precio es mayor a 100, y del 5% si es menor o igual a 100. Usa la función `apply` y una función `lambda`.

In [24]:
ventas= df_ventas['Precio'] * df_ventas['Cantidad'] 
df_ventas['Ventas']= ventas
df_ventas

Unnamed: 0,Producto,Precio,Cantidad,Ventas
0,Café,120,3,360
1,Té,80,5,400
2,Jugo,90,2,180
3,Agua,60,8,480


In [25]:
df_ventas['Descuento'] = df_ventas['Precio'].apply(lambda x: x*0.9 if x > 100 else x*0.95)
df_ventas

Unnamed: 0,Producto,Precio,Cantidad,Ventas,Descuento
0,Café,120,3,360,108.0
1,Té,80,5,400,76.0
2,Jugo,90,2,180,85.5
3,Agua,60,8,480,57.0


### **Ejercicio 4: Uso de funciones de cadena**
Dado el siguiente DataFrame de direcciones de clientes:

In [26]:
data_clientes = {
    'Cliente': ['Juan Pérez', 'Ana Ruiz', 'Pedro López'],
    'Dirección': ['calle falsa 123', 'Calle PRINCIPAL 45', 'AV. LOS robles 34']
}

df_clientes = pd.DataFrame(data_clientes)

1. Convierte todos los valores de la columna **Dirección** a minúsculas.
2. Reemplaza las abreviaturas "calle", "av." por "calle" y "avenida" respectivamente.
3. Extrae el número de la dirección y guárdalo en una nueva columna llamada **Número**.

In [27]:
df_clientes['Dirección'] = df_clientes['Dirección'].str.lower()
df_clientes

Unnamed: 0,Cliente,Dirección
0,Juan Pérez,calle falsa 123
1,Ana Ruiz,calle principal 45
2,Pedro López,av. los robles 34


In [28]:
df_clientes['Dirección'] = df_clientes['Dirección'].str.replace("av.", "avenida")
df_clientes

Unnamed: 0,Cliente,Dirección
0,Juan Pérez,calle falsa 123
1,Ana Ruiz,calle principal 45
2,Pedro López,avenida los robles 34


In [29]:
df_clientes['Número'] = df_clientes['Dirección'].str.extract('(\d+)')
df_clientes

  df_clientes['Número'] = df_clientes['Dirección'].str.extract('(\d+)')


Unnamed: 0,Cliente,Dirección,Número
0,Juan Pérez,calle falsa 123,123
1,Ana Ruiz,calle principal 45,45
2,Pedro López,avenida los robles 34,34
