### **Ejercicio 1: Limpiar y transformar columnas de texto**
Dado el siguiente DataFrame de productos:

In [16]:
import pandas as pd

data = {
    'Producto': ['Café', 'té', ' chocolate', ' Cacao '],
    'Precio': [100, 80, 150, 120],
    'Categoría': ['bebidas calientes', 'bebidas calientes', 'snacks dulces', ' bebidas calientes ']
}

df_productos = pd.DataFrame(data)

In [17]:
# Quitar espacios en blanco al inicio y al final en las columnas de texto
df_productos['Producto'] = df_productos['Producto'].str.strip()
df_productos['Categoría'] = df_productos['Categoría'].str.strip()

# Mostrar el DataFrame actualizado
print(df_productos)

    Producto  Precio          Categoría
0       Café     100  bebidas calientes
1         té      80  bebidas calientes
2  chocolate     150      snacks dulces
3      Cacao     120  bebidas calientes


In [18]:
#Convierte todos los valores de la columna **Categoría** a mayúsculas.
df_productos['Categoría'] = df_productos['Categoría'].str.upper()

# Mostrar el DataFrame actualizado
print(df_productos)

    Producto  Precio          Categoría
0       Café     100  BEBIDAS CALIENTES
1         té      80  BEBIDAS CALIENTES
2  chocolate     150      SNACKS DULCES
3      Cacao     120  BEBIDAS CALIENTES


In [19]:
#Reemplaza la categoría 'snacks dulces' por 'postres'.
# Reemplazar 'snacks dulces' por 'postres' en la columna 'Categoría'
df_productos['Categoría'] = df_productos['Categoría'].replace('SNACKS DULCES', 'postres')
print(df_productos)

    Producto  Precio          Categoría
0       Café     100  BEBIDAS CALIENTES
1         té      80  BEBIDAS CALIENTES
2  chocolate     150            postres
3      Cacao     120  BEBIDAS CALIENTES


In [20]:
# Crear una nueva columna que indique si el precio es mayor o igual a 120
df_productos['Precio >= 120'] = df_productos['Precio'].apply(lambda x: x >= 120)


In [21]:
print(df_productos)

    Producto  Precio          Categoría  Precio >= 120
0       Café     100  BEBIDAS CALIENTES          False
1         té      80  BEBIDAS CALIENTES          False
2  chocolate     150            postres           True
3      Cacao     120  BEBIDAS CALIENTES           True


1. Elimina los espacios en blanco de las columnas **Producto**.
2. Convierte todos los valores de la columna **Categoría** a mayúsculas.
3. Reemplaza la categoría 'snacks dulces' por 'postres'.
4. Crea una nueva columna que indique si el precio es mayor o igual a 120. Usa una función `lambda` para esto.

### **Ejercicio 2: Limpieza de duplicados y manejo de datos faltantes**
Dado el siguiente DataFrame de empleados:

In [23]:
data_empleados = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Luis', 'Juan', 'Ana'],
    'Edad': [29, 45, None, 40, 35, 29],
    'Departamento': ['Ventas', 'Finanzas', 'RRHH', 'Finanzas', 'Marketing', None]
}

df_empleados = pd.DataFrame(data_empleados)

1. Elimina las filas duplicadas en base a la columna **Nombre**. Quédate con la persona `más joven´.
2. Llena los valores faltantes de la columna **Edad** con la media de las edades.
3. Llena los valores faltantes de la columna **Departamento** con el valor 'Desconocido'.
4. Ordena el DataFrame por edad de forma descendente.

In [27]:

# 1. Eliminar filas duplicadas en base a la columna 'Nombre', quedándose con la persona más joven
df_empleados = df_empleados.sort_values(by='Edad').drop_duplicates(subset='Nombre', keep='first')
# Mostrar el DataFrame actualizado
print(df_empleados)


  Nombre       Edad Departamento
0    Ana  29.000000       Ventas
2  Pedro  34.666667         RRHH
4   Juan  35.000000    Marketing
3   Luis  40.000000     Finanzas


In [28]:
# 2. Llenar los valores faltantes en la columna 'Edad' con la media de las edades
df_empleados['Edad'].fillna(df_empleados['Edad'].mean(), inplace=True)
# Mostrar el DataFrame actualizado
print(df_empleados)


  Nombre       Edad Departamento
0    Ana  29.000000       Ventas
2  Pedro  34.666667         RRHH
4   Juan  35.000000    Marketing
3   Luis  40.000000     Finanzas


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_empleados['Edad'].fillna(df_empleados['Edad'].mean(), inplace=True)


In [29]:
# 3. Llenar los valores faltantes en la columna 'Departamento' con 'Desconocido'
df_empleados['Departamento'].fillna('Desconocido', inplace=True)
# Mostrar el DataFrame actualizado
print(df_empleados)

  Nombre       Edad Departamento
0    Ana  29.000000       Ventas
2  Pedro  34.666667         RRHH
4   Juan  35.000000    Marketing
3   Luis  40.000000     Finanzas


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_empleados['Departamento'].fillna('Desconocido', inplace=True)


In [30]:
# 4. Ordenar el DataFrame por la columna 'Edad' de forma descendente
df_empleados = df_empleados.sort_values(by='Edad', ascending=False)
# Mostrar el DataFrame actualizado
print(df_empleados)

  Nombre       Edad Departamento
3   Luis  40.000000     Finanzas
4   Juan  35.000000    Marketing
2  Pedro  34.666667         RRHH
0    Ana  29.000000       Ventas


In [25]:
print(df_empleados)

  Nombre  Edad Departamento
0    Ana  29.0       Ventas
4   Juan  35.0    Marketing
3   Luis  40.0     Finanzas
2  Pedro   NaN         RRHH


### **Ejercicio 3: Aplicar funciones a las columnas**
Dado un DataFrame de ventas de productos:

In [32]:
data_ventas = {
    'Producto': ['Café', 'Té', 'Jugo', 'Agua'],
    'Precio': [120, 80, 90, 60],
    'Cantidad': [3, 5, 2, 8]
}

df_ventas = pd.DataFrame(data_ventas)
print(df_ventas)

  Producto  Precio  Cantidad
0     Café     120         3
1       Té      80         5
2     Jugo      90         2
3     Agua      60         8


1. Calcula el total de ventas (Precio * Cantidad) y agrégalo como una nueva columna.
2. Crea una nueva columna llamada **Descuento** que aplique un descuento del 10% si el precio es mayor a 100, y del 5% si es menor o igual a 100. Usa la función `apply` y una función `lambda`.

In [33]:
#1. Calcula el total de ventas (Precio * Cantidad) y agrégalo como una nueva columna.
df_ventas['Total de vetnas'] = df_ventas['Precio'] * df_ventas['Cantidad']
print(df_ventas)

  Producto  Precio  Cantidad  Total de vetnas
0     Café     120         3              360
1       Té      80         5              400
2     Jugo      90         2              180
3     Agua      60         8              480


In [34]:
# 2. Crear una nueva columna llamada 'Descuento' con el 10% si el precio > 100, y 5% si es <= 100
df_ventas['Descuento'] = df_ventas['Precio'].apply(lambda x: 0.10 if x > 100 else 0.05)
print(df_ventas)

  Producto  Precio  Cantidad  Total de vetnas  Descuento
0     Café     120         3              360       0.10
1       Té      80         5              400       0.05
2     Jugo      90         2              180       0.05
3     Agua      60         8              480       0.05


### **Ejercicio 4: Uso de funciones de cadena**
Dado el siguiente DataFrame de direcciones de clientes:

In [40]:
data_clientes = {
    'Cliente': ['Juan Pérez', 'Ana Ruiz', 'Pedro López'],
    'Dirección': ['calle falsa 123', 'Calle PRINCIPAL 45', 'AV. LOS robles 34']
}

df_clientes = pd.DataFrame(data_clientes)

1. Convierte todos los valores de la columna **Dirección** a minúsculas.
2. Reemplaza las abreviaturas "calle", "av." por "calle" y "avenida" respectivamente.
3. Extrae el número de la dirección y guárdalo en una nueva columna llamada **Número**.

In [41]:
#1. Convierte todos los valores de la columna **Dirección** a minúsculas.
df_clientes['Dirección'] = df_clientes['Dirección'].str.lower()
print(df_clientes)

       Cliente           Dirección
0   Juan Pérez     calle falsa 123
1     Ana Ruiz  calle principal 45
2  Pedro López   av. los robles 34


In [42]:
#2. Reemplaza las abreviaturas "calle", "av." por "calle" y "avenida" respectivamente.
df_clientes['Dirección'] = df_clientes['Dirección'].str.replace('av.', 'avenida', regex=False)
print(df_clientes)


       Cliente              Dirección
0   Juan Pérez        calle falsa 123
1     Ana Ruiz     calle principal 45
2  Pedro López  avenida los robles 34


In [47]:
# 3. Extraer el número de la dirección y guardarlo en una nueva columna llamada 'Número'
df_clientes['Número'] = df_clientes['Dirección'].str.extract(r'(\d+)$')
print(df_clientes)

       Cliente              Dirección Número
0   Juan Pérez        calle falsa 123    123
1     Ana Ruiz     calle principal 45     45
2  Pedro López  avenida los robles 34     34
