### **Ejercicio 1: Limpiar y transformar columnas de texto**
Dado el siguiente DataFrame de productos:

In [9]:
import pandas as pd

data = {
    'Producto': ['Café', 'té', ' chocolate', ' Cacao '],
    'Precio': [100, 80, 150, 120],
    'Categoría': ['bebidas calientes', 'bebidas calientes', 'snacks dulces', ' bebidas calientes ']
}

df_productos = pd.DataFrame(data)

1. Elimina los espacios en blanco de las columnas **Producto**.
2. Convierte todos los valores de la columna **Categoría** a mayúsculas.
3. Reemplaza la categoría 'snacks dulces' por 'postres'.
4. Crea una nueva columna que indique si el precio es mayor o igual a 120. Usa una función `lambda` para esto.

In [17]:

print(df_productos)

df_productos['Producto'] = df_productos['Producto'].str.strip()

print(df_productos)

df_productos['Categoría'] = df_productos['Categoría'].str.upper()

print(df_productos)

df_productos.at[2, 'Categoría'] = 'POSTRES'

print(df_productos)

df_productos['Precio_mayor_120'] = df_productos['Precio'].apply(lambda x : True if x > 120 else False)

print(df_productos)


    Producto  Precio            Categoría  Precio_mayor_120
0       Café     100    BEBIDAS CALIENTES             False
1         té      80    BEBIDAS CALIENTES             False
2  chocolate     150              POSTRES              True
3      Cacao     120   BEBIDAS CALIENTES              False
    Producto  Precio            Categoría  Precio_mayor_120
0       Café     100    BEBIDAS CALIENTES             False
1         té      80    BEBIDAS CALIENTES             False
2  chocolate     150              POSTRES              True
3      Cacao     120   BEBIDAS CALIENTES              False
    Producto  Precio            Categoría  Precio_mayor_120
0       Café     100    BEBIDAS CALIENTES             False
1         té      80    BEBIDAS CALIENTES             False
2  chocolate     150              POSTRES              True
3      Cacao     120   BEBIDAS CALIENTES              False
    Producto  Precio            Categoría  Precio_mayor_120
0       Café     100    BEBIDAS CALIENTE

### **Ejercicio 2: Limpieza de duplicados y manejo de datos faltantes**
Dado el siguiente DataFrame de empleados:

In [41]:
data_empleados = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Luis', 'Juan', 'Ana'],
    'Edad': [29, 45, None, 40, 35, 29],
    'Departamento': ['Ventas', 'Finanzas', 'RRHH', None, 'Marketing', None]
}

df_empleados = pd.DataFrame(data_empleados)

1. Elimina las filas duplicadas en base a la columna **Nombre**. Quédate con la persona `más joven´.
2. Llena los valores faltantes de la columna **Edad** con la media de las edades.
3. Llena los valores faltantes de la columna **Departamento** con el valor 'Desconocido'.
4. Ordena el DataFrame por edad de forma descendente.

In [42]:
print(df_empleados)

df_empleados = df_empleados.sort_values(by='Edad')
#df_empleados.drop_duplicates(inplace=True)
df_empleados = df_empleados.drop_duplicates(subset='Nombre')

print(df_empleados)

# Calcular la media de la columna 'edad'
media_edad = df_empleados['Edad'].mean()

# Llenar los valores NaN en la columna 'Edad' con la media
df_empleados['Edad'].fillna(media_edad, inplace=True)

print(df_empleados)

df_empleados['Departamento'].fillna('Desconocido', inplace=True)

print(df_empleados)

df_empleados = df_empleados.sort_values(by='Edad', ascending=False)

print(df_empleados)

  Nombre  Edad Departamento
0    Ana  29.0       Ventas
1   Luis  45.0     Finanzas
2  Pedro   NaN         RRHH
3   Luis  40.0         None
4   Juan  35.0    Marketing
5    Ana  29.0         None
  Nombre  Edad Departamento
0    Ana  29.0       Ventas
4   Juan  35.0    Marketing
3   Luis  40.0         None
2  Pedro   NaN         RRHH
  Nombre       Edad Departamento
0    Ana  29.000000       Ventas
4   Juan  35.000000    Marketing
3   Luis  40.000000         None
2  Pedro  34.666667         RRHH
  Nombre       Edad Departamento
0    Ana  29.000000       Ventas
4   Juan  35.000000    Marketing
3   Luis  40.000000  Desconocido
2  Pedro  34.666667         RRHH
  Nombre       Edad Departamento
3   Luis  40.000000  Desconocido
4   Juan  35.000000    Marketing
2  Pedro  34.666667         RRHH
0    Ana  29.000000       Ventas


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_empleados['Edad'].fillna(media_edad, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_empleados['Departamento'].fillna('Desconocido', inplace=True)


### **Ejercicio 3: Aplicar funciones a las columnas**
Dado un DataFrame de ventas de productos:

In [54]:
data_ventas = {
    'Producto': ['Café', 'Té', 'Jugo', 'Agua'],
    'Precio': [120, 80, 90, 60],
    'Cantidad': [3, 5, 2, 8]
}

df_ventas = pd.DataFrame(data_ventas)

1. Calcula el total de ventas (Precio * Cantidad) y agrégalo como una nueva columna.
2. Crea una nueva columna llamada **Descuento** que aplique un descuento del 10% si el precio es mayor a 100, y del 5% si es menor o igual a 100. Usa la función `apply` y una función `lambda`.

In [55]:
print(df_ventas)

df_ventas['Total_ventas'] = df_ventas['Precio'] * df_ventas['Cantidad']

print(df_ventas)

df_ventas['Descuento'] = df_ventas['Precio'].apply(lambda x : x * 0.9 if x > 100 else x * 0.95)

print(df_ventas)

  Producto  Precio  Cantidad
0     Café     120         3
1       Té      80         5
2     Jugo      90         2
3     Agua      60         8
  Producto  Precio  Cantidad  Total_ventas
0     Café     120         3           360
1       Té      80         5           400
2     Jugo      90         2           180
3     Agua      60         8           480
  Producto  Precio  Cantidad  Total_ventas  Descuento
0     Café     120         3           360      108.0
1       Té      80         5           400       76.0
2     Jugo      90         2           180       85.5
3     Agua      60         8           480       57.0


### **Ejercicio 4: Uso de funciones de cadena**
Dado el siguiente DataFrame de direcciones de clientes:

In [62]:
data_clientes = {
    'Cliente': ['Juan Pérez', 'Ana Ruiz', 'Pedro López'],
    'Dirección': ['calle falsa 123', 'Calle PRINCIPAL 45', 'AV. LOS robles 34']
}

df_clientes = pd.DataFrame(data_clientes)

1. Convierte todos los valores de la columna **Dirección** a minúsculas.
2. Reemplaza las abreviaturas "calle", "av." por "calle" y "avenida" respectivamente.
3. Extrae el número de la dirección y guárdalo en una nueva columna llamada **Número**.

In [63]:
print (df_clientes)

df_clientes['Dirección'] = df_clientes['Dirección'].str.lower()

print (df_clientes)

df_clientes['Dirección'] = df_clientes['Dirección'].str.replace('av.', 'avenida')

print (df_clientes)

df_clientes['Número'] = df_clientes['Dirección'].str.extract(r'(\d+)$')

print (df_clientes)

       Cliente           Dirección
0   Juan Pérez     calle falsa 123
1     Ana Ruiz  Calle PRINCIPAL 45
2  Pedro López   AV. LOS robles 34
       Cliente           Dirección
0   Juan Pérez     calle falsa 123
1     Ana Ruiz  calle principal 45
2  Pedro López   av. los robles 34
       Cliente              Dirección
0   Juan Pérez        calle falsa 123
1     Ana Ruiz     calle principal 45
2  Pedro López  avenida los robles 34
       Cliente              Dirección Número
0   Juan Pérez        calle falsa 123    123
1     Ana Ruiz     calle principal 45     45
2  Pedro López  avenida los robles 34     34
