In [110]:
import pandas as pd
import numpy as np

# Escenario: Has recibido un pequeño conjunto de datos de transacciones de una tienda. 
# Los datos están 'sucios' y necesitan una limpieza y estructuración completa antes de 
# poder ser analizados.
# Datos Iniciales: Comienza creando un DataFrame a partir del siguiente diccionario:

datos_ventas = {
    'ID_Transaccion': ['T-001', 'T-002', 'T-003', 'T-004', 'T-005', 'T-006', 'T-007'],
    'Fecha': ['15-03-2023', '16-03-2023', '16-03-2023', '17-03-2023', '18-03-2023', '18-03-2023', '19-03-2023'],
    'Producto_SKU': ['TEC-M-01', 'aud-h-05', 'MON-G-02', 'tec-k-03', 'RAT-G-01', 'mon-g-02', 'TEC-M-01'],
    'Precio_str': ['$ 150.99', '€ 45.50', '$ 300.00', '$ 89.90', '€ 25.00', '$ 290.50', '$ 145.00'],
    'Tipo_Cliente': [1, 2, 1, 1, 2, 1, 2]
}

# Objetivo Final: Tu meta es transformar el DataFrame inicial en una tabla limpia, optimizada y bien estructurada. El DataFrame final debe cumplir 
# con los siguientes requisitos:

# 1 Renombrado de IDs: Utiliza un método de manipulación de texto para crear una nueva columna llamada 
# 'ID_Cliente_Limpio' que reemplace el prefijo 'T-' de la columna 'ID_Transaccion' por 'CLIENTE-'.

datos_ventas_dataframe = pd.DataFrame(datos_ventas)
datos_ventas_dataframe['ID_Cliente_Limpio'] = datos_ventas_dataframe['ID_Transaccion'].str.replace('T-', 'Cliente_')
print(datos_ventas_dataframe)


  ID_Transaccion       Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001  15-03-2023     TEC-M-01   $ 150.99             1   
1          T-002  16-03-2023     aud-h-05    € 45.50             2   
2          T-003  16-03-2023     MON-G-02   $ 300.00             1   
3          T-004  17-03-2023     tec-k-03    $ 89.90             1   
4          T-005  18-03-2023     RAT-G-01    € 25.00             2   
5          T-006  18-03-2023     mon-g-02   $ 290.50             1   
6          T-007  19-03-2023     TEC-M-01   $ 145.00             2   

  ID_Cliente_Limpio  
0       Cliente_001  
1       Cliente_002  
2       Cliente_003  
3       Cliente_004  
4       Cliente_005  
5       Cliente_006  
6       Cliente_007  


In [111]:
## 2 Conversión de Tipos (Fechas): La columna 'Fecha' es texto. Conviértela al tipo de dato de fecha 
# y hora (`datetime`).

datos_ventas_dataframe['Fecha'] = pd.to_datetime(datos_ventas_dataframe['Fecha'])
datos_ventas_dataframe.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID_Transaccion     7 non-null      object        
 1   Fecha              7 non-null      datetime64[ns]
 2   Producto_SKU       7 non-null      object        
 3   Precio_str         7 non-null      object        
 4   Tipo_Cliente       7 non-null      int64         
 5   ID_Cliente_Limpio  7 non-null      object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 468.0+ bytes


  datos_ventas_dataframe['Fecha'] = pd.to_datetime(datos_ventas_dataframe['Fecha'])


In [112]:
# 3 Limpieza y Conversión de Texto (Precio): Limpia la columna Precio_str eliminando los símbolos de divisa 
# ('$' y '€') y los espacios en blanco. Luego, convierte el resultado a tipo numérico (float) y guárdalo en una nueva columna llamada 'Precio'.

datos_ventas_dataframe['Precio_str'] = datos_ventas_dataframe['Precio_str'].str.replace("$", "").str.replace("€", "").str.strip()
datos_ventas_dataframe['Precio'] = datos_ventas_dataframe['Precio_str'].astype(float)

datos_ventas_dataframe.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID_Transaccion     7 non-null      object        
 1   Fecha              7 non-null      datetime64[ns]
 2   Producto_SKU       7 non-null      object        
 3   Precio_str         7 non-null      object        
 4   Tipo_Cliente       7 non-null      int64         
 5   ID_Cliente_Limpio  7 non-null      object        
 6   Precio             7 non-null      float64       
dtypes: datetime64[ns](1), float64(1), int64(1), object(4)
memory usage: 524.0+ bytes


In [113]:
# 4 Extracción de Texto (ID Transacción): De la columna 'ID_Transaccion', extrae solo la parte numérica 
# (ej: de 'T-001' a 1) y guárdala en una nueva columna numérica llamada 'Transaccion_Num'.

datos_ventas_dataframe['Transaccion_Num'] = datos_ventas_dataframe["ID_Transaccion"].str.replace("T-", "").str.replace("00", "")
print(datos_ventas_dataframe)

  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     aud-h-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     tec-k-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     mon-g-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num  
0       Cliente_001  150.99               1  
1       Cliente_002   45.50               2  
2       Cliente_003  300.00               3  
3       Cliente_004   89.90               4  
4       Cliente_005   25.00               5  
5       Cliente_006  290.50               6  
6       Cliente_007  145.00               7  


In [114]:
# 5 Normalización y División de Texto (SKU):
# Primero, normaliza la columna Producto_SKU convirtiendo todo su texto a mayúsculas.

datos_ventas_dataframe['Producto_SKU'] = datos_ventas_dataframe['Producto_SKU'].str.upper()

# Después, divídela para extraer tres nuevas columnas ('Categoria', 'Marca', 'ID_Num') usando el guion como separador.

datos_ventas_dataframe[["Categoria", "Marca", "ID_Num"]] = datos_ventas_dataframe['Producto_SKU'].str.split("-", expand=True)
print(datos_ventas_dataframe)

  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     AUD-H-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     TEC-K-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     MON-G-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num Categoria Marca ID_Num  
0       Cliente_001  150.99               1       TEC     M     01  
1       Cliente_002   45.50               2       AUD     H     05  
2       Cliente_003  300.00               3       MON     G     02  
3       Cliente_004   89.90               4       TEC     K     03  
4       Cliente_005   25.00               5       RAT     G     01  
5       Cliente_006  290.50      

In [115]:
# 6 Mapeo de Valores: e_Crea una nueva columna 'ClientDesc' que traduzca el 'Tipo_Cliente' numérico a texto (1: 'Empresa', 2: 'Particular').

datos_ventas_dataframe['Cliente_Desc'] = datos_ventas_dataframe['Tipo_Cliente'].map({1: 'Empresa', 2: 'Particular'})
print(datos_ventas_dataframe)


  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     AUD-H-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     TEC-K-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     MON-G-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num Categoria Marca ID_Num  \
0       Cliente_001  150.99               1       TEC     M     01   
1       Cliente_002   45.50               2       AUD     H     05   
2       Cliente_003  300.00               3       MON     G     02   
3       Cliente_004   89.90               4       TEC     K     03   
4       Cliente_005   25.00               5       RAT     G     01   
5       Cliente_006  290.50

In [116]:
# 7 Operaciones entre Columnas (IVA): Crea una nueva columna llamada 'Precio_con_IVA' que calcule el precio de cada producto con un 21% de IVA añadido.

datos_ventas_dataframe['Precio_con_IVA'] = datos_ventas_dataframe['Precio'].apply(lambda precio: (precio * 1.21))
print(datos_ventas_dataframe)

  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     AUD-H-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     TEC-K-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     MON-G-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num Categoria Marca ID_Num  \
0       Cliente_001  150.99               1       TEC     M     01   
1       Cliente_002   45.50               2       AUD     H     05   
2       Cliente_003  300.00               3       MON     G     02   
3       Cliente_004   89.90               4       TEC     K     03   
4       Cliente_005   25.00               5       RAT     G     01   
5       Cliente_006  290.50

In [122]:
# 8 Lógica Condicional (Descuento): Añade otra columna 'Precio_Final'. Utiliza una operación por filas para aplicar
# un 10% de descuento sobre el 'Precio_con_IVA' si el cliente es de tipo 'Empresa'. 
# Si es 'Particular', el precio final será el mismo que el 'Precio_con_IVA'.

datos_ventas_dataframe['Precio_Final'] = datos_ventas_dataframe.apply(
lambda fila: fila['Precio_con_IVA'] * 0.90 if fila['Cliente_Desc'] == "Empresa" else fila['Precio_con_IVA'],
    axis=1
)

print(datos_ventas_dataframe)


  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     AUD-H-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     TEC-K-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     MON-G-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num Categoria Marca ID_Num  \
0       Cliente_001  150.99               1       TEC     M     01   
1       Cliente_002   45.50               2       AUD     H     05   
2       Cliente_003  300.00               3       MON     G     02   
3       Cliente_004   89.90               4       TEC     K     03   
4       Cliente_005   25.00               5       RAT     G     01   
5       Cliente_006  290.50

In [118]:
# 9 Optimización de Memoria: Convierte las columnas de texto con pocos valores únicos 
# ('Categoria', 'Marca' y 'Cliente_Desc') al tipo 'category' para optimizar el uso de memoria.

datos_ventas_dataframe['Categoria'] =  datos_ventas_dataframe['Categoria'].astype('category')
datos_ventas_dataframe['Marca'] =  datos_ventas_dataframe['Marca'].astype('category')

print(datos_ventas_dataframe)

datos_ventas_dataframe['Cliente_Desc'] =  datos_ventas_dataframe['Cliente_Desc'].astype('category')

datos_ventas_dataframe.info()




  ID_Transaccion      Fecha Producto_SKU Precio_str  Tipo_Cliente  \
0          T-001 2023-03-15     TEC-M-01     150.99             1   
1          T-002 2023-03-16     AUD-H-05      45.50             2   
2          T-003 2023-03-16     MON-G-02     300.00             1   
3          T-004 2023-03-17     TEC-K-03      89.90             1   
4          T-005 2023-03-18     RAT-G-01      25.00             2   
5          T-006 2023-03-18     MON-G-02     290.50             1   
6          T-007 2023-03-19     TEC-M-01     145.00             2   

  ID_Cliente_Limpio  Precio Transaccion_Num Categoria Marca ID_Num  \
0       Cliente_001  150.99               1       TEC     M     01   
1       Cliente_002   45.50               2       AUD     H     05   
2       Cliente_003  300.00               3       MON     G     02   
3       Cliente_004   89.90               4       TEC     K     03   
4       Cliente_005   25.00               5       RAT     G     01   
5       Cliente_006  290.50

In [121]:
# 10 Estructuración con MultiIndex: Reestructura el DataFrame para que utilice un MultiIndex basado en las columnas 'Fecha' y 'Categoria'.
# Deberás aplicar las técnicas de manipulación de texto, conversión de tipos, manejo de nulos, mapeo, optimización y estructuración para 
# conseguirlo. ¡Mucha suerte!

actividad_multi = datos_ventas_dataframe.set_index(['Fecha', 'Categoria'])
print(actividad_multi)


                     ID_Transaccion Producto_SKU Precio_str  Tipo_Cliente  \
Fecha      Categoria                                                        
2023-03-15 TEC                T-001     TEC-M-01     150.99             1   
2023-03-16 AUD                T-002     AUD-H-05      45.50             2   
           MON                T-003     MON-G-02     300.00             1   
2023-03-17 TEC                T-004     TEC-K-03      89.90             1   
2023-03-18 RAT                T-005     RAT-G-01      25.00             2   
           MON                T-006     MON-G-02     290.50             1   
2023-03-19 TEC                T-007     TEC-M-01     145.00             2   

                     ID_Cliente_Limpio  Precio Transaccion_Num Marca ID_Num  \
Fecha      Categoria                                                          
2023-03-15 TEC             Cliente_001  150.99               1     M     01   
2023-03-16 AUD             Cliente_002   45.50               2     H 