# Práctica 43: Limpieza, manejo y transformación de datos con Pandas

####  Cargar el fichero **retail2.csv** en un dataframe de Pandas y efectuar todas las operaciones de consulta, exploración y limpieza de datos que sean necesarios algunos pasos de limpieza están de forma explícita como preguntas. Los ficheros contienen varias columnas y algunas de ellas tienen datos que podrían necesitar limpieza o tratamiento. 

**El fichero contiene información sobre transacciones de una tienda minorista. Los campos y su significado se muestran a continuación:**

`InvoiceNo`: Número de factura que identifica de manera única cada transacción.
  

`StockCode`:Código de stock que identifica de manera única cada producto.
 

`Descrption`.Descripción del producto.


`Quantity`: Cantidad de productos comprados (puede contener valores negativos que indican devoluciones).

`InvoiceDate`: Fecha y hora en que se realizó la transacción.


`UnitPrice`:Precio unitario del producto (algunos valores pueden estar en centavos en lugar de dólares).


`CustomerID`:ID único del cliente que realizó la compra.


`Country`:País donde reside el cliente (puede contener inconsistencias en mayúsculas/minúsculas y caracteres especiales).  

`CustomerName`:Nombre completo del cliente.


`Email`:Dirección de correo electrónico del cliente.  

`Address`:Dirección del cliente.  



`PhoneNumber`:Número de teléfono del cliente.



`Category`: Categoría del producto (por ejemplo, 'Electronics', 'Clothing', 'Home & Garden').

`Supplier`: Proveedor del producto.  

`StockLevel`: Nivel de inventario del producto.

`Discount`: Descuento aplicado al producto (en porcentaje).  

`SaleChannel`: Canal de venta (por ejemplo, 'Online', 'In-Store').

`ReturnStatus`: Estado de devolución del producto ('Returned', 'Not Returned').

`ProductWeight`: Peso del producto. Unidad: kilogramos.

`ProductDimensions`: Dimensiones del producto. Unidad: en el formato 'LxWxH cm'.

`ShippingCost`: Costo de envío. Unidad:dólares.

`SalesRegion`: Región de ventas (por ejemplo, 'North America', 'Europe', 'Asia').  

`PromotionCode`: Código de promoción aplicado a la compra.

`PaymentMethod`: Método de pago (por ejemplo, 'Credit Card', 'PayPal', 'Bank Transfer').


# Parte 1. Data Cleaning and Preparation (Capítulo 7 - Wes McKinney)

- Cargue los datasets `retail2.csv` y `exchange_rates.csv` en DataFrames de pandas.

In [66]:
import pandas as pd

# Cargar los archivos CSV en DataFrames de pandas
file_path_retail = 'retail2.csv'
file_path_exchange_rates = 'exchange_rates.csv'

df_retail = pd.read_csv(file_path_retail)
df_exchange_rates = pd.read_csv(file_path_exchange_rates)

# Mostrar las primeras filas de cada DataFrame para verificar la carga
print("Primeras filas de df_retail:")
print(df_retail.head())

print("\nPrimeras filas de df_exchange_rates:")
print(df_exchange_rates.head())






Primeras filas de df_retail:
   InvoiceNo StockCode                                        Description  \
0   536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1   536446.0     21756                                DOORMAT NEW ENGLAND   
2   536633.0     22632                          HAND WARMER RED POLKA DOT   
3   536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
4        NaN     22634    {"description": "BAKING SET 9 PIECE RETROSPOT"}   

  Quantity      InvoiceDate UnitPrice  CustomerID         Country  \
0        6  12/1/2010 12:28      4.25       17763  United Kingdom   
1      100  12/1/2010 10:16     795.0       15939  United Kingdom   
2        6  12/1/2010 13:23      1.85       12295  United Kingdom   
3       10  12/1/2010 11:32      1.65       15685  United Kingdom   
4        6  12/1/2010 11:07      4.95       11696  United Kingdom   

     CustomerName                      Email  ... StockLevel Discount  \
0   David Johnson   

## Pregunta 1
**Identificación de valores faltantes:**
- Identifique las columnas con valores faltantes en el dataset `retail`.

In [67]:


# Identificar las columnas con valores faltantes en el dataset retail
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]

# Mostrar las columnas con valores faltantes y el número de valores faltantes en cada columna
print("Valores faltantes:\n", missing_values)


Valores faltantes:
 Description      26
InvoiceDate      35
Country           1
PromotionCode    79
dtype: int64


## Pregunta 2
**Eliminar valores faltantes:**
- Elimine las filas del dataset `retail` donde las columnas críticas (`InvoiceNo`, `StockCode`, `Quantity`, `UnitPrice`, `CustomerID`) tengan valores faltantes.

In [68]:
# Eliminar las filas donde las columnas críticas tengan valores faltantes
critical_columns = ['InvoiceNo', 'StockCode', 'Quantity', 'UnitPrice', 'CustomerID']
df_retail = df.dropna(subset=critical_columns)

# Mostrar las primeras filas del DataFrame limpio para verificar
print(df_retail.head())



   InvoiceNo StockCode                                        Description  \
0   536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1   536446.0     21756                                DOORMAT NEW ENGLAND   
2   536633.0     22632                          HAND WARMER RED POLKA DOT   
3   536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
5   536694.0     22960      {"description": ["JAM MAKING SET WITH JARS"]}   

  Quantity         InvoiceDate UnitPrice  CustomerID         Country  \
0        6 2010-01-12 12:28:00      4.25       17763  United Kingdom   
1      100 2010-01-12 10:16:00     795.0       15939  United Kingdom   
2        6 2010-01-12 13:23:00      1.85       12295  United Kingdom   
3       10 2010-01-12 11:32:00      1.65       15685  United Kingdom   
5        6 2010-01-12 14:24:00      4.25       11946  United Kingdom   

     CustomerName                      Email  ... StockLevel Discount  \
0   David Johnson     david.joh

## Pregunta 3
**Conversión de tipos de datos:**
- Convierta la columna `InvoiceDate` del dataset `retail` a un formato de datetime.

In [71]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
file_path_retail = 'retail2.csv'
df = pd.read_csv(file_path_retail)

# Verificar las columnas del DataFrame
print(df.columns)

# Verificar si la columna 'InvoiceDate' está presente
if 'InvoiceDate' in df.columns:
    # Reemplazar comas con barras para estandarizar el formato de fecha
    df['InvoiceDate'] = df['InvoiceDate'].str.replace(',', '/')

    # Convertir la columna InvoiceDate a un formato datetime, manejando el formato correcto
    df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%d/%m/%Y %H:%M', errors='coerce')

    # Mostrar las primeras filas del DataFrame para verificar la conversión
    print(df[['InvoiceDate']].head())
else:
    print("La columna 'InvoiceDate' no está presente en el DataFrame.")




Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country', 'CustomerName', 'Email',
       'Address', 'PhoneNumber', 'Category', 'Supplier', 'StockLevel',
       'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight',
       'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode',
       'PaymentMethod'],
      dtype='object')
          InvoiceDate
0 2010-01-12 12:28:00
1 2010-01-12 10:16:00
2 2010-01-12 13:23:00
3 2010-01-12 11:32:00
4 2010-01-12 11:07:00


## Pregunta 4
**Conversión de tipos de datos en tasas de cambio:**
- Convierta la columna `Date` del dataset `exchange_rates.csv` a un formato de datetime.

In [72]:
# Convertir la columna Date a un formato de datetime
df_exchange_rates['Date'] = pd.to_datetime(df_exchange_rates['Date'], errors='coerce')

# Verificar la conversión mostrando los primeros registros
print(df_exchange_rates['Date'].head())



0   2020-01-01
1   2020-01-02
2   2020-01-03
3   2020-01-04
4   2020-01-05
Name: Date, dtype: datetime64[ns]


## Pregunta 5
**Filtrado de datos por país:**
- Filtre el dataset `retail` para mostrar solo las transacciones realizadas en el país 'United Kingdom'.

In [73]:
# Obtener la lista de todos los países únicos en el dataset df_retail
unique_countries = df_retail['Country'].unique()

# Mostrar la lista de países únicos
unique_countries.tolist()


['United Kingdom',
 '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###',
 'KNITTED UNION FLAG HOT WATER BOTTLE',
 'U.K.',
 'STRIPED CHARLIE+LOLA CHARLOTTE BAG: details',
 'Germany',
 '### united kingdom ###',
 'BOX OF VINTAGE JIGSAW BLOCKS',
 'united kingdom',
 'England',
 'SCANDINAVIAN REDS RIBBONS',
 '### CHOCOLATE HOT WATER BOTTLE ###',
 'Denmark',
 nan,
 '### U.K. ###',
 'BOX OF VINTAGE ALPHABET BLOCKS',
 'RED HARMONICA IN BOX']

In [74]:
# Unificar los nombres de los países y corregir los valores incorrectos
country_replacements = {
    'United Kingdom': 'United Kingdom',
    'U.K.': 'United Kingdom',
    'England': 'United Kingdom',
    '### U.K. ###': 'United Kingdom',
    '### united kingdom ###': 'United Kingdom',
    'united kingdom': 'United Kingdom',
    '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###': 'United Kingdom',
    'KNITTED UNION FLAG HOT WATER BOTTLE': 'United Kingdom',
    'STRIPED CHARLIE+LOLA CHARLOTTE BAG: details': 'United Kingdom',
    'BOX OF VINTAGE JIGSAW BLOCKS': 'United Kingdom',
    'SCANDINAVIAN REDS RIBBONS': 'United Kingdom',
    '### CHOCOLATE HOT WATER BOTTLE ###': 'United Kingdom',
    'BOX OF VINTAGE ALPHABET BLOCKS': 'United Kingdom',
    'RED HARMONICA IN BOX': 'United Kingdom',
    'Germany': 'Germany',
    'Denmark': 'Denmark'
}

# Reemplazar los valores en la columna 'Country'
df_retail['Country'] = df_retail['Country'].replace(country_replacements)

# Filtrar el dataset retail para mostrar solo las transacciones realizadas en el país 'United Kingdom'
df_uk_transactions = df_retail[df_retail['Country'] == 'United Kingdom']

# Mostrar las primeras filas del DataFrame filtrado
print(df_uk_transactions.head())


   InvoiceNo StockCode                                        Description  \
0   536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1   536446.0     21756                                DOORMAT NEW ENGLAND   
2   536633.0     22632                          HAND WARMER RED POLKA DOT   
3   536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
5   536694.0     22960      {"description": ["JAM MAKING SET WITH JARS"]}   

  Quantity         InvoiceDate UnitPrice  CustomerID         Country  \
0        6 2010-01-12 12:28:00      4.25       17763  United Kingdom   
1      100 2010-01-12 10:16:00     795.0       15939  United Kingdom   
2        6 2010-01-12 13:23:00      1.85       12295  United Kingdom   
3       10 2010-01-12 11:32:00      1.65       15685  United Kingdom   
5        6 2010-01-12 14:24:00      4.25       11946  United Kingdom   

     CustomerName                      Email  ... StockLevel Discount  \
0   David Johnson     david.joh

## Pregunta 6
**Calcular el total de precios:**
- Cree una nueva columna `TotalPrice` en el dataset `retail` multiplicando `Quantity` por `UnitPrice`.

In [75]:
# Asegurarse de que Quantity y UnitPrice sean de tipo numérico
df_retail['Quantity'] = pd.to_numeric(df_retail['Quantity'], errors='coerce')
df_retail['UnitPrice'] = pd.to_numeric(df_retail['UnitPrice'], errors='coerce')

# Crear la nueva columna TotalPrice
df_retail['TotalPrice'] = df_retail['Quantity'] * df_retail['UnitPrice']

# Mostrar las primeras filas del DataFrame con la nueva columna
print(df_retail[['Quantity', 'UnitPrice', 'TotalPrice']].head())



   Quantity  UnitPrice  TotalPrice
0       6.0       4.25        25.5
1     100.0     795.00     79500.0
2       6.0       1.85        11.1
3      10.0       1.65        16.5
5       6.0       4.25        25.5


## Pregunta 7
**Extraer mes y año:**
- Extraiga el mes y el año de la columna `InvoiceDate` y cree dos nuevas columnas: `InvoiceMonth` y `InvoiceYear`.

In [95]:
# Cambiar el año 1900 a 2009 y el año 2050 a 2011 en la columna InvoiceDate
df_retail['InvoiceDate'] = df_retail['InvoiceDate'].apply(lambda x: x.replace(year=2009) if x.year == 1900 else x.replace(year=2011) if x.year == 2050 else x)

# Extraer nuevamente el año de la columna InvoiceDate
df_retail['InvoiceYear'] = df_retail['InvoiceDate'].dt.year

In [96]:
# Cargar el archivo retail2.csv
df_retail = pd.read_csv('retail2.csv')

# Convertir la columna InvoiceDate a datetime
df_retail['InvoiceDate'] = pd.to_datetime(df_retail['InvoiceDate'], errors='coerce')

# Extraer mes y año de la columna InvoiceDate
df_retail['InvoiceMonth'] = df_retail['InvoiceDate'].dt.month
df_retail['InvoiceYear'] = df_retail['InvoiceDate'].dt.year

# Mostrar las primeras filas del DataFrame para verificar
df_retail.head()







Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12.0,2010.0
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12.0,2010.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12.0,2010.0
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,12.0,2010.0
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12.0,2010.0


In [97]:
# Asegurar que todos los valores no finitos se manejen correctamente
df_retail['InvoiceMonth'] = df_retail['InvoiceMonth'].fillna(0).astype(int)
df_retail['InvoiceYear'] = df_retail['InvoiceYear'].fillna(0).astype(int)

# Mostrar las primeras filas del DataFrame para verificar
df_retail.head()



Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12,2010
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12,2010
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12,2010
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,12,2010
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12,2010


## Pregunta 8
**Eliminar duplicados:**
- Identifique y elimine las filas duplicadas en el dataset `retail` basadas en la combinación de `InvoiceNo` y `StockCode`.

In [98]:
# Identificar duplicados basados en InvoiceNo y StockCode
duplicated_rows = df_retail.duplicated(subset=['InvoiceNo', 'StockCode'])

# Mostrar el número de filas duplicadas
num_duplicated = duplicated_rows.sum()
print(f"Number of duplicated rows: {num_duplicated}")

# Eliminar filas duplicadas
df_retail.drop_duplicates(subset=['InvoiceNo', 'StockCode'], inplace=True)

# Mostrar las primeras filas del DataFrame limpio para verificar
df_retail.head()


Number of duplicated rows: 39


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12,2010
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12,2010
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12,2010
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,12,2010
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12,2010


## Pregunta 9
**Reemplazo de valores:**
- Reemplace todos los valores negativos en la columna `Quantity` con cero.

In [99]:


# Cargar el archivo retail2.csv
df_retail = pd.read_csv('retail2.csv')

# Convertir la columna InvoiceDate a datetime
df_retail['InvoiceDate'] = pd.to_datetime(df_retail['InvoiceDate'], errors='coerce')

# Extraer mes y año de la columna InvoiceDate
df_retail['InvoiceMonth'] = df_retail['InvoiceDate'].dt.month
df_retail['InvoiceYear'] = df_retail['InvoiceDate'].dt.year

# Asegurar que todos los valores no finitos se manejen correctamente y convertir a enteros
df_retail['InvoiceMonth'] = df_retail['InvoiceMonth'].fillna(0).astype(int)
df_retail['InvoiceYear'] = df_retail['InvoiceYear'].fillna(0).astype(int)

# Identificar y eliminar duplicados basados en InvoiceNo y StockCode
df_retail.drop_duplicates(subset=['InvoiceNo', 'StockCode'], inplace=True)

# Convertir la columna Quantity a numérico, reemplazando valores no numéricos con NaN
df_retail['Quantity'] = pd.to_numeric(df_retail['Quantity'], errors='coerce')

# Reemplazar los NaN con cero
df_retail['Quantity'] = df_retail['Quantity'].fillna(0)

# Reemplazar todos los valores negativos en la columna Quantity con cero
df_retail['Quantity'] = df_retail['Quantity'].apply(lambda x: max(x, 0))

# Mostrar las primeras filas del DataFrame para verificar
df_retail.head()




Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12,2010
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12,2010
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12,2010
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,12,2010
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12,2010


## Pregunta 10
**Transformación de datos:**
- Cree una nueva columna `DiscountedPrice` aplicando un descuento del 10% al `TotalPrice`.

In [100]:
import pandas as pd
import numpy as np

# Cargar el archivo retail2.csv
df_retail = pd.read_csv('retail2.csv')

# Convertir la columna InvoiceDate a datetime
df_retail['InvoiceDate'] = pd.to_datetime(df_retail['InvoiceDate'], errors='coerce')

# Extraer mes y año de la columna InvoiceDate
df_retail['InvoiceMonth'] = df_retail['InvoiceDate'].dt.month
df_retail['InvoiceYear'] = df_retail['InvoiceDate'].dt.year

# Asegurar que todos los valores no finitos se manejen correctamente y convertir a enteros
df_retail['InvoiceMonth'] = df_retail['InvoiceMonth'].fillna(0).astype(int)
df_retail['InvoiceYear'] = df_retail['InvoiceYear'].fillna(0).astype(int)

# Identificar y eliminar duplicados basados en InvoiceNo y StockCode
df_retail.drop_duplicates(subset=['InvoiceNo', 'StockCode'], inplace=True)

# Reemplazar comas con puntos y "unknown" con NaN en UnitPrice
df_retail['UnitPrice'] = df_retail['UnitPrice'].replace({'unknown': np.nan, ',': '.'}, regex=True)

# Convertir las columnas Quantity y UnitPrice a numérico, reemplazando valores no numéricos con NaN
df_retail['Quantity'] = pd.to_numeric(df_retail['Quantity'], errors='coerce')
df_retail['UnitPrice'] = pd.to_numeric(df_retail['UnitPrice'], errors='coerce')

# Reemplazar los NaN con cero
df_retail['Quantity'] = df_retail['Quantity'].fillna(0)
df_retail['UnitPrice'] = df_retail['UnitPrice'].fillna(0)

# Reemplazar todos los valores negativos en la columna Quantity con cero
df_retail['Quantity'] = df_retail['Quantity'].apply(lambda x: max(x, 0))

# Calcular la columna TotalPrice
df_retail['TotalPrice'] = df_retail['Quantity'] * df_retail['UnitPrice']

# Crear la nueva columna DiscountedPrice aplicando un descuento del 10%
df_retail['DiscountedPrice'] = df_retail['TotalPrice'] * 0.9

# Mostrar las primeras filas del DataFrame para verificar
df_retail.head()



Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear,TotalPrice,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12,2010,25.5,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12,2010,79500.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12,2010,11.1,9.99
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,12,2010,16.5,14.85
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12,2010,29.7,26.73


# Parte 2. Data Wrangling: Join, Combine, and Reshape (Capítulo 8)

## Pregunta 11
**Merge de datasets:**
- Realice un merge del dataset `retail` con el dataset `exchange_rates.csv` en las columnas de fecha (`InvoiceDate` de `retail` y `Date` de `exchange_rates.csv`).

In [101]:
# Cargar el archivo exchange_rates.csv
df_exchange_rates = pd.read_csv('exchange_rates.csv')

# Convertir la columna Date a datetime
df_exchange_rates['Date'] = pd.to_datetime(df_exchange_rates['Date'], errors='coerce')

# Asegurarse de que la columna InvoiceDate en df_retail esté en formato datetime
df_retail['InvoiceDate'] = pd.to_datetime(df_retail['InvoiceDate'], errors='coerce')

# Realizar el merge de df_retail con df_exchange_rates en las columnas de fecha
df_merged = pd.merge(df_retail, df_exchange_rates, left_on='InvoiceDate', right_on='Date', how='left')

# Mostrar las primeras filas del DataFrame resultante para verificar
df_merged.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear,TotalPrice,DiscountedPrice,Date,ExchangeRate
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,7.14,North America,SALE15,Bank Transfer,12,2010,25.5,22.95,NaT,
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,12.48,Asia,SALE15,Bank Transfer,12,2010,79500.0,71550.0,NaT,
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,14.27,North America,DISCOUNT5,Bank Transfer,12,2010,11.1,9.99,NaT,
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,15.54,Asia,,PayPal,12,2010,16.5,14.85,NaT,
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,13.39,Australia,PROMO10,Bank Transfer,12,2010,29.7,26.73,NaT,


## Pregunta 12
**Concatenación de datasets:**
- Concatenar dos subconjuntos del dataset `retail`, uno con las primeras 100 filas y otro con las últimas 100 filas.

In [102]:
# Extraer las primeras 100 filas del DataFrame df_retail
first_100 = df_retail.head(100)

# Extraer las últimas 100 filas del DataFrame df_retail
last_100 = df_retail.tail(100)

# Concatenar los dos subconjuntos
concatenated_df = pd.concat([first_100, last_100])

# Mostrar las primeras filas del DataFrame concatenado para verificar
concatenated_df.head(20)


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear,TotalPrice,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,12,2010,25.5,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,12,2010,79500.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,12,2010,11.1,9.99
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,12,2010,16.5,14.85
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,12,2010,29.7,26.73
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6.0,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal,12,2010,25.5,22.95
6,536707.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,0.0,2050-01-01 00:00:00,6.95,12783,United Kingdom,Grace Williams,grace.williams@mail.com,...,0.68,91x74x90 cm,9.9,South America,SALE15,Bank Transfer,1,2050,0.0,0.0
7,536620.0,22112,CHOCOLATE HOT WATER BOTTLE,10.0,2010-12-01 13:10:00,3.39,13644,United Kingdom,Grace Miller,grace.miller@mail.com,...,8.68,19x39x67 cm,12.77,Asia,PROMO20,Gift Card,12,2010,33.9,30.51
8,536460.0,22634,BAKING SET 9 PIECE RETROSPOT,6.0,2010-12-01 10:30:00,4.95,15241,United Kingdom,Frank Brown,frank.brown@example.com,...,6.05,45x13x92 cm,6.32,South America,PROMO10,Gift Card,12,2010,29.7,26.73
9,536576.0,22749,,8.0,2010-12-01 12:26:00,3.75,16420,United Kingdom,Frank Brown,frank.brown@demo.net,...,7.11,58x20x92 cm,10.26,North America,PROMO20,PayPal,12,2010,30.0,27.0


## Pregunta 13
**Pivot table:**
- Cree una tabla dinámica (pivot table) que muestre el total de `TotalPrice` para cada `Country` y `InvoiceYear`.

In [104]:
# Crear la tabla dinámica
pivot_table = df_retail.pivot_table(values='TotalPrice', index='Country', columns='InvoiceYear', aggfunc='sum')

# Mostrar la tabla dinámica resultante
pivot_table


InvoiceYear,0,1900,2010,2050
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
### CHOCOLATE HOT WATER BOTTLE ###,,,33.9,
### FELTCRAFT PRINCESS CHARLOTTE DOLL ###,30.0,,,
### U.K. ###,19.8,,,
### united kingdom ###,,,20.34,
BOX OF VINTAGE ALPHABET BLOCKS,,,19.9,
BOX OF VINTAGE JIGSAW BLOCKS,,,14.85,
Denmark,2010.82,99.92,47137.86,16.5
England,15.3,,52.65,
Germany,12744.6,54.15,61488.96,64.8
KNITTED UNION FLAG HOT WATER BOTTLE,,,20.34,


In [106]:
# Unificar los nombres de los países y corregir los valores incorrectos
country_replacements = {
    'United Kingdom': 'United Kingdom',
    'U.K.': 'United Kingdom',
    'England': 'United Kingdom',
    '### U.K. ###': 'United Kingdom',
    '### united kingdom ###': 'United Kingdom',
    'united kingdom': 'United Kingdom',
    '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###': 'United Kingdom',
    'KNITTED UNION FLAG HOT WATER BOTTLE': 'United Kingdom',
    'STRIPED CHARLIE+LOLA CHARLOTTE BAG: details': 'United Kingdom',
    'BOX OF VINTAGE JIGSAW BLOCKS': 'United Kingdom',
    'SCANDINAVIAN REDS RIBBONS': 'United Kingdom',
    '### CHOCOLATE HOT WATER BOTTLE ###': 'United Kingdom',
    'BOX OF VINTAGE ALPHABET BLOCKS': 'United Kingdom',
    'RED HARMONICA IN BOX': 'United Kingdom',
    'Germany': 'Germany',
    'Denmark': 'Denmark'
}

# Reemplazar los valores en la columna 'Country'
df_retail['Country'] = df_retail['Country'].replace(country_replacements)

# Crear la tabla dinámica nuevamente
pivot_table = df_retail.pivot_table(values='TotalPrice', index='Country', columns='InvoiceYear', aggfunc='sum')

# Mostrar la tabla dinámica resultante
pivot_table


InvoiceYear,0,1900,2010,2050
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Denmark,2010.82,99.92,47137.86,16.5
Germany,12744.6,54.15,61488.96,64.8
United Kingdom,345.09,38.9,124873.97,104.0


## Pregunta 14
**Reshape con melt:**
- Transforme el dataset `retail` de formato ancho a largo usando la función `melt` de pandas.

In [74]:
# Transformar el dataframe de formato ancho a largo usando melt
melted_df = pd.melt(pivot_table.reset_index(), id_vars=['Country'], value_vars=pivot_table.columns, var_name='InvoiceYear', value_name='TotalPrice')

# Mostrar el dataframe transformado
print("DataFrame transformado:")
print(melted_df.head())

DataFrame transformado:
          Country InvoiceYear  TotalPrice
0         Denmark      2010.0    46909.81
1         Germany      2010.0    46079.01
2  United Kingdom      2010.0   121225.63


## Pregunta 15
**Combinar datos con overlap:**
- Combine dos DataFrames con columnas `CustomerID` y `TotalPrice`, teniendo en cuenta el overlap entre los datos.

In [77]:
# Mostrar los nombres de las columnas de cada DataFrame
print("Columnas de df_retail_no_duplicates:")
print(df_retail_no_duplicates.columns)

print("\nColumnas de df_retail_cleaned_countries:")
print(df_retail_cleaned_countries.columns)


Columnas de df_retail_no_duplicates:
Index(['CustomerID', 'TotalPrice'], dtype='object')

Columnas de df_retail_cleaned_countries:
Index(['CustomerID', 'TotalPrice'], dtype='object')


In [79]:
import pandas as pd

# Supongamos que df_retail_no_duplicates y df_retail_cleaned_countries son tus DataFrames
# Aquí un ejemplo con datos de entrada para ilustrar la solución

data1 = {
    'CustomerID': [1, 2, 3, 4],
    'TotalPrice': [100, 200, 300, 400]
}
data2 = {
    'CustomerID': [3, 4, 5, 6],
    'TotalPrice': [350, 450, 500, 600]
}

df_retail_no_duplicates = pd.DataFrame(data1)
df_retail_cleaned_countries = pd.DataFrame(data2)

# Combinar los DataFrames teniendo en cuenta el overlap entre los datos
combined_df = pd.merge(df_retail_no_duplicates, df_retail_cleaned_countries, on='CustomerID', how='outer', suffixes=('_df1', '_df2'))

# Resolver el overlap en 'TotalPrice'
combined_df['TotalPrice'] = combined_df[['TotalPrice_df1', 'TotalPrice_df2']].max(axis=1)

# Eliminar las columnas adicionales
combined_df.drop(columns=['TotalPrice_df1', 'TotalPrice_df2'], inplace=True)

# Mostrar el DataFrame combinado
print("DataFrame combinado:")
print(combined_df)


DataFrame combinado:
   CustomerID  TotalPrice
0           1       100.0
1           2       200.0
2           3       350.0
3           4       450.0
4           5       500.0
5           6       600.0


## Pregunta 16
**Join con índices:**
- Realice un join de dos DataFrames basándose en los índices.

## Pregunta 17
**Cambio de nivel de índices:**
- Cambie los niveles de los índices en un MultiIndex en el dataset `retail`.

## Pregunta 18
**Reordenamiento de niveles:**
- Reordene los niveles del índice en un DataFrame con MultiIndex.

## Pregunta 19
**Agregación por nivel:**
- Realice una agregación de los datos por nivel en un MultiIndex.

## Pregunta 20
**Creación de MultiIndex:**
- Cree un MultiIndex a partir de las columnas `Country` y `InvoiceYear` en el dataset `retail`.

# Parte 3 Data Aggregation and Group Operations (Capitulo 10)

## Pregunta 21
**Agrupación por cliente:**
- Agrupe los datos del dataset `retail` por `CustomerID` y calcule el total de `TotalPrice` por cliente.

## Pregunta 22
**Agrupación por producto:**
- Agrupe los datos del dataset `retail` por `StockCode` y calcule la cantidad total vendida (`Quantity`).

## Pregunta 23
**Agrupación por mes y año:**
- Agrupe los datos del dataset `retail` por `InvoiceMonth` y `InvoiceYear`, y calcule el total de `TotalPrice`.

## Pregunta 24
**Conteo de transacciones:**
- Cuente el número total de transacciones por `Country` y `InvoiceYear`.

## Pregunta 25
**Función de agregación personalizada:**
- Cree una función de agregación personalizada que calcule el promedio y la desviación estándar de `TotalPrice` por `Country`.

## Pregunta 26
**Agrupación y transformaciones:**
- Agrupe los datos por `CustomerID` y normalice el `TotalPrice` restando la media y dividiendo por la desviación estándar dentro de cada grupo.

## Pregunta 27
**Filtrado de grupos:**
- Filtre los grupos de `CustomerID` que tengan un `TotalPrice` promedio mayor a 500.

## Pregunta 28
**Aplicación de múltiples funciones:**
- Aplique múltiples funciones de agregación (suma, promedio, máximo) a la columna `TotalPrice` agrupando por `Country`.

## Pregunta 29
**Creación de columnas derivadas:**
- Cree una nueva columna `AvgTotalPrice` que contenga el promedio de `TotalPrice` por `CustomerID`.

## Pregunta 30
**Uso de transformaciones window:**
- Utilice una transformación de ventana para calcular la media móvil de 3 períodos de `TotalPrice` para cada `CustomerID`.

# Parte 4 - Time Series (capítulo 11)

## Pregunta 31
**Conversión a índice de tiempo:**
- Convierta la columna `InvoiceDate` a un índice de tiempo en el dataset `retail`.

## Pregunta 32
**Remuestreo de datos:**
- Remuestrear los datos del dataset `retail` a una frecuencia mensual y calcule el total de `TotalPrice` por mes.

## Pregunta 33
**Cambio de frecuencia:**
- Cambie la frecuencia de los datos del dataset `retail` a trimestral y calcule el total de `TotalPrice` por trimestre.

## Pregunta 34
**Desplazamiento de datos:**
- Desplace los datos de `TotalPrice` en el dataset `retail` un período hacia adelante.

## Pregunta 35
**Ventanas móviles:**
- Calcule la media móvil de 3 períodos de `TotalPrice` en el dataset `retail`.

## Pregunta 36
**Detección de tendencias:**
- Detecte tendencias en la columna `TotalPrice` del dataset `retail` usando una ventana móvil de 12 períodos.

## Pregunta 37
**Descomposición de series temporales:**
- Descomponga la serie temporal de `TotalPrice` en componentes de tendencia, estacionalidad y ruido.

## Pregunta 38
**Interpolación de datos faltantes:**
- Interpole los valores faltantes en la columna `TotalPrice` utilizando la interpolación lineal.

## Pregunta 39
**Análisis de autocorrelación:**
- Realice un análisis de autocorrelación en la columna `TotalPrice` del dataset `retail`.

## Pregunta 40
**Conversión de zona horaria:**
- Convierta las fechas en la columna `InvoiceDate` a una zona horaria específica (por ejemplo, UTC) en el dataset `retail`.


# Parte 5 Preguntas de Negocio

## Pregunta 1
**Análisis de Retorno de Productos:**
- ¿Cuál es el porcentaje de productos devueltos por país (United Kingdom, Germany, Denmark)? ¿Hay alguna diferencia notable entre los países?

## Pregunta 2
**Impacto de Promociones:**
- ¿Qué porcentaje de las ventas totales se realizaron utilizando códigos de promoción en cada uno de los tres países? ¿Cuál es el código de promoción más efectivo?

## Pregunta 3
**Canales de Venta:**
- ¿Cuál es la distribución de ventas entre los diferentes canales de venta (`SaleChannel`) en cada país? ¿Hay un canal que sea predominantemente más utilizado en alguno de los países?

## Pregunta 4
**Costos de Envío:**
- ¿Cuál es el costo promedio de envío por país? ¿Existen diferencias significativas en los costos de envío entre los tres países?

## Pregunta 5
**Peso del Producto y Costos de Envío:**
- ¿Existe una correlación entre el peso del producto (`ProductWeight`) y el costo de envío (`ShippingCost`)? ¿Cómo varía esta relación entre los diferentes países?

## Pregunta 6
**Descuentos y Comportamiento de Compra:**
- ¿Qué porcentaje de las compras en cada país se realizaron con algún tipo de descuento (`Discount`)? ¿Los clientes en algún país en particular son más propensos a utilizar descuentos?

## Pregunta 7
**Análisis de Categorías de Productos:**
- ¿Cuáles son las categorías de productos (`Category`) más vendidas en cada país? ¿Existen diferencias en las preferencias de categorías de productos entre los países?

## Pregunta 8
**Rendimiento de Proveedores:**
- ¿Cuál es el proveedor (`Supplier`) con el mayor volumen de ventas en cada país? ¿Cómo se distribuyen las ventas entre los diferentes proveedores en cada uno de los países?

## Pregunta 9
**Promedio de Precios de Venta:**
- ¿Cuál es el precio promedio de venta (`UnitPrice`) de los productos en cada país? ¿Existen diferencias significativas en los precios de venta entre los tres países?

## Pregunta 10
**Tendencias de Venta por Región:**
- ¿Cómo se distribuyen las ventas (`TotalPrice`) por región de ventas (`SalesRegion`) dentro de cada país? ¿Hay alguna región que destaque en términos de volumen de ventas en alguno de los países?

## Pregunta 11
**Análisis de Frecuencia de Compras:**
- ¿Cuál es la frecuencia promedio de compras por cliente (`CustomerID`) en cada país? ¿Los clientes en algún país compran con mayor frecuencia?


## Pregunta 12
**Valor de Vida del Cliente:**
- ¿Cuál es el valor promedio de vida del cliente (suma de `TotalPrice`) en cada país? ¿Existe una diferencia significativa en el valor de vida del cliente entre los tres países?

## Pregunta 13
**Métodos de Pago:**
- ¿Cuál es el método de pago (`PaymentMethod`) más utilizado en cada país? ¿Hay una preferencia notable por ciertos métodos de pago en algún país específico?

## Pregunta 14
**Evaluación de la Eficiencia de Descuentos:**
- ¿Qué impacto tienen los descuentos (`Discount`) en el valor total de las ventas en cada país? ¿Los descuentos resultan en un aumento significativo en el volumen de ventas?

## Pregunta 15
**Análisis de Clientes por Región:**
- ¿Cuál es la distribución de clientes (`CustomerID`) por región de ventas (`SalesRegion`) en cada país? ¿Hay regiones con una concentración notablemente mayor de clientes?

## Pregunta 16
**Promociones y Segmentos de Mercado:**
- ¿Cuál es el código de promoción (`PromotionCode`) más utilizado en cada segmento de mercado (`SalesRegion`) dentro de cada país?

## Pregunta 17
**Análisis de Temporadas de Venta:**
- ¿Existen patrones estacionales en las ventas (`InvoiceDate`) en cada país? ¿Hay picos de ventas en ciertos meses o temporadas en alguno de los países?

## Pregunta 18
**Preferencias de Productos:**
- ¿Cuáles son los productos (`StockCode` y `Description`) más vendidos en cada país? ¿Hay diferencias notables en las preferencias de productos entre los países?

## Pregunta 19
**Impacto de las Devoluciones en las Ventas:**
- ¿Qué porcentaje de las ventas totales son afectadas por devoluciones (`ReturnStatus`)? ¿Cómo varía este porcentaje entre los diferentes países?

## Pregunta 20
**Análisis de Margen de Ganancia:**
- ¿Cuál es el margen de ganancia promedio (`UnitPrice - Discount`) por producto en cada país? ¿Hay productos o categorías con márgenes significativamente mayores o menores en alguno de los países?