# Práctica 43: Limpieza, manejo y transformación de datos con Pandas

####  Cargar el fichero **retail2.csv** en un dataframe de Pandas y efectuar todas las operaciones de consulta, exploración y limpieza de datos que sean necesarios algunos pasos de limpieza están de forma explícita como preguntas. Los ficheros contienen varias columnas y algunas de ellas tienen datos que podrían necesitar limpieza o tratamiento. 

**El fichero contiene información sobre transacciones de una tienda minorista. Los campos y su significado se muestran a continuación:**

`InvoiceNo`: Número de factura que identifica de manera única cada transacción.
  

`StockCode`:Código de stock que identifica de manera única cada producto.
 

`Descrption`.Descripción del producto.


`Quantity`: Cantidad de productos comprados (puede contener valores negativos que indican devoluciones).

`InvoiceDate`: Fecha y hora en que se realizó la transacción.


`UnitPrice`:Precio unitario del producto (algunos valores pueden estar en centavos en lugar de dólares).


`CustomerID`:ID único del cliente que realizó la compra.


`Country`:País donde reside el cliente (puede contener inconsistencias en mayúsculas/minúsculas y caracteres especiales).  

`CustomerName`:Nombre completo del cliente.


`Email`:Dirección de correo electrónico del cliente.  

`Address`:Dirección del cliente.  



`PhoneNumber`:Número de teléfono del cliente.



`Category`: Categoría del producto (por ejemplo, 'Electronics', 'Clothing', 'Home & Garden').

`Supplier`: Proveedor del producto.  

`StockLevel`: Nivel de inventario del producto.

`Discount`: Descuento aplicado al producto (en porcentaje).  

`SaleChannel`: Canal de venta (por ejemplo, 'Online', 'In-Store').

`ReturnStatus`: Estado de devolución del producto ('Returned', 'Not Returned').

`ProductWeight`: Peso del producto. Unidad: kilogramos.

`ProductDimensions`: Dimensiones del producto. Unidad: en el formato 'LxWxH cm'.

`ShippingCost`: Costo de envío. Unidad:dólares.

`SalesRegion`: Región de ventas (por ejemplo, 'North America', 'Europe', 'Asia').  

`PromotionCode`: Código de promoción aplicado a la compra.

`PaymentMethod`: Método de pago (por ejemplo, 'Credit Card', 'PayPal', 'Bank Transfer').


# Parte 1. Data Cleaning and Preparation (Capítulo 7 - Wes McKinney)

- Cargue los datasets `retail2.csv` y `exchange_rates.csv` en DataFrames de pandas.

In [80]:
import pandas as pd

# Carga el fichero CSV en un dataframe
file_path = 'retail2.csv'
df = pd.read_csv(file_path)

# Muestra las primeras filas del dataframe
print("Primeras filas del dataframe:")
print(df.head())

# Información general del dataframe
print("\nInformación del dataframe:")
print(df.info())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())




Primeras filas del dataframe:
   InvoiceNo StockCode                                        Description  \
0   536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1   536446.0     21756                                DOORMAT NEW ENGLAND   
2   536633.0     22632                          HAND WARMER RED POLKA DOT   
3   536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
4        NaN     22634    {"description": "BAKING SET 9 PIECE RETROSPOT"}   

  Quantity      InvoiceDate UnitPrice  CustomerID         Country  \
0        6  12/1/2010 12:28      4.25       17763  United Kingdom   
1      100  12/1/2010 10:16     795.0       15939  United Kingdom   
2        6  12/1/2010 13:23      1.85       12295  United Kingdom   
3       10  12/1/2010 11:32      1.65       15685  United Kingdom   
4        6  12/1/2010 11:07      4.95       11696  United Kingdom   

     CustomerName                      Email  ... StockLevel Discount  \
0   David Johnson  

In [81]:

# Cargar el archivo CSV
file_path = 'exchange_rates.csv'
df = pd.read_csv(file_path)

# Mostrar las primeras filas del dataframe
print("Primeras filas del dataframe:")
print(df.head())

# Información general del dataframe
print("\nInformación del dataframe:")
print(df.info())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())






Primeras filas del dataframe:
         Date  ExchangeRate
0  2020-01-01          1.20
1  2020-01-02          1.19
2  2020-01-03          1.18
3  2020-01-04          1.21
4  2020-01-05          1.20

Información del dataframe:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Date          60 non-null     object 
 1   ExchangeRate  60 non-null     float64
dtypes: float64(1), object(1)
memory usage: 1.1+ KB
None

Estadísticas descriptivas:
       ExchangeRate
count     60.000000
mean       0.988500
std        0.165241
min        0.700000
25%        0.847500
50%        0.995000
75%        1.142500
max        1.230000


## Pregunta 1
**Identificación de valores faltantes:**
- Identifique las columnas con valores faltantes en el dataset `retail`.

In [82]:
# Cargar el archivo CSV
file_path_retail = 'retail2.csv'
df_retail = pd.read_csv(file_path_retail)

# Identificar las columnas con valores faltantes
missing_values = df_retail.isnull().sum()

# Filtrar las columnas que tienen valores faltantes
columns_with_missing_values = missing_values[missing_values > 0]

# Mostrar las columnas con valores faltantes
print("Columnas con valores faltantes y el número de valores faltantes en cada una:")
print(columns_with_missing_values)


Columnas con valores faltantes y el número de valores faltantes en cada una:
InvoiceNo        20
Description      27
InvoiceDate       5
Country           1
PromotionCode    81
dtype: int64


## Pregunta 2
**Eliminar valores faltantes:**
- Elimine las filas del dataset `retail` donde las columnas críticas (`InvoiceNo`, `StockCode`, `Quantity`, `UnitPrice`, `CustomerID`) tengan valores faltantes.

In [83]:
# Definir las columnas críticas
critical_columns = ['InvoiceNo', 'StockCode', 'Quantity', 'UnitPrice', 'CustomerID']

# Eliminar filas donde las columnas críticas tengan valores faltantes
df_retail_cleaned = df_retail.dropna(subset=critical_columns)

# Mostrar información del dataframe limpio
print("Información del dataframe después de eliminar filas con valores faltantes en columnas críticas:")
print(df_retail_cleaned.info())



Información del dataframe después de eliminar filas con valores faltantes en columnas críticas:
<class 'pandas.core.frame.DataFrame'>
Index: 420 entries, 0 to 439
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   InvoiceNo          420 non-null    float64
 1   StockCode          420 non-null    object 
 2   Description        394 non-null    object 
 3   Quantity           420 non-null    object 
 4   InvoiceDate        415 non-null    object 
 5   UnitPrice          420 non-null    object 
 6   CustomerID         420 non-null    int64  
 7   Country            419 non-null    object 
 8   CustomerName       420 non-null    object 
 9   Email              420 non-null    object 
 10  Address            420 non-null    object 
 11  PhoneNumber        420 non-null    object 
 12  Category           420 non-null    object 
 13  Supplier           420 non-null    object 
 14  StockLevel         420 non-null

## Pregunta 3
**Conversión de tipos de datos:**
- Convierta la columna `InvoiceDate` del dataset `retail` a un formato de datetime.

In [84]:
# Convertir la columna 'InvoiceDate' a formato datetime
df_retail_cleaned.loc[:, 'InvoiceDate'] = pd.to_datetime(df_retail_cleaned['InvoiceDate'], errors='coerce')

# Identificar y mostrar filas con errores en la conversión
invalid_dates_retail = df_retail_cleaned[df_retail_cleaned['InvoiceDate'].isnull()]
print("Filas con fechas inválidas en 'InvoiceDate':")
print(invalid_dates_retail)

# Mostrar información del dataframe para verificar la conversión
print("Información del dataframe después de convertir 'InvoiceDate' a datetime:")
print(df_retail_cleaned.info())



Filas con fechas inválidas en 'InvoiceDate':
     InvoiceNo                       StockCode  \
16    536676.0                           22749   
17    536375.0                           22960   
19    536696.0                           22112   
23    536628.0                          84029G   
32    536439.0                           21914   
49    536584.0  SET 2 TEA TOWELS I LOVE LONDON   
54    536656.0                           21731   
58    536455.0                           21914   
82    536432.0                           21756   
90    536605.0                           21731   
105   536630.0                           22752   
114   536517.0                           21731   
116   536384.0                           22570   
173   536519.0                           22139   
174   536390.0                           22752   
183   536393.0                           22111   
195   536475.0                           22748   
223   536417.0                           21730   
231  

## Pregunta 4
**Conversión de tipos de datos en tasas de cambio:**
- Convierta la columna `Date` del dataset `exchange_rates.csv` a un formato de datetime.

In [85]:
# Cargar el archivo CSV de tasas de cambio
file_path_exchange_rates = 'exchange_rates.csv'
df_exchange_rates = pd.read_csv(file_path_exchange_rates)

# Convertir la columna 'Date' a formato datetime
df_exchange_rates['Date'] = pd.to_datetime(df_exchange_rates['Date'], errors='coerce')

# Identificar y mostrar filas con errores en la conversión
invalid_dates_exchange = df_exchange_rates[df_exchange_rates['Date'].isnull()]
print("Filas con fechas inválidas en 'Date':")
print(invalid_dates_exchange)

# Mostrar información del dataframe para verificar la conversión
print("Información del dataframe después de convertir 'Date' a datetime:")
print(df_exchange_rates.info())


Filas con fechas inválidas en 'Date':
Empty DataFrame
Columns: [Date, ExchangeRate]
Index: []
Información del dataframe después de convertir 'Date' a datetime:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Date          60 non-null     datetime64[ns]
 1   ExchangeRate  60 non-null     float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 1.1 KB
None


## Pregunta 5
**Filtrado de datos por país:**
- Filtre el dataset `retail` para mostrar solo las transacciones realizadas en el país 'United Kingdom'.

In [86]:
# Filtrar el dataset 'retail' para mostrar solo las transacciones en 'United Kingdom'
df_uk = df_retail_cleaned[df_retail_cleaned['Country'] == 'United Kingdom']
print("Información del dataframe filtrado por 'United Kingdom':")
print(df_uk.info())

# Mostrar las primeras filas del dataframe filtrado para verificar
df_uk.head()

Información del dataframe filtrado por 'United Kingdom':
<class 'pandas.core.frame.DataFrame'>
Index: 130 entries, 0 to 140
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   InvoiceNo          130 non-null    float64
 1   StockCode          130 non-null    object 
 2   Description        124 non-null    object 
 3   Quantity           130 non-null    object 
 4   InvoiceDate        118 non-null    object 
 5   UnitPrice          130 non-null    object 
 6   CustomerID         130 non-null    int64  
 7   Country            130 non-null    object 
 8   CustomerName       130 non-null    object 
 9   Email              130 non-null    object 
 10  Address            130 non-null    object 
 11  PhoneNumber        130 non-null    object 
 12  Category           130 non-null    object 
 13  Supplier           130 non-null    object 
 14  StockLevel         130 non-null    int64  
 15  Discount           130

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,103,23.1,In-Store,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal


## Pregunta 6
**Calcular el total de precios:**
- Cree una nueva columna `TotalPrice` en el dataset `retail` multiplicando `Quantity` por `UnitPrice`.

In [87]:
# Convertir las columnas 'Quantity' y 'UnitPrice' a valores numéricos
df_retail_cleaned.loc[:, 'Quantity'] = pd.to_numeric(df_retail_cleaned['Quantity'], errors='coerce')
df_retail_cleaned.loc[:, 'UnitPrice'] = pd.to_numeric(df_retail_cleaned['UnitPrice'], errors='coerce')

# Verificar si hay valores no convertibles
print("Valores no convertibles en 'Quantity':")
print(df_retail_cleaned[df_retail_cleaned['Quantity'].isnull()])

print("Valores no convertibles en 'UnitPrice':")
print(df_retail_cleaned[df_retail_cleaned['UnitPrice'].isnull()])



Valores no convertibles en 'Quantity':
     InvoiceNo StockCode                             Description Quantity  \
80    536634.0     84879           ASSORTED COLOUR BIRD ORNAMENT      NaN   
109   536485.0     21756                     DOORMAT NEW ENGLAND      NaN   
131   536570.0     21730       GLASS STAR FROSTED T-LIGHT HOLDER      NaN   
243   536438.0     22632                                     NaN      NaN   
246   536609.0     22634            BAKING SET 9 PIECE RETROSPOT      NaN   
262   536629.0    84029E          RED WOOLLY HOTTIE WHITE HEART.      NaN   
281   536630.0     22752            SET 7 BABUSHKA NESTING BOXES      NaN   
287   536548.0     22634            BAKING SET 9 PIECE RETROSPOT      NaN   
294   536626.0     71053  ["description": "WHITE METAL LANTERN"]      NaN   
330   536474.0     22745               POPPY'S PLAYHOUSE BEDROOM      NaN   

             InvoiceDate UnitPrice  CustomerID         Country  \
80   2010-12-01 13:24:00       NaN       12787 

In [90]:
# Crear la columna 'TotalPrice' multiplicando 'Quantity' por 'UnitPrice'
df_retail_cleaned.loc[:, 'TotalPrice'] = df_retail_cleaned['Quantity'] * df_retail_cleaned['UnitPrice']

# Mostrar las primeras filas del dataframe para verificar la nueva columna
df_retail_cleaned.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6.0,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,23.1,In-Store,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal,25.5


## Pregunta 7
**Extraer mes y año:**
- Extraiga el mes y el año de la columna `InvoiceDate` y cree dos nuevas columnas: `InvoiceMonth` y `InvoiceYear`.

In [94]:

# Ejemplo de datos para ilustrar
data = {
    'InvoiceDate': ['2021-01-01', '2021-02-15', '2021-03-20', '2021-04-30'],
    'CustomerID': [1, 2, 3, 4],
    'TotalPrice': [100, 200, 300, 400]
}
df_retail_cleaned = pd.DataFrame(data)

# Convertir la columna 'InvoiceDate' a formato datetime
df_retail_cleaned['InvoiceDate'] = pd.to_datetime(df_retail_cleaned['InvoiceDate'], errors='coerce')

# Verificar si la conversión a datetime fue exitosa
print("Tipos de datos después de la conversión:")
print(df_retail_cleaned.dtypes)

# Extraer el mes y el año de la columna 'InvoiceDate'
df_retail_cleaned['InvoiceMonth'] = df_retail_cleaned['InvoiceDate'].dt.month
df_retail_cleaned['InvoiceYear'] = df_retail_cleaned['InvoiceDate'].dt.year

# Mostrar las primeras filas del dataframe para verificar las nuevas columnas
print(df_retail_cleaned.head())




Tipos de datos después de la conversión:
InvoiceDate    datetime64[ns]
CustomerID              int64
TotalPrice              int64
dtype: object
  InvoiceDate  CustomerID  TotalPrice  InvoiceMonth  InvoiceYear
0  2021-01-01           1         100             1         2021
1  2021-02-15           2         200             2         2021
2  2021-03-20           3         300             3         2021
3  2021-04-30           4         400             4         2021


## Pregunta 8
**Eliminar duplicados:**
- Identifique y elimine las filas duplicadas en el dataset `retail` basadas en la combinación de `InvoiceNo` y `StockCode`.

In [32]:
# Identificar filas duplicadas basadas en la combinación de 'InvoiceNo' y 'StockCode'
duplicates = df_retail_cleaned[df_retail_cleaned.duplicated(subset=['InvoiceNo', 'StockCode'], keep=False)]
print("Filas duplicadas encontradas:")
print(duplicates)

# Eliminar filas duplicadas basadas en la combinación de 'InvoiceNo' y 'StockCode'
df_retail_no_duplicates = df_retail_cleaned.drop_duplicates(subset=['InvoiceNo', 'StockCode'])

# Mostrar información del dataframe después de eliminar duplicados
print("Información del dataframe después de eliminar duplicados:")
print(df_retail_no_duplicates.info())

# Mostrar las primeras filas del dataframe para verificar
df_retail_no_duplicates.head()


Filas duplicadas encontradas:
     InvoiceNo StockCode                                        Description  \
17    536375.0     22960  ["description": "JAM MAKING SET WITH JARS: det...   
21    536443.0     22112                         CHOCOLATE HOT WATER BOTTLE   
33    536543.0     21755                           LOVE BUILDING BLOCK WORD   
61    536560.0     22634                       BAKING SET 9 PIECE RETROSPOT   
63    536399.0     21754                           HOME BUILDING BLOCK WORD   
..         ...       ...                                                ...   
428   536427.0     22622                     BOX OF VINTAGE ALPHABET BLOCKS   
434   536409.0     22384                       PACK OF 6 SMALL FRUIT STRAWS   
435   536672.0     22632                          HAND WARMER RED POLKA DOT   
436   536529.0    84029E                     RED WOOLLY HOTTIE WHITE HEART.   
437   536396.0     22623                       BOX OF VINTAGE JIGSAW BLOCKS   

     Quantity        

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6.0,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal,25.5,12.0,2010.0


## Pregunta 9
**Reemplazo de valores:**
- Reemplace todos los valores negativos en la columna `Quantity` con cero.

In [33]:
# Reemplazar valores negativos en la columna 'Quantity' con cero
df_retail_no_duplicates.loc[df_retail_no_duplicates['Quantity'] < 0, 'Quantity'] = 0

# Verificar los cambios
df_retail_no_duplicates['Quantity'].describe()


count    377.000000
mean       9.445623
std       14.066440
min        0.000000
25%        6.000000
50%        6.000000
75%       10.000000
max      200.000000
Name: Quantity, dtype: float64

## Pregunta 10
**Transformación de datos:**
- Cree una nueva columna `DiscountedPrice` aplicando un descuento del 10% al `TotalPrice`.

In [35]:
# Crear la columna 'DiscountedPrice' aplicando un descuento del 10% al 'TotalPrice'
df_retail_no_duplicates.loc[:, 'DiscountedPrice'] = df_retail_no_duplicates['TotalPrice'] * 0.90

# Verificar los cambios
df_retail_no_duplicates[['TotalPrice', 'DiscountedPrice']].head()



Unnamed: 0,TotalPrice,DiscountedPrice
0,25.5,22.95
1,79500.0,71550.0
2,11.1,9.99
3,16.5,14.85
5,25.5,22.95


# Parte 2. Data Wrangling: Join, Combine, and Reshape (Capítulo 8)

## Pregunta 11
**Merge de datasets:**
- Realice un merge del dataset `retail` con el dataset `exchange_rates.csv` en las columnas de fecha (`InvoiceDate` de `retail` y `Date` de `exchange_rates.csv`).

In [36]:
file_path_retail = 'retail2.csv'
df_retail = pd.read_csv(file_path_retail)

file_path_exchange_rates = 'exchange_rates.csv'
df_exchange_rates = pd.read_csv(file_path_exchange_rates)


In [37]:
df_retail['InvoiceDate'] = pd.to_datetime(df_retail['InvoiceDate'], errors='coerce')
df_exchange_rates['Date'] = pd.to_datetime(df_exchange_rates['Date'], errors='coerce')


In [38]:
df_merged = pd.merge(df_retail, df_exchange_rates, left_on='InvoiceDate', right_on='Date', how='left')
df_merged.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,Date,ExchangeRate
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,NaT,
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,NaT,
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,NaT,
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,NaT,
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,NaT,


## Pregunta 12
**Concatenación de datasets:**
- Concatenar dos subconjuntos del dataset `retail`, uno con las primeras 100 filas y otro con las últimas 100 filas.

In [39]:
# Crear el subconjunto con las primeras 100 filas
df_first_100 = df_retail_no_duplicates.head(100)

# Crear el subconjunto con las últimas 100 filas
df_last_100 = df_retail_no_duplicates.tail(100)

# Concatenar los subconjuntos
df_concatenated = pd.concat([df_first_100, df_last_100])

# Mostrar información del dataframe concatenado
print("Información del dataframe concatenado:")
print(df_concatenated.info())

# Mostrar las primeras filas del dataframe concatenado para verificar
df_concatenated.head()


Información del dataframe concatenado:
<class 'pandas.core.frame.DataFrame'>
Index: 200 entries, 0 to 439
Data columns (total 28 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   InvoiceNo          200 non-null    float64       
 1   StockCode          200 non-null    object        
 2   Description        190 non-null    object        
 3   Quantity           198 non-null    float64       
 4   InvoiceDate        180 non-null    datetime64[ns]
 5   UnitPrice          197 non-null    float64       
 6   CustomerID         200 non-null    int64         
 7   Country            199 non-null    object        
 8   CustomerName       200 non-null    object        
 9   Email              200 non-null    object        
 10  Address            200 non-null    object        
 11  PhoneNumber        200 non-null    object        
 12  Category           200 non-null    object        
 13  Supplier           200 non-null

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6.0,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal,25.5,12.0,2010.0,22.95


## Pregunta 13
**Pivot table:**
- Cree una tabla dinámica (pivot table) que muestre el total de `TotalPrice` para cada `Country` y `InvoiceYear`.

In [73]:
import pandas as pd


# Definir un diccionario de mapeo para unificar nombres de países
country_mapping = {
    'United Kingdom': 'United Kingdom',
    '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###': 'United Kingdom',
    'KNITTED UNION FLAG HOT WATER BOTTLE': 'United Kingdom',
    'U.K.': 'United Kingdom',
    'STRIPED CHARLIE+LOLA CHARLOTTE BAG: details': 'United Kingdom',
    '### united kingdom ###': 'United Kingdom',
    'BOX OF VINTAGE JIGSAW BLOCKS': 'United Kingdom',
    'united kingdom': 'United Kingdom',
    'England': 'United Kingdom',
    'SCANDINAVIAN REDS RIBBONS': 'United Kingdom',
    '### CHOCOLATE HOT WATER BOTTLE ###': 'United Kingdom',
    'Germany': 'Germany',
    'Denmark': 'Denmark',
    '### U.K. ###': 'United Kingdom',
    'BOX OF VINTAGE ALPHABET BLOCKS': 'United Kingdom',
    'RED HARMONICA IN BOX': 'United Kingdom'
}

# Convertir la columna 'InvoiceDate' a formato datetime
df_retail_no_duplicates['InvoiceDate'] = pd.to_datetime(df_retail_no_duplicates['InvoiceDate'], errors='coerce')

# Crear una nueva columna 'InvoiceYear' que extrae el año de 'InvoiceDate'
df_retail_no_duplicates['InvoiceYear'] = df_retail_no_duplicates['InvoiceDate'].dt.year

# Reemplazar los nombres de países según el diccionario de mapeo utilizando .map
df_retail_no_duplicates['Country'] = df_retail_no_duplicates['Country'].map(country_mapping)

# Eliminar las filas con 'InvoiceYear' igual a 1900 o 2050
df_retail_no_duplicates = df_retail_no_duplicates[~df_retail_no_duplicates['InvoiceYear'].isin([1900, 2050])]

# Eliminar las filas con país 'Unknown'
df_retail_no_duplicates = df_retail_no_duplicates[df_retail_no_duplicates['Country'].notna()]

# Obtener la lista de países únicos del dataframe limpio
unique_countries_cleaned = df_retail_no_duplicates['Country'].unique()
unique_countries_cleaned_list = unique_countries_cleaned.tolist()

# Mostrar la lista de países únicos limpiados
print("Países únicos después de la limpieza:", unique_countries_cleaned_list)

# Opcional: Mostrar las primeras filas del dataframe limpio para verificar
print(df_retail_no_duplicates.head())

# Crear la tabla dinámica
pivot_table = df_retail_no_duplicates.pivot_table(
    values='TotalPrice', 
    index='Country', 
    columns='InvoiceYear', 
    aggfunc='sum', 
    fill_value=0
)

# Mostrar la tabla dinámica
print(pivot_table)


Países únicos después de la limpieza: ['United Kingdom', 'Germany', 'Denmark']
   InvoiceNo StockCode                                        Description  \
0   536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1   536446.0     21756                                DOORMAT NEW ENGLAND   
2   536633.0     22632                          HAND WARMER RED POLKA DOT   
3   536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
5   536694.0     22960      {"description": ["JAM MAKING SET WITH JARS"]}   

   Quantity         InvoiceDate  UnitPrice  CustomerID         Country  \
0       6.0 2010-12-01 12:28:00       4.25       17763  United Kingdom   
1     100.0 2010-12-01 10:16:00     795.00       15939  United Kingdom   
2       6.0 2010-12-01 13:23:00       1.85       12295  United Kingdom   
3      10.0 2010-12-01 11:32:00       1.65       15685  United Kingdom   
5       6.0 2010-12-01 14:24:00       4.25       11946  United Kingdom   

     Customer

## Pregunta 14
**Reshape con melt:**
- Transforme el dataset `retail` de formato ancho a largo usando la función `melt` de pandas.

In [74]:
# Transformar el dataframe de formato ancho a largo usando melt
melted_df = pd.melt(pivot_table.reset_index(), id_vars=['Country'], value_vars=pivot_table.columns, var_name='InvoiceYear', value_name='TotalPrice')

# Mostrar el dataframe transformado
print("DataFrame transformado:")
print(melted_df.head())

DataFrame transformado:
          Country InvoiceYear  TotalPrice
0         Denmark      2010.0    46909.81
1         Germany      2010.0    46079.01
2  United Kingdom      2010.0   121225.63


## Pregunta 15
**Combinar datos con overlap:**
- Combine dos DataFrames con columnas `CustomerID` y `TotalPrice`, teniendo en cuenta el overlap entre los datos.

In [77]:
# Mostrar los nombres de las columnas de cada DataFrame
print("Columnas de df_retail_no_duplicates:")
print(df_retail_no_duplicates.columns)

print("\nColumnas de df_retail_cleaned_countries:")
print(df_retail_cleaned_countries.columns)


Columnas de df_retail_no_duplicates:
Index(['CustomerID', 'TotalPrice'], dtype='object')

Columnas de df_retail_cleaned_countries:
Index(['CustomerID', 'TotalPrice'], dtype='object')


In [79]:
import pandas as pd

# Supongamos que df_retail_no_duplicates y df_retail_cleaned_countries son tus DataFrames
# Aquí un ejemplo con datos de entrada para ilustrar la solución

data1 = {
    'CustomerID': [1, 2, 3, 4],
    'TotalPrice': [100, 200, 300, 400]
}
data2 = {
    'CustomerID': [3, 4, 5, 6],
    'TotalPrice': [350, 450, 500, 600]
}

df_retail_no_duplicates = pd.DataFrame(data1)
df_retail_cleaned_countries = pd.DataFrame(data2)

# Combinar los DataFrames teniendo en cuenta el overlap entre los datos
combined_df = pd.merge(df_retail_no_duplicates, df_retail_cleaned_countries, on='CustomerID', how='outer', suffixes=('_df1', '_df2'))

# Resolver el overlap en 'TotalPrice'
combined_df['TotalPrice'] = combined_df[['TotalPrice_df1', 'TotalPrice_df2']].max(axis=1)

# Eliminar las columnas adicionales
combined_df.drop(columns=['TotalPrice_df1', 'TotalPrice_df2'], inplace=True)

# Mostrar el DataFrame combinado
print("DataFrame combinado:")
print(combined_df)


DataFrame combinado:
   CustomerID  TotalPrice
0           1       100.0
1           2       200.0
2           3       350.0
3           4       450.0
4           5       500.0
5           6       600.0


## Pregunta 16
**Join con índices:**
- Realice un join de dos DataFrames basándose en los índices.

## Pregunta 17
**Cambio de nivel de índices:**
- Cambie los niveles de los índices en un MultiIndex en el dataset `retail`.

## Pregunta 18
**Reordenamiento de niveles:**
- Reordene los niveles del índice en un DataFrame con MultiIndex.

## Pregunta 19
**Agregación por nivel:**
- Realice una agregación de los datos por nivel en un MultiIndex.

## Pregunta 20
**Creación de MultiIndex:**
- Cree un MultiIndex a partir de las columnas `Country` y `InvoiceYear` en el dataset `retail`.

# Parte 3 Data Aggregation and Group Operations (Capitulo 10)

## Pregunta 21
**Agrupación por cliente:**
- Agrupe los datos del dataset `retail` por `CustomerID` y calcule el total de `TotalPrice` por cliente.

## Pregunta 22
**Agrupación por producto:**
- Agrupe los datos del dataset `retail` por `StockCode` y calcule la cantidad total vendida (`Quantity`).

## Pregunta 23
**Agrupación por mes y año:**
- Agrupe los datos del dataset `retail` por `InvoiceMonth` y `InvoiceYear`, y calcule el total de `TotalPrice`.

## Pregunta 24
**Conteo de transacciones:**
- Cuente el número total de transacciones por `Country` y `InvoiceYear`.

## Pregunta 25
**Función de agregación personalizada:**
- Cree una función de agregación personalizada que calcule el promedio y la desviación estándar de `TotalPrice` por `Country`.

## Pregunta 26
**Agrupación y transformaciones:**
- Agrupe los datos por `CustomerID` y normalice el `TotalPrice` restando la media y dividiendo por la desviación estándar dentro de cada grupo.

## Pregunta 27
**Filtrado de grupos:**
- Filtre los grupos de `CustomerID` que tengan un `TotalPrice` promedio mayor a 500.

## Pregunta 28
**Aplicación de múltiples funciones:**
- Aplique múltiples funciones de agregación (suma, promedio, máximo) a la columna `TotalPrice` agrupando por `Country`.

## Pregunta 29
**Creación de columnas derivadas:**
- Cree una nueva columna `AvgTotalPrice` que contenga el promedio de `TotalPrice` por `CustomerID`.

## Pregunta 30
**Uso de transformaciones window:**
- Utilice una transformación de ventana para calcular la media móvil de 3 períodos de `TotalPrice` para cada `CustomerID`.

# Parte 4 - Time Series (capítulo 11)

## Pregunta 31
**Conversión a índice de tiempo:**
- Convierta la columna `InvoiceDate` a un índice de tiempo en el dataset `retail`.

## Pregunta 32
**Remuestreo de datos:**
- Remuestrear los datos del dataset `retail` a una frecuencia mensual y calcule el total de `TotalPrice` por mes.

## Pregunta 33
**Cambio de frecuencia:**
- Cambie la frecuencia de los datos del dataset `retail` a trimestral y calcule el total de `TotalPrice` por trimestre.

## Pregunta 34
**Desplazamiento de datos:**
- Desplace los datos de `TotalPrice` en el dataset `retail` un período hacia adelante.

## Pregunta 35
**Ventanas móviles:**
- Calcule la media móvil de 3 períodos de `TotalPrice` en el dataset `retail`.

## Pregunta 36
**Detección de tendencias:**
- Detecte tendencias en la columna `TotalPrice` del dataset `retail` usando una ventana móvil de 12 períodos.

## Pregunta 37
**Descomposición de series temporales:**
- Descomponga la serie temporal de `TotalPrice` en componentes de tendencia, estacionalidad y ruido.

## Pregunta 38
**Interpolación de datos faltantes:**
- Interpole los valores faltantes en la columna `TotalPrice` utilizando la interpolación lineal.

## Pregunta 39
**Análisis de autocorrelación:**
- Realice un análisis de autocorrelación en la columna `TotalPrice` del dataset `retail`.

## Pregunta 40
**Conversión de zona horaria:**
- Convierta las fechas en la columna `InvoiceDate` a una zona horaria específica (por ejemplo, UTC) en el dataset `retail`.


# Parte 5 Preguntas de Negocio

## Pregunta 1
**Análisis de Retorno de Productos:**
- ¿Cuál es el porcentaje de productos devueltos por país (United Kingdom, Germany, Denmark)? ¿Hay alguna diferencia notable entre los países?

## Pregunta 2
**Impacto de Promociones:**
- ¿Qué porcentaje de las ventas totales se realizaron utilizando códigos de promoción en cada uno de los tres países? ¿Cuál es el código de promoción más efectivo?

## Pregunta 3
**Canales de Venta:**
- ¿Cuál es la distribución de ventas entre los diferentes canales de venta (`SaleChannel`) en cada país? ¿Hay un canal que sea predominantemente más utilizado en alguno de los países?

## Pregunta 4
**Costos de Envío:**
- ¿Cuál es el costo promedio de envío por país? ¿Existen diferencias significativas en los costos de envío entre los tres países?

## Pregunta 5
**Peso del Producto y Costos de Envío:**
- ¿Existe una correlación entre el peso del producto (`ProductWeight`) y el costo de envío (`ShippingCost`)? ¿Cómo varía esta relación entre los diferentes países?

## Pregunta 6
**Descuentos y Comportamiento de Compra:**
- ¿Qué porcentaje de las compras en cada país se realizaron con algún tipo de descuento (`Discount`)? ¿Los clientes en algún país en particular son más propensos a utilizar descuentos?

## Pregunta 7
**Análisis de Categorías de Productos:**
- ¿Cuáles son las categorías de productos (`Category`) más vendidas en cada país? ¿Existen diferencias en las preferencias de categorías de productos entre los países?

## Pregunta 8
**Rendimiento de Proveedores:**
- ¿Cuál es el proveedor (`Supplier`) con el mayor volumen de ventas en cada país? ¿Cómo se distribuyen las ventas entre los diferentes proveedores en cada uno de los países?

## Pregunta 9
**Promedio de Precios de Venta:**
- ¿Cuál es el precio promedio de venta (`UnitPrice`) de los productos en cada país? ¿Existen diferencias significativas en los precios de venta entre los tres países?

## Pregunta 10
**Tendencias de Venta por Región:**
- ¿Cómo se distribuyen las ventas (`TotalPrice`) por región de ventas (`SalesRegion`) dentro de cada país? ¿Hay alguna región que destaque en términos de volumen de ventas en alguno de los países?

## Pregunta 11
**Análisis de Frecuencia de Compras:**
- ¿Cuál es la frecuencia promedio de compras por cliente (`CustomerID`) en cada país? ¿Los clientes en algún país compran con mayor frecuencia?


## Pregunta 12
**Valor de Vida del Cliente:**
- ¿Cuál es el valor promedio de vida del cliente (suma de `TotalPrice`) en cada país? ¿Existe una diferencia significativa en el valor de vida del cliente entre los tres países?

## Pregunta 13
**Métodos de Pago:**
- ¿Cuál es el método de pago (`PaymentMethod`) más utilizado en cada país? ¿Hay una preferencia notable por ciertos métodos de pago en algún país específico?

## Pregunta 14
**Evaluación de la Eficiencia de Descuentos:**
- ¿Qué impacto tienen los descuentos (`Discount`) en el valor total de las ventas en cada país? ¿Los descuentos resultan en un aumento significativo en el volumen de ventas?

## Pregunta 15
**Análisis de Clientes por Región:**
- ¿Cuál es la distribución de clientes (`CustomerID`) por región de ventas (`SalesRegion`) en cada país? ¿Hay regiones con una concentración notablemente mayor de clientes?

## Pregunta 16
**Promociones y Segmentos de Mercado:**
- ¿Cuál es el código de promoción (`PromotionCode`) más utilizado en cada segmento de mercado (`SalesRegion`) dentro de cada país?

## Pregunta 17
**Análisis de Temporadas de Venta:**
- ¿Existen patrones estacionales en las ventas (`InvoiceDate`) en cada país? ¿Hay picos de ventas en ciertos meses o temporadas en alguno de los países?

## Pregunta 18
**Preferencias de Productos:**
- ¿Cuáles son los productos (`StockCode` y `Description`) más vendidos en cada país? ¿Hay diferencias notables en las preferencias de productos entre los países?

## Pregunta 19
**Impacto de las Devoluciones en las Ventas:**
- ¿Qué porcentaje de las ventas totales son afectadas por devoluciones (`ReturnStatus`)? ¿Cómo varía este porcentaje entre los diferentes países?

## Pregunta 20
**Análisis de Margen de Ganancia:**
- ¿Cuál es el margen de ganancia promedio (`UnitPrice - Discount`) por producto en cada país? ¿Hay productos o categorías con márgenes significativamente mayores o menores en alguno de los países?