# Práctica 43: Limpieza, manejo y transformación de datos con Pandas

####  Cargar el fichero **retail2.csv** en un dataframe de Pandas y efectuar todas las operaciones de consulta, exploración y limpieza de datos que sean necesarios algunos pasos de limpieza están de forma explícita como preguntas. Los ficheros contienen varias columnas y algunas de ellas tienen datos que podrían necesitar limpieza o tratamiento. 

**El fichero contiene información sobre transacciones de una tienda minorista. Los campos y su significado se muestran a continuación:**

`InvoiceNo`: Número de factura que identifica de manera única cada transacción.
  

`StockCode`:Código de stock que identifica de manera única cada producto.
 

`Descrption`.Descripción del producto.


`Quantity`: Cantidad de productos comprados (puede contener valores negativos que indican devoluciones).

`InvoiceDate`: Fecha y hora en que se realizó la transacción.


`UnitPrice`:Precio unitario del producto (algunos valores pueden estar en centavos en lugar de dólares).


`CustomerID`:ID único del cliente que realizó la compra.


`Country`:País donde reside el cliente (puede contener inconsistencias en mayúsculas/minúsculas y caracteres especiales).  

`CustomerName`:Nombre completo del cliente.


`Email`:Dirección de correo electrónico del cliente.  

`Address`:Dirección del cliente.  



`PhoneNumber`:Número de teléfono del cliente.



`Category`: Categoría del producto (por ejemplo, 'Electronics', 'Clothing', 'Home & Garden').

`Supplier`: Proveedor del producto.  

`StockLevel`: Nivel de inventario del producto.

`Discount`: Descuento aplicado al producto (en porcentaje).  

`SaleChannel`: Canal de venta (por ejemplo, 'Online', 'In-Store').

`ReturnStatus`: Estado de devolución del producto ('Returned', 'Not Returned').

`ProductWeight`: Peso del producto. Unidad: kilogramos.

`ProductDimensions`: Dimensiones del producto. Unidad: en el formato 'LxWxH cm'.

`ShippingCost`: Costo de envío. Unidad:dólares.

`SalesRegion`: Región de ventas (por ejemplo, 'North America', 'Europe', 'Asia').  

`PromotionCode`: Código de promoción aplicado a la compra.

`PaymentMethod`: Método de pago (por ejemplo, 'Credit Card', 'PayPal', 'Bank Transfer').


In [20]:
import pandas as pd
import numpy as np


In [153]:
retail2_df = pd.read_csv('retail2.csv')
exchange_rates_df = pd.read_csv('exchange_rates.csv')

# Exploración de datos 

In [94]:
# Información general del DataFrame
retail2_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440 entries, 0 to 439
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   InvoiceNo          420 non-null    float64
 1   StockCode          440 non-null    object 
 2   Description        413 non-null    object 
 3   Quantity           440 non-null    object 
 4   InvoiceDate        435 non-null    object 
 5   UnitPrice          440 non-null    object 
 6   CustomerID         440 non-null    int64  
 7   Country            439 non-null    object 
 8   CustomerName       440 non-null    object 
 9   Email              440 non-null    object 
 10  Address            440 non-null    object 
 11  PhoneNumber        440 non-null    object 
 12  Category           440 non-null    object 
 13  Supplier           440 non-null    object 
 14  StockLevel         440 non-null    int64  
 15  Discount           440 non-null    float64
 16  SaleChannel        440 non

# Limpieza de datos : Columna InvoiceNo 

- Rellenar los valores Nulos con un valor especifico con 0
- Cambiar los datos flotantes a números enteros

In [95]:
# Rellenar los valores Nulos con un valor como 0
retail2_df['InvoiceNo']= retail2_df['InvoiceNo'].fillna(0)
# convertir los datos float a datos int
retail2_df['InvoiceNo']=retail2_df['InvoiceNo'].astype('int64')
# Verificar el cambio
print(retail2_df['InvoiceNo'].dtype)
print(retail2_df['InvoiceNo'].head(5))

int64
0    536578
1    536446
2    536633
3    536522
4         0
Name: InvoiceNo, dtype: int64


# Limpieza de datos :Columna StockCode

- Mirar los valores únicos de la columna 
- Unificar criterios de los códigos como:
  Eliminar las letras al final del numero del codigo para que no sean alfanumericos.
- Identificar las filas de la columna StockCode contiene descripciones en lugar de códigos    
- Contar los valores nulos en la columna 'StockCode'
- Rellenar los valores faltantes en la columna 'StockCode' basados en la columna 'Description'
  Creando un diccionario de los valores y descripciones con Stockcode y Description
- Verificar valores faltantes nuevamente
- Queda un valor faltante crear un diccionario  con ese valor 
- Verificar que no quede ningun valor faltante   

In [96]:
# Valores únicos en algunas columnas 'StockCode'
print(retail2_df['StockCode'].unique())

['84969' '21756' '22632' '22111' '22634' '22960' '22139' '22112' '22749'
 '21724' '71053' '84029G' '84907C' '21777' '84879' '22622' '21914' '22633'
 '21755' '21723' '84029E' '22624' 'SET 2 TEA TOWELS I LOVE LONDON' '22752'
 '21731' '85123A' '21754' '22310' '22725' '84988' '22623' '84406B' '22745'
 '22748' '22469' '22570' '84907B' '21730' '22386'
 'BOX OF 6 ASSORTED COLOUR TEASPOONS' '22384' '22382'
 'STRIPED CHARLIE+LOLA CHARLOTTE BAG' 'HAND WARMER RED POLKA DOT' '22571'
 'LOVE BUILDING BLOCK WORD' 'RED  HARMONICA IN BOX'
 '{"description": ["RED WOOLLY HOTTIE WHITE HEART.: details"]}'
 'RED HARMONICA IN BOX' 'SCANDINAVIAN REDS RIBBONS' '85099B'
 'JAM MAKING SET WITH JARS' '22754' '84907A' '22751']


In [97]:
# Eliminar letras al final de los códigos de stock
retail2_df['StockCode'] = retail2_df['StockCode'].str.replace(r'([0-9]+)[A-Za-z]$', r'\1', regex=True)

# Mostrar los valores únicos después de la limpieza
print(retail2_df['StockCode'].unique())

['84969' '21756' '22632' '22111' '22634' '22960' '22139' '22112' '22749'
 '21724' '71053' '84029' '84907' '21777' '84879' '22622' '21914' '22633'
 '21755' '21723' '22624' 'SET 2 TEA TOWELS I LOVE LONDON' '22752' '21731'
 '85123' '21754' '22310' '22725' '84988' '22623' '84406' '22745' '22748'
 '22469' '22570' '21730' '22386' 'BOX OF 6 ASSORTED COLOUR TEASPOONS'
 '22384' '22382' 'STRIPED CHARLIE+LOLA CHARLOTTE BAG'
 'HAND WARMER RED POLKA DOT' '22571' 'LOVE BUILDING BLOCK WORD'
 'RED  HARMONICA IN BOX'
 '{"description": ["RED WOOLLY HOTTIE WHITE HEART.: details"]}'
 'RED HARMONICA IN BOX' 'SCANDINAVIAN REDS RIBBONS' '85099'
 'JAM MAKING SET WITH JARS' '22754' '22751']


In [98]:
# Identificar las filas de la columna StockCode contiene descripciones en lugar de códigos 
mask = retail2_df['StockCode'].str.contains(r'[a-zA-Z]', na=False)
# Mover los datos de 'StockCode' a 'Description' donde sea necesario
retail2_df.loc[mask, 'Description'] = retail2_df.loc[mask, 'StockCode']
retail2_df.loc[mask, 'StockCode'] = np.nan
print(retail2_df['StockCode'].unique())

['84969' '21756' '22632' '22111' '22634' '22960' '22139' '22112' '22749'
 '21724' '71053' '84029' '84907' '21777' '84879' '22622' '21914' '22633'
 '21755' '21723' '22624' nan '22752' '21731' '85123' '21754' '22310'
 '22725' '84988' '22623' '84406' '22745' '22748' '22469' '22570' '21730'
 '22386' '22384' '22382' '22571' '85099' '22754' '22751']


In [99]:
# Contar los valores nulos en la columna 'StockCode'
nulos_stockcode = retail2_df['StockCode'].isnull().sum()

print(f"Cantidad de datos vacíos en la columna 'StockCode': {nulos_stockcode}")

Cantidad de datos vacíos en la columna 'StockCode': 10


In [108]:
# Crear un diccionario con las descripciones y sus correspondientes códigos de stock
description_to_stockcode = retail2_df.dropna(subset=['StockCode']).drop_duplicates(subset=['Description']).set_index('Description')['StockCode'].to_dict()

# Rellenar los valores faltantes en 'StockCode'
retail2_df['StockCode'] = retail2_df.apply(lambda row: description_to_stockcode.get(row['Description'], row['StockCode']), axis=1)

Explicación del Código:
Crear un diccionario de descripciones a códigos de stock:
dropna(subset=['StockCode']): Elimina las filas donde ‘StockCode’ es NaN.
drop_duplicates(subset=['Description']): Elimina duplicados basados en la columna ‘Description’.
set_index('Description')['StockCode'].to_dict(): Crea un diccionario donde las claves son las descripciones y los valores son los códigos de stock.
Rellenar los valores faltantes en ‘StockCode’ usando el diccionario:
apply(lambda row: description_to_stockcode.get(row['Description'], row['StockCode']), axis=1): Aplica una función lambda a cada fila del DataFrame. La función usa el diccionario para rellenar los valores faltantes en ‘StockCode’ basados en la ‘Description’.

In [109]:
# Contar los valores nulos en la columna 'StockCode'
nulos_stockcode = retail2_df['StockCode'].isnull().sum()

print(f"Cantidad de datos vacíos en la columna 'StockCode': {nulos_stockcode}")

Cantidad de datos vacíos en la columna 'StockCode': 1


In [113]:
# Seleccionar solo las columnas 'StockCode' y 'Description'
filtered_df = retail2_df[['StockCode', 'Description']]

# Mostrar las filas con valores vacíos en 'StockCode'
missing_values = filtered_df[filtered_df['StockCode'].isnull()]

# Mostrar las filas filtradas
print(missing_values)

    StockCode                    Description
314       NaN  RED WOOLLY HOTTIE WHITE HEART


In [114]:
# Crear un diccionario con las descripciones y sus correspondientes códigos de stock
description_to_stockcode = {
    'RED WOOLLY HOTTIE WHITE HEART': 84029
}
# Rellenar los valores faltantes en 'StockCode'
retail2_df['StockCode'] = retail2_df.apply(lambda row: description_to_stockcode.get(row['Description'], row['StockCode']), axis=1)

In [115]:
# Contar los valores nulos en la columna 'StockCode'
nulos_stockcode = retail2_df['StockCode'].isnull().sum()

print(f"Cantidad de datos vacíos en la columna 'StockCode': {nulos_stockcode}")

Cantidad de datos vacíos en la columna 'StockCode': 0


# Limpieza de datos :Columna Description
- Imprimir valores unicos
- Eliminar caracteres *, [, ', {, y "
- Eliminar las palabras 'description:', 'DETAILS' y 'INVALIDDESCRIPTION123'
- Convertir a mayúsculas el texto 
- Eliminar espacios extra en la columna 
- 

In [36]:
print(retail2_df['Description'].unique())

['["description": "BOX OF 6 ASSORTED COLOUR TEASPOONS"]'
 'DOORMAT NEW ENGLAND' 'HAND WARMER RED POLKA DOT'
 '{"description": "SCANDINAVIAN REDS RIBBONS"}'
 '{"description": "BAKING SET 9 PIECE RETROSPOT"}'
 '{"description": ["JAM MAKING SET WITH JARS"]}'
 'RETROSPOT TEA SET CERAMIC 11 PC' 'CHOCOLATE HOT WATER BOTTLE'
 'BAKING SET 9 PIECE RETROSPOT' nan 'RED HARMONICA IN BOX'
 'WHITE METAL LANTERN' 'knitted union flag hot water bottle'
 '  PACK OF 12 BLUE RETROSPOT TISSUES  '
 '***FELTCRAFT PRINCESS CHARLOTTE DOLL***'
 '["description": "JAM MAKING SET WITH JARS: details"]'
 '***JAM MAKING SET WITH JARS***' 'KNITTED UNION FLAG HOT WATER BOTTLE'
 '***SCANDINAVIAN REDS RIBBONS***'
 '{"description": "RECIPE BOX WITH METAL HEART"}'
 'assorted colour bird ornament' '  BOX OF VINTAGE ALPHABET BLOCKS  '
 'BLUE HARMONICA IN BOX' 'HAND WARMER UNION JACK'
 'LOVE BUILDING BLOCK WORD' '***striped charlie+lola charlotte bag***'
 'InvalidDescription123' '***RED WOOLLY HOTTIE WHITE HEART.***'
 'STRIPE

In [112]:
# Eliminar de la columna caracteres *, [, ', {, y "
retail2_df['Description']=retail2_df['Description'].str.replace(r'[\*\[\{\'\"\}\]\:\.]','',regex=True).str.strip()

# Eliminar las palabras 'description:', 'DETAILS' y 'INVALIDDESCRIPTION123'
retail2_df['Description'] = retail2_df['Description'].str.replace(r'description:|DETAILS|INVALIDDESCRIPTION123|DESCRIPTION', '', regex=True).str.strip()

# Convertir a mayúsculas el texto en la columna 'Description'
retail2_df['Description'] = retail2_df['Description'].str.upper()


# Ordenar alfabéticamente los datos de la columna 'Description'
retail2_df = retail2_df.sort_values(by='Description')

# Eliminar espacios extra en la columna 'Description'
retail2_df['Description'] = retail2_df['Description'].str.replace(r'\s+', ' ', regex=True).str.strip()

# Mostrar las primeras filas del DataFrame después de la limpieza
print(retail2_df['Description'].unique())


['' 'ASSORTED COLOUR BIRD ORNAMENT' 'BAKING SET 9 PIECE RETROSPOT'
 'BLUE HARMONICA IN BOX' 'BOX OF 6 ASSORTED COLOUR TEASPOONS'
 'BOX OF VINTAGE ALPHABET BLOCKS' 'BOX OF VINTAGE JIGSAW BLOCKS'
 'CHOCOLATE HOT WATER BOTTLE' 'COFFEE MUG APPLES DESIGN'
 'CREAM CUPID HEARTS COAT HANGER' 'DOORMAT NEW ENGLAND'
 'FELTCRAFT PRINCESS CHARLOTTE DOLL' 'GLASS JAR DAISY FRESH COTTON WOOL'
 'GLASS STAR FROSTED T-LIGHT HOLDER' 'HAND WARMER RED POLKA DOT'
 'HAND WARMER UNION JACK' 'HANGING STAR WITH BELLS'
 'HEART OF WICKER LARGE' 'HOME BUILDING BLOCK WORD'
 'IVORY KNITTED MUG COSY' 'JAM MAKING SET WITH JARS'
 'JUMBO BAG PINK POLKADOT' 'JUMBO BAG RED RETROSPOT'
 'KNITTED UNION FLAG HOT WATER BOTTLE' 'LOVE BUILDING BLOCK WORD' 'NAN'
 'PACK OF 12 BLUE RETROSPOT TISSUES' 'PACK OF 12 PINK POLKADOT TISSUES'
 'PACK OF 12 RED RETROSPOT TISSUES' 'PACK OF 6 SMALL FRUIT STRAWS'
 'POPPYS PLAYHOUSE BEDROOM' 'POPPYS PLAYHOUSE KITCHEN'
 'RECIPE BOX WITH METAL HEART' 'RED GLASS CANDLE HOLDER STAR'
 'RED HARMONICA I

In [116]:
# Rellenar la descripción faltante para los códigos ejemplo '21723'
retail2_df['Description'] = retail2_df.groupby('StockCode')['Description'].transform(lambda x: x.ffill().bfill())

# Rellenar la descripción faltante para los códigos ejemplo '21723'
retail2_df['StockCode'] = retail2_df.groupby('Description')['StockCode'].transform(lambda x: x.ffill().bfill())

# groupby(‘StockCode’): Agrupa todas las filas que tienen el mismo ‘StockCode’.
# transform(lambda x: x.ffill().bfill()): Aplica una función lambda a cada grupo. La función lambda utiliza ffill() para rellenar 
# hacia adelante y bfill() para rellenar hacia atrás cualquier valor faltante en la columna ‘Description’.

  retail2_df['StockCode'] = retail2_df.groupby('Description')['StockCode'].transform(lambda x: x.ffill().bfill())


In [117]:
# Contar los valores vacíos en la columna 'Description'
missing_values_count = retail2_df['Description'].isnull().sum()

# Mostrar el resultado
print(f"Hay {missing_values_count} valores vacíos en la columna 'Description'.")

Hay 0 valores vacíos en la columna 'Description'.


# Limpieza de datos :Columna Quantity
- Imprimir valores únicos
- cambiar la columna de datos objet a int
- Donde sale unknown colocar 6 ya que la description correspondiente GLASS STAR FROSTED T-LIGHT HOLDER las otras tiene totas el mismo valor

In [119]:
# Imprimir valores únicos
print(retail2_df['Quantity'].unique())

['2' '6' '-20' '3' '5' '32' 'unknown' '12' '-3' '10' '8' '100' '-6' '60'
 '20' '200' '15' '4' '-60']


In [123]:
# Reemplazar 'unknown' con un valor numérico, por ejemplo, 6
retail2_df['Quantity'] = retail2_df['Quantity'].replace('unknown', 6)
print(retail2_df['Quantity'].unique())

['2' '6' '-20' '3' '5' '32' 6 '12' '-3' '10' '8' '100' '-6' '60' '20'
 '200' '15' '4' '-60']


In [121]:
print(retail2_df['Quantity'].dtype)

object


In [129]:
retail2_df['Quantity'] = retail2_df['Quantity'].astype('int64') 
print(retail2_df['Quantity'].dtype)

int64


# Limpieza de datos :Columna Quantity
- Imprimir valores únicos



In [154]:
print(retail2_df['InvoiceDate'].unique())

['12/1/2010 12:28' '12/1/2010 10:16' '12/1/2010 13:23' '12/1/2010 11:32'
 '12/1/2010 11:07' '12/1/2010 14:24' '01/01/2050 00:00' '12/1/2010 13:10'
 '12/1/2010 10:30' '12/1/2010 12:26' '12/1/2010 9:02' '12/1/2010 9:07'
 '12/1/2010 10:57' '12/1/2010 10:07' '12/1/2010 10:37' '12/1/2010 9:34'
 '01/12/2010 25:61' '30/02/2010 00:00' '12/1/2010 10:27'
 'Date: 12/1/2010 14:26' '12/1/2010 14:25' '12/1/2010 10:13'
 '12/1/2010 12:37' '12/1/2010 14:44' '12/1/2010 12:36' '12/1/2010 14:13'
 '12/1/2010 12:58' '12/1/2010 11:44' '12/1/2010 13:31' '12/1/2010 9:03'
 '12/1/2010 8:28' '01-12-2010 10:09' '12/1/2010 11:53' '12/1/2010 12:40'
 '12/1/2010 14:34' '12/1/2010 10:50' '12/1/2010 8:26' '12/1/2010 10:18'
 '12/1/2010 10:05' '12/1/2010 13:43' '12/1/2010 11:51' '12/1/2010 14:51'
 '12/1/2010 13:06' '12/1/2010 10:53' '12/1/2010 11:49' '12/1/2010 9:13'
 nan '12/1/2010 15:11' '12/1/2010 10:20' '12/1/2010 11:13'
 'Date: 12/1/2010 13:46' '12/1/2010 9:49' '12/1/2010 14:56'
 '12/1/2010 12:57' '12/1/2010 14:30' '

In [155]:
# Eliminar las palabras 'Date:'
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].str.replace(r'Date:', '', regex=True).str.strip()
retail2_df = retail2_df.sort_values(by='InvoiceDate')
print(retail2_df['InvoiceDate'].unique())

['01-12-2010 09:47' '01-12-2010 10:09' '01-12-2010 11:27'
 '01-12-2010 13:42' '01/01/1900 00:00' '01/01/2050 00:00'
 '01/12/2010 25:61' '12/01/2010 09:08' '12/01/2010 10:41'
 '12/01/2010 10:52' '12/01/2010 12:22' '12/01/2010 14:55'
 '12/1/2010 10:00' '12/1/2010 10:01' '12/1/2010 10:03' '12/1/2010 10:04'
 '12/1/2010 10:05' '12/1/2010 10:06' '12/1/2010 10:07' '12/1/2010 10:08'
 '12/1/2010 10:10' '12/1/2010 10:12' '12/1/2010 10:13' '12/1/2010 10:15'
 '12/1/2010 10:16' '12/1/2010 10:17' '12/1/2010 10:18' '12/1/2010 10:20'
 '12/1/2010 10:21' '12/1/2010 10:22' '12/1/2010 10:23' '12/1/2010 10:24'
 '12/1/2010 10:26' '12/1/2010 10:27' '12/1/2010 10:28' '12/1/2010 10:29'
 '12/1/2010 10:30' '12/1/2010 10:31' '12/1/2010 10:32' '12/1/2010 10:33'
 '12/1/2010 10:35' '12/1/2010 10:36' '12/1/2010 10:37' '12/1/2010 10:38'
 '12/1/2010 10:39' '12/1/2010 10:40' '12/1/2010 10:42' '12/1/2010 10:44'
 '12/1/2010 10:46' '12/1/2010 10:47' '12/1/2010 10:48' '12/1/2010 10:49'
 '12/1/2010 10:50' '12/1/2010 10:51' '

In [159]:
# Llenar los valores nulos en 'InvoiceDate' con una cadena vacía
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].fillna('')

# Buscar todas las filas donde 'InvoiceDate' contiene '01/01/1900 00:00' o '01/01/2050 00:00'
filas_1900_2050 = retail2_df[retail2_df['InvoiceDate'].str.contains('01/01/1900 00:00|01/01/2050 00:00')]

filas_1900_2050

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
100,536588.0,21723,STRIPED CHARLIE+LOLA CHARLOTTE BAG,-20,01/01/1900 00:00,2.95,12765,United Kingdom,Alice Davis,alice.davis@mail.com,...,923,5.21,In-Store,Not Returned,0.41,3x23x18 cm,10.39,Australia,SALE15,Cash
83,536598.0,22111,SCANDINAVIAN REDS RIBBONS,10,01/01/1900 00:00,1.65,17927,United Kingdom,Frank Jones,frank.jones@test.org,...,604,7.76,Online,Returned,0.73,5x82x92 cm,8.16,Europe,,Gift Card
268,536636.0,22748,poppy's playhouse kitchen,6,01/01/1900 00:00,2.1,10999,Germany,Frank Smith,frank.smith@demo.net,...,559,26.45,In-Store,Returned,3.66,85x92x62 cm,17.09,South America,PROMO10,Bank Transfer
139,536687.0,21724,RED HARMONICA IN BOX,10,01/01/1900 00:00,1.25,10270,United Kingdom,Henry Smith,henry.smith@example.com,...,312,44.73,In-Store,Returned,9.72,73x17x9 cm,6.83,Europe,PROMO10,Gift Card
358,536425.0,84969,BOX OF 6 ASSORTED COLOUR TEASPOONS,6,01/01/1900 00:00,4.25,12849,Denmark,Eva Smith,eva.smith@demo.net,...,637,17.39,Online,Not Returned,9.41,90x18x70 cm,10.99,North America,DISCOUNT5,Credit Card
352,536473.0,84879,ASSORTED COLOUR BIRD ORNAMENT,32,01/01/1900 00:00,1.69,18345,Denmark,Alice Taylor,alice.taylor@test.org,...,840,3.81,Online,Not Returned,6.62,25x98x76 cm,16.34,South America,PROMO20,Bank Transfer
186,536407.0,22382,InvalidDescription123,5,01/01/1900 00:00,1.95,15141,Germany,Eva Johnson,eva.johnson@test.org,...,776,23.8,Online,Returned,8.19,68x5x37 cm,19.99,Australia,SALE15,PayPal
338,536380.0,22112,CHOCOLATE HOT WATER BOTTLE,6,01/01/1900 00:00,3.39,16160,Denmark,Charlie Wilson,charlie.wilson@example.com,...,165,47.78,In-Store,Not Returned,4.79,93x63x54 cm,19.91,South America,PROMO10,PayPal
160,536544.0,21777,RECIPE BOX WITH METAL HEART,4,01/01/1900 00:00,7.95,15445,Germany,David Johnson,david.johnson@demo.net,...,714,41.49,In-Store,Not Returned,3.74,78x53x51 cm,8.03,South America,DISCOUNT5,Credit Card
87,536677.0,22310,IVORY KNITTED MUG COSY: details,6,01/01/1900 00:00,1.65,12176,United Kingdom,Henry Brown,henry.brown@demo.net,...,405,18.67,In-Store,Returned,6.41,46x34x49 cm,6.97,South America,DISCOUNT5,Cash


In [178]:
# Reemplazar todas las fechas '01/12/2010' por '12/01/2010'
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].replace('01/12/2010', '12/01/2010')

# Convertir la columna 'InvoiceDate' al tipo datetime nuevamente, manejando errores
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], format='%m/%d/%Y %H:%M', errors='coerce')

# Asegurarse de que no haya valores NaN en la columna 'InvoiceDate'
retail2_df = retail2_df.dropna(subset=['InvoiceDate'])

# Formatear las fechas al nuevo formato
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].dt.strftime('%m/%d/%Y %H:%M')

# Verificar cuántas fechas del 2050 y 1900 faltan por cambiar
fechas_1900 = retail2_df[retail2_df['InvoiceDate'].str.contains('1900')].shape[0]
fechas_2050 = retail2_df[retail2_df['InvoiceDate'].str.contains('2050')].shape[0]

print(f"Fechas del año 1900 que faltan por cambiar: {fechas_1900}")
print(f"Fechas del año 2050 que faltan por cambiar: {fechas_2050}")

# Mostrar solo las columnas InvoiceNo, StockCode e InvoiceDate
resultado = retail2_df[['InvoiceNo', 'StockCode', 'InvoiceDate']]
print(resultado)

Fechas del año 1900 que faltan por cambiar: 0
Fechas del año 2050 que faltan por cambiar: 1
     InvoiceNo                 StockCode       InvoiceDate
78         NaN                     71053  01/01/2050 00:00
142   536374.0                     21731  01/12/2010 09:04
338   536380.0                     22112  01/12/2010 09:10
186   536407.0                     22382  01/12/2010 09:37
358   536425.0                     84969  01/12/2010 09:55
..         ...                       ...               ...
50    536741.0                     22622  12/01/2010 15:11
407   536742.0                     21754  12/01/2010 15:12
178   536743.0                     21755  12/01/2010 15:13
292   536743.0  LOVE BUILDING BLOCK WORD  12/01/2010 15:13
275   536744.0                     21777  12/01/2010 15:14

[414 rows x 3 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].replace('01/12/2010', '12/01/2010')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], format='%m/%d/%Y %H:%M', errors='coerce')


In [179]:
# Reemplazar todas las fechas '01/12/2010' por '12/01/2010'
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].replace('01/12/2010', '12/01/2010')

# Convertir la columna 'InvoiceDate' al tipo datetime nuevamente, manejando errores
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], format='%m/%d/%Y %H:%M', errors='coerce')

# Asegurarse de que no haya valores NaN en la columna 'InvoiceDate'
retail2_df = retail2_df.dropna(subset=['InvoiceDate'])

# Formatear las fechas al nuevo formato
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].dt.strftime('%m/%d/%Y %H:%M')

# Verificar cuántas fechas del 2050 y 1900 faltan por cambiar
fechas_1900 = retail2_df[retail2_df['InvoiceDate'].str.contains('1900')].shape[0]
fechas_2050 = retail2_df[retail2_df['InvoiceDate'].str.contains('2050')].shape[0]

print(f"Fechas del año 1900 que faltan por cambiar: {fechas_1900}")
print(f"Fechas del año 2050 que faltan por cambiar: {fechas_2050}")

# Mostrar solo las columnas InvoiceNo, StockCode e InvoiceDate
resultado = retail2_df[['InvoiceNo', 'StockCode', 'InvoiceDate']]
print(resultado)

Fechas del año 1900 que faltan por cambiar: 0
Fechas del año 2050 que faltan por cambiar: 1
     InvoiceNo                 StockCode       InvoiceDate
78         NaN                     71053  01/01/2050 00:00
142   536374.0                     21731  01/12/2010 09:04
338   536380.0                     22112  01/12/2010 09:10
186   536407.0                     22382  01/12/2010 09:37
358   536425.0                     84969  01/12/2010 09:55
..         ...                       ...               ...
50    536741.0                     22622  12/01/2010 15:11
407   536742.0                     21754  12/01/2010 15:12
178   536743.0                     21755  12/01/2010 15:13
292   536743.0  LOVE BUILDING BLOCK WORD  12/01/2010 15:13
275   536744.0                     21777  12/01/2010 15:14

[414 rows x 3 columns]


In [None]:
print(retail2_df['InvoiceDate'].unique())

In [175]:
retail2_df = retail2_df.sort_values(by='InvoiceDate')
print(retail2_df['InvoiceDate'].unique())

['' '01/01/2050 00:00' '01/12/2010 09:04' '01/12/2010 09:10'
 '01/12/2010 09:37' '01/12/2010 09:55' '01/12/2010 10:14'
 '01/12/2010 10:19' '01/12/2010 10:43' '01/12/2010 11:29'
 '01/12/2010 11:40' '01/12/2010 11:54' '01/12/2010 12:14'
 '01/12/2010 12:38' '01/12/2010 12:48' '01/12/2010 13:26'
 '01/12/2010 13:41' '01/12/2010 14:06' '01/12/2010 14:07'
 '01/12/2010 14:17' '01/12/2010 14:37' '01/12/2010 14:39'
 '12/01/2010 08:26' '12/01/2010 08:28' '12/01/2010 08:34'
 '12/01/2010 08:35' '12/01/2010 09:00' '12/01/2010 09:01'
 '12/01/2010 09:02' '12/01/2010 09:03' '12/01/2010 09:06'
 '12/01/2010 09:07' '12/01/2010 09:08' '12/01/2010 09:09'
 '12/01/2010 09:11' '12/01/2010 09:12' '12/01/2010 09:13'
 '12/01/2010 09:14' '12/01/2010 09:15' '12/01/2010 09:16'
 '12/01/2010 09:17' '12/01/2010 09:19' '12/01/2010 09:21'
 '12/01/2010 09:22' '12/01/2010 09:23' '12/01/2010 09:24'
 '12/01/2010 09:25' '12/01/2010 09:26' '12/01/2010 09:27'
 '12/01/2010 09:28' '12/01/2010 09:29' '12/01/2010 09:30'
 '12/01/201

print(retail2_df['InvoiceDate'].unique())¡¡¡

# Parte 1. Data Cleaning and Preparation (Capítulo 7 - Wes McKinney)

- Cargue los datasets `retail2.csv` y `exchange_rates.csv` en DataFrames de pandas.

In [9]:
# retail2_df = pd.read_csv('retail2.csv')
# exchange_rates_df = pd.read_csv('exchange_rates.csv')
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,12/1/2010 11:32,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,12/1/2010 11:07,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


In [4]:
exchange_rates_df.head()

Unnamed: 0,Date,ExchangeRate
0,2020-01-01,1.2
1,2020-01-02,1.19
2,2020-01-03,1.18
3,2020-01-04,1.21
4,2020-01-05,1.2


In [191]:
retail2_df.shape

(440, 24)

In [192]:
exchange_rates_df.shape

(60, 2)

In [None]:
print(columns)

## Pregunta 1
**Identificación de valores faltantes:**
- Identifique las columnas con valores faltantes en el dataset `retail2`.

In [193]:
# Filtrar y mostrar solo las columnas que tienen valores faltantes
columnas_faltantes = retail2_df.columns[retail2_df.isna().any()]
print(columnas_faltantes)

Index(['InvoiceNo', 'Description', 'InvoiceDate', 'Country', 'PromotionCode'], dtype='object')


## Pregunta 2
**Eliminar valores faltantes:**
- Elimine las filas del dataset `retail2` donde las columnas críticas (`InvoiceNo`, `StockCode`, `Quantity`, `UnitPrice`, `CustomerID`) tengan valores faltantes.

In [194]:
#eliminas filas donde las columnas criticas tengan valores faltantes
columnas_criticas=['InvoiceNo', 'StockCode', 'Quantity', 'UnitPrice', 'CustomerID']
filas_eliminadas = retail2_df.dropna(subset=columnas_criticas)

# Mostrar las primeras filas del DataFrame limpio para verificar
filas_eliminadas.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,12/1/2010 11:32,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6,12/1/2010 14:24,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,103,23.1,In-Store,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal


In [195]:
# Identificar filas con valores NaT en InvoiceDate
datos_invalidos = retail2_df[retail2_df['InvoiceDate'].isna()]
datos_invalidos

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
49,536584.0,SET 2 TEA TOWELS I LOVE LONDON,***nan***,3,,4.95,13212,United Kingdom,Bob Moore,bob.moore@test.org,...,747,7.04,In-Store,Returned,1.93,74x74x83 cm,16.85,North America,PROMO10,Gift Card
195,536475.0,22748,POPPY'S PLAYHOUSE KITCHEN,60,,210.0,13722,Germany,Frank Miller,frank.miller@demo.net,...,692,24.82,In-Store,Returned,3.56,40x15x21 cm,11.06,Australia,PROMO10,Credit Card
231,536604.0,21914,BLUE HARMONICA IN BOX,12,,1.25,17742,Germany,Jane Moore,jane.moore@mail.com,...,920,35.28,In-Store,Not Returned,5.08,87x59x72 cm,16.47,North America,SALE15,PayPal
303,536568.0,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,,3.39,17236,Denmark,Alice Jones,alice.jones@mail.com,...,550,30.67,In-Store,Not Returned,6.41,59x87x93 cm,10.86,North America,DISCOUNT5,Gift Card
342,536388.0,22745,***POPPY'S PLAYHOUSE BEDROOM***,6,,2.1,11988,Denmark,Alice Johnson,alice.johnson@mail.com,...,78,27.54,In-Store,Returned,1.81,54x47x87 cm,11.98,South America,DISCOUNT5,Credit Card


In [196]:
# Corrección de los datos NaN
retail2_df.loc[retail2_df['InvoiceDate'].isna(), 'InvoiceDate'] = '2010-12-01 00:00:00'

# Convertir nuevamente la columna InvoiceDate a formato datetime
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], errors='coerce')

retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


## Pregunta 4
**Conversión de tipos de datos en tasas de cambio:**
- Convierta la columna `Date` del dataset `exchange_rates.csv` a un formato de datetime.

In [197]:
# Convertir la columna Date a formato datetime
exchange_rates_df['Date'] = pd.to_datetime(exchange_rates_df['Date'], errors='coerce')

# Verificar la conversión mostrando las primeras filas del DataFrame
exchange_rates_df.head()

Unnamed: 0,Date,ExchangeRate
0,2020-01-01,1.2
1,2020-01-02,1.19
2,2020-01-03,1.18
3,2020-01-04,1.21
4,2020-01-05,1.2


## Pregunta 5
**Filtrado de datos por país:**
- Filtre el dataset `retail2` para mostrar solo las transacciones realizadas en el país 'United Kingdom'.

In [198]:
#Filtrar las transacciones realizadas en el país 'United Kingdom'
uk_transacciones = retail2_df.loc[retail2_df['Country']=='United Kingdom']
#
# Mostrar las  filas del DataFrame filtrado para verificar
uk_transacciones

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
136,536639.0,BOX OF 6 ASSORTED COLOUR TEASPOONS,,6,2010-12-01 13:29:00,4.25,19583,United Kingdom,Henry Moore,henry.moore@demo.net,...,666,7.01,In-Store,Not Returned,5.24,10x44x2 cm,12.97,North America,PROMO10,Bank Transfer
137,536722.0,22111,SCANDINAVIAN REDS RIBBONS,10,2010-12-01 14:52:00,165,10614,United Kingdom,Charlie Jones,charlie.jones@test.org,...,526,43.42,In-Store,Not Returned,7.06,13x40x2 cm,19.05,Europe,,PayPal
138,536618.0,22960,JAM MAKING SET WITH JARS,6,2010-12-01 13:08:00,4.25,14570,United Kingdom,Grace Davis,grace.davis@mail.com,...,699,24.37,Online,Returned,3.70,84x65x63 cm,5.59,Europe,DISCOUNT5,PayPal
139,536687.0,21724,RED HARMONICA IN BOX,10,1900-01-01 00:00:00,1.25,10270,United Kingdom,Henry Smith,henry.smith@example.com,...,312,44.73,In-Store,Returned,9.72,73x17x9 cm,6.83,Europe,PROMO10,Gift Card


## Pregunta 6
**Calcular el total de precios:**
- Cree una nueva columna `TotalPrice` en el dataset `retail2` multiplicando `Quantity` por `UnitPrice`.

1. vamos a verificar que tipo de dato es: Quantity y InitPrice

In [199]:
# Verificar el tipo de datos de las columnas Quantity y UnitPrice
print("Tipo de datos de Quantity:", retail2_df['Quantity'].dtype)
print("Tipo de datos de UnitPrice:", retail2_df['UnitPrice'].dtype)

Tipo de datos de Quantity: object
Tipo de datos de UnitPrice: object


In [200]:
# Identificar y manejar valores no numéricos
retail2_df['Quantity'] = pd.to_numeric(retail2_df['Quantity'], errors='coerce')
retail2_df['UnitPrice'] = pd.to_numeric(retail2_df['UnitPrice'], errors='coerce')

# Verificar valores no numéricos convertidos a NaN
print("Valores no numéricos en Quantity convertidos a NaN:", retail2_df['Quantity'].isna().sum())
print("Valores no numéricos en UnitPrice convertidos a NaN:", retail2_df['UnitPrice'].isna().sum())


Valores no numéricos en Quantity convertidos a NaN: 10
Valores no numéricos en UnitPrice convertidos a NaN: 14


2. Reemplazar o eliminar valores NaN por 0 y Convertir las columnas Quantity y UnitPrice a tipo float

In [201]:
# Reemplazar o eliminar valores NaN por 0
retail2_df['Quantity'] = retail2_df['Quantity'].fillna(0)
retail2_df['UnitPrice'] = retail2_df['UnitPrice'].fillna(0)

# Convertir las columnas Quantity y UnitPrice a tipo float

retail2_df['Quantity'] = retail2_df['Quantity'].astype(float)
retail2_df['UnitPrice'] = retail2_df['UnitPrice'].astype(float)


3. Crear la columna TotalPrice

In [202]:
# Crear la nueva columna TotalPrice
retail2_df['TotalPrice'] = retail2_df['Quantity'] * retail2_df['UnitPrice']

# Verificar el tipo de datos de la nueva columna
print("Tipo de datos de TotalPrice:", retail2_df['TotalPrice'].dtype)

# Mostrar las primeras filas del DataFrame para verificar
print("Primeras filas del DataFrame con TotalPrice:")
print(retail2_df[['Quantity', 'UnitPrice', 'TotalPrice']].head())


Tipo de datos de TotalPrice: float64
Primeras filas del DataFrame con TotalPrice:
   Quantity  UnitPrice  TotalPrice
0       6.0       4.25        25.5
1     100.0     795.00     79500.0
2       6.0       1.85        11.1
3      10.0       1.65        16.5
4       6.0       4.95        29.7


## Pregunta 7
**Extraer mes y año:**
- Extraiga el mes y el año de la columna `InvoiceDate` y cree dos nuevas columnas: `InvoiceMonth` y `InvoiceYear`.

In [203]:
# Convertir la columna InvoiceDate a tipo datetime
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'])

# Crear las nuevas columnas InvoiceMonth e InvoiceYear
retail2_df['InvoiceMonth'] = retail2_df['InvoiceDate'].dt.month
retail2_df['InvoiceYear'] = retail2_df['InvoiceDate'].dt.year

# Mostrar las primeras filas para verificar
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0


## Pregunta 8
**Eliminar duplicados:**
- Identifique y elimine las filas duplicadas en el dataset `retail2` basadas en la combinación de `InvoiceNo` y `StockCode`.

In [204]:
# Identificar duplicados basados en InvoiceNo y StockCode
duplicados = retail2_df[retail2_df.duplicated(subset=['InvoiceNo', 'StockCode'], keep=False)]

# Mostrar las filas duplicadas
duplicados

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.70,12.0,2010.0
17,536375.0,22960,"[""description"": ""JAM MAKING SET WITH JARS: det...",6.0,NaT,4.25,15637,United Kingdom,Grace Wilson,grace.wilson@example.com,...,Not Returned,5.30,21x80x85 cm,8.00,South America,SALE15,Bank Transfer,25.50,,
21,536443.0,22112,CHOCOLATE HOT WATER BOTTLE,10.0,2010-12-01 10:13:00,3.39,17888,United Kingdom,Eva Jones,eva.jones@demo.net,...,Returned,1.48,14x15x31 cm,15.60,Australia,DISCOUNT5,Credit Card,33.90,12.0,2010.0
24,,71053,WHITE METAL LANTERN,6.0,2010-12-01 14:44:00,3.39,14958,United Kingdom,Bob Williams,bob.williams@test.org,...,Not Returned,4.62,75x12x74 cm,5.78,Asia,DISCOUNT5,Gift Card,20.34,12.0,2010.0
33,536543.0,21755,LOVE BUILDING BLOCK WORD,3.0,2010-12-01 11:53:00,595.00,17186,United Kingdom,Henry Johnson,henry.johnson@test.org,...,Not Returned,9.49,77x92x29 cm,18.42,Australia,,Credit Card,1785.00,12.0,2010.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
428,536427.0,22622,BOX OF VINTAGE ALPHABET BLOCKS,2.0,2010-12-01 09:57:00,9.95,13901,U.K.,Frank Davis,frank.davis@test.org,...,Returned,3.57,9x38x48 cm,14.61,South America,PROMO10,Cash,19.90,12.0,2010.0
434,536409.0,22384,PACK OF 6 SMALL FRUIT STRAWS,15.0,2010-12-01 09:39:00,1.25,19519,Denmark,Bob Johnson,bob.johnson@example.com,...,Not Returned,0.93,82x95x38 cm,16.71,Australia,DISCOUNT5,Cash,18.75,12.0,2010.0
435,536672.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 14:02:00,1.85,11526,Denmark,Grace Miller,grace.miller@demo.net,...,Not Returned,7.04,32x11x45 cm,11.90,South America,DISCOUNT5,Credit Card,11.10,12.0,2010.0
436,536529.0,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,2010-12-01 11:39:00,3.39,19865,Denmark,Eva Williams,eva.williams@demo.net,...,Returned,0.82,89x33x41 cm,5.87,Europe,DISCOUNT5,Credit Card,20.34,12.0,2010.0


In [205]:
# Eliminar duplicados basados en InvoiceNo y StockCode
retail2_df = retail2_df.drop_duplicates(subset=['InvoiceNo', 'StockCode'])

# Mostrar las primeras filas para verificar
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0


## Pregunta 9
**Reemplazo de valores:**
- Reemplace todos los valores negativos en la columna `Quantity` con cero.

In [206]:
# Verificar valores negativos en la columna Quantity
valores_negativos = retail2_df[retail2_df['Quantity'] < 0]

# Mostrar las filas con valores negativos
valores_negativos

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
6,536707.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6.0,2050-01-01 00:00:00,6.95,12783,United Kingdom,Grace Williams,grace.williams@mail.com,...,Not Returned,0.68,91x74x90 cm,9.9,South America,SALE15,Bank Transfer,-41.7,1.0,2050.0
20,536695.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6.0,2010-12-01 14:25:00,6.95,18811,United Kingdom,John Johnson,john.johnson@demo.net,...,Not Returned,6.16,18x47x49 cm,14.55,Europe,PROMO20,Cash,-41.7,12.0,2010.0
57,536607.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6.0,2010-12-01 12:57:00,6.95,15973,United Kingdom,David Williams,david.williams@example.com,...,Returned,2.04,50x12x65 cm,14.75,Europe,SALE15,Bank Transfer,-41.7,12.0,2010.0
100,536588.0,21723,STRIPED CHARLIE+LOLA CHARLOTTE BAG,-20.0,1900-01-01 00:00:00,2.95,12765,United Kingdom,Alice Davis,alice.davis@mail.com,...,Not Returned,0.41,3x23x18 cm,10.39,Australia,SALE15,Cash,-59.0,1.0,1900.0
119,536658.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6.0,2010-12-01 13:48:00,6.95,17423,United Kingdom,Bob Brown,bob.brown@example.com,...,Returned,5.44,3x31x40 cm,8.73,Asia,DISCOUNT5,Bank Transfer,-41.7,12.0,2010.0
233,536613.0,85123A,WHITE HANGING HEART T-LIGHT HOLDER,-60.0,2010-12-01 13:03:00,255.0,19291,Germany,David Williams,david.williams@demo.net,...,Not Returned,4.98,97x92x8 cm,15.77,Australia,PROMO10,PayPal,-15300.0,12.0,2010.0
365,536733.0,22632,HAND WARMER RED POLKA DOT,-6.0,2010-12-01 15:03:00,1.85,12555,Denmark,Jane Miller,jane.miller@mail.com,...,Returned,3.92,40x91x77 cm,14.35,Asia,PROMO20,Bank Transfer,-11.1,12.0,2010.0
388,536367.0,22623,BOX OF VINTAGE JIGSAW BLOCKS,-3.0,2010-12-01 08:34:00,4.95,11920,Denmark,Jane Wilson,jane.wilson@example.com,...,Not Returned,7.53,93x22x68 cm,8.13,North America,PROMO20,Credit Card,-14.85,12.0,2010.0
390,536563.0,21723,InvalidDescription123,-20.0,2010-12-01 12:13:00,2.95,12093,Denmark,Henry Brown,henry.brown@test.org,...,Returned,9.91,91x64x17 cm,6.75,Asia,SALE15,Bank Transfer,-59.0,12.0,2010.0


In [207]:
# Reemplazar valores negativos en la columna Quantity con cero
retail2_df['Quantity'] = retail2_df['Quantity'].apply(lambda x: max(x, 0))
retail2_df.head(7)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6.0,2010-12-01 14:24:00,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal,25.5,12.0,2010.0
6,536707.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,0.0,2050-01-01 00:00:00,6.95,12783,United Kingdom,Grace Williams,grace.williams@mail.com,...,Not Returned,0.68,91x74x90 cm,9.9,South America,SALE15,Bank Transfer,-41.7,1.0,2050.0


## Pregunta 10
**Transformación de datos:**
- Cree una nueva columna `DiscountedPrice` aplicando un descuento del 10% al `TotalPrice`.

In [208]:
retail2_df['DiscountedPrice']=retail2_df['TotalPrice']* 0.90
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0,26.73


# Parte 2. Data Wrangling: Join, Combine, and Reshape (Capítulo 8)

## Pregunta 11
**Merge de datasets:**
- Realice un merge del dataset `retail` con el dataset `exchange_rates.csv` en las columnas de fecha (`InvoiceDate` de `retail` y `Date` de `exchange_rates.csv`).

In [209]:
# Convertir las columnas de fecha a tipo datetime
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'])
exchange_rates_df['Date'] = pd.to_datetime(exchange_rates_df['Date'])


In [210]:
# Realizar el merge de los datasets en las columnas de fecha
merged_data=pd.merge(retail2_df, exchange_rates_df, left_on='InvoiceDate',right_on='Date', how='left') 
merged_data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice,Date,ExchangeRate
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95,NaT,
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0,NaT,
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99,NaT,
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85,NaT,
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0,26.73,NaT,


## Pregunta 12
**Concatenación de datasets:**
- Concatenar dos subconjuntos del dataset `retail`, uno con las primeras 100 filas y otro con las últimas 100 filas.

In [211]:
# Obtener las 100 primeras filas
primeras_100 = retail2_df.head(100)
# Obtener las 100 últimas filas
ultimas_100 = retail2_df.tail(100)

# Concatenar los dos  subconjuntos 
concatenado = pd.concat([primeras_100, ultimas_100])

# Mostrar las primeras filas para verificar
concatenado.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0,26.73


In [212]:
concatenado.tail()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
431,536713.0,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,NaT,2.55,14426,Denmark,Henry Johnson,henry.johnson@example.com,...,7.64,11x64x77 cm,14.75,Asia,,Credit Card,15.3,,,13.77
432,536585.0,21756,DOORMAT NEW ENGLAND,10.0,2010-12-01 12:35:00,7.95,11551,Denmark,Henry Wilson,henry.wilson@example.com,...,6.22,81x72x21 cm,7.28,Asia,PROMO20,Credit Card,79.5,12.0,2010.0,71.55
433,536526.0,71053,WHITE METAL LANTERN,6.0,2010-12-01 11:36:00,3.39,11629,Denmark,Eva Davis,eva.davis@demo.net,...,1.1,18x94x64 cm,5.92,North America,,Cash,20.34,12.0,2010.0,18.306
438,536368.0,21777,RECIPE BOX WITH METAL HEART,4.0,2010-12-01 08:35:00,795.0,19765,Denmark,David Smith,david.smith@example.com,...,7.09,51x88x41 cm,5.87,South America,SALE15,PayPal,3180.0,12.0,2010.0,2862.0
439,536472.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 10:42:00,1.85,14370,Denmark,Alice Brown,alice.brown@mail.com,...,0.91,17x76x46 cm,15.43,Australia,PROMO20,Credit Card,11.1,12.0,2010.0,9.99


## Pregunta 13
**Pivot table:**
- Cree una tabla dinámica (pivot table) que muestre el total de `TotalPrice` para cada `Country` y `InvoiceYear`.

In [213]:
# Crear la tabla dinámica
pivot_table = retail2_df.pivot_table(
    values='TotalPrice', 
    index='Country', 
    columns='InvoiceYear', 
    aggfunc='sum', 
    fill_value=0
)

pivot_table

InvoiceYear,1900.0,2010.0,2050.0
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
### CHOCOLATE HOT WATER BOTTLE ###,0.0,33.9,0.0
### united kingdom ###,0.0,20.34,0.0
BOX OF VINTAGE ALPHABET BLOCKS,0.0,19.9,0.0
BOX OF VINTAGE JIGSAW BLOCKS,0.0,14.85,0.0
Denmark,99.92,47027.41,16.5
England,0.0,52.65,0.0
Germany,54.15,46188.96,64.8
KNITTED UNION FLAG HOT WATER BOTTLE,0.0,20.34,0.0
RED HARMONICA IN BOX,0.0,12.5,0.0
SCANDINAVIAN REDS RIBBONS,0.0,33.0,0.0


## Pregunta 14
**Reshape con melt:**
- Transforme el dataset `retail` de formato ancho a largo usando la función `melt` de pandas.

## Pregunta 15
    **Combinar datos con overlap:**
    - Combine dos DataFrames con columnas `CustomerID` y `TotalPrice`, teniendo en cuenta el overlap entre los datos.

In [214]:
# Este punto no s epuede realizar ya que una de sus datas no cuenta con esas columnas 

## Pregunta 16
**Join con índices:**
- Realice un join de dos DataFrames basándose en los índices.

# Este punto no se puede realizar ya que una de sus datas no cuenta con esas columnas 

## Pregunta 17
**Cambio de nivel de índices:**
- Cambie los niveles de los índices en un MultiIndex en el dataset `retail2`.

In [215]:
retail2_df.head(3)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
1,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99


In [216]:
# Configurar un MultiIndex usando 'InvoiceNo' y 'StockCode'
retail2_df.set_index(['InvoiceNo', 'StockCode'], inplace=True)

# Verificar si el índice es un MultiIndex
if isinstance(retail2_df.index, pd.MultiIndex):
    print("El dataset retail2 ahora tiene un MultiIndex.")
else:
    print("El dataset retail2 no tiene un MultiIndex.")

# Mostrar las primeras filas del DataFrame
retail2_df.head()

El dataset retail2 ahora tiene un MultiIndex.


Unnamed: 0_level_0,Unnamed: 1_level_0,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,Address,PhoneNumber,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
InvoiceNo,StockCode,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,450 Ash St,555-734-2925,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,815 Maple St,555-782-8115,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
536633.0,22632,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,253 High St,555-936-2229,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99
536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,883 Elm St,555-242-3875,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85
,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,709 Pine St,555-412-6954,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0,26.73


## Pregunta 18
**Reordenamiento de niveles:**
- Reordene los niveles del índice en un DataFrame con MultiIndex.

In [217]:
#Reordenar los niveles del índice
#retail2_df_reordered = retail2_df.reorder_levels(['StockCode', 'InvoiceNo'])

In [218]:
retail2_df_reordered.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,Address,PhoneNumber,...,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
StockCode,InvoiceNo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
84969,536578.0,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,450 Ash St,555-734-2925,...,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,2010.0,22.95
21756,536446.0,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,815 Maple St,555-782-8115,...,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,2010.0,71550.0
22632,536633.0,HAND WARMER RED POLKA DOT,6.0,2010-12-01 13:23:00,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,253 High St,555-936-2229,...,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,11.1,12.0,2010.0,9.99
22111,536522.0,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10.0,2010-12-01 11:32:00,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,883 Elm St,555-242-3875,...,6.03,45x4x36 cm,15.54,Asia,,PayPal,16.5,12.0,2010.0,14.85
22634,,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6.0,2010-12-01 11:07:00,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,709 Pine St,555-412-6954,...,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,29.7,12.0,2010.0,26.73


## Pregunta 19
**Agregación por nivel:**
- Realice una agregación de los datos por nivel en un MultiIndex.

In [219]:
 #Agregar los datos por el nivel 'InvoiceNo' (nivel 0), incluyendo solo columnas numéricas
agg_retail2_df = retail2_df.groupby(level=0).sum(numeric_only=True)
agg_retail2_df.head()

Unnamed: 0_level_0,Quantity,UnitPrice,CustomerID,StockLevel,Discount,ProductWeight,ShippingCost,TotalPrice,InvoiceMonth,InvoiceYear,DiscountedPrice
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
536365.0,40.0,448.12,96779,3478,114.65,38.8,90.82,2663.62,84.0,14070.0,2397.258
536366.0,12.0,3.7,27172,715,61.54,8.74,28.95,22.2,24.0,4020.0,19.98
536367.0,72.0,42.34,128214,6011,288.01,53.47,131.4,185.43,120.0,20100.0,166.887
536368.0,7.0,799.95,33403,1478,17.08,7.24,23.88,3194.85,24.0,4020.0,2875.365
536369.0,6.0,7.95,15485,15,24.43,7.92,13.24,47.7,0.0,0.0,42.93


## Pregunta 20
**Creación de MultiIndex:**
- Cree un MultiIndex a partir de las columnas `Country` y `InvoiceYear` en el dataset `retail`.

In [225]:
# Configurar un MultiIndex usando 'Country' e 'InvoiceYear'
retail2_df.set_index(['Country', 'InvoiceYear', 'InvoiceNo', 'StockCode'], inplace=True)


In [228]:
retail2_df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,CustomerName,Email,Address,PhoneNumber,Category,...,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,TotalPrice,InvoiceMonth,DiscountedPrice
Country,InvoiceYear,InvoiceNo,StockCode,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
United Kingdom,2010.0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6.0,2010-12-01 12:28:00,4.25,17763,David Johnson,david.johnson@mail.com,450 Ash St,555-734-2925,Beauty,...,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,25.5,12.0,22.95
United Kingdom,2010.0,536446.0,21756,DOORMAT NEW ENGLAND,100.0,2010-12-01 10:16:00,795.0,15939,Henry Williams,henry.williams@test.org,815 Maple St,555-782-8115,Toys,...,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,79500.0,12.0,71550.0


# Parte 3 Data Aggregation and Group Operations (Capitulo 10)

## Pregunta 21
**Agrupación por cliente:**
- Agrupe los datos del dataset `retail` por `CustomerID` y calcule el total de `TotalPrice` por cliente.

In [222]:
# Agrupar por CustomerID y calcular el TotalPrice por cliente
totalprice_customer = retail2_df.groupby('CustomerID')['TotalPrice'].sum()
totalprice_customer.tail(10) 

CustomerID
19665      20.34
19689      12.50
19729      12.50
19738      20.34
19741      30.00
19765    3180.00
19797      16.50
19821      30.00
19865      15.00
19944      16.50
Name: TotalPrice, dtype: float64

## Pregunta 22
**Agrupación por producto:**
- Agrupe los datos del dataset `retail2` por `StockCode` y calcule la cantidad total vendida (`Quantity`).

In [229]:
# Agrupar por 'StockCode' y calcular la cantidad total vendida ('Quantity')
total_quantity_per_product = retail2_df.groupby('StockCode')['Quantity'].sum()

# Mostrar los primeros resultados
total_quantity_per_product.head()

StockCode
21723    360.0
21724    190.0
21730     48.0
21731    168.0
21754     27.0
Name: Quantity, dtype: float64

## Pregunta 23
**Agrupación por mes y año:**
- Agrupe los datos del dataset `retail2` por `InvoiceMonth` y `InvoiceYear`, y calcule el total de `TotalPrice`.

In [233]:
# Agrupar por 'InvoiceMonth' y 'InvoiceYear' y calcular el total de 'TotalPrice'
totalprice_monthyear = retail2_df.groupby(['InvoiceMonth', 'InvoiceYear'])['TotalPrice'].sum().reset_index()

# Mostrar los primeros resultados
print(totalprice_monthyear.head())

   InvoiceMonth  InvoiceYear  TotalPrice
0           1.0       1900.0      133.97
1           1.0       2050.0      143.60
2          12.0       2010.0   217950.24


## Pregunta 24
**Conteo de transacciones:**
- Cuente el número total de transacciones por `Country` y `InvoiceYear`.

In [235]:
# Agrupar por Country e InvoiceYear y contar el némero de transacciones
transacciones_paisyaño = retail2_df.groupby(['Country','InvoiceYear']).size().reset_index(name='TotalTransacciones')
transacciones_paisyaño.head()

Unnamed: 0,Country,InvoiceYear,TotalTransacciones
0,### CHOCOLATE HOT WATER BOTTLE ###,2010.0,1
1,### united kingdom ###,2010.0,1
2,BOX OF VINTAGE ALPHABET BLOCKS,2010.0,1
3,BOX OF VINTAGE JIGSAW BLOCKS,2010.0,1
4,Denmark,1900.0,3


## Pregunta 25
**Función de agregación personalizada:**
- Cree una función de agregación personalizada que calcule el promedio y la desviación estándar de `TotalPrice` por `Country`.

In [243]:
# Definir la función de agregación personalizada correctamente
def agg_func(x):
    return pd.Series({
        'Promedio': x.mean(),
        'DesviacionEstandar': x.std()
    })

# Aplicar la función de agregación personalizada por Country
result = retail2_df.groupby('Country').agg(
    Promedio=('TotalPrice', 'mean'),
    DesviacionEstandar=('TotalPrice', 'std')
).reset_index()

# Redondear los resultados a 2 decimales
result['Promedio'] = result['Promedio'].round(2)
result['DesviacionEstandar'] = result['DesviacionEstandar'].round(2)

result

Unnamed: 0,Country,Promedio,DesviacionEstandar
0,### CHOCOLATE HOT WATER BOTTLE ###,33.9,
1,### FELTCRAFT PRINCESS CHARLOTTE DOLL ###,30.0,
2,### U.K. ###,19.8,
3,### united kingdom ###,20.34,
4,BOX OF VINTAGE ALPHABET BLOCKS,19.9,
5,BOX OF VINTAGE JIGSAW BLOCKS,14.85,
6,Denmark,420.13,3863.6
7,England,16.99,2.06
8,Germany,479.76,3267.92
9,KNITTED UNION FLAG HOT WATER BOTTLE,20.34,


## Pregunta 26
**Agrupación y transformaciones:**
- Agrupe los datos por `CustomerID` y normalice el `TotalPrice` restando la media y dividiendo por la desviación estándar dentro de cada grupo.

## Pregunta 27
**Filtrado de grupos:**
- Filtre los grupos de `CustomerID` que tengan un `TotalPrice` promedio mayor a 500.

## Pregunta 28
**Aplicación de múltiples funciones:**
- Aplique múltiples funciones de agregación (suma, promedio, máximo) a la columna `TotalPrice` agrupando por `Country`.

## Pregunta 29
**Creación de columnas derivadas:**
- Cree una nueva columna `AvgTotalPrice` que contenga el promedio de `TotalPrice` por `CustomerID`.

## Pregunta 30
**Uso de transformaciones window:**
- Utilice una transformación de ventana para calcular la media móvil de 3 períodos de `TotalPrice` para cada `CustomerID`.

# Parte 4 - Time Series (capítulo 11)

## Pregunta 31
**Conversión a índice de tiempo:**
- Convierta la columna `InvoiceDate` a un índice de tiempo en el dataset `retail`.

## Pregunta 32
**Remuestreo de datos:**
- Remuestrear los datos del dataset `retail` a una frecuencia mensual y calcule el total de `TotalPrice` por mes.

## Pregunta 33
**Cambio de frecuencia:**
- Cambie la frecuencia de los datos del dataset `retail` a trimestral y calcule el total de `TotalPrice` por trimestre.

## Pregunta 34
**Desplazamiento de datos:**
- Desplace los datos de `TotalPrice` en el dataset `retail` un período hacia adelante.

## Pregunta 35
**Ventanas móviles:**
- Calcule la media móvil de 3 períodos de `TotalPrice` en el dataset `retail`.

## Pregunta 36
**Detección de tendencias:**
- Detecte tendencias en la columna `TotalPrice` del dataset `retail` usando una ventana móvil de 12 períodos.

## Pregunta 37
**Descomposición de series temporales:**
- Descomponga la serie temporal de `TotalPrice` en componentes de tendencia, estacionalidad y ruido.

## Pregunta 38
**Interpolación de datos faltantes:**
- Interpole los valores faltantes en la columna `TotalPrice` utilizando la interpolación lineal.

## Pregunta 39
**Análisis de autocorrelación:**
- Realice un análisis de autocorrelación en la columna `TotalPrice` del dataset `retail`.

## Pregunta 40
**Conversión de zona horaria:**
- Convierta las fechas en la columna `InvoiceDate` a una zona horaria específica (por ejemplo, UTC) en el dataset `retail`.


# Parte 5 Preguntas de Negocio

## Pregunta 1
**Análisis de Retorno de Productos:**
- ¿Cuál es el porcentaje de productos devueltos por país (United Kingdom, Germany, Denmark)? ¿Hay alguna diferencia notable entre los países?

## Pregunta 2
**Impacto de Promociones:**
- ¿Qué porcentaje de las ventas totales se realizaron utilizando códigos de promoción en cada uno de los tres países? ¿Cuál es el código de promoción más efectivo?

## Pregunta 3
**Canales de Venta:**
- ¿Cuál es la distribución de ventas entre los diferentes canales de venta (`SaleChannel`) en cada país? ¿Hay un canal que sea predominantemente más utilizado en alguno de los países?

## Pregunta 4
**Costos de Envío:**
- ¿Cuál es el costo promedio de envío por país? ¿Existen diferencias significativas en los costos de envío entre los tres países?

## Pregunta 5
**Peso del Producto y Costos de Envío:**
- ¿Existe una correlación entre el peso del producto (`ProductWeight`) y el costo de envío (`ShippingCost`)? ¿Cómo varía esta relación entre los diferentes países?

## Pregunta 6
**Descuentos y Comportamiento de Compra:**
- ¿Qué porcentaje de las compras en cada país se realizaron con algún tipo de descuento (`Discount`)? ¿Los clientes en algún país en particular son más propensos a utilizar descuentos?

## Pregunta 7
**Análisis de Categorías de Productos:**
- ¿Cuáles son las categorías de productos (`Category`) más vendidas en cada país? ¿Existen diferencias en las preferencias de categorías de productos entre los países?

## Pregunta 8
**Rendimiento de Proveedores:**
- ¿Cuál es el proveedor (`Supplier`) con el mayor volumen de ventas en cada país? ¿Cómo se distribuyen las ventas entre los diferentes proveedores en cada uno de los países?

## Pregunta 9
**Promedio de Precios de Venta:**
- ¿Cuál es el precio promedio de venta (`UnitPrice`) de los productos en cada país? ¿Existen diferencias significativas en los precios de venta entre los tres países?

## Pregunta 10
**Tendencias de Venta por Región:**
- ¿Cómo se distribuyen las ventas (`TotalPrice`) por región de ventas (`SalesRegion`) dentro de cada país? ¿Hay alguna región que destaque en términos de volumen de ventas en alguno de los países?

## Pregunta 11
**Análisis de Frecuencia de Compras:**
- ¿Cuál es la frecuencia promedio de compras por cliente (`CustomerID`) en cada país? ¿Los clientes en algún país compran con mayor frecuencia?


## Pregunta 12
**Valor de Vida del Cliente:**
- ¿Cuál es el valor promedio de vida del cliente (suma de `TotalPrice`) en cada país? ¿Existe una diferencia significativa en el valor de vida del cliente entre los tres países?

## Pregunta 13
**Métodos de Pago:**
- ¿Cuál es el método de pago (`PaymentMethod`) más utilizado en cada país? ¿Hay una preferencia notable por ciertos métodos de pago en algún país específico?

## Pregunta 14
**Evaluación de la Eficiencia de Descuentos:**
- ¿Qué impacto tienen los descuentos (`Discount`) en el valor total de las ventas en cada país? ¿Los descuentos resultan en un aumento significativo en el volumen de ventas?

## Pregunta 15
**Análisis de Clientes por Región:**
- ¿Cuál es la distribución de clientes (`CustomerID`) por región de ventas (`SalesRegion`) en cada país? ¿Hay regiones con una concentración notablemente mayor de clientes?

## Pregunta 16
**Promociones y Segmentos de Mercado:**
- ¿Cuál es el código de promoción (`PromotionCode`) más utilizado en cada segmento de mercado (`SalesRegion`) dentro de cada país?

## Pregunta 17
**Análisis de Temporadas de Venta:**
- ¿Existen patrones estacionales en las ventas (`InvoiceDate`) en cada país? ¿Hay picos de ventas en ciertos meses o temporadas en alguno de los países?

## Pregunta 18
**Preferencias de Productos:**
- ¿Cuáles son los productos (`StockCode` y `Description`) más vendidos en cada país? ¿Hay diferencias notables en las preferencias de productos entre los países?

## Pregunta 19
**Impacto de las Devoluciones en las Ventas:**
- ¿Qué porcentaje de las ventas totales son afectadas por devoluciones (`ReturnStatus`)? ¿Cómo varía este porcentaje entre los diferentes países?

## Pregunta 20
**Análisis de Margen de Ganancia:**
- ¿Cuál es el margen de ganancia promedio (`UnitPrice - Discount`) por producto en cada país? ¿Hay productos o categorías con márgenes significativamente mayores o menores en alguno de los países?