# Práctica 43: Limpieza, manejo y transformación de datos con Pandas

####  Cargar el fichero **retail2.csv** en un dataframe de Pandas y efectuar todas las operaciones de consulta, exploración y limpieza de datos que sean necesarios algunos pasos de limpieza están de forma explícita como preguntas. Los ficheros contienen varias columnas y algunas de ellas tienen datos que podrían necesitar limpieza o tratamiento. 

**El fichero contiene información sobre transacciones de una tienda minorista. Los campos y su significado se muestran a continuación:**

`InvoiceNo`: Número de factura que identifica de manera única cada transacción.
  

`StockCode`:Código de stock que identifica de manera única cada producto.
 

`Descrption`.Descripción del producto.


`Quantity`: Cantidad de productos comprados (puede contener valores negativos que indican devoluciones).

`InvoiceDate`: Fecha y hora en que se realizó la transacción.


`UnitPrice`:Precio unitario del producto (algunos valores pueden estar en centavos en lugar de dólares).


`CustomerID`:ID único del cliente que realizó la compra.


`Country`:País donde reside el cliente (puede contener inconsistencias en mayúsculas/minúsculas y caracteres especiales).  

`CustomerName`:Nombre completo del cliente.


`Email`:Dirección de correo electrónico del cliente.  

`Address`:Dirección del cliente.  



`PhoneNumber`:Número de teléfono del cliente.



`Category`: Categoría del producto (por ejemplo, 'Electronics', 'Clothing', 'Home & Garden').

`Supplier`: Proveedor del producto.  

`StockLevel`: Nivel de inventario del producto.

`Discount`: Descuento aplicado al producto (en porcentaje).  

`SaleChannel`: Canal de venta (por ejemplo, 'Online', 'In-Store').

`ReturnStatus`: Estado de devolución del producto ('Returned', 'Not Returned').

`ProductWeight`: Peso del producto. Unidad: kilogramos.

`ProductDimensions`: Dimensiones del producto. Unidad: en el formato 'LxWxH cm'.

`ShippingCost`: Costo de envío. Unidad:dólares.

`SalesRegion`: Región de ventas (por ejemplo, 'North America', 'Europe', 'Asia').  

`PromotionCode`: Código de promoción aplicado a la compra.

`PaymentMethod`: Método de pago (por ejemplo, 'Credit Card', 'PayPal', 'Bank Transfer').


# Parte 1. Data Cleaning and Preparation (Capítulo 7 - Wes McKinney)

- Cargue los datasets `retail2.csv` y `exchange_rates.csv` en DataFrames de pandas.

In [713]:
# Importación biblioteca pandas
import pandas as pd

In [714]:
# Lectura fichero csv 
# retail2_df = pd.read_csv("../data/retail2.csv", sep=',', header=0, index_col=0) # Con argumentos
retail2_df = pd.read_csv("../data/retail2.csv") # Sin argumentos
# Visualización
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,12/1/2010 11:32,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,12/1/2010 11:07,4.95,11696,United Kingdom,Eva Smith,eva.smith@mail.com,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


In [715]:
# Lectura fichero csv 
exchange_rates_df = pd.read_csv("../data/exchange_rates.csv")
# Visualización
exchange_rates_df.head()

Unnamed: 0,Date,ExchangeRate
0,2020-01-01,1.2
1,2020-01-02,1.19
2,2020-01-03,1.18
3,2020-01-04,1.21
4,2020-01-05,1.2


In [716]:
exchange_rates_df.shape

(60, 2)

## Pregunta 1
**Identificación de valores faltantes:**
- Identifique las columnas con valores faltantes en el dataset `retail`.

In [717]:
# Contabilización valores faltantes por columna
missing_values = retail2_df.isnull().sum()
# Visualización de las columnas con valores faltantes
missing_columns = missing_values[missing_values > 0]
print(missing_columns)

InvoiceNo        20
Description      27
InvoiceDate       5
Country           1
PromotionCode    81
dtype: int64


## Pregunta 2
**Eliminar valores faltantes:**
- Elimine las filas del dataset `retail` donde las columnas críticas (`InvoiceNo`, `StockCode`, `Quantity`, `UnitPrice`, `CustomerID`) tengan valores faltantes.

In [718]:
# Filas x columnas df original
retail2_df.shape

(440, 24)

In [719]:
# Eliminación de filas de las columnas críticas con valores faltantes
critical_columns = ['InvoiceNo', 'StockCode', 'Quantity', 'UnitPrice', 'CustomerID']
cleaned_retail2_df = retail2_df.dropna(subset=critical_columns)
# Visualización dataframe limpio
cleaned_retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,12/1/2010 11:32,1.65,15685,United Kingdom,Frank Johnson,frank.johnson@example.com,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
5,536694.0,22960,"{""description"": [""JAM MAKING SET WITH JARS""]}",6,12/1/2010 14:24,4.25,11946,United Kingdom,Alice Smith,alice.smith@mail.com,...,103,23.1,In-Store,Returned,1.64,61x54x39 cm,5.15,North America,PROMO20,PayPal


In [720]:
# Filas x columnas df limpio
cleaned_retail2_df.shape

(420, 24)

## Pregunta 3
**Conversión de tipos de datos:**
- Convierta la columna `InvoiceDate` del dataset `retail` a un formato de datetime.

In [721]:
# Tipo de dato de columna 'InvoiceDate' ANTES de transformación
print(retail2_df['InvoiceDate'].dtype)

object


In [722]:
# Función para recoger las fechas que no se pueden transformar
def check_invalid_dates(date_series):
    invalid_dates = []
    for date in date_series:
        try:
            # Intentar convertir la fecha
            pd.to_datetime(date, format='%d/%m/%Y %H:%M')
        except (ValueError, TypeError):
            # Si hay un error, agregar la fecha a la lista de fechas inválidas
            invalid_dates.append(date)
    return invalid_dates

# Aplicar la función a la columna 'InvoiceDate'
invalid_dates = check_invalid_dates(retail2_df['InvoiceDate'])

# Mostrar las fechas problemáticas
invalid_dates

['01/12/2010 25:61',
 '30/02/2010 00:00',
 'Date: 12/1/2010 14:26',
 '30/02/2010 00:00',
 '01-12-2010 10:09',
 '01/12/2010 25:61',
 'Date: 12/1/2010 13:46',
 '01/12/2010 25:61',
 '01/12/2010 25:61',
 '01/12/2010 25:61',
 '01/12/2010 25:61',
 '01-12-2010 11:27',
 'Date: 12/1/2010 9:14',
 'Date: 01/01/2050 00:00',
 '01/12/2010 25:61',
 'Date: 12/1/2010 9:23',
 '01-12-2010 09:47',
 '30/02/2010 00:00',
 '01/12/2010 25:61',
 '01/12/2010 25:61',
 'Date: 12/1/2010 11:05',
 '01/12/2010 25:61',
 'Date: 12/1/2010 15:02',
 '30/02/2010 00:00',
 'Date: 12/1/2010 14:47',
 '01-12-2010 13:42',
 '01/12/2010 25:61',
 '30/02/2010 00:00',
 'Date: 12/1/2010 9:33',
 '30/02/2010 00:00',
 '01/12/2010 25:61',
 'Date: 12/1/2010 14:43']

In [723]:
import numpy as np

def clean_date(date):
    if pd.isna(date):
        return np.nan
    # Transformación de tipo('InvoiceDate': object -> 'CleanedInvoiceDate': string)
    date_str = str(date)
    # Eliminación de espacios
    date_str = date_str.strip()
    # Elimina non-breaking spaces y otros caracteres
    date_str = date_str.replace('\xa0', ' ').strip()
    # Eliminación de espacios múltiples
    import re
    date_str = re.sub(r'\s+', ' ', date_str).strip()  
    # TEST:
    # print([c for c in date_str]) # Muestra cada carácter en la cadena
    # print(date_str.encode('utf-8')) # Muestra la representación en bytes

    # Eliminar prefijo "Date:"
    date_str = date_str.split('Date:')[-1]
    # Clave para fechas que además de ir precedidas de la cadena 'Date:' 
    # también llevan un espacio antes
    date_str = date_str.strip()
    # Reemplazar los separadores de fecha no estándar
    date_str = date_str.replace('-', '/')
    # Test
    # print(f"** CLEANED Date: {date_str}")
    
    # Comprobación si la fecha es Febrero y tiene 28 días de máximo
    month_numb = int(date_str.split(' ')[0].split('/')[1])
    if month_numb == 2:
        day_numb = int(date_str.split(' ')[0].split('/')[0])
        if day_numb > 28:
            date_str = date_str.replace(date_str.split(' ')[0].split('/')[0], '28')

    # Extracción de la hora y los minutos de la fecha
    # y conversión a entero
    hour_numb = int(date_str.split(' ')[1].split(':')[0])
    min_numb = int(date_str.split(' ')[1].split(':')[1])
    # Comprobación de hora y minuto y cambio en la fecha de tipo string
    if hour_numb > 23:
        date_str = date_str.replace(date_str.split(' ')[1].split(':')[0], '00')        
    if min_numb > 59:
        date_str = date_str.replace(date_str.split(' ')[1].split(':')[1], '59')
    
    return date_str

# Aplicar la limpieza
retail2_df['CleanedInvoiceDate'] = retail2_df['InvoiceDate'].apply(clean_date)
# Conversión forzada de columna 'InvoiceDate' a datetime
# retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['CleanedInvoiceDate'], 
#                                           format='%d/%m/%Y %H:%M', 
#                                           errors='coerce')
#print(retail2_df.head(20))
retail2_df['CleanedInvoiceDate'] = pd.to_datetime(retail2_df['CleanedInvoiceDate'], 
                                                    format='%d/%m/%Y %H:%M', 
                                                    errors='coerce')
retail2_df[15:25]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,CleanedInvoiceDate
15,536404.0,84907C,PACK OF 12 BLUE RETROSPOT TISSUES,20,12/1/2010 9:34,0.85,11757,United Kingdom,David Williams,david.williams@demo.net,...,34.83,In-Store,Not Returned,1.92,44x45x32 cm,15.34,South America,SALE15,Cash,2010-01-12 09:34:00
16,536676.0,22749,***FELTCRAFT PRINCESS CHARLOTTE DOLL***,8,01/12/2010 25:61,3.75,15085,### FELTCRAFT PRINCESS CHARLOTTE DOLL ###,John Johnson,john.johnson@example.com,...,46.12,Online,Returned,3.11,45x61x47 cm,17.01,Australia,DISCOUNT5,Gift Card,2010-12-01 00:59:00
17,536375.0,22960,"[""description"": ""JAM MAKING SET WITH JARS: det...",6,30/02/2010 00:00,4.25,15637,United Kingdom,Grace Wilson,grace.wilson@example.com,...,35.36,In-Store,Not Returned,5.3,21x80x85 cm,8.0,South America,SALE15,Bank Transfer,2010-02-28 00:00:00
18,536457.0,22960,***JAM MAKING SET WITH JARS***,6,12/1/2010 10:27,4.25,11116,United Kingdom,Alice Taylor,alice.taylor@demo.net,...,7.63,Online,Not Returned,4.38,75x36x99 cm,7.51,South America,PROMO10,Cash,2010-01-12 10:27:00
19,536696.0,22112,CHOCOLATE HOT WATER BOTTLE,10,Date: 12/1/2010 14:26,3.39,10492,United Kingdom,Bob Wilson,bob.wilson@example.com,...,28.81,Online,Returned,2.98,19x20x57 cm,6.57,South America,DISCOUNT5,PayPal,2010-01-12 14:26:00
20,536695.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6,12/1/2010 14:25,6.95,18811,United Kingdom,John Johnson,john.johnson@demo.net,...,30.34,In-Store,Not Returned,6.16,18x47x49 cm,14.55,Europe,PROMO20,Cash,2010-01-12 14:25:00
21,536443.0,22112,CHOCOLATE HOT WATER BOTTLE,10,12/1/2010 10:13,3.39,17888,United Kingdom,Eva Jones,eva.jones@demo.net,...,21.21,Online,Returned,1.48,14x15x31 cm,15.6,Australia,DISCOUNT5,Credit Card,2010-01-12 10:13:00
22,536587.0,21724,RED HARMONICA IN BOX,10,12/1/2010 12:37,1.25,16474,United Kingdom,David Taylor,david.taylor@demo.net,...,36.82,Online,Not Returned,2.99,1x54x3 cm,5.47,South America,DISCOUNT5,Credit Card,2010-01-12 12:37:00
23,536628.0,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,30/02/2010 00:00,3.39,19738,United Kingdom,Alice Smith,alice.smith@example.com,...,46.72,In-Store,Returned,3.73,16x87x57 cm,19.04,Australia,,Gift Card,2010-02-28 00:00:00
24,,71053,WHITE METAL LANTERN,6,12/1/2010 14:44,3.39,14958,United Kingdom,Bob Williams,bob.williams@test.org,...,46.28,In-Store,Not Returned,4.62,75x12x74 cm,5.78,Asia,DISCOUNT5,Gift Card,2010-01-12 14:44:00


In [724]:
# Reordenación Columnas
# IMPORTANTE: Hay que convertir 'retail2_df.columns' de 'index' a 'list'
old_order_list = list(retail2_df.columns)
new_order_list = ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 
                  'InvoiceDate', 'CleanedInvoiceDate','UnitPrice', 'CustomerID', 'Country',
                  'CustomerName', 'Email', 'Address', 'PhoneNumber', 'Category', 'Supplier',
                  'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight',
                  'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode', 
                  'PaymentMethod']
retail2_df = retail2_df[new_order_list]
retail2_df[16:24]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,CleanedInvoiceDate,UnitPrice,CustomerID,Country,CustomerName,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
16,536676.0,22749,***FELTCRAFT PRINCESS CHARLOTTE DOLL***,8,01/12/2010 25:61,2010-12-01 00:59:00,3.75,15085,### FELTCRAFT PRINCESS CHARLOTTE DOLL ###,John Johnson,...,859,46.12,Online,Returned,3.11,45x61x47 cm,17.01,Australia,DISCOUNT5,Gift Card
17,536375.0,22960,"[""description"": ""JAM MAKING SET WITH JARS: det...",6,30/02/2010 00:00,2010-02-28 00:00:00,4.25,15637,United Kingdom,Grace Wilson,...,435,35.36,In-Store,Not Returned,5.3,21x80x85 cm,8.0,South America,SALE15,Bank Transfer
18,536457.0,22960,***JAM MAKING SET WITH JARS***,6,12/1/2010 10:27,2010-01-12 10:27:00,4.25,11116,United Kingdom,Alice Taylor,...,447,7.63,Online,Not Returned,4.38,75x36x99 cm,7.51,South America,PROMO10,Cash
19,536696.0,22112,CHOCOLATE HOT WATER BOTTLE,10,Date: 12/1/2010 14:26,2010-01-12 14:26:00,3.39,10492,United Kingdom,Bob Wilson,...,994,28.81,Online,Returned,2.98,19x20x57 cm,6.57,South America,DISCOUNT5,PayPal
20,536695.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,-6,12/1/2010 14:25,2010-01-12 14:25:00,6.95,18811,United Kingdom,John Johnson,...,308,30.34,In-Store,Not Returned,6.16,18x47x49 cm,14.55,Europe,PROMO20,Cash
21,536443.0,22112,CHOCOLATE HOT WATER BOTTLE,10,12/1/2010 10:13,2010-01-12 10:13:00,3.39,17888,United Kingdom,Eva Jones,...,249,21.21,Online,Returned,1.48,14x15x31 cm,15.6,Australia,DISCOUNT5,Credit Card
22,536587.0,21724,RED HARMONICA IN BOX,10,12/1/2010 12:37,2010-01-12 12:37:00,1.25,16474,United Kingdom,David Taylor,...,166,36.82,Online,Not Returned,2.99,1x54x3 cm,5.47,South America,DISCOUNT5,Credit Card
23,536628.0,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,30/02/2010 00:00,2010-02-28 00:00:00,3.39,19738,United Kingdom,Alice Smith,...,481,46.72,In-Store,Returned,3.73,16x87x57 cm,19.04,Australia,,Gift Card


In [725]:
# Filtrar filas con problemas
# La virgulilla se utiliza para seleccionar las filas donde la conversión de fecha falló, 
# es decir, donde InvoiceDate no pudo convertirse correctamente a una fecha válida
problem_rows = retail2_df[~pd.to_datetime(retail2_df['InvoiceDate'], 
                                          errors='coerce', 
                                          dayfirst=True).notna()]
print(problem_rows)

     InvoiceNo                       StockCode  \
16    536676.0                           22749   
17    536375.0                           22960   
19    536696.0                           22112   
23    536628.0                          84029G   
32    536439.0                           21914   
49    536584.0  SET 2 TEA TOWELS I LOVE LONDON   
52         NaN                           22752   
54    536656.0                           21731   
58    536455.0                           21914   
82    536432.0                           21756   
90    536605.0                           21731   
105   536630.0                           22752   
114   536517.0                           21731   
116   536384.0                           22570   
173   536519.0                           22139   
174   536390.0                           22752   
183   536393.0                           22111   
195   536475.0                           22748   
223   536417.0                           21730   


In [726]:
# Tipo de dato de columna 'InvoiceDate'
print(retail2_df['InvoiceDate'].dtype)

object


In [727]:
# Tipo de dato de columna 'CleanedInvoiceDate' DESPUÉS de transformación
print(retail2_df['CleanedInvoiceDate'].dtype)

datetime64[ns]


## Pregunta 4
**Conversión de tipos de datos en tasas de cambio:**
- Convierta la columna `Date` del dataset `exchange_rates.csv` a un formato de datetime.

In [728]:
exchange_rates_df['Date'] = pd.to_datetime(exchange_rates_df['Date'])
exchange_rates_df.head()

Unnamed: 0,Date,ExchangeRate
0,2020-01-01,1.2
1,2020-01-02,1.19
2,2020-01-03,1.18
3,2020-01-04,1.21
4,2020-01-05,1.2


In [729]:
exchange_rates_df.shape

(60, 2)

## Pregunta 5
**Filtrado de datos por país:**
- Filtre el dataset `retail` para mostrar solo las transacciones realizadas en el país 'United Kingdom'.

In [730]:
# Comprobación de todos los valores de columna 'Country'
country_list = list(retail2_df['Country'])
print(country_list)

['United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 'United Kingdom', 

In [731]:
import pandas as pd

# Paso 1: Verificar las variantes de 'United Kingdom'
print(retail2_df['Country'].unique())  # Esto mostrará todas las variaciones en la columna 'Country'

['United Kingdom' '### FELTCRAFT PRINCESS CHARLOTTE DOLL ###'
 'KNITTED UNION FLAG HOT WATER BOTTLE' 'U.K.'
 'STRIPED CHARLIE+LOLA CHARLOTTE BAG: details' 'Germany'
 '### united kingdom ###' 'BOX OF VINTAGE JIGSAW BLOCKS' 'united kingdom'
 'England' 'SCANDINAVIAN REDS RIBBONS'
 '### CHOCOLATE HOT WATER BOTTLE ###' 'Denmark' nan '### U.K. ###'
 'BOX OF VINTAGE ALPHABET BLOCKS' 'RED HARMONICA IN BOX']


In [732]:
import pandas as pd
import numpy as np
import re

# Paso 1: Lista de variantes de 'United Kingdom'
variantes_uk = ['United Kingdom', 'UK', 'U.K.', 'united kingdom']

# Paso 2: Función para limpiar y unificar nombres de países
def clean_country_name(country_name):
    if pd.isna(country_name) or isinstance(country_name, (float, int)):
        return np.nan
    # Eliminar caracteres especiales y convertir a minúsculas
    country_name = re.sub(r'[^\w\s]', '', country_name).strip().lower()
    # Unificar nombres basados en la lista de variantes
    return 'United Kingdom' if country_name in [name.lower() for name in variantes_uk] else country_name

# Paso 3: Crear la nueva columna 'CleanedCountry' con valor 'United Kingdom' unificado
retail2_df['CleanedCountry'] = retail2_df['Country'].apply(clean_country_name)

# Verificar la nueva columna
#print(retail2_df[['Country', 'CleanedCountry']].head())

In [733]:
""" import re
import numpy as np

# Paso 1: Definir la expresión regular para las variantes de 'United Kingdom'
regex_uk = r'\b(?:united\s*kingdom|u\.?k\.?)\b'

# Paso 2: Crear la nueva columna 'CleanedCountry', manejando NaN y aplicando la expresión regular
retail2_df['CleanedCountry'] = retail2_df['Country'].apply(
    lambda x: 'United Kingdom' if isinstance(x, str) and re.search(regex_uk, x, re.IGNORECASE) else x
)

# Paso 3: Verificar la nueva columna
# Mostrar las primeras filas para comparar las columnas
#print(retail2_df[['Country', 'CleanedCountry']].head()) """

  """ import re


" import re\nimport numpy as np\n\n# Paso 1: Definir la expresión regular para las variantes de 'United Kingdom'\nregex_uk = r'\x08(?:united\\s*kingdom|u\\.?k\\.?)\x08'\n\n# Paso 2: Crear la nueva columna 'CleanedCountry', manejando NaN y aplicando la expresión regular\nretail2_df['CleanedCountry'] = retail2_df['Country'].apply(\n    lambda x: 'United Kingdom' if isinstance(x, str) and re.search(regex_uk, x, re.IGNORECASE) else x\n)\n\n# Paso 3: Verificar la nueva columna\n# Mostrar las primeras filas para comparar las columnas\n#print(retail2_df[['Country', 'CleanedCountry']].head()) "

In [734]:
# Paso 1: Lista de variantes de 'United Kingdom'
#variantes_uk = ['United Kingdom', 'UK', 'U.K.', 'united kingdom']

# Paso 2: Crear la nueva columna 'CleanedCountry' con valor 'United Kingdom' unificado
#retail2_df['CleanedCountry'] = retail2_df['Country'].apply(lambda x: 'United Kingdom' if x in variantes_uk else x)

# Paso 3: Verificar la nueva columna
# Mostrar las primeras filas para comparar las columnas
#retail2_df[['Country', 'CleanedCountry']]

In [735]:
# Slice para comprobar diferencias entre columnas 'Country'-'CleanedCountry'
retail2_df_slice = retail2_df.loc[95:102, ['Country', 'CleanedCountry']]
retail2_df_slice


Unnamed: 0,Country,CleanedCountry
95,United Kingdom,United Kingdom
96,United Kingdom,United Kingdom
97,U.K.,United Kingdom
98,STRIPED CHARLIE+LOLA CHARLOTTE BAG: details,striped charlielola charlotte bag details
99,United Kingdom,United Kingdom
100,United Kingdom,United Kingdom
101,United Kingdom,United Kingdom
102,United Kingdom,United Kingdom


In [736]:
# Reordenación de columnas
old_order_list2 = list(retail2_df.columns)
new_order_list2 = ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
                    'CleanedInvoiceDate', 'UnitPrice', 'CustomerID', 'Country', 'CleanedCountry',
                    'CustomerName', 'Email', 'Address', 'PhoneNumber', 'Category', 'Supplier', 
                    'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight', 
                    'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode', 
                    'PaymentMethod']
retail2_df = retail2_df[new_order_list2]
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,CleanedInvoiceDate,UnitPrice,CustomerID,Country,CleanedCountry,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,2010-01-12 12:28:00,4.25,17763,United Kingdom,United Kingdom,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,2010-01-12 10:16:00,795.0,15939,United Kingdom,United Kingdom,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,2010-01-12 13:23:00,1.85,12295,United Kingdom,United Kingdom,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",10,12/1/2010 11:32,2010-01-12 11:32:00,1.65,15685,United Kingdom,United Kingdom,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",6,12/1/2010 11:07,2010-01-12 11:07:00,4.95,11696,United Kingdom,United Kingdom,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


In [737]:
# Comprobación de los valores únicos en la columna 'CleanedCountry'
print(retail2_df['CleanedCountry'].unique())

['United Kingdom' 'feltcraft princess charlotte doll'
 'knitted union flag hot water bottle'
 'striped charlielola charlotte bag details' 'germany'
 'box of vintage jigsaw blocks' 'england' 'scandinavian reds ribbons'
 'chocolate hot water bottle' 'denmark' nan
 'box of vintage alphabet blocks' 'red harmonica in box']


## Pregunta 6
**Calcular el total de precios:**
- Cree una nueva columna `TotalPrice` en el dataset `retail` multiplicando `Quantity` por `UnitPrice`.

In [738]:
# Primer intento
# retail2_df['TotalPrice'] = retail2_df['Quantity'] * retail2_df['UnitPrice']
# print(retail2_df[['Quantity', 'UnitPrice', 'TotalPrice']].head())

In [739]:
# Comprobar los tipos de datos de todas las columnas
print(retail2_df.dtypes)

# Ver los tipos de datos específicos de 'Quantity' y 'UnitPrice'
print(f"'Quantity' type: {retail2_df['Quantity'].dtype}")
print(f"'UnitPrice' type: {retail2_df['UnitPrice'].dtype}")


InvoiceNo                    float64
StockCode                     object
Description                   object
Quantity                      object
InvoiceDate                   object
CleanedInvoiceDate    datetime64[ns]
UnitPrice                     object
CustomerID                     int64
Country                       object
CleanedCountry                object
CustomerName                  object
Email                         object
Address                       object
PhoneNumber                   object
Category                      object
Supplier                      object
StockLevel                     int64
Discount                     float64
SaleChannel                   object
ReturnStatus                  object
ProductWeight                float64
ProductDimensions             object
ShippingCost                 float64
SalesRegion                   object
PromotionCode                 object
PaymentMethod                 object
dtype: object
'Quantity' type: object


In [740]:
# Convertir las columnas a tipo numérico, forzando errores a NaN si no se puede convertir
retail2_df['Quantity'] = pd.to_numeric(retail2_df['Quantity'], errors='coerce')
retail2_df['UnitPrice'] = pd.to_numeric(retail2_df['UnitPrice'], errors='coerce')

# Ver los tipos de datos específicos de 'Quantity' y 'UnitPrice'
print(f"'Quantity' type: {retail2_df['Quantity'].dtype}")
print(f"'UnitPrice' type: {retail2_df['UnitPrice'].dtype}")

'Quantity' type: float64
'UnitPrice' type: float64


In [741]:
# Segundo intento
retail2_df['TotalPrice'] = retail2_df['Quantity'] * retail2_df['UnitPrice']
print(retail2_df[['Quantity', 'UnitPrice', 'TotalPrice']].head())

   Quantity  UnitPrice  TotalPrice
0       6.0       4.25        25.5
1     100.0     795.00     79500.0
2       6.0       1.85        11.1
3      10.0       1.65        16.5
4       6.0       4.95        29.7


In [742]:
old_order_list3 = retail2_df.columns.to_list()
new_order_list3 = ['InvoiceNo',  'StockCode',  'Description', 'UnitPrice', 'Quantity', 'TotalPrice',
                   'InvoiceDate', 'Country', 'CleanedCountry', 'CleanedInvoiceDate', 'CustomerID', 
                    'CustomerName', 'Email', 'Address', 'PhoneNumber', 'Category', 'Supplier',
                    'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight',
                    'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode',
                    'PaymentMethod']
retail2_df = retail2_df[new_order_list3]
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,InvoiceDate,Country,CleanedCountry,CleanedInvoiceDate,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,12/1/2010 12:28,United Kingdom,United Kingdom,2010-01-12 12:28:00,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,12/1/2010 10:16,United Kingdom,United Kingdom,2010-01-12 10:16:00,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,12/1/2010 13:23,United Kingdom,United Kingdom,2010-01-12 13:23:00,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,12/1/2010 11:32,United Kingdom,United Kingdom,2010-01-12 11:32:00,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,12/1/2010 11:07,United Kingdom,United Kingdom,2010-01-12 11:07:00,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


## Pregunta 7
**Extraer mes y año:**
- Extraiga el mes y el año de la columna `InvoiceDate` y cree dos nuevas columnas: `InvoiceMonth` y `InvoiceYear`.

In [743]:
# Comprobación del tipo de dato de la columna 'CleanedInvoiceDate'
cleaned_invoicedate_serie = retail2_df['CleanedInvoiceDate']
cleaned_invoicedate_serie.dtype

dtype('<M8[ns]')

In [744]:
# A) Conversión de la Serie en una SOLA cadena
# cleaned_indt_str = cleaned_invoicedate_serie.to_string()

# B) Convertir cada valor de la Serie a string
cleaned_indt_str = cleaned_invoicedate_serie.astype(str)
# Verificar los primeros valores convertidos
print(cleaned_indt_str.head())

0    2010-01-12 12:28:00
1    2010-01-12 10:16:00
2    2010-01-12 13:23:00
3    2010-01-12 11:32:00
4    2010-01-12 11:07:00
Name: CleanedInvoiceDate, dtype: object


In [745]:
# Extracción del mes y año, creando las nuevas columnas
# rellenar a '0' los valores nulos('NaN')
# y convertir a entero para eliminar la coma flotante
retail2_df['InvoiceMonth'] = retail2_df['CleanedInvoiceDate'].dt.month.fillna(0).astype(int)
retail2_df['InvoiceYear'] = retail2_df['CleanedInvoiceDate'].dt.year.fillna(0).astype(int)

retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,InvoiceDate,Country,CleanedCountry,CleanedInvoiceDate,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,InvoiceMonth,InvoiceYear
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,12/1/2010 12:28,United Kingdom,United Kingdom,2010-01-12 12:28:00,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,1,2010
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,12/1/2010 10:16,United Kingdom,United Kingdom,2010-01-12 10:16:00,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,1,2010
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,12/1/2010 13:23,United Kingdom,United Kingdom,2010-01-12 13:23:00,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,1,2010
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,12/1/2010 11:32,United Kingdom,United Kingdom,2010-01-12 11:32:00,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,1,2010
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,12/1/2010 11:07,United Kingdom,United Kingdom,2010-01-12 11:07:00,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,1,2010


In [746]:
# Reordenación de columnas
old_order_list4 = retail2_df.columns.to_list()
old_order_list4

new_order_list4 = ['InvoiceNo', 'StockCode', 'Description', 'UnitPrice', 'Quantity',
 'TotalPrice', 'InvoiceDate', 'CleanedInvoiceDate',  'InvoiceMonth', 'InvoiceYear', 
 'Country', 'CleanedCountry', 'CustomerID', 'CustomerName', 'Email', 'Address', 'PhoneNumber',
 'Category', 'Supplier', 'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight',
 'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode', 'PaymentMethod',]
retail2_df = retail2_df[new_order_list4]
retail2_df.head()


Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,InvoiceYear,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,12/1/2010 12:28,2010-01-12 12:28:00,1,2010,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,12/1/2010 10:16,2010-01-12 10:16:00,1,2010,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,12/1/2010 13:23,2010-01-12 13:23:00,1,2010,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,12/1/2010 11:32,2010-01-12 11:32:00,1,2010,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,12/1/2010 11:07,2010-01-12 11:07:00,1,2010,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


## Pregunta 8
**Eliminar duplicados:**
- Identifique y elimine las filas duplicadas en el dataset `retail` basadas en la combinación de `InvoiceNo` y `StockCode`.

In [747]:
retail2_df[10:20]

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,InvoiceYear,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
10,536372.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,12/1/2010 9:02,2010-01-12 09:02:00,1,2010,...,806,30.57,Online,Not Returned,0.3,72x61x39 cm,5.5,South America,PROMO10,Gift Card
11,536377.0,22112,CHOCOLATE HOT WATER BOTTLE,3.39,10.0,33.9,12/1/2010 9:07,2010-01-12 09:07:00,1,2010,...,306,0.91,Online,Returned,9.7,1x3x77 cm,6.18,South America,DISCOUNT5,PayPal
12,536487.0,21724,RED HARMONICA IN BOX,1.25,10.0,12.5,12/1/2010 10:57,2010-01-12 10:57:00,1,2010,...,98,43.61,Online,Not Returned,8.34,92x62x63 cm,10.95,North America,SALE15,Gift Card
13,536437.0,71053,WHITE METAL LANTERN,3.39,6.0,20.34,12/1/2010 10:07,2010-01-12 10:07:00,1,2010,...,850,46.61,In-Store,Not Returned,2.2,25x56x33 cm,6.99,Australia,PROMO10,Gift Card
14,536467.0,84029G,knitted union flag hot water bottle,3.39,6.0,20.34,12/1/2010 10:37,2010-01-12 10:37:00,1,2010,...,798,28.26,In-Store,Not Returned,1.9,38x6x58 cm,13.51,South America,PROMO20,PayPal
15,536404.0,84907C,PACK OF 12 BLUE RETROSPOT TISSUES,0.85,20.0,17.0,12/1/2010 9:34,2010-01-12 09:34:00,1,2010,...,335,34.83,In-Store,Not Returned,1.92,44x45x32 cm,15.34,South America,SALE15,Cash
16,536676.0,22749,***FELTCRAFT PRINCESS CHARLOTTE DOLL***,3.75,8.0,30.0,01/12/2010 25:61,2010-12-01 00:59:00,12,2010,...,859,46.12,Online,Returned,3.11,45x61x47 cm,17.01,Australia,DISCOUNT5,Gift Card
17,536375.0,22960,"[""description"": ""JAM MAKING SET WITH JARS: det...",4.25,6.0,25.5,30/02/2010 00:00,2010-02-28 00:00:00,2,2010,...,435,35.36,In-Store,Not Returned,5.3,21x80x85 cm,8.0,South America,SALE15,Bank Transfer
18,536457.0,22960,***JAM MAKING SET WITH JARS***,4.25,6.0,25.5,12/1/2010 10:27,2010-01-12 10:27:00,1,2010,...,447,7.63,Online,Not Returned,4.38,75x36x99 cm,7.51,South America,PROMO10,Cash
19,536696.0,22112,CHOCOLATE HOT WATER BOTTLE,3.39,10.0,33.9,Date: 12/1/2010 14:26,2010-01-12 14:26:00,1,2010,...,994,28.81,Online,Returned,2.98,19x20x57 cm,6.57,South America,DISCOUNT5,PayPal


In [748]:
# Comprobación de la forma(filas x columnas)
retail2_df.shape

(440, 29)

In [749]:
# Identificación y eliminación de las filas duplicadas basadas en las columnas InvoiceNo y StockCode
retail2_df = retail2_df.drop_duplicates(subset=['InvoiceNo', 'StockCode'])

In [750]:
# Comprobación de la forma(filas x columnas)
retail2_df.shape

(401, 29)

## Pregunta 9
**Reemplazo de valores:**
- Reemplace todos los valores negativos en la columna `Quantity` con cero.

In [751]:
# Comprobación de valores negativos en columna 'Quantity' ANTES
retail2_quant_neg_df = retail2_df.loc[retail2_df['Quantity'] < 0, 'Quantity']
retail2_quant_neg_df

6      -6.0
20     -6.0
57     -6.0
100   -20.0
119    -6.0
233   -60.0
365    -6.0
388    -3.0
390   -20.0
Name: Quantity, dtype: float64

In [752]:
# Reemplazar los valores negativos en la columna Quantity con 0
retail2_df.loc[retail2_df['Quantity'] < 0, 'Quantity'] = 0
retail2_df[20:21]

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,InvoiceYear,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
20,536695.0,22139,RETROSPOT TEA SET CERAMIC 11 PC,6.95,0.0,-41.7,12/1/2010 14:25,2010-01-12 14:25:00,1,2010,...,308,30.34,In-Store,Not Returned,6.16,18x47x49 cm,14.55,Europe,PROMO20,Cash


In [753]:
# Comprobación de valores negativos en columna 'Quantity' DESPUÉS
retail2_quant_neg_df2 = retail2_df.loc[retail2_df['Quantity'] < 0, 'Quantity']
retail2_quant_neg_df2

Series([], Name: Quantity, dtype: float64)

## Pregunta 10
**Transformación de datos:**
- Cree una nueva columna `DiscountedPrice` aplicando un descuento del 10% al `TotalPrice`.

In [754]:
# Comprobación del orden de columnas
print(old_order_list4)

['InvoiceNo', 'StockCode', 'Description', 'UnitPrice', 'Quantity', 'TotalPrice', 'InvoiceDate', 'Country', 'CleanedCountry', 'CleanedInvoiceDate', 'CustomerID', 'CustomerName', 'Email', 'Address', 'PhoneNumber', 'Category', 'Supplier', 'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight', 'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode', 'PaymentMethod', 'InvoiceMonth', 'InvoiceYear']


In [755]:
# Inserción de la nueva columna en una posición determinada
retail2_df.insert(6, 'DiscountedPrice', (retail2_df['TotalPrice'] * 0.90))
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,DiscountedPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,22.95,12/1/2010 12:28,2010-01-12 12:28:00,1,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,71550.0,12/1/2010 10:16,2010-01-12 10:16:00,1,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,9.99,12/1/2010 13:23,2010-01-12 13:23:00,1,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,14.85,12/1/2010 11:32,2010-01-12 11:32:00,1,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,26.73,12/1/2010 11:07,2010-01-12 11:07:00,1,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


# Parte 2. Data Wrangling: Join, Combine, and Reshape (Capítulo 8)

## Pregunta 11
**Merge de datasets:**
- Realice un merge del dataset `retail` con el dataset `exchange_rates.csv` en las columnas de fecha (`InvoiceDate` de `retail` y `Date` de `exchange_rates.csv`).

In [756]:
# Comprobación de los tipos de las columnas del 'exchange_rate_df'
exchange_rates_df.dtypes

Date            datetime64[ns]
ExchangeRate           float64
dtype: object

In [757]:
# Comprobación de los tipos de las columnas del 'retail2_df'
retail2_df.dtypes

InvoiceNo                    float64
StockCode                     object
Description                   object
UnitPrice                    float64
Quantity                     float64
TotalPrice                   float64
DiscountedPrice              float64
InvoiceDate                   object
CleanedInvoiceDate    datetime64[ns]
InvoiceMonth                   int64
InvoiceYear                    int64
Country                       object
CleanedCountry                object
CustomerID                     int64
CustomerName                  object
Email                         object
Address                       object
PhoneNumber                   object
Category                      object
Supplier                      object
StockLevel                     int64
Discount                     float64
SaleChannel                   object
ReturnStatus                  object
ProductWeight                float64
ProductDimensions             object
ShippingCost                 float64
S

In [758]:
exchange_rates_df.head()

Unnamed: 0,Date,ExchangeRate
0,2020-01-01,1.2
1,2020-01-02,1.19
2,2020-01-03,1.18
3,2020-01-04,1.21
4,2020-01-05,1.2


In [759]:
retail2_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,DiscountedPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,22.95,12/1/2010 12:28,2010-01-12 12:28:00,1,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,71550.0,12/1/2010 10:16,2010-01-12 10:16:00,1,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,9.99,12/1/2010 13:23,2010-01-12 13:23:00,1,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,14.85,12/1/2010 11:32,2010-01-12 11:32:00,1,...,75,29.17,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,26.73,12/1/2010 11:07,2010-01-12 11:07:00,1,...,435,20.04,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer


In [760]:
# Mergeado basado en las columnas de fecha
merged_df = pd.merge(retail2_df, 
                     exchange_rates_df, 
                     left_on='CleanedInvoiceDate', 
                     right_on='Date', 
                     how='left')
merged_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,UnitPrice,Quantity,TotalPrice,DiscountedPrice,InvoiceDate,CleanedInvoiceDate,InvoiceMonth,...,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod,Date,ExchangeRate
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",4.25,6.0,25.5,22.95,12/1/2010 12:28,2010-01-12 12:28:00,1,...,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer,NaT,
1,536446.0,21756,DOORMAT NEW ENGLAND,795.0,100.0,79500.0,71550.0,12/1/2010 10:16,2010-01-12 10:16:00,1,...,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer,NaT,
2,536633.0,22632,HAND WARMER RED POLKA DOT,1.85,6.0,11.1,9.99,12/1/2010 13:23,2010-01-12 13:23:00,1,...,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer,NaT,
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",1.65,10.0,16.5,14.85,12/1/2010 11:32,2010-01-12 11:32:00,1,...,Online,Returned,6.03,45x4x36 cm,15.54,Asia,,PayPal,NaT,
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",4.95,6.0,29.7,26.73,12/1/2010 11:07,2010-01-12 11:07:00,1,...,Online,Not Returned,1.64,70x31x19 cm,13.39,Australia,PROMO10,Bank Transfer,NaT,


In [761]:
merged_df.shape

(401, 32)

## Pregunta 12
**Concatenación de datasets:**
- Concatenar dos subconjuntos del dataset `retail`, uno con las primeras 100 filas y otro con las últimas 100 filas.

In [762]:
# Extraer las primeras 100 filas
first_100 = retail2_df.head(100)

# Extraer las últimas 100 filas
last_100 = retail2_df.tail(100)

# Concatenar los dos subconjuntos
concatenated_df = pd.concat([first_100, last_100], ignore_index=True)

# Mostrar el resultado
print(concatenated_df)

     InvoiceNo StockCode                                        Description  \
0     536578.0     84969  ["description": "BOX OF 6 ASSORTED COLOUR TEAS...   
1     536446.0     21756                                DOORMAT NEW ENGLAND   
2     536633.0     22632                          HAND WARMER RED POLKA DOT   
3     536522.0     22111       {"description": "SCANDINAVIAN REDS RIBBONS"}   
4          NaN     22634    {"description": "BAKING SET 9 PIECE RETROSPOT"}   
..         ...       ...                                                ...   
195   536713.0    85123A                 WHITE HANGING HEART T-LIGHT HOLDER   
196   536585.0     21756                                DOORMAT NEW ENGLAND   
197   536526.0     71053                                WHITE METAL LANTERN   
198   536368.0     21777                        RECIPE BOX WITH METAL HEART   
199   536472.0     22632                          HAND WARMER RED POLKA DOT   

     UnitPrice  Quantity  TotalPrice  DiscountedPri

In [763]:
concatenated_df.shape

(200, 30)

## Pregunta 13
**Pivot table:**
- Cree una tabla dinámica (pivot table) que muestre el total de `TotalPrice` para cada `Country` y `InvoiceYear`.

In [764]:
# Crear una tabla dinámica con pandas
pivot_table = retail2_df.pivot_table(
    values='TotalPrice',          # La columna que deseas agregar en los valores mostrados
    index='CleanedCountry',       # Las filas serán los países
    columns='InvoiceYear',        # Las columnas serán los años de las facturas
    aggfunc='sum',                # Función de agregación, en este caso suma
    fill_value=0                  # Rellena con 0 si hay valores faltantes
)

# Mostrar la tabla dinámica
#print(pivot_table)
pivot_table

InvoiceYear,0,1900,2010,2050
CleanedCountry,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
United Kingdom,14.85,-20.1,124756.17,62.3
box of vintage alphabet blocks,0.0,0.0,19.9,0.0
box of vintage jigsaw blocks,0.0,0.0,14.85,0.0
chocolate hot water bottle,0.0,0.0,33.9,0.0
denmark,32.94,99.92,49005.29,16.5
england,0.0,0.0,67.95,0.0
feltcraft princess charlotte doll,0.0,0.0,30.0,0.0
germany,12615.0,54.15,46276.86,64.8
knitted union flag hot water bottle,0.0,0.0,20.34,0.0
red harmonica in box,0.0,0.0,12.5,0.0


Como han aparecido valores erroneos en 'CleanedCountry':

\"### U.K. ###"

\"### united kingdom ###"

Procedemos a corregirlo

## Pregunta 14
**Reshape con melt:**
- Transforme el dataset `retail` de formato ancho a largo usando la función `melt` de pandas.

In [765]:
# Extracción de columnas
cols_list = list(retail2_df.columns)
print(cols_list)

['InvoiceNo', 'StockCode', 'Description', 'UnitPrice', 'Quantity', 'TotalPrice', 'DiscountedPrice', 'InvoiceDate', 'CleanedInvoiceDate', 'InvoiceMonth', 'InvoiceYear', 'Country', 'CleanedCountry', 'CustomerID', 'CustomerName', 'Email', 'Address', 'PhoneNumber', 'Category', 'Supplier', 'StockLevel', 'Discount', 'SaleChannel', 'ReturnStatus', 'ProductWeight', 'ProductDimensions', 'ShippingCost', 'SalesRegion', 'PromotionCode', 'PaymentMethod']


In [774]:
# Usando melt para transformar el DataFrame de formato ancho a largo
retail2_long_df = pd.melt(
                    retail2_df,
                    id_vars=['InvoiceNo', 'StockCode', 'Description'],
                    var_name='Variable',
                    value_name='Value'
                )
#print(long_df)
retail2_long_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Variable,Value
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",UnitPrice,4.25
1,536446.0,21756,DOORMAT NEW ENGLAND,UnitPrice,795.0
2,536633.0,22632,HAND WARMER RED POLKA DOT,UnitPrice,1.85
3,536522.0,22111,"{""description"": ""SCANDINAVIAN REDS RIBBONS""}",UnitPrice,1.65
4,,22634,"{""description"": ""BAKING SET 9 PIECE RETROSPOT""}",UnitPrice,4.95


## Pregunta 15
**Combinar datos con overlap:**
- Combine dos DataFrames con columnas `CustomerID` y `TotalPrice`, teniendo en cuenta el overlap entre los datos.

## Pregunta 16
**Join con índices:**
- Realice un join de dos DataFrames basándose en los índices.

## Pregunta 17
**Cambio de nivel de índices:**
- Cambie los niveles de los índices en un MultiIndex en el dataset `retail`.

## Pregunta 18
**Reordenamiento de niveles:**
- Reordene los niveles del índice en un DataFrame con MultiIndex.

## Pregunta 19
**Agregación por nivel:**
- Realice una agregación de los datos por nivel en un MultiIndex.

## Pregunta 20
**Creación de MultiIndex:**
- Cree un MultiIndex a partir de las columnas `Country` y `InvoiceYear` en el dataset `retail`.

# Parte 3 Data Aggregation and Group Operations (Capitulo 10)

## Pregunta 21
**Agrupación por cliente:**
- Agrupe los datos del dataset `retail` por `CustomerID` y calcule el total de `TotalPrice` por cliente.

## Pregunta 22
**Agrupación por producto:**
- Agrupe los datos del dataset `retail` por `StockCode` y calcule la cantidad total vendida (`Quantity`).

## Pregunta 23
**Agrupación por mes y año:**
- Agrupe los datos del dataset `retail` por `InvoiceMonth` y `InvoiceYear`, y calcule el total de `TotalPrice`.

## Pregunta 24
**Conteo de transacciones:**
- Cuente el número total de transacciones por `Country` y `InvoiceYear`.

## Pregunta 25
**Función de agregación personalizada:**
- Cree una función de agregación personalizada que calcule el promedio y la desviación estándar de `TotalPrice` por `Country`.

## Pregunta 26
**Agrupación y transformaciones:**
- Agrupe los datos por `CustomerID` y normalice el `TotalPrice` restando la media y dividiendo por la desviación estándar dentro de cada grupo.

## Pregunta 27
**Filtrado de grupos:**
- Filtre los grupos de `CustomerID` que tengan un `TotalPrice` promedio mayor a 500.

## Pregunta 28
**Aplicación de múltiples funciones:**
- Aplique múltiples funciones de agregación (suma, promedio, máximo) a la columna `TotalPrice` agrupando por `Country`.

## Pregunta 29
**Creación de columnas derivadas:**
- Cree una nueva columna `AvgTotalPrice` que contenga el promedio de `TotalPrice` por `CustomerID`.

## Pregunta 30
**Uso de transformaciones window:**
- Utilice una transformación de ventana para calcular la media móvil de 3 períodos de `TotalPrice` para cada `CustomerID`.

# Parte 4 - Time Series (capítulo 11)

## Pregunta 31
**Conversión a índice de tiempo:**
- Convierta la columna `InvoiceDate` a un índice de tiempo en el dataset `retail`.

## Pregunta 32
**Remuestreo de datos:**
- Remuestrear los datos del dataset `retail` a una frecuencia mensual y calcule el total de `TotalPrice` por mes.

## Pregunta 33
**Cambio de frecuencia:**
- Cambie la frecuencia de los datos del dataset `retail` a trimestral y calcule el total de `TotalPrice` por trimestre.

## Pregunta 34
**Desplazamiento de datos:**
- Desplace los datos de `TotalPrice` en el dataset `retail` un período hacia adelante.

## Pregunta 35
**Ventanas móviles:**
- Calcule la media móvil de 3 períodos de `TotalPrice` en el dataset `retail`.

## Pregunta 36
**Detección de tendencias:**
- Detecte tendencias en la columna `TotalPrice` del dataset `retail` usando una ventana móvil de 12 períodos.

## Pregunta 37
**Descomposición de series temporales:**
- Descomponga la serie temporal de `TotalPrice` en componentes de tendencia, estacionalidad y ruido.

## Pregunta 38
**Interpolación de datos faltantes:**
- Interpole los valores faltantes en la columna `TotalPrice` utilizando la interpolación lineal.

## Pregunta 39
**Análisis de autocorrelación:**
- Realice un análisis de autocorrelación en la columna `TotalPrice` del dataset `retail`.

## Pregunta 40
**Conversión de zona horaria:**
- Convierta las fechas en la columna `InvoiceDate` a una zona horaria específica (por ejemplo, UTC) en el dataset `retail`.


# Parte 5 Preguntas de Negocio

## Pregunta 1
**Análisis de Retorno de Productos:**
- ¿Cuál es el porcentaje de productos devueltos por país (United Kingdom, Germany, Denmark)? ¿Hay alguna diferencia notable entre los países?

## Pregunta 2
**Impacto de Promociones:**
- ¿Qué porcentaje de las ventas totales se realizaron utilizando códigos de promoción en cada uno de los tres países? ¿Cuál es el código de promoción más efectivo?

## Pregunta 3
**Canales de Venta:**
- ¿Cuál es la distribución de ventas entre los diferentes canales de venta (`SaleChannel`) en cada país? ¿Hay un canal que sea predominantemente más utilizado en alguno de los países?

## Pregunta 4
**Costos de Envío:**
- ¿Cuál es el costo promedio de envío por país? ¿Existen diferencias significativas en los costos de envío entre los tres países?

## Pregunta 5
**Peso del Producto y Costos de Envío:**
- ¿Existe una correlación entre el peso del producto (`ProductWeight`) y el costo de envío (`ShippingCost`)? ¿Cómo varía esta relación entre los diferentes países?

## Pregunta 6
**Descuentos y Comportamiento de Compra:**
- ¿Qué porcentaje de las compras en cada país se realizaron con algún tipo de descuento (`Discount`)? ¿Los clientes en algún país en particular son más propensos a utilizar descuentos?

## Pregunta 7
**Análisis de Categorías de Productos:**
- ¿Cuáles son las categorías de productos (`Category`) más vendidas en cada país? ¿Existen diferencias en las preferencias de categorías de productos entre los países?

## Pregunta 8
**Rendimiento de Proveedores:**
- ¿Cuál es el proveedor (`Supplier`) con el mayor volumen de ventas en cada país? ¿Cómo se distribuyen las ventas entre los diferentes proveedores en cada uno de los países?

## Pregunta 9
**Promedio de Precios de Venta:**
- ¿Cuál es el precio promedio de venta (`UnitPrice`) de los productos en cada país? ¿Existen diferencias significativas en los precios de venta entre los tres países?

## Pregunta 10
**Tendencias de Venta por Región:**
- ¿Cómo se distribuyen las ventas (`TotalPrice`) por región de ventas (`SalesRegion`) dentro de cada país? ¿Hay alguna región que destaque en términos de volumen de ventas en alguno de los países?

## Pregunta 11
**Análisis de Frecuencia de Compras:**
- ¿Cuál es la frecuencia promedio de compras por cliente (`CustomerID`) en cada país? ¿Los clientes en algún país compran con mayor frecuencia?


## Pregunta 12
**Valor de Vida del Cliente:**
- ¿Cuál es el valor promedio de vida del cliente (suma de `TotalPrice`) en cada país? ¿Existe una diferencia significativa en el valor de vida del cliente entre los tres países?

## Pregunta 13
**Métodos de Pago:**
- ¿Cuál es el método de pago (`PaymentMethod`) más utilizado en cada país? ¿Hay una preferencia notable por ciertos métodos de pago en algún país específico?

## Pregunta 14
**Evaluación de la Eficiencia de Descuentos:**
- ¿Qué impacto tienen los descuentos (`Discount`) en el valor total de las ventas en cada país? ¿Los descuentos resultan en un aumento significativo en el volumen de ventas?

## Pregunta 15
**Análisis de Clientes por Región:**
- ¿Cuál es la distribución de clientes (`CustomerID`) por región de ventas (`SalesRegion`) en cada país? ¿Hay regiones con una concentración notablemente mayor de clientes?

## Pregunta 16
**Promociones y Segmentos de Mercado:**
- ¿Cuál es el código de promoción (`PromotionCode`) más utilizado en cada segmento de mercado (`SalesRegion`) dentro de cada país?

## Pregunta 17
**Análisis de Temporadas de Venta:**
- ¿Existen patrones estacionales en las ventas (`InvoiceDate`) en cada país? ¿Hay picos de ventas en ciertos meses o temporadas en alguno de los países?

## Pregunta 18
**Preferencias de Productos:**
- ¿Cuáles son los productos (`StockCode` y `Description`) más vendidos en cada país? ¿Hay diferencias notables en las preferencias de productos entre los países?

## Pregunta 19
**Impacto de las Devoluciones en las Ventas:**
- ¿Qué porcentaje de las ventas totales son afectadas por devoluciones (`ReturnStatus`)? ¿Cómo varía este porcentaje entre los diferentes países?

## Pregunta 20
**Análisis de Margen de Ganancia:**
- ¿Cuál es el margen de ganancia promedio (`UnitPrice - Discount`) por producto en cada país? ¿Hay productos o categorías con márgenes significativamente mayores o menores en alguno de los países?