Práctica 43: Limpieza, manejo y transformación de datos con Pandas

Cargar el fichero retail2.csv en un dataframe de Pandas y efectuar todas las operaciones de consulta, exploración y limpieza de datos que sean necesarios algunos pasos de limpieza están de forma explícita como preguntas. Los ficheros contienen varias columnas y algunas de ellas tienen datos que podrían necesitar limpieza o tratamiento.

## Exploración de datos retail2

In [442]:
import pandas as pd
import numpy as np

In [443]:
retail2_df = pd.read_csv('retail2.csv')
exchange_rates_df = pd.read_csv('exchange_rates.csv')

In [444]:
retail2_df.head(3)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CustomerName,Email,...,StockLevel,Discount,SaleChannel,ReturnStatus,ProductWeight,ProductDimensions,ShippingCost,SalesRegion,PromotionCode,PaymentMethod
0,536578.0,84969,"[""description"": ""BOX OF 6 ASSORTED COLOUR TEAS...",6,12/1/2010 12:28,4.25,17763,United Kingdom,David Johnson,david.johnson@mail.com,...,853,17.28,Online,Not Returned,3.81,37x38x83 cm,7.14,North America,SALE15,Bank Transfer
1,536446.0,21756,DOORMAT NEW ENGLAND,100,12/1/2010 10:16,795.0,15939,United Kingdom,Henry Williams,henry.williams@test.org,...,910,9.08,Online,Not Returned,9.51,8x65x86 cm,12.48,Asia,SALE15,Bank Transfer
2,536633.0,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 13:23,1.85,12295,United Kingdom,Jane Brown,jane.brown@mail.com,...,578,45.42,In-Store,Returned,7.35,17x71x89 cm,14.27,North America,DISCOUNT5,Bank Transfer


In [445]:
# Información general del DataFrame retail2
retail2_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440 entries, 0 to 439
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   InvoiceNo          420 non-null    float64
 1   StockCode          440 non-null    object 
 2   Description        413 non-null    object 
 3   Quantity           440 non-null    object 
 4   InvoiceDate        435 non-null    object 
 5   UnitPrice          440 non-null    object 
 6   CustomerID         440 non-null    int64  
 7   Country            439 non-null    object 
 8   CustomerName       440 non-null    object 
 9   Email              440 non-null    object 
 10  Address            440 non-null    object 
 11  PhoneNumber        440 non-null    object 
 12  Category           440 non-null    object 
 13  Supplier           440 non-null    object 
 14  StockLevel         440 non-null    int64  
 15  Discount           440 non-null    float64
 16  SaleChannel        440 non

# Limpieza de datos : Columna InvoiceNo

- Rellenar los valores Nulos con un valor especifico con 0
- Cambiar los datos flotantes a números enteros

In [446]:
# Suponiendo que retail2_df ya está definido
min_invoice = retail2_df['InvoiceNo'].min()
max_invoice = retail2_df['InvoiceNo'].max()

print(f"El número de factura empieza en: {min_invoice}")
print(f"El número de factura finaliza en: {max_invoice}")

El número de factura empieza en: 536365.0
El número de factura finaliza en: 536744.0


In [447]:
# Suponiendo que retail2_df ya está definido
expected_range = set(range(536365, 536744))
actual_values = set(retail2_df['InvoiceNo'].dropna().astype(int))
missing_values = expected_range - actual_values

print(f"Valores faltantes en la columna InvoiceNo: {sorted(missing_values)}")

Valores faltantes en la columna InvoiceNo: [536397, 536422, 536497, 536508, 536586, 536596, 536602, 536603, 536612, 536625, 536642, 536659, 536666, 536685, 536714]


In [448]:

# Rellenar valores nulos con un número específico, por ejemplo, 0
retail2_df['InvoiceNo'] = retail2_df['InvoiceNo'].fillna(0)

# Convertir la columna a tipo entero
retail2_df['InvoiceNo'] = retail2_df['InvoiceNo'].astype(int)

# Verificar el cambio
print(retail2_df['InvoiceNo'].head())

0    536578
1    536446
2    536633
3    536522
4         0
Name: InvoiceNo, dtype: int64


In [449]:
# Suponiendo que retail2_df ya está definido y que has rellenado los valores nulos con 0
retail2_df['InvoiceNo'] = retail2_df['InvoiceNo'].fillna(0)
retail2_df['InvoiceNo'] = retail2_df['InvoiceNo'].astype(int)

# Filtrar y mostrar los valores que están en 0 en la columna InvoiceNo
cero_values = retail2_df[retail2_df['InvoiceNo'] == 0]
print(cero_values['InvoiceNo'])

4      0
24     0
25     0
52     0
78     0
91     0
102    0
165    0
167    0
208    0
209    0
218    0
251    0
253    0
297    0
299    0
304    0
366    0
395    0
412    0
Name: InvoiceNo, dtype: int64


In [450]:
# Diccionario con los índices y los nuevos valores de InvoiceNo
nuevos_valores = {
    91: 536397,
    366: 536422,
    4: 536497,
    102: 536508,
    304: 536524,
    297: 536570,
    25: 536586,
    253: 536596,
    251: 536603,
    165: 536612,
    208: 536625,
    218: 536642,
    299: 536659,
    209: 536666,
    395: 536685,
    167: 536698,
    24: 536714,
    78: 536653,
    52: 536730,
    412: 536384
}

# Asignar los nuevos valores
for index, new_value in nuevos_valores.items():
    retail2_df.loc[index, 'InvoiceNo'] = new_value



In [451]:
# Suponiendo que retail2_df ya está definido
expected_range = set(range(536365, 536744))
actual_values = set(retail2_df['InvoiceNo'].dropna().astype(int))
missing_values = expected_range - actual_values

print(f"Valores faltantes en la columna InvoiceNo: {sorted(missing_values)}")

Valores faltantes en la columna InvoiceNo: [536602]


In [452]:
# Crear un DataFrame con el valor faltante
missing_value = pd.DataFrame({'InvoiceNo': [536602]})

# Concatenar este nuevo DataFrame con el DataFrame original
retail2_df = pd.concat([retail2_df, missing_value], ignore_index=True)

# Ordenar el DataFrame por la columna InvoiceNo de menor a mayor
retail2_df = retail2_df.sort_values(by='InvoiceNo')

# Verificar nuevamente los valores faltantes en el rango especificado
expected_range = set(range(536365, 536745))
actual_values = set(retail2_df['InvoiceNo'].dropna().astype(int))
missing_values = expected_range - actual_values

print(f"Valores faltantes en la columna InvoiceNo: {sorted(missing_values)}")

Valores faltantes en la columna InvoiceNo: []


In [453]:
# Ajustar las opciones de pandas para mostrar todas las filas
pd.set_option('display.max_rows', None)

# Mostrar todos los datos de la columna InvoiceNo
print(retail2_df['InvoiceNo'].head(10))

47     536365
38     536365
302    536365
361    536365
307    536365
175    536365
313    536365
211    536366
31     536366
86     536367
Name: InvoiceNo, dtype: int64


# Limpieza de datos : Columna InvoiceDate

- Eliminar la palabra Date:
- Se verifica los datos que contiene la columna.
- Se unifica a una sola fecha a la 12/01/2010 ya que en el csv se observa que los datos de las ventas corresponden a una misma fecha cambiamos 01/12/2010, 01/01/1900, 01/01/2050, 01/12/2010, 30/12/2010, 12/1/2010, 30/02/2010 

In [454]:
# Verificación de datos y se observan en orden 
retail2_df = retail2_df.sort_values(by='InvoiceDate') 
print(retail2_df['InvoiceDate'].unique())

['01-12-2010 09:47' '01-12-2010 10:09' '01-12-2010 11:27'
 '01-12-2010 13:42' '01/01/1900 00:00' '01/01/2050 00:00'
 '01/12/2010 25:61' '12/01/2010 09:08' '12/01/2010 10:41'
 '12/01/2010 10:52' '12/01/2010 12:22' '12/01/2010 14:55'
 '12/1/2010 10:00' '12/1/2010 10:01' '12/1/2010 10:03' '12/1/2010 10:04'
 '12/1/2010 10:05' '12/1/2010 10:06' '12/1/2010 10:07' '12/1/2010 10:08'
 '12/1/2010 10:10' '12/1/2010 10:12' '12/1/2010 10:13' '12/1/2010 10:15'
 '12/1/2010 10:16' '12/1/2010 10:17' '12/1/2010 10:18' '12/1/2010 10:20'
 '12/1/2010 10:21' '12/1/2010 10:22' '12/1/2010 10:23' '12/1/2010 10:24'
 '12/1/2010 10:26' '12/1/2010 10:27' '12/1/2010 10:28' '12/1/2010 10:29'
 '12/1/2010 10:30' '12/1/2010 10:31' '12/1/2010 10:32' '12/1/2010 10:33'
 '12/1/2010 10:35' '12/1/2010 10:36' '12/1/2010 10:37' '12/1/2010 10:38'
 '12/1/2010 10:39' '12/1/2010 10:40' '12/1/2010 10:42' '12/1/2010 10:44'
 '12/1/2010 10:46' '12/1/2010 10:47' '12/1/2010 10:48' '12/1/2010 10:49'
 '12/1/2010 10:50' '12/1/2010 10:51' '

In [455]:
# Eliminar las palabras 'Date:'
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].str.replace(r'Date:', '', regex=True).str.strip()
retail2_df = retail2_df.sort_values(by='InvoiceDate')
print(retail2_df['InvoiceDate'].unique())

['01-12-2010 09:47' '01-12-2010 10:09' '01-12-2010 11:27'
 '01-12-2010 13:42' '01/01/1900 00:00' '01/01/2050 00:00'
 '01/12/2010 25:61' '12/01/2010 09:08' '12/01/2010 10:41'
 '12/01/2010 10:52' '12/01/2010 12:22' '12/01/2010 14:55'
 '12/1/2010 10:00' '12/1/2010 10:01' '12/1/2010 10:03' '12/1/2010 10:04'
 '12/1/2010 10:05' '12/1/2010 10:06' '12/1/2010 10:07' '12/1/2010 10:08'
 '12/1/2010 10:10' '12/1/2010 10:12' '12/1/2010 10:13' '12/1/2010 10:15'
 '12/1/2010 10:16' '12/1/2010 10:17' '12/1/2010 10:18' '12/1/2010 10:20'
 '12/1/2010 10:21' '12/1/2010 10:22' '12/1/2010 10:23' '12/1/2010 10:24'
 '12/1/2010 10:26' '12/1/2010 10:27' '12/1/2010 10:28' '12/1/2010 10:29'
 '12/1/2010 10:30' '12/1/2010 10:31' '12/1/2010 10:32' '12/1/2010 10:33'
 '12/1/2010 10:35' '12/1/2010 10:36' '12/1/2010 10:37' '12/1/2010 10:38'
 '12/1/2010 10:39' '12/1/2010 10:40' '12/1/2010 10:42' '12/1/2010 10:44'
 '12/1/2010 10:46' '12/1/2010 10:47' '12/1/2010 10:48' '12/1/2010 10:49'
 '12/1/2010 10:50' '12/1/2010 10:51' '

In [456]:
# Intentar convertir la columna InvoiceDate a tipo datetime con el formato correcto
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], format='%d/%m/%Y %H:%M', errors='coerce')

# Definir la fecha válida
valid_date = pd.to_datetime('12/01/2010', format='%d/%m/%Y')

# Filtrar las fechas que no coinciden con la fecha válida (manteniendo la hora)
invalid_dates = retail2_df[retail2_df['InvoiceDate'].dt.date != valid_date.date()]

# Mostrar únicamente las columnas InvoiceNo y InvoiceDate de las filas con fechas inválidas
print(invalid_dates[['InvoiceNo', 'InvoiceDate']])

# Contar las filas con fechas inválidas
invalid_count = invalid_dates.shape[0]
print(f"Cantidad de filas con fechas inválidas: {invalid_count}")

     InvoiceNo InvoiceDate
223     536417         NaT
32      536439         NaT
114     536517         NaT
396     536652         NaT
100     536588  1900-01-01
83      536598  1900-01-01
338     536380  1900-01-01
268     536636  1900-01-01
352     536473  1900-01-01
139     536687  1900-01-01
186     536407  1900-01-01
358     536425  1900-01-01
160     536544  1900-01-01
87      536677  1900-01-01
78      536653  2050-01-01
104     536564  2050-01-01
69      536564  2050-01-01
34      536651  2050-01-01
6       536707  2050-01-01
173     536519  2050-01-01
380     536444  2050-01-01
142     536374  2050-01-01
279     536709  2050-01-01
241     536530  2050-01-01
308     536449  2050-01-01
174     536390         NaT
16      536676         NaT
430     536370         NaT
52      536730         NaT
285     536669         NaT
82      536432         NaT
318     536673         NaT
90      536605         NaT
281     536630         NaT
105     536630         NaT
58      536455         NaT
4

In [468]:
# Suponiendo que ya has convertido la columna InvoiceDate a datetime
retail2_df['InvoiceDate'] = pd.to_datetime(retail2_df['InvoiceDate'], errors='coerce', dayfirst=True)

# Crear un diccionario con las fechas corregidas utilizanzo  InvoiceNo
fechas_actualizadas = {
    536417: '12/01/2010 9:47',
    536439: '12/01/2010 10:09',
    536517: '12/01/2010 11:27',
    536652: '12/01/2010 13:42',
    536588: '12/01/2010 12:38',
    536598: '12/01/2010 12:48',
    536380: '12/01/2010 9:10',
    536636: '12/01/2010 13:26',
    536473: '12/01/2010 10:43',
    536687: '12/01/2010 14:17',
    536407: '12/01/2010 9:37',
    536425: '12/01/2010 9:55',
    536544: '12/01/2010 11:54',
    536677: '12/01/2010 14:07',
    536653: '12/01/2010 13:44',
    536564: '12/01/2010 12:14',
    536651: '12/01/2010 13:41',
    536707: '12/01/2010 14:37',
    536519: '12/01/2010 11:29',
    536444: '12/01/2010 10:14',
    536374: '12/01/2010 9:04',
    536709: '12/01/2010 14:39',
    536530: '12/01/2010 11:40',
    536449: '12/01/2010 10:19',
    536390: '12/01/2010 9:20',
    536676: '12/01/2010 14:06',
    536370: '12/01/2010 9:00',
    536730: '12/01/2010 15:00',
    536669: '12/01/2010 13:59',
    536432: '12/01/2010 10:02',
    536673: '12/01/2010 14:03',
    536605: '12/01/2010 12:55',
    536630: '12/01/2010 13:20',
    536455: '12/01/2010 10:25',
    536384: '12/01/2010 9:14',
    536375: '12/01/2010 9:05',
    536369: '12/01/2010 8:36',
    536628: '12/01/2010 13:18',
    536464: '12/01/2010 10:34',
    536441: '12/01/2010 10:11',
    536388: '12/01/2010 9:18',
    536475: '12/01/2010 10:45',
    536568: '12/01/2010 12:18',
    536584: '12/01/2010 12:34',
    536602: '12/01/2010 12:52',
    536604: '12/01/2010 12:54'
}

# Actualizar las fechas en el DataFrame
for invoice_no, fecha in fechas_actualizadas.items():
    retail2_df.loc[retail2_df['InvoiceNo'] == invoice_no, 'InvoiceDate'] = pd.to_datetime(fecha, dayfirst=True)

# Formatear las fechas al formato deseado
retail2_df['InvoiceDate'] = retail2_df['InvoiceDate'].dt.strftime('%d/%m/%Y %H:%M')

# Identificar las fechas que no se pudieron convertir
fechas_invalidas = retail2_df[retail2_df['InvoiceDate'].isna()]

# Mostrar las fechas inválidas
print("Fechas inválidas:")



Fechas inválidas:


In [469]:
# Verificación de datos y se observan en orden 
retail2_df = retail2_df.sort_values(by='InvoiceDate') 
print(retail2_df['InvoiceDate'].unique())

['12/01/2010 08:26' '12/01/2010 08:28' '12/01/2010 08:34'
 '12/01/2010 08:35' '12/01/2010 08:36' '12/01/2010 09:00'
 '12/01/2010 09:01' '12/01/2010 09:02' '12/01/2010 09:03'
 '12/01/2010 09:04' '12/01/2010 09:05' '12/01/2010 09:06'
 '12/01/2010 09:07' '12/01/2010 09:08' '12/01/2010 09:09'
 '12/01/2010 09:10' '12/01/2010 09:11' '12/01/2010 09:12'
 '12/01/2010 09:13' '12/01/2010 09:14' '12/01/2010 09:15'
 '12/01/2010 09:16' '12/01/2010 09:17' '12/01/2010 09:18'
 '12/01/2010 09:19' '12/01/2010 09:20' '12/01/2010 09:21'
 '12/01/2010 09:22' '12/01/2010 09:23' '12/01/2010 09:24'
 '12/01/2010 09:25' '12/01/2010 09:26' '12/01/2010 09:27'
 '12/01/2010 09:28' '12/01/2010 09:29' '12/01/2010 09:30'
 '12/01/2010 09:31' '12/01/2010 09:32' '12/01/2010 09:33'
 '12/01/2010 09:34' '12/01/2010 09:35' '12/01/2010 09:36'
 '12/01/2010 09:37' '12/01/2010 09:38' '12/01/2010 09:39'
 '12/01/2010 09:40' '12/01/2010 09:41' '12/01/2010 09:42'
 '12/01/2010 09:43' '12/01/2010 09:44' '12/01/2010 09:45'
 '12/01/2010 0