El dataset utilizado en este proyecto se extrajo del siguiente enlace:

[Ir al dataset](https://www.kaggle.com/datasets/joyshil0599/a-comprehensive-dataset-of-100k-amazon-products?resource=download)

# Librerías

Cargamos las librerías que utilizaremos en este análisis exploratorio de datos

In [265]:
import pandas as pd

# Introducción

## Cargamos el dataset y observamos las primeras cinco filas

In [266]:
df = pd.read_csv('amazon_toys_1.csv', encoding='cp1252')
df.head(5)

Unnamed: 0,Product Description,PriceDollar),Number of reviews,Real priceDollar),Free days,Shipment,Delivery Date,How many sell in past month,Stock update,Age
0,Spider-Man Marvel Legends Series Across The Sp...,24,71,24.99,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",200+ bought in past week,3 left in stock - order soon.,4 years and up
1,Spider-Man Marvel Legends Series Across The Sp...,22,55,14.99,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",200+ bought in past week,3 left in stock - order soon.,4 years and up
2,Fisher-Price Little People Musical Toddler Toy...,7,2895,9.99,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,12 months - 5 years
3,CatToysOfficial - CAT Little Machines 5pcs Con...,5,2530,24.99,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,36 months - 6 years
4,Spider-Man Marvel Legends Series Across The Sp...,22,40,85.99,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",90 days FREE. Terms apply.,3 left in stock - order soon.,4 years and up


Procedemos a cambiar el nombre de las columnas para que sea más accesible a hispano hablantes

In [267]:
nombres = ['Descripcion', 'Precio', 'Reseñas', 'Precio Real', 'Dias sin cargo', 'Envio', 'Fecha de entrega', 'Ventas en meses pasados', 'Stock', 'Edad']
df.columns = nombres

## Observamos el tipo de dato que presentan las columnas

In [268]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11403 entries, 0 to 11402
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Descripcion              11403 non-null  object
 1   Precio                   11403 non-null  int64 
 2   Reseñas                  11403 non-null  object
 3   Precio Real              11403 non-null  object
 4   Dias sin cargo           11403 non-null  object
 5   Envio                    11403 non-null  object
 6   Fecha de entrega         11403 non-null  object
 7   Ventas en meses pasados  11403 non-null  object
 8   Stock                    11403 non-null  object
 9   Edad                     11403 non-null  object
dtypes: int64(1), object(9)
memory usage: 891.0+ KB


Puede observarse que existen 7 columnas que deberían tener datos númericos, flotantes o enteros, que son objetos. Estas son: 'Reseñas', 'Precio Real', 'Días sin cargo', 'Ventas en meses pasados', 'Stock' y 'Edad'. Vamos a proceder a limpiar estas columnas y convertirlas en el tipo de dato que le sea pertinente.

## La columna Reseñas

In [269]:
df['Reseñas'].head(10)

0       71
1       55
2    2,895
3    2,530
4       40
5    1,434
6      278
7      663
8       41
9       88
Name: Reseñas, dtype: object

Puede observarse que alguno de los datos presentan un número con coma. La coma pretende aquí ser un separador visual entre la centena y la unidad de mil. Por tal motivo vamos a quitarla antes de realizar la transformación de los datos.

In [270]:
df['Reseñas'] = df['Reseñas'].str.replace(',', '')
df['Reseñas']

0          71
1          55
2        2895
3        2530
4          40
         ... 
11398    1094
11399      78
11400      78
11401      78
11402      78
Name: Reseñas, Length: 11403, dtype: object

Aquí puede verse que hemos logrado quitar la coma de la columna en cuestión. Ahora debemos modificar el tipo de dato a entero.

In [271]:
df['Reseñas'] = pd.to_numeric(df['Reseñas'])

Comprobamos que el cambio se haya ejecutado.

In [272]:
df['Reseñas'].dtype

dtype('int64')

## La columna Precio Real

In [273]:
df['Precio Real'].head(10)

0    24.99
1    14.99
2     9.99
3    24.99
4    85.99
5    22.99
6    32.99
7    24.99
8    34.99
9    49.99
Name: Precio Real, dtype: object

Desplegamos los valores únicos de esta columna y notamos que existe un valor no númerico 'None'.

In [274]:
df['Precio Real'].unique()

array(['24.99', '14.99', '9.99', '85.99', '22.99', '32.99', '34.99',
       '49.99', '42.99', '11.99', '39.99', '69.99', '18.11', 'None',
       '4.57', '19.99', '21.99', '6.99', '18.79', '29.99', '13.99',
       '27.99', '50.00', '15.99', '65.00', '16.99', '80.00', '12.99',
       '70.00', '7.99', '18.39', '10.49', '17.49', '6.71', '37.99',
       '63.02', '25.00', '10.99', '19.95', '89.99', '8.17', '15.18',
       '25.16', '26.99', '59.99', '38.42', '6.31', '12.91', '44.99',
       '15.63', '31.99', '16.37', '18.99', '25.36', '38.99', '12.89',
       '33.99', '139.99', '5.99', '58.99', '12.11', '104.99', '45.99',
       '57.99', '13.94', '19.87', '25.39', '64.99', '23.99', '16.84',
       '35.99', '20.24', '9.62', '26.33', '31.25', '22.21', '12.35',
       '9.93', '79.99', '13.75', '66.99', '8.95', '27.54', '44.61',
       '16.31', '16.08', '3.99', '13.95', '16.00', '29.26', '55.99',
       '84.99', '5.89', '4.49', '17.19', '5.92', '7.25', '24.23', '21.78',
       '62.99', '8.33', '1

Observamos la cantidad de valores None en la columna.

In [275]:
len(df[df['Precio Real']=='None'])

6638

Vemos a qué hacen referencia los valores None.

In [276]:
df[df['Precio Real']=='None']

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad
17,"Gabby's Dollhouse, Deluxe Figure Gift Set with...",22,579,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,11years and up
18,Transformers Toys Heroic Optimus Prime Action ...,20,10204,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,
19,Fisher-Price Little People Toddler Learning To...,34,5191,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,8 years and up
20,"Marvel Legends Series Ms, The 6-Inch Collectib...",24,78,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,4 years and up
21,DELUXE BAG OF CLASSIC TOY GREEN ARMY SOLDIERS ...,8,128,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,4 years and up
...,...,...,...,...,...,...,...,...,...,...
11398,Papo - Hand-Painted - Figurine - Marine Life -...,11,1094,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,1 left in stock - order soon.,
11399,Green Toys Farm Playset. CB2,26,78,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,1 left in stock - order soon.,11.40
11400,"Teenage Mutant Ninja Turtles 5"" Sewer Shredder...",10,78,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,1 left in stock - order soon.,
11401,"Schleich Wild Life, Wild Animal Toys for Kids,...",42,78,,90 days FREE. Terms apply.,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,1 left in stock - order soon.,5 years and up


Parecería ser que son aquellos artículos sin una rebaja. Por ello, parece razonable aplicarle el mismo valor que el de la columna 'Precio'. Para eso creamos un nuevo dataframe y equiparamos el dataframe con Precio Real igual a None a los valores de la columna precio del nuevo dataframe.

In [277]:
df_valores_none = df[df['Precio Real']=='None']

In [278]:
df.loc[df['Precio Real']=='None', 'Precio Real'] = df_valores_none['Precio']

Una vez imputados los valores faltantes a la columna procedemos a cambiar el tipo de dato.

In [279]:
df['Precio Real'] = pd.to_numeric(df['Precio Real'])

Comprobamos que el cambio se haya realizado.

In [280]:
df['Precio Real'].dtype

dtype('float64')

## La columna Dias sin Cargo

In [281]:
df['Dias sin cargo'].dtype

dtype('O')

Vemos que la columna en cuestión es un objeto de pandas. Lo que vamos a hacer es dividir la cantidad de días y el resto del texto. Cómo es relevante sólo la cantidad nos quedaremos únicamente con tal columna.

In [282]:
df[['Dias sin cargo', 'Otros']] = df['Dias sin cargo'].str.split(' ', n=1, expand=True)

Eliminamos la columna 'Otros', ya que se trata de texto que no vamos a utilizar.

In [283]:
df.drop('Otros', axis=1, inplace=True)

In [284]:
df.head()

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad
0,Spider-Man Marvel Legends Series Across The Sp...,24,71,24.99,90,Ships to Bangladesh,"Tue, Jun 20",200+ bought in past week,3 left in stock - order soon.,4 years and up
1,Spider-Man Marvel Legends Series Across The Sp...,22,55,14.99,90,Ships to Bangladesh,"Tue, Jun 20",200+ bought in past week,3 left in stock - order soon.,4 years and up
2,Fisher-Price Little People Musical Toddler Toy...,7,2895,9.99,90,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,12 months - 5 years
3,CatToysOfficial - CAT Little Machines 5pcs Con...,5,2530,24.99,90,Ships to Bangladesh,"Tue, Jun 20",100+ bought in past week,3 left in stock - order soon.,36 months - 6 years
4,Spider-Man Marvel Legends Series Across The Sp...,22,40,85.99,90,Ships to Bangladesh,"Tue, Jun 20",90 days FREE. Terms apply.,3 left in stock - order soon.,4 years and up


Observamos si existen otros valores en la columna.

In [285]:
df['Dias sin cargo'].unique()

array(['90', 'Save'], dtype=object)

Como esta columna refiere a una oferta especial, vamos a quitar el valor 'Save' y vamos a modificarlo por 0. Es decir, 0 días sin cargo.

In [286]:
df['Dias sin cargo'] = df['Dias sin cargo'].str.replace('Save', '0')

Comprobamos que el cambio se haya ejecutado.

In [287]:
df['Dias sin cargo'].unique()

array(['90', '0'], dtype=object)

Ahora es momento de convertir este tipo de dato a tipo entero.

In [288]:
df['Dias sin cargo'] = pd.to_numeric(df['Dias sin cargo'])

Comprobamos la realización del cambio.

In [289]:
df['Dias sin cargo'].dtype

dtype('int64')

## Columna de Ventas en meses pasados

Observamos cuáles son los valores que presenta esta columna.

In [290]:
df['Ventas en meses pasados'].unique()

array(['200+ bought in past week', '100+ bought in past week',
       '90 days FREE. Terms apply.', '50+ bought in past week',
       'Save 5% on 2 select items)'], dtype=object)

Como en esta columna nos interesa la cantidad de articulos vendidos, vamos a eliminar aquellos strings que no nos permitan decidir respecto del número de ventas en meses pasados.

In [291]:
df[['Ventas en meses pasados', 'Otros']] = df['Ventas en meses pasados'].str.split(' ', n=1, expand=True)

Comprobamos que se haya ejecutado correctamente el split.

In [292]:
df.head(5)

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad,Otros
0,Spider-Man Marvel Legends Series Across The Sp...,24,71,24.99,90,Ships to Bangladesh,"Tue, Jun 20",200+,3 left in stock - order soon.,4 years and up,bought in past week
1,Spider-Man Marvel Legends Series Across The Sp...,22,55,14.99,90,Ships to Bangladesh,"Tue, Jun 20",200+,3 left in stock - order soon.,4 years and up,bought in past week
2,Fisher-Price Little People Musical Toddler Toy...,7,2895,9.99,90,Ships to Bangladesh,"Tue, Jun 20",100+,3 left in stock - order soon.,12 months - 5 years,bought in past week
3,CatToysOfficial - CAT Little Machines 5pcs Con...,5,2530,24.99,90,Ships to Bangladesh,"Tue, Jun 20",100+,3 left in stock - order soon.,36 months - 6 years,bought in past week
4,Spider-Man Marvel Legends Series Across The Sp...,22,40,85.99,90,Ships to Bangladesh,"Tue, Jun 20",90,3 left in stock - order soon.,4 years and up,days FREE. Terms apply.


Quitamos la columna de 'Otros' que no vamos a utilizar

In [293]:
df.drop('Otros', axis=1, inplace=True)

Reemplazamos el signo '+' en los caso en los que sea necesario

In [294]:
df['Ventas en meses pasados'] = df['Ventas en meses pasados'].str.replace('+', '', regex=False)

Observamoz que se haya ejecutado el cambio

In [295]:
df['Ventas en meses pasados'].unique()

array(['200', '100', '90', '50', 'Save'], dtype=object)

Existe un valor que se aparece que es 'Save'. Vamos a proceder a investigar las filas que están asociados a dicho valor en la columna.

In [296]:
df[df['Ventas en meses pasados']=='Save']

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad
11177,Beast Kingdom AvatarThe Way of Water – Jake Su...,23,1,21.99,90,Ships to Bangladesh,"Tue, Jun 20",Save,10 left in stock - order soon.,14 years and up


Cómo no es claro a lo que refiere dicho valor y sólo hay una reseñan, vamos a imputar el valor 1 a la columna que cumple con el filtro utilizado.

In [297]:
df.loc[df['Ventas en meses pasados']=='Save', 'Ventas en meses pasados'] = 1

Comprobamos que se haya imputado el cambio

In [298]:
df['Ventas en meses pasados'].unique()

array(['200', '100', '90', '50', 1], dtype=object)

Ahora transformamos todos los valores a datos numéricos

In [299]:
df['Ventas en meses pasados'] = pd.to_numeric(df['Ventas en meses pasados'])
df['Ventas en meses pasados'].dtype

dtype('int64')

## La columna Stock

Esta columna presenta el mismo inconveniente que las anteriores. Tenemos un número que nos indica la cantidad de producto disponible, junto con cadenas de string. Vamos a proceder a dividr entre dicho número, que es el dato que nos interesa, y la cadena de string. Utilizamos el método split que ya habíamos usado más arriba.

In [300]:
df[['Stock', 'Otros']] = df['Stock'].str.split('left', n=1, expand=True, regex=False)

Aclaración, se tuvo que especificar la palabra de división 'left', ya que con el espacio no se lograba el split deseado. Quitamos la columna Otros.

In [301]:
df.drop('Otros', axis=1, inplace=True)

Transformamos la columna a dato numérico.

In [302]:
df['Stock'] = pd.to_numeric(df['Stock'])
df['Stock'].dtype

dtype('int64')

Observamos el resultado final.

In [303]:
df.head()

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad
0,Spider-Man Marvel Legends Series Across The Sp...,24,71,24.99,90,Ships to Bangladesh,"Tue, Jun 20",200,3,4 years and up
1,Spider-Man Marvel Legends Series Across The Sp...,22,55,14.99,90,Ships to Bangladesh,"Tue, Jun 20",200,3,4 years and up
2,Fisher-Price Little People Musical Toddler Toy...,7,2895,9.99,90,Ships to Bangladesh,"Tue, Jun 20",100,3,12 months - 5 years
3,CatToysOfficial - CAT Little Machines 5pcs Con...,5,2530,24.99,90,Ships to Bangladesh,"Tue, Jun 20",100,3,36 months - 6 years
4,Spider-Man Marvel Legends Series Across The Sp...,22,40,85.99,90,Ships to Bangladesh,"Tue, Jun 20",90,3,4 years and up


## La columna Edad

Parecería ser que en esta columna tenemos la edad en años o meses. Cuando está expresada en meses nos encontramos con un rango etario. Podríamos expresar el valor mínimo de la edad. Para esto, nuevamente, vamos a ir paso a paso. El primero de estos pasos es separar la edad, en años o mesos, del resto de strings.

In [304]:
df[['Edad', 'Otro']] = df['Edad'].str.split(' ', n=1, expand=True)

Podemos observar en nuestro dataset que encontramos algunas edades que son flotantes, lo cuál nos llama la atención. En general, puede apreciarse que tales edades están asociadas a una columna 'None' en la etiqueta Otro. Vamos a indagar esto mismo.

In [305]:
serie = df.loc[df['Otro'].isnull(), 'Otro']
diferentes = 0
none = 0
for i in serie.values:
    if i is None:
        none+=1
    else:
        diferentes+=1

print(diferentes, none)

0 1805


Iterando un bucle sobre los valores de la serie podemos observar que los valores None forman el total de las filas de este filtro. Como no tenemos un valor en edad vamos a imputarle el número 0 a todos aquellos valores que sean null.

In [306]:
df.loc[df['Otro'].isnull(), 'Edad'] = 0

Realizamos la misma operación para aquellas celadas que hayan quedado con un valor no asignado. 

In [307]:
df.loc[df['Edad']=='', 'Edad'] = 0

Transformamos toda la columna Edad en string para poder aplicar un filtro de strings.

In [308]:
df['Edad'] = df['Edad'].apply(lambda x: str(x))

Reemplazamos en la columna edad aquellos strings que contienen la palabra 'year' junto con el número de la edad.

In [309]:
df.loc[df['Edad'].str.contains('year'), 'Edad'] = df['Edad'].str.replace('year', '')

In [310]:
df['Edad'].value_counts()

0         7045
15         637
4          501
6          409
3          366
          ... 
50s          1
54           1
44           1
60s          1
Amazon       1
Name: Edad, Length: 109, dtype: int64

Lo mismo vamos a hacer para la letra 's' que se puede apreciar en el value_counts() de arriba.

In [311]:
df.loc[df['Edad'].str.contains('s'), 'Edad'] = df['Edad'].str.replace('s', '')

De igual manera procedemos con 'Amazon'.

In [312]:
df.loc[df['Edad'].str.contains('Amazon'), 'Edad'] = df['Edad'].str.replace('Amazon', '')

Transformamos toda la columna edad en numérica.

In [313]:
df['Edad'] = pd.to_numeric(df['Edad'])

Ahora vamos a proceder a hacer uniforme la edad. Para ello nos observaremos la columna 'Otros' y localizaremos aquellas celdas que relacionadas con la palabra 'month' para trabajar a la edad en años.

Nuevamente, transformamos toda la columna en string.

In [314]:
df['Otro'] = df['Otro'].apply(lambda x: str(x))

Aplicamos la división piso para obtener las edades en años y sin números con decimales.

In [315]:
df.loc[df['Otro'].str.contains('months'), 'Edad'] = df['Edad']//12

Podemos notar que ahora en la columna edad tenemos un valor NaN, el cuál imputaremos con el número 0.

In [316]:
df[df['Edad'].isna()] = 0

Transformamos todos los valores de la columna edad en enteros.

In [317]:
df['Edad'] = df['Edad'].apply(lambda x: int(x))

Procedemos a eliminar la columna 'Otro', ya que no se utilizará en el resultado final.

In [318]:
df.drop('Otro', axis=1)

Unnamed: 0,Descripcion,Precio,Reseñas,Precio Real,Dias sin cargo,Envio,Fecha de entrega,Ventas en meses pasados,Stock,Edad
0,Spider-Man Marvel Legends Series Across The Sp...,24,71,24.99,90,Ships to Bangladesh,"Tue, Jun 20",200,3,4
1,Spider-Man Marvel Legends Series Across The Sp...,22,55,14.99,90,Ships to Bangladesh,"Tue, Jun 20",200,3,4
2,Fisher-Price Little People Musical Toddler Toy...,7,2895,9.99,90,Ships to Bangladesh,"Tue, Jun 20",100,3,1
3,CatToysOfficial - CAT Little Machines 5pcs Con...,5,2530,24.99,90,Ships to Bangladesh,"Tue, Jun 20",100,3,3
4,Spider-Man Marvel Legends Series Across The Sp...,22,40,85.99,90,Ships to Bangladesh,"Tue, Jun 20",90,3,4
...,...,...,...,...,...,...,...,...,...,...
11398,Papo - Hand-Painted - Figurine - Marine Life -...,11,1094,11.00,90,Ships to Bangladesh,"Tue, Jun 20",100,1,0
11399,Green Toys Farm Playset. CB2,26,78,26.00,90,Ships to Bangladesh,"Tue, Jun 20",100,1,0
11400,"Teenage Mutant Ninja Turtles 5"" Sewer Shredder...",10,78,10.00,90,Ships to Bangladesh,"Tue, Jun 20",100,1,0
11401,"Schleich Wild Life, Wild Animal Toys for Kids,...",42,78,42.00,90,Ships to Bangladesh,"Tue, Jun 20",100,1,5


Descargamos el dataset limpio en formato csv.

In [323]:
df.to_csv('data_limpio.csv')