# Limpieza de los DataFrames

Una vez hemos recabado todos los datos vamos a limpiarlos y dejarlos preparados para el próximo paso que será la creación e inserción en la base de datos.

Todos los dataframes son bastante parecidos, por lo general tienen los mismos campos a excepción del dataframe de natural by Lila al cual le falta la columna de `color` y en el dataframe de forever21 hay una columna de más que es la de `stock`. La idea es hacer una tabla general para juntar todas las marcas y hacer un estudio más global, por lo que habrá que añadir o eliminar las columnas anterioirmente mencionadas. Sin embargo, como en la tabla de forever21 la columna de stock aporta un gran valor, haremos un pequeño estudio particular de esta marca, creando una tabla únicamnte para sus vestidos.

In [40]:
import pandas as pd

Para el dataframe de Natural by Lila añadimos la columna `color`:

In [41]:
df_bylila = pd.read_csv("../datos/dataframes/df_bylila.csv", index_col=0)
df_bylila["color"]="sin definir"
df_bylila_con_color = df_bylila.reindex(columns=['nombre', 'marca', 'precio', 'color', 'talla', 'categoria'])
df_bylila_con_color.to_csv("../datos/dataframes/df_bylila_con_color.csv")
df_bylila_con_color.head(2)

Unnamed: 0,nombre,marca,precio,color,talla,categoria
0,Mini Vestido Strapless Cascada,Natural by Lila,49.99,sin definir,S,corto
1,Mini Vestido Strapless Cascada,Natural by Lila,49.99,sin definir,M,corto


Para el dataframe de Forever21 creamos una versión sin la columna `stock`:

In [42]:
df_forever21 = pd.read_csv("../datos/dataframes/df_forever21.csv", index_col=0)
df_forever21_sin_stock = df_forever21.drop(columns="stock")
df_forever21_sin_stock.to_csv("../datos/dataframes/df_forever21_sin_stock.csv")
df_forever21_sin_stock.sample(2)

Unnamed: 0,nombre,marca,precio,color,talla,categoria
65,strapless bubble-hem mini dress,Forever21,29.99,negro,L,mini
337,plus size sweetheart mini tube dress,Forever21,29.99,negro,XXL,mini


Una vez tenemos los dataframe listos los concatenamos:

In [43]:
df_asos = pd.read_csv("../datos/dataframes/df_mango.csv", index_col=0)
df_ladypipa = pd.read_csv("../datos/dataframes/df_ladypipa.csv", index_col=0)

df_final_vestidos = pd.concat([df_asos, df_forever21_sin_stock, df_bylila_con_color, df_ladypipa])
df_final_vestidos["categoria"] = df_final_vestidos["categoria"].replace("maxi", "largo").replace("mini", "corto")
df_final_vestidos["categoria"] = df_final_vestidos["categoria"].fillna("sin categoria")

df_final_vestidos.to_csv("../datos/dataframes/df_final_vestidos.csv")
df_final_vestidos.sample(3)

Unnamed: 0,nombre,marca,precio,color,talla,categoria
334,Vestido Halter Drapeado,Natural by Lila,49.95,sin definir,M,largo
202,vestido midi blanco con bajo de encaje de mango,Mango,99.99,blanco,S,midi
335,Vestido Nicole,Natural by Lila,39.95,sin definir,S,largo


Creamos el dataframe de las marcas y categorías para que la posterior inserción en la base de datos sea más rápida y limpia.

In [44]:
df_marcas = pd.DataFrame(df_final_vestidos["marca"].unique())
df_marcas.to_csv("../datos/dataframes/df_marcas.csv")

In [45]:
df_categorias = pd.DataFrame(df_final_vestidos["categoria"].unique())
df_categorias.to_csv("../datos/dataframes/df_categorias.csv")