In [3]:
import pandas as pd
import io
from datetime import date

In [4]:
adidasDf = pd.read_csv("../data_sources/adidas.csv")

# Inicia limpieza
### Ejercicio 1

Según el dataset de adidas, para las columnas categóricas, encontrar: *aquellas columnas que tienen mas de un nivel, y que por lo menos uno de esos niveles represente mas o igual del 98%*. Para las columnas que cumplan esa premisa, se eliminaran del array de columnas validas 

In [5]:
adidasDf.dtypes

url                object
name               object
sku                object
selling_price       int64
original_price     object
currency           object
availability       object
color              object
category           object
source             object
source_website     object
breadcrumbs        object
description        object
brand              object
images             object
country            object
language           object
average_rating    float64
reviews_count       int64
crawled_at         object
dtype: object

*Step 1: Vamos a tratar la columna de original price, para convertirla de Object a Int y a castear crawlet_at de Object a date*

In [6]:
adidasDf.loc[ pd.isna(adidasDf['original_price']), ['original_price'] ] = '$0'

In [7]:
adidasDf['original_price'] = adidasDf['original_price'].str.replace('$', '', regex=False).astype('int64')

In [8]:
adidasDf['crawled_at'] = pd.to_datetime(adidasDf['crawled_at'])

In [9]:
adidasDf.dtypes ## Verificamos que la columna está en int y en datetime, respectivamente

url                       object
name                      object
sku                       object
selling_price              int64
original_price             int64
currency                  object
availability              object
color                     object
category                  object
source                    object
source_website            object
breadcrumbs               object
description               object
brand                     object
images                    object
country                   object
language                  object
average_rating           float64
reviews_count              int64
crawled_at        datetime64[ns]
dtype: object

*Step 2: Utilizando un for, haremos el analisis de los niveles de cada columna y verificaremos si cada nivel representa menos del 98% para poder ser totalmente valida*

In [10]:
columnsAnalisys = [] ## Array que contendrá el resultado del ejercicio 1
dfAnalisys = pd.DataFrame({}) ## dataFrame que contendrá la data que necesitaremos para terminar el ejercicio 2
## Validamos que las columnas que pasen el filtro sean únicamente las que tengan más de 1 nivel
## A partir de ahí iniciamos el analisis de la representatividad en la data de cada nivel
for c_ in adidasDf.select_dtypes(['object']).columns:
    val = adidasDf.loc[ :, c_ ].drop_duplicates()
    if val.shape[0] > 1:
        dfTmp = adidasDf.groupby(c_, as_index = False).agg({'sku': ['count']})
        dfTmp.columns = dfTmp.columns.droplevel(1)
        if (val.shape[0] >= 3) & (val.shape[0] <= 6): ## Condición que nos sirve para capturar la data necesaria para el ejercicio 2
            dfAnalisys = dfTmp.loc[ :, [c_, 'sku'] ]
        dfTmp['porcentage'] = dfTmp.apply(lambda r: ((r['sku'])/adidasDf.shape[0])*100, axis = 1)
        valR = dfTmp.loc[ dfTmp['porcentage'] >= 98, : ].shape[0]
        if valR == 0:
            columnsAnalisys.append(c_)

In [11]:
columnsAnalisys

['url',
 'name',
 'sku',
 'color',
 'category',
 'breadcrumbs',
 'description',
 'images']

### Ejercicio 2

Según el dataset de adidas, para las columnas categóricas, encontrar aquellas columnas que tengan entre 3-6 niveles. *Al nivel con la frecuencia mas baja lo vamos a remplazar por la palabra Others*, una vez ya tenga esa regla aplicarla al dataset original, tal cual como se hizo con el ejercicio hecho en clases.

*Step 1: Ordenamos y revisamos el resultado almacenado en el dataframe*

In [12]:
dfAnalisys.columns = ['category', 'frecuencia']

In [13]:
dfAnalisys = dfAnalisys.sort_values('frecuencia', ascending = False)

*Step 2: Creamos la nueva columna y le damos el valor de categoria* \
Obtenemos el valor minimo en la columna frecuencia y condicionamos al que tenga ese valor para que la nueva columa tengo el valor *Others*

In [14]:
dfAnalisys['new_category'] = dfAnalisys['category']

In [15]:
min = dfAnalisys['frecuencia'].min()

In [16]:
dfAnalisys.loc[ dfAnalisys['frecuencia'] == min, 'new_category' ] = 'Others' 

In [17]:
dfAnalisys = dfAnalisys.loc[:, ['category', 'new_category']]

In [18]:
dfAnalisys

Unnamed: 0,category,new_category
2,Shoes,Shoes
1,Clothing,Clothing
0,Accessories,Others


In [19]:
adidasDf = adidasDf.merge( dfAnalisys, on = "category", how = "left" )

In [20]:
adidasDf.head()

Unnamed: 0,url,name,sku,selling_price,original_price,currency,availability,color,category,source,...,breadcrumbs,description,brand,images,country,language,average_rating,reviews_count,crawled_at,new_category
0,https://www.adidas.com/us/beach-shorts/FJ5089....,Beach Shorts,FJ5089,40,0,USD,InStock,Black,Clothing,adidas United States,...,Women/Clothing,Splashing in the surf. Making memories with yo...,adidas,"https://assets.adidas.com/images/w_600,f_auto,...",USA,en,4.5,35,2021-10-23 17:50:17.331255,Clothing
1,https://www.adidas.com/us/five-ten-kestrel-lac...,Five Ten Kestrel Lace Mountain Bike Shoes,BC0770,150,0,USD,InStock,Grey,Shoes,adidas United States,...,Women/Shoes,Lace up and get after it. The Five Ten Kestrel...,adidas,"https://assets.adidas.com/images/w_600,f_auto,...",USA,en,4.8,4,2021-10-23 17:50:17.423830,Shoes
2,https://www.adidas.com/us/mexico-away-jersey/G...,Mexico Away Jersey,GC7946,70,0,USD,InStock,White,Clothing,adidas United States,...,Kids/Clothing,"Clean and crisp, this adidas Mexico Away Jerse...",adidas,"https://assets.adidas.com/images/w_600,f_auto,...",USA,en,4.9,42,2021-10-23 17:50:17.530834,Clothing
3,https://www.adidas.com/us/five-ten-hiangle-pro...,Five Ten Hiangle Pro Competition Climbing Shoes,FV4744,160,0,USD,InStock,Black,Shoes,adidas United States,...,Five Ten/Shoes,The Hiangle Pro takes on the classic shape of ...,adidas,"https://assets.adidas.com/images/w_600,f_auto,...",USA,en,3.7,7,2021-10-23 17:50:17.615054,Shoes
4,https://www.adidas.com/us/mesh-broken-stripe-p...,Mesh Broken-Stripe Polo Shirt,GM0239,65,0,USD,InStock,Blue,Clothing,adidas United States,...,Men/Clothing,Step up to the tee relaxed. This adidas golf p...,adidas,"https://assets.adidas.com/images/w_600,f_auto,...",USA,en,4.7,11,2021-10-23 17:50:17.702680,Clothing
