# **Product Category Name Translation Data Transformation: Local CSV to Processed Data**

#### **Import necessary libraries**

In [1]:
import pandas as pd
import os

from IPython.display import display

#### **Paths to files**

In [2]:
base_path = os.path.dirname(os.getcwd()) 

raw_data_path = os.path.join(base_path, 'raw-data', 'product_category_name_translation.csv')
processed_data_path = os.path.join(base_path, 'processed-data', 'product_category_name_translation.parquet')

#### **Load the raw dataset**

In [3]:
print("Loading the dataset...")
df_raw = pd.read_csv(raw_data_path)
print("Dataset loaded successfully!")

# Display a sample of the data
print("Sample of the raw dataset:")
display(df_raw.head(10))

Loading the dataset...
Dataset loaded successfully!
Sample of the raw dataset:


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor
5,esporte_lazer,sports_leisure
6,perfumaria,perfumery
7,utilidades_domesticas,housewares
8,telefonia,telephony
9,relogios_presentes,watches_gifts


#### **Check for null values and dataset information**

In [4]:
print("\nRaw dataset information:")
df_raw.info()

print("\nCount of null values per column:")
print(df_raw.isnull().sum())


Raw dataset information:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB

Count of null values per column:
product_category_name            0
product_category_name_english    0
dtype: int64


#### **Apply transformations to clean the dataset**

In [5]:
print("\nTransforming the data...")
df_cleaned = (
    df_raw
    .drop_duplicates(subset=["product_category_name"]) 
)

# Adding a new column with appealing category groups
def categorize_product(category):
    category_groups = {
        "beleza_saude": "Saúde e Beleza",
        "informatica_acessorios": "Acessórios de Informática",
        "automotivo": "Automotivo",
        "cama_mesa_banho": "Casa Mesa Banho",
        "moveis_decoracao": "Decoração de Móveis",
        "esporte_lazer": "Desportos e Lazer",
        "perfumaria": "Perfumaria",
        "utilidades_domesticas": "Utensílios Domésticos",
        "telefonia": "Telefonia",
        "relogios_presentes": "Relógios Presentes",
        "alimentos_bebidas": "Alimentos e Bebidas",
        "bebes": "Bebés",
        "papelaria": "Papelaria",
        "tablets_impressao_imagem": "Tablets Impressão de Imagem",
        "brinquedos": "Brinquedos",
        "telefonia_fixa": "Telefonia Fixa",
        "ferramentas_jardim": "Ferramentas de Jardim",
        "fashion_bolsas_e_acessorios": "Fashion Bolsas e Acessórios",
        "eletroportateis": "Pequenos Eletrodomésticos",
        "consoles_games": "Jogos para Consolas",
        "audio": "Áudio",
        "fashion_calcados": "Fashion Calçados",
        "cool_stuff": "Artigos Porreiros",
        "malas_acessorios": "Acessórios de Malas",
        "climatizacao": "Ar Condicionado",
        "construcao_ferramentas_construcao": "Construção de Ferramentas de Construção",
        "moveis_cozinha_area_de_servico_jantar_e_jardim": "Móveis de Cozinha, Sala de Jantar, Lavandaria e Jardim",
        "construcao_ferramentas_jardim": "Construção de Ferramentas de Jardim",
        "fashion_roupa_masculina": "Fashion Roupa Masculina",
        "pet_shop": "Loja de Animais",
        "moveis_escritorio": "Móveis de Escritório",
        "market_place": "Mercado",
        "eletronicos": "Eletrónicos",
        "eletrodomesticos": "Eletrodomésticos",
        "artigos_de_festas": "Artigos de Festas",
        "casa_conforto": "Conforto Doméstico",
        "construcao_ferramentas_ferramentas": "Construção de Ferramentas de Construção",
        "agro_industria_e_comercio": "Agroindústria e Comércio", 
        "moveis_colchao_e_estofado": "Móveis, Colchões e Estofos", 
        "livros_tecnicos": "Livros Técnicos",
        "instrumentos_musicais": "Instrumentos Musicais",
        "moveis_sala": "Móveis de Sala",
        "construcao_ferramentas_iluminacao": "Construção de Ferramentas de Iluminação",
        "industria_comercio_e_negocios": "Indústria Comércio e Negócios",
        "alimentos": "Alimentos", 
        "artes": "Artes", 
        "moveis_quarto": "Móveis de Quarto", 
        "livros_interesse_geral": "Livros de Interesse Geral", 
        "construcao_ferramentas_seguranca": "Construção de Ferramentas de Segurança", 
        "fashion_underwear_e_moda_praia": "Moda Roupa Interior e Moda Praia", 
        "fashion_esporte": "Fashion de Desportos", 
        "sinalizacao_e_seguranca": "Sinalização e Segurança", 
        "pcs": "PCs",
        "artigos_de_natal": "Artigos de Natal",
        "fashion_roupa_feminina": "Fashion de Roupa Feminina",
        "eletrodomesticos_2": "Eletrodomésticos 2", 
        "livros_importados": "Livros Importados", 
        "bebidas": "Bebidas",
        "cine_foto": "Fotografia Cinematográfica",
        "la_cuisine": "Cozinha", 
        "musica": "Música", 
        "casa_conforto_2": "Conforto Doméstico 2", 
        "portateis_casa_forno_e_cafe": "Pequenos Eletrodomésticos Forno Doméstico e Café", 
        "cds_dvds_musicais": "CDs e DVDs Musicais", 
        "dvds_blu_ray": "DVDs e Blu-Ray", 
        "flores": "Flores",
        "artes_e_artesanato": "Artes e Artesanato", 
        "fraldas_higiene": "Fraldas e Higiene", 
        "fashion_roupa_infanto_juvenil": "Fashion de Roupa Infantil", 
        "seguros_e_servicos": "Seguros e Serviços"
    }
    return category_groups.get(category, "Outros")  # Default to "Outros" if not in the dictionary

df_cleaned["category_group"] = df_cleaned["product_category_name"].apply(categorize_product)


# Display the transformed dataset
print("Sample of the transformed dataset:")
display(df_cleaned.head())

df_cleaned.info()

# Count the total rows in the cleaned dataset
cleaned_row_count = df_cleaned.shape[0]
print(f"Total rows in the cleaned dataset: {cleaned_row_count}")


Transforming the data...
Sample of the transformed dataset:


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB
Total rows in the cleaned dataset: 71


#### **Save the cleaned dataset**

In [6]:
print("\nSaving the cleaned dataset...")
df_cleaned.to_parquet(processed_data_path, index=False, engine='pyarrow')
print(f"Cleaned dataset saved successfully at: {processed_data_path.replace('.csv', '.parquet')}")


Saving the cleaned dataset...
Cleaned dataset saved successfully at: c:\Users\Fernando Correia\Desktop\Olist Ecommerce Tese\processed-data\product_category_name_translation.parquet
