In [15]:
import pandas as pd

# Leitura do arquivo Excel
df = pd.read_excel('perifericos.xlsx')

# Listas de referência
cores = ["preto", "branco", "rosa", "cinza", "grafite", "vermelho"]

categorias = [
    "mouse", "teclado", "headset", "teclado e mouse", "webcam", "gabinete", "mesa digitalizadora",
    "mochila", "fone de ouvido", "cabo fonte", "pen drive", "base com cooler",
    "adaptador", "suporte de mesa"
]

marcas = [
    "hp", "logitech", "dell", "wacom", "trust", "hayom", "multi", "c3-tech", "c3tech", "rise mode", "akko",
    "fortrek", "bright", "maxprint", "intelbras", "razer", "poly", "xp-pen", "xp pen", "acer", "jabra",
    "felitron", "dahua", "kingston", "huion", "north bayou", "audio-technica", "lenovo", "pcfort",
    "concórdia", "oex", "mymax", "k-mex", "draxen", "arbaton", "vesa", "elg", "f3"
]

# Funções de extração
def extrair_categoria(texto):
    texto = texto.lower()
    for categoria in categorias:
        if categoria in texto:
            return categoria
    return "desconhecida"

def extrair_cor(texto):
    texto = texto.lower()
    for cor in cores:
        if cor in texto:
            return cor
    return "desconhecida"

def extrair_marca(texto):
    texto = texto.lower()
    for marca in marcas:
        if marca in texto:
            return marca
    return "desconhecida"

# Aplicação das extrações
df['Categoria'] = df['Nome'].apply(extrair_categoria)
df['Cor_Principal'] = df['Nome'].apply(extrair_cor)
df['Marca'] = df['Nome'].apply(extrair_marca)

# Limpeza do campo de preço
df['Preco'] = df['Preco'].astype(str).str.replace('R$', '', regex=False)
df['Preco'] = df['Preco'].str.replace(' ', '', regex=False)
df['Preco'] = df['Preco'].str.replace('.', '', regex=False)
df['Preco'] = df['Preco'].str.replace(',', '.', regex=False)
df['Preco'] = df['Preco'].astype(float)

# Contagem de desconhecidos
cores_desconhecidas = (df['Cor_Principal'] == "desconhecida").sum()
categorias_desconhecidas = (df['Categoria'] == "desconhecida").sum()
marcas_desconhecidas = (df['Marca'] == "desconhecida").sum()

# Formatação com title case
df['Marca'] = df['Marca'].str.title()
df['Cor_Principal'] = df['Cor_Principal'].str.title()
df['Categoria'] = df['Categoria'].str.title()

# Impressão das contagens
print(f"\nExistem {cores_desconhecidas} periféricos com cor desconhecida.\n")
print(f"Existem {categorias_desconhecidas} periféricos com categoria desconhecida.\n")
print(f"Existem {marcas_desconhecidas} periféricos com marca desconhecida.\n")


Existem 35 periféricos com cor desconhecida.

Existem 3 periféricos com categoria desconhecida.

Existem 0 periféricos com marca desconhecida.



In [16]:
df.to_excel('dados_tratados.xlsx', index=False)