In [1]:
import re 
import pandas as pd
from fuzzywuzzy import process

In [2]:
df = pd.read_excel('Prueba_EVA.xlsx')

df.head()

Unnamed: 0,descripcion
0,Sony Turntable - PSLX350H/ Belt Drive System/ ...
1,Bose Acoustimass 5 Series III Speaker System -...
2,Sony Switcher - SBV40S/ Eliminates Disconnecti...
3,Sony 5 Disc CD Player- CDPCE375/ 5 Disc Change...
4,Bose 161 Bookshelf Speakers In White - 161WH/ ...


In [3]:
def extract_attributes(description):
    """
    Extracts attributes from a product description using regular expressions.

    Args:
        description (str): The product description.

    Returns:
        dict: A dictionary containing the extracted attributes.
    """
    # Initialize extracted attributes
    attributes = {
        "marca": None,
        "tipo": None,
        "precio": None,
        "sku": None,
        "watts": None,
        "gb": None,
    }

    # Handle potential NoneType input
    if not description:
        return attributes

    # Clean and normalize the description
    clean_desc = description.strip()

    # Extract "Marca" (Brand): First word(s) before a numeric value or special character
    brand_match = re.match(r"^[^\d\-\/]+", clean_desc)
    if brand_match:
        attributes["marca"] = brand_match.group(0).strip()

    # Extract "SKU or ID": Last word-like alphanumeric code in the description
    sku_match = re.search(r"\b[\w\-]{5,}\b$", clean_desc)
    if sku_match:
        attributes["sku"] = sku_match.group(0).strip()

    # Extract "GB": Patterns like "32GB", "128GB", etc.
    gb_match = re.search(r"\b(\d+GB)\b", clean_desc, re.IGNORECASE)
    if gb_match:
        attributes["gb"] = gb_match.group(1).strip()

    # Extract "Watts": Patterns like "500 Watts", "100W", etc.
    watts_match = re.search(r"\b(\d+)\s*W(atts)?\b", clean_desc, re.IGNORECASE)
    if watts_match:
        attributes["watts"] = watts_match.group(1).strip()

    # Extract "Tipo" (Type): Words following the brand up to the SKU or end of string
    if attributes["marca"]:
        sku_pattern = re.escape(attributes["sku"]) if attributes["sku"] else "$"
        type_match = re.search(
            rf"{re.escape(attributes['marca'])}\s+(.*?)(?:\b{sku_pattern}\b|$)",
            clean_desc
        )
        if type_match:
            attributes["tipo"] = type_match.group(1).strip()

    return attributes

In [4]:
df.dtypes

descripcion    object
dtype: object

In [5]:
extracted_data = df["descripcion"].apply(extract_attributes)
extracted_df = pd.DataFrame(extracted_data.tolist())



In [6]:
extracted_df

Unnamed: 0,marca,tipo,precio,sku,watts,gb
0,Sony Turntable,- PSLX350H/ Belt Drive System/ 33-1/3 and 45 R...,,,,
1,Bose Acoustimass,5 Series III Speaker System - AM53BK/ 2 Dual C...,,,200,
2,Sony Switcher,- SBV40S/ Eliminates Disconnecting And Reconne...,,,,
3,Sony,5 Disc CD Player- CDPCE375/ 5 Disc Changer/ Va...,,,,
4,Bose,161 Bookshelf Speakers In White - 161WH/ Artic...,,,,
...,...,...,...,...,...,...
1076,Logitech Cordless Desktop Wave Keyboard And Mo...,- 920000264/ Contoured Wave-Shaped Key Design/...,,,,
1077,Mitsubishi DLP Black TV Stand,- MBS73V/ Matching Base For Mitsubishi WD-7373...,,,,
1078,Logitech Digital Precision PC Gaming Headset,- 981000040/ Cushioned Open-Air Design/ USB An...,,,,
1079,Logitech,2.1 Multimedia Silver Speaker System - Z2300/ ...,,,200,


In [7]:
def extract_brand(description, brand_list):
    """
    Extrae atributos de una descripción de producto mediante expresiones regulares.

    Args:
        description (str): Descripcion del produto.
        brand_list (list): Listas de marecas reconocidas.

    Returns:
        str: La marca detectada u "other" si no se encuentra ninguna marca.
    """
    if not description or pd.isna(description):
        return None

    # - `process.extractOne` toma la descripción y encuentra el elemento más similar en `brand_list`.
    # - Devuelve una tupla con la marca coincidente (`matched_brand`) y la puntuación (`score`) de similitud.
    # Dividir la descripción en palabras
    words = re.findall(r"\b\w+\b", description)

    # Iterar por cada palabra para encontrar la mejor coincidencia
    for word in words:
        matched_brand, score = process.extractOne(word, brand_list)
        if score > 80:
            return matched_brand

    # Si no se encuentra ninguna coincidencia adecuada
    return "other"

    # La marca si la puntuación es suficientemente alta, de lo contrario "other"
    return matched_brand if score > 80 else "other"


brands = [
    "Sony", "Samsung", "LG", "Apple", "Toshiba", "Bose", "Panasonic", "Canon", 
    "Nikon", "Dell", "HP", "Lenovo", "Sharp", "Philips", "GE", "Microsoft", 
    "Jabra", "Yamaha", "Onkyo", "Pioneer", "Kenwood", "Olympus", "Mac", "Garmin", "Logitech", "Whirlpool"
    ,"Linksys", "Mitsubishi", "KitchenAid", "Motorola", "Xiaomi", "Sennheiser", "Shure", "Sharp"
]

In [8]:
data = df.copy()

In [9]:
data["marca"] = data["descripcion"].apply(lambda x: extract_brand(x, brands))

data

Unnamed: 0,descripcion,marca
0,Sony Turntable - PSLX350H/ Belt Drive System/ ...,Sony
1,Bose Acoustimass 5 Series III Speaker System -...,Bose
2,Sony Switcher - SBV40S/ Eliminates Disconnecti...,Sony
3,Sony 5 Disc CD Player- CDPCE375/ 5 Disc Change...,Sony
4,Bose 161 Bookshelf Speakers In White - 161WH/ ...,Bose
...,...,...
1076,Logitech Cordless Desktop Wave Keyboard And Mo...,Logitech
1077,Mitsubishi DLP Black TV Stand - MBS73V/ Matchi...,Mitsubishi
1078,Logitech Digital Precision PC Gaming Headset -...,Logitech
1079,Logitech 2.1 Multimedia Silver Speaker System ...,Logitech


re.search():

Busca el primer patrón en la cadena description que coincida con la expresión regular.
Patrón r"\$\s?(\d+(?:,\d{3})*(?:\.\d{1,2})?)":

\$: Busca el símbolo de dólar ($). El símbolo se escapa (\) porque el signo $ tiene un significado especial en expresiones regulares (coincide con el final de una cadena).
\s?: Permite un espacio opcional después del signo de dólar.
(\d+(?:,\d{3})*(?:\.\d{1,2})?): Captura el valor del precio:
\d+: Uno o más dígitos consecutivos (parte entera del número).
(?:,\d{3})*: Opcionalmente, coincide con comas seguidas de tres dígitos (para formatos como "1,000").
(?:\.\d{1,2})?: Opcionalmente, coincide con un punto seguido de uno o dos dígitos (parte decimal del precio).
Los paréntesis externos () indican un grupo capturado que almacena el precio detectado.
if price_match::

Verifica si el patrón fue encontrado en la descripción.
return price_match.group(1).strip():

Si se encontró un precio:
group(1): Devuelve el texto capturado por el primer grupo entre paréntesis de la expresión regular (el precio detectado).
strip(): Elimina espacios en blanco antes y después del texto.
return None:

Si no se encuentra ningún precio en la descripción, devuelve None.
Ejemplo de entrada y salida:
Entrada: "Hoover Vacuum - Model X/ Green Finish/ Price: $ 123.45"
Salida: "123.45"
El código asegura que los precios sean capturados correctamente en distintos formatos, como "$99", "$ 1,234", o "$1234.56". Si necesitas más ajustes o explicaciones, házmelo saber.

In [10]:
def extract_price(description):
    """
    Extrae el precio de una descripción de producto utilizando expresiones regulares.

    Args:
        description (str): La descripción del producto.

    Returns:
        str: El precio detectado o None si no se encuentra.
    """
    # Buscar patrones de precios como "$99" o "$ 1235"
    price_match = re.search(r"\$\s?(\d+(?:,\d{3})*(?:\.\d{1,2})?)", description)
    if price_match:
        return price_match.group(1).strip()
    return None

In [11]:
data["precio"] = data["descripcion"].apply(lambda x: extract_price(x))

data

Unnamed: 0,descripcion,marca,precio
0,Sony Turntable - PSLX350H/ Belt Drive System/ ...,Sony,
1,Bose Acoustimass 5 Series III Speaker System -...,Bose,399
2,Sony Switcher - SBV40S/ Eliminates Disconnecti...,Sony,49
3,Sony 5 Disc CD Player- CDPCE375/ 5 Disc Change...,Sony,
4,Bose 161 Bookshelf Speakers In White - 161WH/ ...,Bose,158
...,...,...,...
1076,Logitech Cordless Desktop Wave Keyboard And Mo...,Logitech,79
1077,Mitsubishi DLP Black TV Stand - MBS73V/ Matchi...,Mitsubishi,549
1078,Logitech Digital Precision PC Gaming Headset -...,Logitech,49
1079,Logitech 2.1 Multimedia Silver Speaker System ...,Logitech,


In [12]:
def extract_watts(description):
    """
    Extrae la potencia en watts de una descripción de producto utilizando expresiones regulares.

    Args:
        description (str): La descripción del producto.

    Returns:
        str: La potencia detectada o None si no se encuentra.
    """
    # Buscar patrones como "500 Watts", "100W", "12Watts", "5 W", "5 Wats"
    watts_match = re.search(r"\b(\d+)\s*(W(?:atts)?|Wats)\b", description, re.IGNORECASE)
    if watts_match:
        return watts_match.group(1).strip()
    return None

In [13]:
data["watts"] = data["descripcion"].apply(lambda x: extract_watts(x))

data

Unnamed: 0,descripcion,marca,precio,watts
0,Sony Turntable - PSLX350H/ Belt Drive System/ ...,Sony,,
1,Bose Acoustimass 5 Series III Speaker System -...,Bose,399,200
2,Sony Switcher - SBV40S/ Eliminates Disconnecti...,Sony,49,
3,Sony 5 Disc CD Player- CDPCE375/ 5 Disc Change...,Sony,,
4,Bose 161 Bookshelf Speakers In White - 161WH/ ...,Bose,158,
...,...,...,...,...
1076,Logitech Cordless Desktop Wave Keyboard And Mo...,Logitech,79,
1077,Mitsubishi DLP Black TV Stand - MBS73V/ Matchi...,Mitsubishi,549,
1078,Logitech Digital Precision PC Gaming Headset -...,Logitech,49,
1079,Logitech 2.1 Multimedia Silver Speaker System ...,Logitech,,200


In [14]:
def extract_gb(description):
    """
    Extrae la capacidad en GB de una descripción de producto utilizando expresiones regulares.

    Args:
        description (str): La descripción del producto.

    Returns:
        str: La capacidad en GB detectada o None si no se encuentra.
    """
    # Buscar patrones como "32GB", "128GB", "64 GB", "4.7 GB"
    gb_match = re.search(r"\b(\d+(?:\.\d+)?)\s*GB\b", description, re.IGNORECASE)
    if gb_match:
        return gb_match.group(1).strip()
    return None

In [15]:
data["GB"] = data["descripcion"].apply(lambda x: extract_gb(x))

data

Unnamed: 0,descripcion,marca,precio,watts,GB
0,Sony Turntable - PSLX350H/ Belt Drive System/ ...,Sony,,,
1,Bose Acoustimass 5 Series III Speaker System -...,Bose,399,200,
2,Sony Switcher - SBV40S/ Eliminates Disconnecti...,Sony,49,,
3,Sony 5 Disc CD Player- CDPCE375/ 5 Disc Change...,Sony,,,
4,Bose 161 Bookshelf Speakers In White - 161WH/ ...,Bose,158,,
...,...,...,...,...,...
1076,Logitech Cordless Desktop Wave Keyboard And Mo...,Logitech,79,,
1077,Mitsubishi DLP Black TV Stand - MBS73V/ Matchi...,Mitsubishi,549,,
1078,Logitech Digital Precision PC Gaming Headset -...,Logitech,49,,
1079,Logitech 2.1 Multimedia Silver Speaker System ...,Logitech,,200,


In [16]:
data[data['GB'].notnull()]

Unnamed: 0,descripcion,marca,precio,watts,GB
58,Panasonic 5-Pack DVD-RAM Discs - LMAF120LU5/ S...,Panasonic,15,,4.7
88,Sony DVD-R Recordable Camcorder Media 3 Pack -...,Sony,9.99,,1.4
233,Transcend 2GB Micro SD Secure Digital Memory C...,Microsoft,,,2
260,Sony MS-A1GD 1GB Memory Stick Micro (M2) - MSA...,Sony,,,1
311,Apple Mac Mini 1.83GHz Intel Core 2 Duo Comput...,Apple,599,,1
...,...,...,...,...,...
1050,Panasonic Yellow 4GB SDHC Memory Card - RPSDV0...,Panasonic,,,4
1055,Sony VAIO FW Series Black Notebook Computer - ...,Sony,,,320
1065,Nokia T-Mobile Unlocked Cellular Phone - N96/ ...,Toshiba,599.00,,16
1069,Transcend JetFlash V10 16GB USB Flash Drive - ...,Toshiba,38,,16


In [33]:
def extract_sku(description):
    """
    Extrae el SKU (ID único) de una descripción de producto utilizando expresiones regulares.

    Args:
        description (str): La descripción del producto.

    Returns:
        str: El SKU detectado o None si no se encuentra.
    """
    # Buscar cadenas alfanuméricas que comiencen con 1-4 letras seguidas de 1-4 números
    sku_match = re.search(r"\b[a-zA-Z]{1,4}\d{1,4}\b", description)
    if sku_match and len(sku_match.group(0)) > 4:
        return sku_match.group(0).strip()
    return None

In [34]:
data["sku"] = data["descripcion"].apply(lambda x: extract_sku(x))

data

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
0,Sony,,control_remoto,,,,Sony Turntable - PSLX350H / Belt Drive System ...
1,Bose,,speaker,399,200,,Bose Acoustimass 5 Series III Speaker System -...
2,Sony,,Switch,49,,,Sony Switcher - SBV40S / Eliminates Disconnect...
3,Sony,,control_remoto,,,,Sony 5 Disc CD Player - CDPCE375 / 5 Disc Chan...
4,Bose,,speaker,158,,,Bose 161 Bookshelf Speakers In White - 161WH /...
...,...,...,...,...,...,...,...
1076,Logitech,,mouse,79,,,Logitech Cordless Desktop Wave Keyboard And Mo...
1077,Mitsubishi,,television,549,,,Mitsubishi DLP Black TV Stand - MBS73V / Match...
1078,Logitech,,audifonos,49,,,Logitech Digital Precision PC Gaming Headset -...
1079,Logitech,Z2300,speaker,,200,,Logitech 2 . 1 Multimedia Silver Speaker Syste...


In [35]:
data[data["sku"].notnull()]

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
7,Panasonic,SDYD250,,,,,Panasonic Yeast Pro Automatic Breadmaker - SDY...
8,Sony,MDRJ10,audifonos,,,,Sony Vertical - In - The - Ear Stereo Headphon...
18,GE,KUA17,,70,,,Cuisinart Cordless Electric Kettle - KUA17 / 1...
25,Panasonic,KXFA83,,,,,Panasonic Laser Toner Cartridge - KXFA83 / Use...
35,Kenwood,KDCC669,control_remoto,129,,,Kenwood 6 - Disc CD Changer - KDCC669 / 3 - An...
...,...,...,...,...,...,...,...
1063,Microsoft,TOB155,horno,139,,,Cuisinart Exact Heat Matte Black Toaster Oven ...
1070,Logitech,UBM46,camara_web,,,,Logitech V - UBM46 QuickCam Pro 9000 Black Web...
1072,Toshiba,LTA260,television,,,,Lasonic ATSC Digital To Analog TV Converter Bo...
1073,Garmin,PDVK10,Reproductor,29,,,Case Logic Black In - Car DVD Player Case - PD...


In [36]:
tipos = {
    "television": ["TV", "Televisor", "Smart TV", "Pantalla", "television"],
    "audifonos": ["Auriculares", "Headphones", "Audífonos inalámbricos","audifonos","Headset"],
    "teatro_casa": ["Home Theater", "Sistema de sonido", "Teatro en casa"],
    "speaker": ["Altavoz", "Bocina", "Parlante", "Speaker"],
    "notebook": ["Laptop", "Computadora portátil", "Notebook", "Computadora portatil"],
    "manos_libres": ["Auriculares Bluetooth", "Manos libres", "Earbuds"],
    "telefono": ["Teléfono fijo", "Línea fija", "Teléfono","Telefono fijo", "Linea fija", "Telefono"],
    "smartphone": ["Celular", "Teléfono inteligente", "Smartphone", "Telefono inteligente",  "Telefono movil"],
    "tablet": ["iPad", "Tablet", "Tableta electrónica","Tableta electrónica"],
    "smartwatch": ["Reloj inteligente", "Smartwatch", "Wearable"],
    "camara_digital": ["Cámara", "Cámara compacta", "Digital Camera","Camara", "Camara compacta", "Camera"],
    "dron": ["Drone", "Quadcopter", "Aeronave no tripulada"],
    "bocina_inteligente": ["Altavoz inteligente", "Smart Speaker", "Bocina con asistente"],
    "proyector": ["Proyector", "Proyector HD", "Proyector de video"],
    "blu_ray": ["Reproductor Blu-ray", "Blu-ray player", "Reproductor HD"],
    "monitor": ["Pantalla", "Monitor LED", "Monitor de computadora"],
    "router": ["Router Wi-Fi", "Router inalámbrico", "Wi-Fi Router"],
    "consola": ["Consola de videojuegos", "Videojuegos", "Gaming Console", "Xbox", "play station", "nintendo"],
    "smart_hub": ["Hub inteligente", "Smart Hub", "Centro domótico"],
    "cargador": ["Power Bank", "Cargador portátil", "Bateria externa"],
    "barra_sonido": ["Soundbar", "Barra de sonido", "Altavoz horizontal"],
    "control_remoto": ["Control remoto", "Universal Remote", "Control IR"],
    "camara_seguridad": ["Cámara de seguridad", "CCTV", "Cámara IP"],
    "disco_duro": ["HDD", "SSD", "Disco duro externo"],
    "impresora": ["Multifuncional", "Impresora", "Impresora 3D"],
    "escaner": ["Escáner", "Escáner portátil", "Scanner"],
    "repetidor": ["Extensor Wi-Fi", "Repetidor", "Wi-Fi Booster"],
    "mouse": ["Ratón", "Mouse", "Mouse inalámbrico"],
    "teclado": ["Teclado", "Teclado mecánico", "Teclado mecanico", "Keyboard"],
    "tv_box": ["Android TV", "Apple TV", "Roku", "Fire Stick"],
    "auriculares": ["Auriculares", "Noise Cancelling", "Auriculares Bluetooth"],
    "microondas": ["Horno de microondas", "Microondas inteligente", "Microwave", "Microwave"],
    "refrigerador": ["Refrigerador inteligente", "Smart Fridge", "Refrigerador"],
    "purificador": ["Purificador de aire", "Air Purifier", "Purificador inteligente"],
    "termostato": ["Termostato", "Smart Thermostat", "Climatizador"],
    "luces": ["Focos inteligentes", "Smart Bulbs", "Luces LED inteligentes"],
    "enchufe": ["Smart Plug", "Enchufe inteligente", "Tomacorriente inteligente"],
    "altavoz_agua": ["Altavoz resistente al agua", "Bocina waterproof", "Parlante impermeable"],
    "camara_accion": ["GoPro", "Cámara deportiva", "Action Camera"],
    "gafas_vr": ["Gafas VR", "Lentes de realidad virtual", "Virtual Reality"],
    "control_videojuegos": ["Gamepad", "Controlador", "Joystick"],
    "modem": ["Modem", "Router/Modem", "Modem de alta velocidad", "Router"],
    "bascula": ["Báscula", "Smart Scale", "Báscula inteligente"],
    "cepillo": ["Cepillo eléctrico", "Cepillo dental", "Cepillo inteligente"],
    "reloj": ["Despertador", "Reloj despertador", "Smart Clock"],
    "hoverboard": ["Hoverboard", "Scooter eléctrico", "Monopatín eléctrico","Scooter electrico", "Monopatín electrico"],
    "bicicleta": ["Bicicleta eléctrica", "E-bike", "Bicicleta con motor"],
    "camara_web": ["Webcam", "Cámara web", "Cámara para streaming"],
    "cortadora": ["Cortadora de cabello", "Máquina de cortar pelo", "Trimmer"],
    "tiras_led": ["Luces LED", "Tiras LED inteligentes", "Tiras de luz"],
    "adaptador_usb": ["Hub USB-C", "Adaptador USB-C", "Docking Station"],
    "microfono": ["Micrófono", "Micrófono de estudio", "Micrófono condensador"],
    "convertidor_streaming": ["Streaming Box", "Convertidor de streaming", "Media Box"],
    "radio": ["Radio", "Radio FM", "Radio digital"],
    "sistema_karaoke": ["Karaoke", "Sistema de karaoke", "Karaoke portátil"],
    "control_clima": ["Control de clima", "Climatizador inteligente", "Thermostat Remote"],
    "usb": ["USB", "Flash Drive", "memoria usb", "flash"],
    "horno": ["Oven"],
    "washer": ["washer", "dishwasher"],
    "control_remoto": ["ControlRemote","Control Remote", "Control Remoto", "Control", "IR/RF", "RF"],
    "bateria": ["Battery", "bateria"],
    "software": ["software", "licencia", "licence"],
    "secadora": ["Electric Dryer", "Dryer", "secadora"],
    "Switch": ["Switcher", "Switch"],
    "Reproductor": [ "player"],
    "extensor": ["Expander", "extensor"],
    "carcasa": ["case"]
}

In [37]:
def extract_type_from_dict(description,datas):
    """
    Extrae el tipo de producto de una descripción utilizando un diccionario .

    Args:
        description (str): La descripción del producto.
        datas (dict): Diccionario de tipos simplificados y variantes
    Returns:
        str: La clave del tipo de producto detectado o None si no se encuentra.
    """


    # Iterar sobre los tipos para buscar coincidencias
    for tipo, keywords in datas.items():
        for keyword in keywords:
            if re.search(rf"\b{re.escape(keyword)}\b", description, re.IGNORECASE):
                return tipo

    # Si no se encuentra ningún tipo conocido
    return None

In [38]:
data["tipo"] = data["descripcion"].apply(lambda x: extract_type_from_dict(x,tipos))

data

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
0,Sony,,control_remoto,,,,Sony Turntable - PSLX350H / Belt Drive System ...
1,Bose,,speaker,399,200,,Bose Acoustimass 5 Series III Speaker System -...
2,Sony,,Switch,49,,,Sony Switcher - SBV40S / Eliminates Disconnect...
3,Sony,,control_remoto,,,,Sony 5 Disc CD Player - CDPCE375 / 5 Disc Chan...
4,Bose,,speaker,158,,,Bose 161 Bookshelf Speakers In White - 161WH /...
...,...,...,...,...,...,...,...
1076,Logitech,,mouse,79,,,Logitech Cordless Desktop Wave Keyboard And Mo...
1077,Mitsubishi,,television,549,,,Mitsubishi DLP Black TV Stand - MBS73V / Match...
1078,Logitech,,audifonos,49,,,Logitech Digital Precision PC Gaming Headset -...
1079,Logitech,Z2300,speaker,,200,,Logitech 2 . 1 Multimedia Silver Speaker Syste...


In [39]:
data[data["tipo"].notnull()]

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
0,Sony,,control_remoto,,,,Sony Turntable - PSLX350H / Belt Drive System ...
1,Bose,,speaker,399,200,,Bose Acoustimass 5 Series III Speaker System -...
2,Sony,,Switch,49,,,Sony Switcher - SBV40S / Eliminates Disconnect...
3,Sony,,control_remoto,,,,Sony 5 Disc CD Player - CDPCE375 / 5 Disc Chan...
4,Bose,,speaker,158,,,Bose 161 Bookshelf Speakers In White - 161WH /...
...,...,...,...,...,...,...,...
1076,Logitech,,mouse,79,,,Logitech Cordless Desktop Wave Keyboard And Mo...
1077,Mitsubishi,,television,549,,,Mitsubishi DLP Black TV Stand - MBS73V / Match...
1078,Logitech,,audifonos,49,,,Logitech Digital Precision PC Gaming Headset -...
1079,Logitech,Z2300,speaker,,200,,Logitech 2 . 1 Multimedia Silver Speaker Syste...


In [40]:
data = data[["marca","sku","tipo","precio","watts","GB", "descripcion"]]			

In [41]:
data[data["tipo"].isnull()].head(30)

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
6,KitchenAid,,,,,,KitchenAid Pasta Roller And Cutter - KPRA / On...
7,Panasonic,SDYD250,,,,,Panasonic Yeast Pro Automatic Breadmaker - SDY...
9,Panasonic,,,,,,Panasonic 2 - Line Integrated Telephone - KXTS...
10,Panasonic,,,44.0,,,Panasonic Integrated Telephone System - KXTS10...
11,Panasonic,,,,,,Panasonic 2 - Line Integrated Telephone System...
18,GE,KUA17,,70.0,,,Cuisinart Cordless Electric Kettle - KUA17 / 1...
21,Garmin,,,150.0,,,Denon Semi - Automatic Turntable - DP29F / Met...
22,Sony,,,,,,Sony Xplod 10 - Disc Add - On CD / MP3 Changer...
23,Xiaomi,,,313.95,,,Escort Passport X50 Radar And Laser Detector -...
25,Panasonic,KXFA83,,,,,Panasonic Laser Toner Cartridge - KXFA83 / Use...


In [42]:
def clean_text(text:str) -> str:
        """
        Eliminar espacios en blanco adicionales, saltos de línea, tabulaciones y caracteres especiales
        Args:
        text (str): cadena donde se quiere suprimir los caracteres especiales

        Returns:
            str: cadena sin caracteres especiales
            
            Example:
            >>> texto = "Este es un texto  54. lkjkhdv : , con\nsaltos de línea                                                                          
            ...        Texto\tcon\ttabulaciones     
            ...    Texto con caracteres especiales\r\ny\b\fotros"

            >>> print(clean_text(texto))
            >>> Este es un texto  54. lkjkhdv : , con saltos de línea Texto con tabulaciones Texto con caracteres especiales y fotros
        """ 
        cleaned_text = re.sub(r'\s+|\n|\t|\r|\\|\b|\f|\||,|;', ' ', text)  # Reemplazar espacios en blanco, caracteres especiales y ',;'
        
        cleaned_text = cleaned_text.strip()  # Eliminar espacios en blanco al principio y al final
        
        # Dividir el texto en palabras separadas por espacios simples
        tokens = cleaned_text.split()
        
        # Unir los tokens en un solo texto con espacios entre palabras
        tokens_join = ' '.join(tokens)
        
        return tokens_join

In [43]:
data["descripcion"] = data["descripcion"].apply(lambda x: clean_text(x))
data["descripcion"] = data["descripcion"].apply(lambda x: clean_text(x))
data

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
0,Sony,,control_remoto,,,,Sony Turntable - PSLX350H / Belt Drive System ...
1,Bose,,speaker,399,200,,Bose Acoustimass 5 Series III Speaker System -...
2,Sony,,Switch,49,,,Sony Switcher - SBV40S / Eliminates Disconnect...
3,Sony,,control_remoto,,,,Sony 5 Disc CD Player - CDPCE375 / 5 Disc Chan...
4,Bose,,speaker,158,,,Bose 161 Bookshelf Speakers In White - 161WH /...
...,...,...,...,...,...,...,...
1076,Logitech,,mouse,79,,,Logitech Cordless Desktop Wave Keyboard And Mo...
1077,Mitsubishi,,television,549,,,Mitsubishi DLP Black TV Stand - MBS73V / Match...
1078,Logitech,,audifonos,49,,,Logitech Digital Precision PC Gaming Headset -...
1079,Logitech,Z2300,speaker,,200,,Logitech 2 . 1 Multimedia Silver Speaker Syste...


In [44]:
data.to_csv("datos_limpios.csv", index = False)

In [45]:
# Exploración inicial del conjunto de datos
# Revisar tipos de datos y valores nulos
data_info = data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1081 entries, 0 to 1080
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   marca        1081 non-null   object
 1   sku          206 non-null    object
 2   tipo         738 non-null    object
 3   precio       420 non-null    object
 4   watts        72 non-null     object
 5   GB           91 non-null     object
 6   descripcion  1081 non-null   object
dtypes: object(7)
memory usage: 59.2+ KB


In [46]:

# Resumen estadístico de columnas numéricas
numeric_summary = data.describe()


numeric_summary

Unnamed: 0,marca,sku,tipo,precio,watts,GB,descripcion
count,1081,206,738,420,72,91,1081
unique,33,179,28,168,39,16,1081
top,Sony,FX820,control_remoto,49,100,8,Sony Turntable - PSLX350H / Belt Drive System ...
freq,188,5,126,18,7,14,1


In [47]:
# Revisar valores únicos por columna categórica
categorical_summary = data.select_dtypes(include='object').nunique()

categorical_summary

marca            33
sku             179
tipo             28
precio          168
watts            39
GB               16
descripcion    1081
dtype: int64

In [48]:
# Contar valores nulos en cada columna
null_values = data.isnull().sum()

import ace_tools as tools; tools.display_dataframe_to_user(name="Exploración inicial de los datos", dataframe=data.head())

# Mostrar información clave
(data_info, numeric_summary, categorical_summary, null_values)

ModuleNotFoundError: No module named 'ace_tools'