# Contexto y objetivo

Explorar en profundidad el dataset proporcinado y extraer insights clave que puedan mejorar la detección de productos falsificados

## Diccionario de datos

| Atributo             | Tipo de variable | Descripción                                                                                   |
|----------------------|------------------|-----------------------------------------------------------------------------------------------|
| element_id           | Texto            |Id de producto                                                                                |
| site_id              | Categorica       |País                                                                                          |
| seller_id            | Numerica         |Id del vendedor                                                                                |
| Dominio_normalizado  | Categorica       |Categoría del producto                                                                        |
| Titulo               | Texto            |Título del producto                                                                           |
| Marca                | Categorica       |Marca publicada del producto                                                                   |
| Precio               | Numerica         |Precio del producto                                                                           |
| Rule                 | Categorica       |Regla con la que se moderó la publicación                                                    |
| Score                | Numerica         |Score del modelo de Machine Learning. Utilizado por la regla "FK_MODELO"                     |
| Moderado             | Categorica       |Flag que indica que el producto fue moderado por alguna regla                                |
| Fake                 | Categorica       |Flag que indica que el producto es un producto falsificado. Taggeado de forma manual         |
| Rollback             | Categorica       |Flag que indica que luego de la moderación, la misma fue revertida por un operador de Atención al Cliente ante reclamo de usuario |
| FK_TEST1             | Categorica       |Regla de test. Actualmente apagada. Si detecta que es Fake, FK_TEST1 = 1                    |
| FK_TEST2             | Categorica       |Regla de test. Actualmente apagada. Si detecta que es Fake, FK_TEST2 = 1                    |


# 1. Instalación e importación de librerías

In [1]:
# Manejo de datos
import pandas as pd
import numpy as np

# Visualización de datos
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# Analisis profundo de datos
from ydata_profiling import ProfileReport

## 2. Declaración de variables

In [2]:
# Se define la ruta del archivo donde se encuentra el archivo Excel.
file_path = "C:/Users/ZP223JJ/OneDrive - EY/Documentos/Santiago Ramirez/MELI/"
# Se define el nombre del archivo Excel que se va a utilizar.
file_name = "Work Sample 2025 - Analista Sr. de Operaciones & Analytics - Moderaciones IT.xlsx"
# Se define el nombre de la hoja dentro del archivo Excel que se desea acceder.
file_sheet_name = "Base"
# Se lee el archivo Excel especificado
df = pd.read_excel(f"{file_path}/{file_name}", sheet_name=file_sheet_name)
# Se crea una copia
df_ = df.copy()
# Creación de lista de campos a transformar
variables_cat = ["Moderado", "Fake", "Rollback", "FK_TEST1", "FK_TEST2"]

# 3. Transformación de datos

Se evidencia que los atributos **"Moderado"**, **"Fake"**, **"Rollback"**, **"FK_TEST1"** y **"FK_TEST2"** son numéricos y corresponden a un resultado binario de **"Sí"** o **"No"**. Para no sesgar el resultado de medidas estadísticas, se toma la decisión de reemplazar los valores **1** por **"Sí"** y **0** por **"No"**. Para ello, se crea la función **`reemplazar_valores`**:

In [3]:
def reemplazar_valores(table, column_name):
    """
    Esta función toma un DataFrame y el nombre de una columna como parámetros,
    y reemplaza los valores de 1 por 'Si' y los valores de 0 por 'No'.

    Parámetros:
    ----------
    df : pd.DataFrame
        El DataFrame que contiene la columna a modificar.
    columna : str
        El nombre de la columna en la que se realizarán los reemplazos.

    Retorna:
    -------
    pd.DataFrame
        El DataFrame modificado con los valores reemplazados en la columna especificada.
    """
    table[column_name] = table[column_name].replace({1: 'Si', 0: 'No'})
    return table

In [4]:

# Ejecución de la función reemplazar_valores
for i in variables_cat:
    df_ = reemplazar_valores(df_, i)

El atributo **"Total"** tiene valores constantes y también se desconoce su función, por ende, se elimina.

In [5]:
# eliminar la columna 'Total'
df_ = df_.drop ('Total', axis = 1)

In [6]:
df_.head()

Unnamed: 0,element_id,site_id,seller_id,Dominio_normalizado,Titulo,Marca,Precio,Rule,Score,Moderado,Fake,Rollback,FK_TEST1,FK_TEST2
0,ARG1000130348,ARGENTINA,924394736,COMPUTER_PROCESSORS,Microprocesador Intel Core I3 12100 12mb Bx807...,Intel,222599.0,,0.11,No,No,No,No,No
1,ARG1002056504,ARGENTINA,60385780,COMPUTER_MONITORS,Monitor Gamer Samsung Con Pantalla De 25 60hz...,Samsung,767000.0,,0.29,No,No,No,No,No
2,ARG1002630435,ARGENTINA,1085316688,SUNGLASSES,Anteojos De Sol Polarizados Ray-ban Erika Clas...,Ray-Ban,246510.0,,0.51,No,No,No,No,No
3,ARG1003499360,ARGENTINA,189266308,HARD_DRIVES_AND_SSDS,Ssd Externo Kingston Xs1000 1tb Negro Usb 3.2 ...,Kingston,179999.0,,0.32,No,No,No,No,No
4,ARG1004623658,ARGENTINA,127503700,RAM_MEMORY_MODULES,Memoria Ram Valueram Color Verde 8gb 1 Kingsto...,Kingston,22399.0,,0.8,No,No,No,No,No


Perfilamiento de los datos

In [8]:
df_[df_["site_id"] == "ARGENTINA"].profile_report(html={'style':{'full_width':True}})

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

