## Limpieza de los datos (antes del análisis):

### 0. Este archivo se encargara exclusivamente de la limpieza, normalización y validación del dataset original de Amazon.
### No se realizara un análisis exploratorio, visualización ni modelado.

## 1. Carga del dataset.

In [1]:
# Manipulación de datos
import pandas as pd
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración visual
plt.style.use("default")
sns.set_context("notebook")

import warnings

# Bloquea específicamente las advertencias de tipo FutureWarning
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
# Cargar el dataset
df = pd.read_csv('../data/raw/amazon.csv')

In [3]:
df.head()

Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,₹399,"₹1,099",64%,4.2,24269,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,₹199,₹349,43%,4.0,43994,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,₹199,"₹1,899",90%,3.9,7928,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,₹329,₹699,53%,4.2,94363,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,₹154,₹399,61%,4.2,16905,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...


## 2. Auditoría inicial del dataset

In [4]:
print(f'Cantidad de columnas del dataset: {df.shape[1]}\nCantidad de filas del dataset: {df.shape[0]}')

Cantidad de columnas del dataset: 16
Cantidad de filas del dataset: 1465


In [5]:
# Informacion general del dataset:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   product_id           1465 non-null   object
 1   product_name         1465 non-null   object
 2   category             1465 non-null   object
 3   discounted_price     1465 non-null   object
 4   actual_price         1465 non-null   object
 5   discount_percentage  1465 non-null   object
 6   rating               1465 non-null   object
 7   rating_count         1463 non-null   object
 8   about_product        1465 non-null   object
 9   user_id              1465 non-null   object
 10  user_name            1465 non-null   object
 11  review_id            1465 non-null   object
 12  review_title         1465 non-null   object
 13  review_content       1465 non-null   object
 14  img_link             1465 non-null   object
 15  product_link         1465 non-null   object
dtypes: obj

In [6]:
# Calcular la cantidad de nulos:
datos_nulos = df.isnull().sum()
# Calcular los datos duplicados:
datos_duplicados = df.duplicated().sum()

# Mostrar los datos en pantalla:
print(f'Cantidad de datos nulos:\n{datos_nulos}\n')
print(f'Cantidad de datos duplicados: {datos_duplicados}')

Cantidad de datos nulos:
product_id             0
product_name           0
category               0
discounted_price       0
actual_price           0
discount_percentage    0
rating                 0
rating_count           2
about_product          0
user_id                0
user_name              0
review_id              0
review_title           0
review_content         0
img_link               0
product_link           0
dtype: int64

Cantidad de datos duplicados: 0


## 3. Traduccion de las columnas

In [7]:

# Diccionario con las traducciones de los titulos de las columnas
traduccion_col = {
    'product_id': 'id_producto',
    'product_name': 'nombre_producto',
    'category': 'categoria',
    'discounted_price': 'descuento_precio',
    'actual_price': 'precio_actual',
    'discount_percentage': 'porcentaje_descuento',
    'rating': 'calificacion',
    'rating_count': 'recuento_calificaciones',
    'about_product': 'detalle_producto',
    'user_id': 'id_usuario',
    'user_name': 'nombre_usuario',
    'review_id': 'id_de_revision',
    'review_title': 'titulo_resenia',
    'review_content': 'contenido_revision',
    'img_link': 'link_imagen',
    'product_link': 'link_producto'
}
# Reemplazar los titulos
df.rename(columns=traduccion_col, inplace=True)

## 4. Conversión y validación de tipos de datos

In [8]:
# Limpieza y transformacion de las columnas numericas
reglas_limpieza = {
    'descuento_precio': ["₹",","],
    'precio_actual': ["₹",","],
    'porcentaje_descuento': ['%'],
    'calificacion': ['.'],
    'recuento_calificaciones': [',']
}

# Iterar sobre el diccionario para aplicar la limpieza
for columna, caracteres_a_eliminar in reglas_limpieza.items():
    # Convertir a cadena de texto
    df[columna] = df[columna].astype(str)
    # Eliminar cada carácter en la lista
    for caracter in caracteres_a_eliminar:
        df[columna] = df[columna].str.replace(caracter, '', regex=False)
    # Convertir a numérico
    df[columna] = pd.to_numeric(df[columna], errors='coerce')

df['calificacion'] = pd.to_numeric(df['calificacion'], errors='coerce')

### Transformacion de las columnas a numericas

In [9]:

# iterar sobre el diccionario para aplicar la limpieza
for columna, caracteres_a_eliminar in reglas_limpieza.items():
    # Convertir a cadena de texto
    df[columna] = df[columna].astype(str)
    # Eliminar cada carácter en la lista
    for caracter in caracteres_a_eliminar:
        df[columna] = df[columna].str.replace(caracter, "", regex=False)
    # Convertir a numérico
    df[columna] = pd.to_numeric(df[columna], errors='coerce')

# Manejar las columnas que solo necesitan converión numérica
df["calificacion"] = pd.to_numeric(df["calificacion"], errors='coerce')

# Transformar la calificacion en puntuacion:

In [10]:
df['calificacion'] = df['calificacion'] / 100

## 5. Tratamiento de valores nulos/duplcicados

In [11]:
# Remplazar los dos valores nulos de recuento_calificaciones por la media
df['recuento_calificaciones'].fillna(df['recuento_calificaciones'].median(), inplace=True)

# Reemplazar los valores de calificacion por la mediana
df['calificacion'].fillna(df['calificacion'].median(), inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id_producto              1465 non-null   object 
 1   nombre_producto          1465 non-null   object 
 2   categoria                1465 non-null   object 
 3   descuento_precio         1465 non-null   float64
 4   precio_actual            1465 non-null   float64
 5   porcentaje_descuento     1465 non-null   int64  
 6   calificacion             1465 non-null   float64
 7   recuento_calificaciones  1465 non-null   float64
 8   detalle_producto         1465 non-null   object 
 9   id_usuario               1465 non-null   object 
 10  nombre_usuario           1465 non-null   object 
 11  id_de_revision           1465 non-null   object 
 12  titulo_resenia           1465 non-null   object 
 13  contenido_revision       1465 non-null   object 
 14  link_imagen             

## 6. Validación de rangos lógicos

In [12]:
# 1. Copia defensiva
df_clean = df.copy()

# 2. Imputación SIN inplace
df_clean['recuento_calificaciones'] = (df_clean['recuento_calificaciones'].fillna(df_clean['recuento_calificaciones'].median()))

df_clean['calificacion'] = (df_clean['calificacion'].fillna(df_clean['calificacion'].median()))

# 3. Auditoría previa
print("Antes de filtros:", df_clean.shape)

# 4. Filtros de rangos (uno por uno)
df_clean = df_clean[df_clean['precio_actual'] > 0]
print("Precio > 0:", df_clean.shape)

df_clean = df_clean[df_clean['descuento_precio'] > 0]
print("Descuento > 0:", df_clean.shape)

df_clean = df_clean[df_clean['porcentaje_descuento'].between(0, 100)]
print("Porcentaje OK:", df_clean.shape)

df_clean = df_clean[df_clean['calificacion'].between(0, 5)]
print("Clasificación OK:", df_clean.shape)

df_clean = df_clean[df_clean['recuento_calificaciones'] >= 0]
print("Recuento OK:", df_clean.shape)


Antes de filtros: (1465, 16)
Precio > 0: (1465, 16)
Descuento > 0: (1465, 16)
Porcentaje OK: (1465, 16)
Clasificación OK: (1465, 16)
Recuento OK: (1465, 16)


No existen productos anormales, todos cumplen con los requisitos

## 7. Consistencia entre columnas relacionadas

In [13]:
# Recalcular el presio esperado a partir del descuento
precio_estimado = df_clean['descuento_precio'] / (1 - df_clean['porcentaje_descuento'] / 100)

# Diferencia relativa entre precio real y estimado
df_clean['error_precio_relativo'] = abs(df_clean['precio_actual'] - precio_estimado) / df_clean['precio_actual']

# Filtrar inconsistencias graves (> 5%)
df_clean = df_clean[df_clean['error_precio_relativo'] <= 0.05]

# Eliminar columna auxiliar:
df_clean.drop(columns='error_precio_relativo', inplace=True)

#### Lógica:
#### 1. Calcular el 'precio_original_estimado' aplicando la fórmula del descuent a la inversa (a partir del precio con descuento y el porcentaje).
#### 2. Medir el 'error_relativo' (%) entre este precio estimado y el precio_actual.
#### 3. Filtrar el DataFrame para conservar solo los productos con un error
####    relativo menor o igual al 5%, eliminando así las inconsistencias graves.
#### 4. Limpiar la columna auxiliar de error utilizada para el filtrado.

## 8. Identificación de outliers (sin análisis)

In [14]:
# Metodo IQR para precios
Q1 = df_clean['precio_actual'].quantile(0.25)
Q3 = df_clean['precio_actual'].quantile(0.75)
IQR = Q3 - Q1

# Calculando los limites
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Flag de outlier (No se eliminan)
df_clean['outlier_precio'] = ((df_clean['precio_actual'] < limite_inferior) | (df_clean['precio_actual'] > limite_superior))

In [15]:
df_clean['outlier_precio'].value_counts()

outlier_precio
False    1252
True      213
Name: count, dtype: int64

Solamente existen 213 datos que son atipicos, el resto de los valores estan bien

## 9. Variables derivadas neutras

In [16]:
# Diferencia absoluta entre precio original y descuento
df_clean['diferencia_precio'] = (df_clean['precio_actual'] - df_clean['descuento_precio'])

# Flag de producto con descuento
df_clean['tiene_descuento'] = df_clean['porcentaje_descuento'] > 0
df_clean['tiene_descuento'].value_counts()

tiene_descuento
True     1416
False      49
Name: count, dtype: int64

Existen 1416 productos los cuales tienen un porcentaje de descuento.

Existen 49 productos que no se les aplica ningun tipo de descuento.

## 10. Validación final del dataset limpio

In [17]:
print(f'Filas finales : {df_clean.shape[0]}')
print(f'Columnas finales: {df_clean.shape[1]}')

# Revisión final de nulos
df_clean.isnull().mean().sort_values(ascending=False)

Filas finales : 1465
Columnas finales: 19


id_producto                0.0
nombre_producto            0.0
categoria                  0.0
descuento_precio           0.0
precio_actual              0.0
porcentaje_descuento       0.0
calificacion               0.0
recuento_calificaciones    0.0
detalle_producto           0.0
id_usuario                 0.0
nombre_usuario             0.0
id_de_revision             0.0
titulo_resenia             0.0
contenido_revision         0.0
link_imagen                0.0
link_producto              0.0
outlier_precio             0.0
diferencia_precio          0.0
tiene_descuento            0.0
dtype: float64

## 11.Exportación del dataset limpio

In [18]:
df_clean.to_csv('../data/processed/amazon_clean_v1.csv', index=False)

## 12. Validación post-limpieza:

* Ausencia de 2 valores en la columna "recuento_calificaciones" y 1 valor ausente en "calificacione" que fueron reemplazados por la mediana.

* Traduccion de todos los nombres de las columnas a español para mayor facilidad en la limpieza.

* Trasformacion de las columnas a numéricos y eliminacion de signos:
    - descuento_precio: float64.
    - precio_actual: float64.
    - porcentaje_descuento: int.
    - clasificacion: float64.
    - recuento_calificaciones: float64.

* Validación de los rangos logicos para comprobar que ningun dato sea anormal.

* Ver si no hay consistencias entre las columnas relacionadas

* Identificacion de los datos outliers

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id_producto              1465 non-null   object 
 1   nombre_producto          1465 non-null   object 
 2   categoria                1465 non-null   object 
 3   descuento_precio         1465 non-null   float64
 4   precio_actual            1465 non-null   float64
 5   porcentaje_descuento     1465 non-null   int64  
 6   calificacion             1465 non-null   float64
 7   recuento_calificaciones  1465 non-null   float64
 8   detalle_producto         1465 non-null   object 
 9   id_usuario               1465 non-null   object 
 10  nombre_usuario           1465 non-null   object 
 11  id_de_revision           1465 non-null   object 
 12  titulo_resenia           1465 non-null   object 
 13  contenido_revision       1465 non-null   object 
 14  link_imagen             