## Limpieza de Datos con Python

In [None]:
# Importando las librerías necesarias
import matplotlib.pyplot as plt # Para gráficos básicos
import seaborn as sns # Para gráficos estadísticos
import plotly.express as px # Para gráficos interactivos
import pandas as pd # Para manipulación de datos
import numpy as np # Para operaciones numéricas
from colorama import Fore, Style # Para colores en la terminal

In [None]:
# Ruta del archivo CSV
ruta = "../data/raw/amazon.csv"
# Cargando el dataset
df = pd.read_csv(ruta)

### 1. Inspección Inicial

In [None]:
# Inspección Inicial
print(Fore.GREEN + "Inspección Inicial del Dataset:" + Style.RESET_ALL)
print(Fore.BLUE + f"El dataset contiene {df.shape[0]} filas y {df.shape[1]} columnas." + Style.RESET_ALL)

In [None]:
# Primeras filas del dataset
print(Fore.GREEN + "Primeras filas del dataset: " + Fore.RESET)
df.head()

In [None]:
# Información del DataFrame
print(Fore.GREEN + "Información del DataFrame:" + Fore.RESET)
print(Fore.BLUE)
df.info()
print(Style.RESET_ALL)

**Interpretación:**

- Podemos concluir que no hay nulos en el dataset.
- Hay que corregir los tipos de datos (Dtypes) en algunas columnas.

In [None]:
# Estadísticas descriptivas
print(Fore.BLUE + "Estadísticas descriptivas:")
df.describe()

**Interpretación:**

- Ya que todas las columnas son de tipo Object, no se puede concluir cuales son las estadísticas descriptivas generales.

### 2. Tratamiento de valores nulos

In [None]:
# Ver valores nulos
print(Fore.GREEN + "Valores nulos en el dataset:" + Fore.RESET)
print(df.isnull().sum())

**Interpretación:**

- No hay valores nulos en ninguna de las columnas.

### 3. Eliminación de Duplicados

In [None]:
print("Valores únicos por columna:")
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores únicos")
# Verificación de duplicados
print(Fore.GREEN + "Número de filas duplicadas en el dataset:" + Fore.RESET)
print(df.duplicated().sum()) 

**Interpretación:**

- No hay duplicados en el dataset

### 4. Conversión de tipos de datos

In [None]:
# Revisión de tipos de datos
print(Fore.GREEN + "Tipos de datos de cada columna:" + Fore.RESET)
print(df.dtypes)

In [None]:
df.head(1)

In [None]:
# Convertir columnas a tipos adecuados

# Eliminar símbolos no numéricos de los precios
df['discounted_price'] = df['discounted_price'].str.replace(r'[^\d.]', '', regex=True)
df['actual_price'] = df['actual_price'].str.replace(r'[^\d.]', '', regex=True)

# Eliminar '%' del porcentaje
df['discount_percentage'] = df['discount_percentage'].str.replace('%', '', regex=True)

# Eliminar comas del conteo de calificaciones
df['rating_count'] = df['rating_count'].str.replace(',', '', regex=True)

# Eliminar valores no numéricos en 'rating' (por ejemplo: '|', 'N/A', etc.)
df['rating'] = pd.to_numeric(df['rating'], errors='coerce')

# Convertir todo a los tipos correctos (y NaN si no se puede convertir)
df['discounted_price'] = pd.to_numeric(df['discounted_price'], errors='coerce')
df['actual_price'] = pd.to_numeric(df['actual_price'], errors='coerce')
df['discount_percentage'] = pd.to_numeric(df['discount_percentage'], errors='coerce')
df['rating_count'] = pd.to_numeric(df['rating_count'], errors='coerce')

In [None]:
# Verificar los tipos de datos después de la conversión
print(Fore.GREEN + "Tipos de datos después de la conversión:" + Fore.RESET)
print(df.dtypes)

In [None]:
df.describe() # Para ver estadisticas descriptivas después de la conversión

### 5. Detección y Tratamiento de Outliers

In [None]:
# Identificar columnas numéricas para detección de outliers
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
numeric_cols

In [None]:
# boxplot para detectar outliers en cada columna numérica usando plotly

for col in numeric_cols:
    fig = px.box(
        df, 
        y=col, 
        title=f'📦 Boxplot de {col}',
        points="all",  # Muestra todos los puntos (outliers incluidos)
        template="plotly_white",  # Fondo claro y limpio
        color_discrete_sequence=["#800000"]  # Color vino tinto profesional
    )
    
    fig.update_layout(
        title_font=dict(size=20, family='Arial', color='black'),
        yaxis_title=col,
        yaxis=dict(showgrid=True, gridcolor='lightgray'),
        margin=dict(l=50, r=30, t=50, b=30),
        height=400
    )
    
    fig.update_traces(jitter=0.3, marker=dict(size=5, opacity=0.6))
    fig.show()

    
# for col in numeric_cols:
#     plt.figure(figsize=(10, 5))
#     sns.boxplot(x=df[col])
#     plt.title(f'Boxplot de {col}')
#     plt.show()
    

In [None]:
import plotly.io as pio

for col in numeric_cols:
    fig = px.box(
        df, 
        y=col, 
        title=f'📦 Boxplot de {col}',
        points="all",
        template="plotly_white",
        color_discrete_sequence=["#800000"]
    )
    
    fig.update_layout(
        title_font=dict(size=20, family='Arial', color='black'),
        yaxis_title=col,
        margin=dict(l=50, r=30, t=50, b=30),
        height=400
    )
    
    # Guardar como imagen
    pio.write_image(fig, f"boxplot_{col}.png")
