# Limpieza y preparación de datos

In [5]:
# Outliers 
import pandas as pd
import numpy as np

# Dataset simulado de ventas
data = {
    'Producto': ['Laptop', 'Tablet', 'Phone', 'Laptop', 'Tablet'],
    'Ventas': [1000, 500, 800, 10000, 600]  # 10000 es un outlier
}
df = pd.DataFrame(data)

# Calcular IQR
Q1 = df['Ventas'].quantile(0.25)
Q3 = df['Ventas'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Detectar outliers
outliers = df[(df['Ventas'] < limite_inferior) | (df['Ventas'] > limite_superior)]
print("Outliers:\n", outliers)
# Salida:
#   Producto  Ventas
# 3  Laptop   10000

# Reemplazar outliers por el límite superior
df['Ventas'] = df['Ventas'].clip(lower=limite_inferior, upper=limite_superior)
print("Ventas corregidas:\n", df)
# Salida (limite_superior ~1375, dependiendo del IQR):
#   Producto  Ventas
# 0  Laptop  1000.0
# 1  Tablet   500.0
# 2   Phone   800.0
# 3  Laptop  1375.0
# 4  Tablet   600.0

Outliers:
   Producto  Ventas
3   Laptop   10000
Ventas corregidas:
   Producto  Ventas
0   Laptop    1000
1   Tablet     500
2    Phone     800
3   Laptop    1600
4   Tablet     600


In [4]:
# Detección de valores duplicados
# Dataset con duplicados
data = {
    'Producto': ['Laptop', 'Tablet', 'Laptop', 'Tablet', 'Tablet'],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Barcelona', 'Barcelona']
}
df_dup = pd.DataFrame(data)

# Detectar duplicados
print("Duplicados:\n", df_dup[df_dup.duplicated()])
# Salida:
#   Producto    Ciudad
# 4  Tablet  Barcelona

# Eliminar duplicados
df_no_duplicates = df_dup.drop_duplicates()
print("Sin duplicados:\n", df_no_duplicates)
# Salida:
#   Producto    Ciudad
# 0  Laptop    Madrid
# 1  Tablet  Barcelona
# 2  Laptop    Madrid

Duplicados:
   Producto     Ciudad
2   Laptop     Madrid
3   Tablet  Barcelona
4   Tablet  Barcelona
Sin duplicados:
   Producto     Ciudad
0   Laptop     Madrid
1   Tablet  Barcelona


In [6]:
# Normalización Min-Max
# Normalizar la columna Ventas
df['Ventas_normalizadas'] = (df['Ventas'] - df['Ventas'].min()) / (df['Ventas'].max() - df['Ventas'].min())
print("Ventas normalizadas:\n", df[['Ventas', 'Ventas_normalizadas']])
# Salida (tras corrección de outliers):
#    Ventas  Ventas_normalizadas
# 0  1000.0            0.666667
# 1   500.0            0.000000
# 2   800.0            0.400000
# 3  1375.0            1.000000
# 4   600.0            0.133333

Ventas normalizadas:
    Ventas  Ventas_normalizadas
0    1000             0.454545
1     500             0.000000
2     800             0.272727
3    1600             1.000000
4     600             0.090909


In [7]:
# Codificación categórica
# Codificar la columna Producto
df_encoded = pd.get_dummies(df, columns=['Producto'], prefix='Prod')
print("DataFrame codificado:\n", df_encoded)
# Salida:
#    Ventas  Ventas_normalizadas  Prod_Laptop  Prod_Phone  Prod_Tablet
# 0  1000.0            0.666667         True      False        False
# 1   500.0            0.000000        False      False         True
# 2   800.0            0.400000        False       True        False
# 3  1375.0            1.000000         True      False        False
# 4   600.0            0.133333        False      False         True

DataFrame codificado:
    Ventas  Ventas_normalizadas  Prod_Laptop  Prod_Phone  Prod_Tablet
0    1000             0.454545         True       False        False
1     500             0.000000        False       False         True
2     800             0.272727        False        True        False
3    1600             1.000000         True       False        False
4     600             0.090909        False       False         True


In [8]:
# Integración con numpy
# Convertir columna Ventas a array de NumPy
ventas_array = df['Ventas'].to_numpy()
# Calcular logaritmo natural (por ejemplo, para escalar datos)
log_ventas = np.log(ventas_array)
df['Log_Ventas'] = log_ventas
print("Ventas con logaritmo:\n", df[['Ventas', 'Log_Ventas']])
# Salida:
#    Ventas  Log_Ventas
# 0  1000.0   6.907755
# 1   500.0   6.214608
# 2   800.0   6.684612
# 3  1375.0   7.226209
# 4   600.0   6.396930

Ventas con logaritmo:
    Ventas  Log_Ventas
0    1000    6.907755
1     500    6.214608
2     800    6.684612
3    1600    7.377759
4     600    6.396930
