## ¿Qué es el Método IQR?

El rango intercuartílico (IQR) es una medida estadística de la dispersión en los datos. Se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), y representa el rango donde se concentra la mitad central de los datos. Este método es común para detectar valores atípicos (outliers), ya que los outliers suelen estar por fuera de los rangos normales de variación de los datos.

Cualquier dato que esté por debajo del límite inferior o por encima del límite superior es considerado un outlier. Esto es porque, estadísticamente, los valores fuera de este rango tienen menos probabilidad de pertenecer a la distribución central de los datos y podrían distorsionar el análisis.

La constante 1.5 en el cálculo de los límites de los outliers es una convención estadística ampliamente aceptada para detectar valores extremos que se desvían significativamente del rango intercuartílico (IQR).

Si se espera una cantidad significativa de outliers o una distribución con mucha variabilidad, podrías usar una constante diferente:

* 1.0 veces el IQR: Para detectar más outliers, incluyendo valores menos extremos.
* 3.0 veces el IQR: Para detectar solo los valores extremadamente lejanos, en datos donde el rango típico es muy amplio.
* la constante 1.5 es un valor ampliamente aceptado por su eficacia para detectar valores fuera de lo común en distribuciones comunes sin ser demasiado restrictivo ni demasiado permisivo.

In [1]:
import pandas as pd
import numpy as np
import logging

# Configuración de logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    filename='outliers_detection.log',
    filemode='w'
)
logger = logging.getLogger("OutliersLogger")
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO)
console_format = logging.Formatter('%(levelname)s - %(message)s')
console_handler.setFormatter(console_format)
logger.addHandler(console_handler)

# Generación de datos simulados con outliers
np.random.seed(0)
ingresos = np.random.normal(5000, 1500, 100).tolist()  # Ingresos promedio con desvío estándar
ingresos.extend([20000, 22000, 25000])  # Agregar algunos valores atípicos (outliers)
df = pd.DataFrame({'Ingresos': ingresos})

# Imprimir el DataFrame inicial
logger.info("DataFrame inicial con posibles outliers:")
print("DataFrame inicial con posibles outliers:")
print(df.describe())

# Detección de outliers usando el método IQR
Q1 = df['Ingresos'].quantile(0.25)
Q3 = df['Ingresos'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df[(df['Ingresos'] < lower_bound) | (df['Ingresos'] > upper_bound)]
logger.info("Valores atípicos detectados:\n%s", outliers)

# Tratamiento de outliers: reemplazar con el percentil 95
percentile_95 = df['Ingresos'].quantile(0.95)
df['Ingresos'] = np.where(
    (df['Ingresos'] < lower_bound) | (df['Ingresos'] > upper_bound),
    percentile_95,
    df['Ingresos']
)
logger.info("DataFrame después del tratamiento de outliers (reemplazo con percentil 95):")
print("\nDataFrame después del tratamiento de outliers:")
print(df.describe())


INFO - DataFrame inicial con posibles outliers:
INFO - Valores atípicos detectados:
     Ingresos
100   20000.0
101   22000.0
102   25000.0
INFO - DataFrame después del tratamiento de outliers (reemplazo con percentil 95):


DataFrame inicial con posibles outliers:
           Ingresos
count    103.000000
mean    5591.953421
std     3294.787479
min     1170.515276
25%     4090.121181
50%     5190.368139
75%     6231.444916
max    25000.000000

DataFrame después del tratamiento de outliers:
          Ingresos
count   103.000000
mean   5172.087309
std    1571.369195
min    1170.515276
25%    4090.121181
50%    5190.368139
75%    6231.444916
max    8404.631936
