## ⚡ Analítica Turbo con Polars: Fundamentos que todo Analista Moderno debe conocer 🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería de polars: pip install polars
# Importamos la librería
import polars as pl

### 📌 Dataframes en Polars: ...

#### ✅ RANGO INTERQUARTIL EN POLARS 🐻‍❄️

El rango interquartil (IQR) es una métrica estadística utilizada para identificar valores atípicos en un conjunto de datos. Su uso es esencial en procesos de limpieza y validación, debido que permite evaluar la integridad del dataset al detectar registros que se desvían significativamente del comportamiento general. En proyectos de Machine Learning, una correcta identificación de outliers a través del IQR permite mejorar la calidad de los datos de entrada, lo que impacta directamente en el rendimiento y generalización de los modelos. Para perfiles como Data Analysts y Data Engineers, el IQR se convierte en una herramienta clave en la etapa de preprocesamiento de datos.

In [2]:
# ESTADÍSTICA BÁSICA EN POLARS: Mediante la función .describe()
"""
    📝 SINTAXIS:
    
        dataframe_nombre.describe() ⬅️ Esta función devuelve: cantidad_valores||media||desviación_estándar||
                                                               valor_mínimo||valor_máximo||quartil_(1,2,3) ⬅️ Quartiles con.desribe()
    
    ### 💡 Importante: Esta función devuelve para las columnas con datos numéricos y Strings.
"""
""" ✅ PARA LOS EJEMPLOS DE IQR, USAREMOS UN DATASET DE LA CARPETA datasets: titanic.csv"""

df_titanic = pl.read_csv("../datasets/titanic.csv",separator=",") # ⬅️ Lo explicaremos en próximos temas
# df_titanic.head()

# 💡 EJEMPLO 1 : 

# df_titanic.describe() # ⬅️ Verificamos las estadísticas básicas descriptivas del dataset

""" 
    QUARTILES:

    Los quartiles hacen referencia a las partes iguales divididas en 4 de todo el conjunto de datos.
    Q1 (25% de los datos) - Q2 (50% de los datos) - Q3 (75% de los datos) y Q4 (100% de los datos).
    
    📝 SINTAXIS:

    valor_quartil = np.percentile(ColumnaDeDataframeOSerie,CantidadCuartil)
    
    ### 🧠 Para los valores atípico solo usaremos los quartiles 1 y 3.
"""

# 💡 EJEMPLO 2: RANGO INTERQUARTIL (Columna "fare")

q1_fare = df_titanic.select(pl.col("fare").quantile(0.25)).item() # Percentil o Quartil 1
q3_fare = df_titanic.select(pl.col("fare").quantile(0.75)).item() # Percentil o Quartil 3

range_iqr_fare = q3_fare - q1_fare # Cálculo del rango interquartil 

# Límite inferior
lower_bound_fare  = q1_fare - 1.5 * range_iqr_fare # Formula para hallar valores no atípicos, es decir, valores normales.
# Límite superior
upper_bound_fare  = q3_fare + 1.5 * range_iqr_fare # Formula para hallar valores atípicos, es decir, valores no normales.

df_titanic_atipicos = df_titanic.filter(
    (pl.col("fare")<lower_bound_fare) |
    (pl.col("fare")>upper_bound_fare) 
)
# df_titanic_atipicos.head()


df_titanic_normales = df_titanic.filter(
    (pl.col("fare")>=lower_bound_fare) &
    (pl.col("fare")<=upper_bound_fare) 
)
df_titanic_normales.head()

print(f"Cantidad de datos inicial: {df_titanic.shape[0]}")
print(f"Cantidad de datos atípicos: {df_titanic_atipicos.shape[0]}")
print(f"Cantidad de datos normales: {df_titanic_normales.shape[0]}")

Cantidad de datos inicial: 891
Cantidad de datos atípicos: 116
Cantidad de datos normales: 775
