# Ejercicios: Regresión Lineal con Datos Reales

## Introducción

En este notebook practicarás **regresión lineal** con datos reales.

### ¿Qué harás?
Tendrás que:
1. Cargar datos
2. Entrenar modelos de regresión
3. Hacer predicciones
4. Evaluar qué tan bien funciona el modelo
5. Interpretar los resultados

### Datos disponibles:
- **Titanic**: Pasajeros con edad, tarifa, clase, etc.
- **Calidad del aire**: Medidas diarias de contaminación
- **Top 10 canciones**: Características musicales

---

## Importar Librerías

In [3]:
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import warnings
warnings.filterwarnings('ignore')

# Configuración
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("✓ Librerías importadas")

✓ Librerías importadas


# EJERCICIO 1: Predecir tarifa basado en edad (Titanic)

**Objetivo:** Usar la edad de un pasajero para predecir cuánto pagó por su boleto.

**Pregunta:** ¿Los pasajeros más jóvenes pagaron más o menos por sus boletos?

**Tareas:**
1. Carga los datos del Titanic
2. Explora los datos (EDA)
3. Selecciona Age como predictor (X) y Fare como objetivo (y)
4. Elimina valores faltantes
5. Dividir en train y test los valores 
6. Entrena un modelo de regresión lineal
7. Haz una predicción: 
8. Calcula el R² y MAE en el conjunto de prueba
9. Haz una predicción especifica: ¿Cuánto pagó un pasajero de 30 años?
10. Muestra los datos en un gráfico scatter con los datos y la línea de regresión

In [None]:
# COMPLETA ESTE CÓDIGO:

# 1. Cargar datos
df = pd.read_csv("./0.Datos/titanic.csv")

# 2. Exploración de datos (EDA)
print(df.head())
print(df.describe())
print(df.info())
print(df[["Age", "Fare"]].info())

# 3. Selecciona Age como predictor (X) y Fare como objetivo (y)
X = df["Age"]
y = df["Fare"]

# 4. Elimina valores faltantes
data = df[["Age", "Fare"]].dropna()
X = data[["Age"]]   # doble corchete porque sklearn espera 2D
y = data["Fare"]

print(f"Registros después de eliminar valores faltantes: {len(X)}")

# 5. Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
  

In [8]:
# 6. Entrenar modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# 7. Hacer predicciones
y_pred = modelo.predict(X_test)

# 8. Calcula el R² y MAE en el conjunto de prueba
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print(f"R² Score: {r2}")
print(f"Error Promedio: {mae:.2f}£")
print(f"Ecuación: Tarifa = {modelo.coef_[0]:.2f} × Edad + {modelo.intercept_:.2f}")

R² Score: 0.003810182322476874
Error Promedio: 30.05£
Ecuación: Tarifa = 0.36 × Edad + 24.39


In [None]:
# 9. Hacer una predicción especifica para una edad dada
# TODO: elige una edad para predecir la tarifa (por ejemplo, 30 años) 
# y guárdala en la variable edad_nueva
# edad_nueva = ...

edad_nueva = 30

# TODO: Usa el modelo entrenado para predecir la tarifa para personas de 30 años. 
# Recuerda que el modelo espera una matriz 2D, así que debes pasar [[edad_nueva]]
# tarifa_predicha = ...

tarifa_predicha = modelo.predict([[edad_nueva]])[0] # type: ignore

print(f"\n¿Cuánto pagó un pasajero de 30 años?")
print(f"Predicción: £{tarifa_predicha:.2f}")

# También puedes mostrar la ecuación
print(f"\nEcuación del modelo: Tarifa = {modelo.coef_[0]:.2f} × {edad_nueva} + {modelo.intercept_:.2f}")
print(f"Cálculo manual: = £{tarifa_predicha:.2f}")

print(f"\nPredicción: Un pasajero de {edad_nueva} años pagó aproximadamente {tarifa_predicha:.2f}£")

# 10. Visualizar
# TODO: Crea un gráfico scatter con los datos y la línea de regresión
# Pistas para PLOTLY:
fig1 = go.Figure()
fig1.add_trace(go.Scatter(x=X.values.flatten(), y=y, mode='markers', name='Datos reales', marker=dict(size=6, color='blue', opacity=0.5))) # type: ignore
X_sorted = np.sort(X, axis=0)
y_pred_sorted = modelo.predict(X_sorted)
fig1.add_trace(go.Scatter(x=X_sorted.flatten(), y=y_pred_sorted, mode='lines', name='Línea de regresión', line=dict(color='red', width=3)))
fig1.update_layout(title='Ejercicio 1: Predecir Tarifa desde Edad', xaxis_title='Edad (años)', yaxis_title='Tarifa (£)', hovermode='closest', template='plotly_white', height=600, width=1000)
fig1.show()



¿Cuánto pagó un pasajero de 30 años?
Predicción: £35.07

Ecuación del modelo: Tarifa = 0.36 × 30 + 24.39
Cálculo manual: = £35.07

Predicción: Un pasajero de 30 años pagó aproximadamente 35.07£


# EJERCICIO 2: Predecir edad basado en tarifa (Titanic)

**Objetivo:** INVERSO del ejercicio 1. Ahora usaremos tarifa para predecir edad.

**Pregunta:** ¿Los boletos más caros corresponden a pasajeros más jóvenes o mayores?

**Tareas:**
1. Carga los datos del Titanic
2. Usa Fare como predictor (X) y Age como objetivo (y)
3. Elimina valores faltantes
4. Divide en train y test los valores
5. Entrena un modelo de regresión lineal
6. Haz predicciones en el conjunto de prueba
7. Calcula el R² y MAE en el conjunto de prueba
8. Haz una predicción específica: ¿Qué edad tenía alguien que pagó 100£?
9. Compara: ¿Es mejor predecir tarifa desde edad o edad desde tarifa?
10. Muestra los datos en un gráfico scatter con los datos y la línea de regresión

In [17]:
# COMPLETA ESTE CÓDIGO:

# 1. Cargar datos
df = pd.read_csv("./0.Datos/titanic.csv")

# 2. Exploración de datos (EDA)
print(df.head())
print(df.describe())
print(df.info())

# 3. Selecciona Fare como predictor (X) y Age como objetivo (y) - INVERSO al ejercicio 1
# 4. Elimina valores faltantes
datos = df[["Fare","Age"]].dropna()

X_ej2 = datos[["Fare"]]

y_ej2 = datos["Age"]

print(f"Registros después de eliminar valores faltantes: {len(X_ej2)}")

# 5. Dividir datos en entrenamiento y prueba
X_train_ej2, X_test_ej2, y_train_ej2, y_test_ej2 = train_test_split(
    X_ej2, y_ej2, test_size=0.2, random_state=42
)


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
  

In [18]:
# 6. Entrenar modelo
modelo2 = LinearRegression()
modelo2.fit(X_train_ej2,y_train_ej2)

# 7. Hacer predicciones
y_pred2 = modelo2.predict(X_test_ej2)

# 8. Calcula el R² y MAE en el conjunto de prueba
r2_ej2 = r2_score(y_test_ej2, y_pred2)
mae_ej2 = mean_absolute_error(y_test_ej2, y_pred2)

print(f"R² Score: {r2_ej2}")
print(f"Error Promedio: {mae_ej2:.2f} años")
print(f"Ecuación: Edad = {modelo2.coef_[0]:.2f} × Tarifa + {modelo2.intercept_:.2f}")

# 9. Comparación con ejercicio 1
print(f"\nEjercicio 1 - R²: {r2:.4f}")
print(f"Ejercicio 2 - R²: {r2_ej2:.4f}")
print(f"\n¿Cuál es mejor? {'Ejercicio 1' if r2 > r2_ej2 else 'Ejercicio 2'}")

# 10. Predicción específica
tarifa_nueva = 100

edad_predicha = modelo2.predict([[tarifa_nueva]])[0] # type: ignore

print(f"\n¿Qué edad tenía alguien que pagó {tarifa_nueva}£?")
print(f"Predicción: {edad_predicha:.0f} años")


R² Score: -0.015138878904974451
Error Promedio: 10.98 años
Ecuación: Edad = 0.03 × Tarifa + 28.91

Ejercicio 1 - R²: 0.0038
Ejercicio 2 - R²: -0.0151

¿Cuál es mejor? Ejercicio 1

¿Qué edad tenía alguien que pagó 100£?
Predicción: 32 años


---

# EJERCICIO 3: Predecir contaminación (Datos de Aire)

**Objetivo:** Predecir un tipo de contaminación basado en otro.

**Pregunta:** Si hay mucha contaminación por una métrica, ¿también hay mucha por otra?

**Tareas:**
1. Carga los datos de calidad del aire
2. Explora qué columnas contienen números
3. Selecciona 2 columnas numéricas (predictor y objetivo)
4. Elimina valores faltantes
5. Divide en train y test los valores
6. Entrena un modelo de regresión lineal
7. Haz predicciones en el conjunto de prueba
8. Calcula el R² y MAE en el conjunto de prueba
9. Interpreta si tienen buena relación lineal
10. Crea un gráfico scatter con los datos y la línea de regresión


In [16]:
# COMPLETA ESTE CÓDIGO:

# 1. Cargar datos
df_aire = pd.read_csv('./0.Datos/calidad_aire_datos_dia.csv', sep=";")
print(f"Datos cargados: {df_aire.shape[0]} registros")

# 2. Mostrar columnas numéricas
numericas = df_aire.select_dtypes(include=['number']).columns.tolist()
print(f"\nColumnas numéricas disponibles:")
for i, col in enumerate(numericas[:6]):
    print(f"  {i+1}. {col}")

# 3. Seleccionar dos columnas
col_x = numericas[0]  # Primera columna
col_y = numericas[1]  # Segunda columna

print(f"\nPredicetor (X): {col_x}")
print(f"Objetivo (Y): {col_y}")

Datos cargados: 175 registros

Columnas numéricas disponibles:
  1. provincia
  2. municipio
  3. estacion
  4. magnitud
  5. ano
  6. mes

Predicetor (X): provincia
Objetivo (Y): municipio


In [19]:
# COMPLETA ESTE CÓDIGO:

# 1. Preparar datos
# TODO: crea un DataFrame datos_aire con las columnas col_x y col_y sin valores faltantes
datos_aire = df_aire[[col_x,col_y]].dropna()

# TODO: extrae col_x como predictor y reshape a matriz 2D
X_aire = datos_aire[[col_x]]

# TODO: extrae col_y como objetivo
y_aire = datos_aire[col_y]

print(f"Registros después de eliminar valores faltantes: {len(X_aire)}")

# 2. Dividir datos en entrenamiento y prueba
# TODO: divide los datos con train_test_split() con test_size=0.2 y random_state=42
X_train_aire, X_test_aire, y_train_aire, y_test_aire = train_test_split(X_aire, y_aire, test_size=0.2, random_state=42)

# 3. Entrenar modelo
# TODO: crea un modelo de regresión lineal con LinearRegression() y entrénalo con X_train_aire e y_train_aire
modelo3 = LinearRegression()
modelo3.fit(X_train_aire,y_train_aire)

# 4. Hacer predicciones
# TODO: haz la predicción y_pred3 usando el modelo entrenado y X_test_aire
y_pred3 = modelo3.predict(X_test_aire)

# 5. Evaluar el modelo
# TODO: calcula el R² con r2_score() usando y_test_aire e y_pred3
# TODO: calcula el MAE con mean_absolute_error() usando y_test_aire e y_pred3
r2_ej3 = r2_score(y_test_aire, y_pred3)
mae_ej3 = mean_absolute_error(y_test_aire, y_pred3)

print(f"R² Score: {r2_ej3:.4f}")
print(f"Error Promedio: {mae_ej3:.2f}")
print(f"Ecuación: {col_y} = {modelo3.coef_[0]:.4f} × {col_x} + {modelo3.intercept_:.4f}")

# 6. Interpretar la relación lineal
# TODO: analiza el R² y proporciona una interpretación de la relación lineal
print(f"\nInterpretación:")
if r2_ej3 > 0.7:
    print(f"  ✓ MUY BUENA relación lineal entre {col_x} y {col_y}")
elif r2_ej3 > 0.5:
    print(f"  ⚠️  MODERADA relación lineal entre {col_x} y {col_y}")
else:
    print(f"  ✗ POBRE relación lineal entre {col_x} y {col_y}")


Registros después de eliminar valores faltantes: 175
R² Score: -0.0095
Error Promedio: 47.65
Ecuación: municipio = 0.0000 × provincia + 71.4000

Interpretación:
  ✗ POBRE relación lineal entre provincia y municipio


---

# EJERCICIO 4: Predecir popularidad de canciones

**Objetivo:** Descubrir qué característica musical predice mejor la popularidad.

**Pregunta:** ¿Las canciones con mayor energía, ritmo o danza son más populares?

**Tareas:**
1. Carga datos de top10s.csv
2. Explora qué columnas contienen números
3. Selecciona 2 columnas numéricas (predictor y objetivo)
4. Elimina valores faltantes
5. Divide en train y test los valores
6. Entrena un modelo de regresión lineal
7. Haz predicciones en el conjunto de prueba
8. Calcula el R² y MAE en el conjunto de prueba
9. Interpreta la relación lineal encontrada
10. Identifica qué característica musical es el mejor predictor


In [21]:
# COMPLETA ESTE CÓDIGO:

# 1. Cargar datos
df_musica = pd.read_csv('./0.Datos/top10s.csv', encoding='latin-1')
print(f"Datos cargados: {df_musica.shape[0]} canciones")

# 2. Mostrar columnas
print(f"\nPrimeras filas:")
print(df_musica.head())

# 3. Columnas numéricas
numericas_musica = df_musica.select_dtypes(include=['number']).columns.tolist()
print(f"\nColumnas numéricas: {numericas_musica[:5]}")

Datos cargados: 603 canciones

Primeras filas:
   Unnamed: 0                 title      artist        top genre  year  bpm  \
0           1      Hey, Soul Sister       Train       neo mellow  2010   97   
1           2  Love The Way You Lie      Eminem  detroit hip hop  2010   87   
2           3               TiK ToK       Kesha        dance pop  2010  120   
3           4           Bad Romance   Lady Gaga        dance pop  2010  119   
4           5  Just the Way You Are  Bruno Mars              pop  2010  109   

   nrgy  dnce  dB  live  val  dur  acous  spch  pop  
0    89    67  -4     8   80  217     19     4   83  
1    93    75  -5    52   64  263     24    23   82  
2    84    76  -3    29   71  200     10    14   80  
3    92    70  -4     8   71  295      0     4   79  
4    84    64  -5     9   43  221      2     4   78  

Columnas numéricas: ['Unnamed: 0', 'year', 'bpm', 'nrgy', 'dnce']


In [24]:
# COMPLETA ESTE CÓDIGO:

# 1. Preparar datos
# TODO: selecciona 2 columnas numéricas (predictor y objetivo) de df_musica
# puedes buscar en numericas_musica qué columnas están disponibles
# TODO: crea un DataFrame datos_musica con las 2 columnas sin valores faltantes
df_musica["pop"] = df_musica["pop"].astype(int)
df_musica["dur"] = df_musica["dur"].astype(int)

datos_musica = df_musica[["dur","pop"]].dropna()

# TODO: extrae la primera columna como predictor y reshape a matriz 2D
X_musica = datos_musica[["dur"]]

# TODO: extrae la segunda columna como objetivo
y_musica = datos_musica["pop"]

print(f"Registros después de eliminar valores faltantes: {len(X_musica)}")

# 2. Dividir datos en entrenamiento y prueba
# TODO: divide los datos con train_test_split() con test_size=0.2 y random_state=42
X_train_musica, X_test_musica, y_train_musica, y_test_musica = train_test_split(X_musica,y_musica, test_size=0.2, random_state=42)

# 3. Entrenar modelo
# TODO: crea un modelo de regresión lineal con LinearRegression() y entrénalo con X_train_musica e y_train_musica
modelo4 = LinearRegression()
modelo4.fit(X_train_musica,y_train_musica)

# 4. Hacer predicciones
# TODO: haz la predicción y_pred4 usando el modelo entrenado y X_test_musica
y_pred4 = modelo4.predict(X_test_musica)

# 5. Evaluar el modelo
# TODO: calcula el R² con r2_score() usando y_test_musica e y_pred4
# TODO: calcula el MAE con mean_absolute_error() usando y_test_musica e y_pred4
r2_ej4 = r2_score(y_test_musica, y_pred4)
mae_ej4 = mean_absolute_error(y_test_musica, y_pred4)

print(f"R² Score: {r2_ej4:.4f}")
print(f"Error Promedio: {mae_ej4:.2f}")

# 6. Interpretar la relación
# TODO: analiza el R² y proporciona una interpretación de la relación lineal
print(f"\nInterpretación:")
if r2_ej4 > 0.7:
    print(f"  ✓ MUY BUENA relación lineal")
elif r2_ej4 > 0.5:
    print(f"  ⚠️  MODERADA relación lineal")
else:
    print(f"  ✗ POBRE relación lineal")


Registros después de eliminar valores faltantes: 603
R² Score: 0.0076
Error Promedio: 11.21

Interpretación:
  ✗ POBRE relación lineal


---

# EJERCICIO 5: Desafío - Comparar 4 modelos

**Objetivo:** Encontrar qué dataset y variables tienen mejor relación lineal.

**Desafío:**
1. Recopila los resultados (R² y MAE) de los 4 ejercicios anteriores
2. Crea una función para clasificar la calidad del modelo por R²
3. Crea un DataFrame con los resultados de los 4 modelos
4. Ordena los modelos por calidad (R² descendente)
5. Identifica cuál tiene la mejor relación lineal
6. Analiza por qué unos modelos funcionan mejor que otros
7. Responde: ¿Cuál es el mejor predictor encontrado?
8. Interpreta: ¿Qué significa tener un R² alto/bajo?
9. Compara: ¿Es siempre lineal la relación en datos reales?
10. Conclusión: ¿Cuándo es útil la regresión lineal?


In [None]:
# COMPLETA ESTE CÓDIGO:

# 1. Recopilar resultados de los 4 ejercicios anteriores
# Tenemos estos valores disponibles:
# - r2: R² del Ejercicio 1 (Titanic: Edad→Tarifa)
# - r2_ej2: R² del Ejercicio 2 (Titanic: Tarifa→Edad)
# - r2_ej3: R² del Ejercicio 3 (Aire: variables numéricas)
# - r2_ej4: R² del Ejercicio 4 (Canciones: variables numéricas)

# 2. Función auxiliar para clasificar la calidad
# TODO: crea una función que clasifique el R² como 'Excelente' (>0.7), 'Bueno' (>0.5) o 'Pobre' (≤0.5)
def clasificar_calidad(r2_valor):
    if r2_valor > 0.7:
        return "Excelente"
    elif r2_valor > 0.5:
        return "Bueno"
    else:
        return "Pobre"

# 3. Crear tabla comparativa
# TODO: crea un DataFrame con los resultados de los 4 modelos incluyendo Modelo, R² Score y Calidad
resultados = pd.DataFrame([{"Modelo": "Ejercicio 1", "R² Score": r2, "Calidad": clasificar_calidad(r2)},
    {"Modelo": "Ejercicio 2", "R² Score": r2_ej2, "Calidad": clasificar_calidad(r2_ej2)},
    {"Modelo": "Ejercicio 3", "R² Score": r2_ej3, "Calidad": clasificar_calidad(r2_ej3)},
    {"Modelo": "Ejercicio 4", "R² Score": r2_ej4, "Calidad": clasificar_calidad(r2_ej4)}]
)

# 4. Mostrar tabla
# TODO: imprime la tabla comparativa de resultados
print("\n╔════════════════════════════════════════════════════════════╗")
print("║              COMPARACIÓN DE 4 MODELOS                      ║")
print("╚════════════════════════════════════════════════════════════╝")
print(resultados.to_string(index=False))

# 5. Análisis y conclusiones
# TODO: encuentra el índice del modelo con mejor R²
mejor_idx = resultados["R² Score"].idxmax()

# TODO: extrae el nombre y R² del mejor modelo
mejor_modelo = resultados.loc[mejor_idx, "Modelo"]
mejor_r2 = resultados.loc[mejor_idx, "R² Score"]

# TODO: imprime los resultados del mejor modelo
print(f"\n✓ Mejor modelo: {mejor_modelo}")
print(f"  R² Score: {mejor_r2:.4f}")

# TODO: proporciona un resumen interpretativo de los resultados
print(f"\nResumen:")
print(f"  - Los mejores predictores tienen R² > 0.7 (Excelente)")
print(f"  - Relaciones moderadas tienen 0.5 < R² < 0.7 (Bueno)")
print(f"  - Relaciones pobres tienen R² < 0.5 (Pobre)")



╔════════════════════════════════════════════════════════════╗
║              COMPARACIÓN DE 4 MODELOS                      ║
╚════════════════════════════════════════════════════════════╝
     Modelo  R² Score Calidad
Ejercicio 1  0.003810   Pobre
Ejercicio 2 -0.015139   Pobre
Ejercicio 3 -0.009544   Pobre
Ejercicio 4  0.007566   Pobre

✓ Mejor modelo: Ejercicio 4
  R² Score: 0.0076

Resumen:
  - Los mejores predictores tienen R² > 0.7 (Excelente)
  - Relaciones moderadas tienen 0.5 < R² < 0.7 (Bueno)
  - Relaciones pobres tienen R² < 0.5 (Pobre)


---

# REFLEXIÓN FINAL

Responde estas preguntas:

1. **¿Cuál fue el modelo con mejor R²?**
   
2. **¿Qué significa que tenga un R² alto/bajo?**
   
3. **¿Cuál es la diferencia entre los ejercicios 1 y 2?**
   
4. **¿En qué caso real podrías usar regresión lineal?**
   
5. **¿Qué limitaciones tiene la regresión lineal?**

1 - El modelo que una mejor r2 ha sido el del ejercicion 4

2 - Tener un r2 bajo significa que el modelo predice peor los resultados, si es negativo significa que usar la media de los datos es más fiable que trazar la regresión

3 - En principio no debería de haber pero no se como me han salido r2 diferentes entre los modelos, de todas formas ya por lógica no parece que la edad tenga correlacion con la tarifa debido a que a los niños son los padres quienes les pagan el viaje

4 - En cualquier caso donde se tengan dos series de datos correlacionadas, como por ejemplo precio de vivienda y metros cuadrados

5 - Que no toma en cuenta otras variables externas y es muy sensible a los outliers