<h1 style="text-align: center; font-weight: bolder">
    Datos atípicos
</h1>

Un valor atípico es cualquier medición que se encuentra por fuera del comportamiento general de una muestra de datos.

Pueden indicar variabilidad, errores de medición o novedades.

## **¿Cómo identificarlos?**

### Metodos Estadisticos:

- **Z-Score:** Mide la distancia, en desviaciones estándar, de un punto dado a la media.
- Técnicas de clustering como **DBSCAN**
- **Rango intercuartil** Si q<Q1 - (1.5 * IQR) o q>Q3 + (1.5 * IQR)
- Regresiones robustas.

## **Librerias**

In [1]:
import pandas as pd
import numpy as np

In [2]:
from sklearn.linear_model import RANSACRegressor, HuberRegressor
from sklearn.svm import SVR

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

## **Datos**

In [3]:
# Cargamos los datos
df = pd.read_csv('data/felicidad.csv')

In [4]:
# Prepamos nuestro dataset
features = df.drop(['rank', 'country', 'score'], axis=1).copy()
target = df['score'].copy()

In [5]:
# Dividimos el dataset en base de entrenamiento y testeo
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=13)

## **Modelos**

### **Random Sample Consensus**

Usamos una muestra aleatoria sobre el conjunto de datos que tenemos, buscamos la muestra que más datos normales logre incluir.

El modelo asume que los valores atípicos no tienen patrones específicos.

### **Huber Regressor**

Disminuye la influencia de los valores atípicos dentro del modelo.

Los datos son tratados como atípicos si el error absoluto de nuestra pérdida está por encima de un umbral llamado *epsilon*.

Se ha demostrado que un valor *epsilon* de 1.35 logra un 95% de eficacia estadística.

In [6]:
estimadores = {
    'SVR': SVR(gamma='auto', C=1.0, epsilon=0.1),
    'RANSAC': RANSACRegressor(),
    'Huber Regressor': HuberRegressor(epsilon=1.35, max_iter=1000)
}

In [15]:
for name, estimador in estimadores.items():
    estimador.fit(X_train, y_train)
    
    predictions = estimador.predict(X_test)
    
    print(name)
    print(f'MSE: {mean_squared_error(y_test, predictions)}')
    print('*'*64)

SVR
MSE: 0.031359996200328526
****************************************************************
RANSAC
MSE: 1.6205519232805979e-19
****************************************************************
Huber Regressor
MSE: 5.750070100139861e-10
****************************************************************
