In [11]:
import warnings
warnings.simplefilter("ignore")

In [2]:
import pandas as pd
from sklearn.linear_model import RANSACRegressor, HuberRegressor
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [3]:
path = '../datasets/felicidad_corrupt.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [5]:
features = df.drop(['country', 'score'], axis=1)
target = df['score']
X_train, X_test, y_train, y_test = train_test_split(features, target, train_size=0.7, random_state=42)

[**Ransac:**](https://en.wikipedia.org/wiki/Random_sample_consensus) Utiliza submuestreo aleatorio repetido. Una suposición básica es que los datos consisten en "inliers", es decir, datos cuya distribución puede explicarse por algún conjunto de parámetros del modelo, aunque pueden estar sujetos a ruido, y "outliers" que son datos que no se ajustan a la modelo. RANSAC también asume que, dado un conjunto (generalmente pequeño) de inliers, existe un procedimiento que puede estimar los parámetros de un modelo que explica o ajusta de manera óptima estos datos.

<img src='../images/ransac.png' alt="drawing" width="400"/>

[**Huber Reggresor:**](https://towardsdatascience.com/regression-in-the-face-of-messy-outliers-try-huber-regressor-3a54ddc12516) No elimina los valores atípicos sino que los penaliza. Realiza el entrenamiento y si el error absoluto de la perdida alcanza cierto umbral (epsilon) los datos son tratados como atípicos. El valor por defecto de epsilon es 1.35 ya que se ha demostrado que logra un 95% de eficiencia estadística.

In [6]:
estimators = {
    'SVR' : SVR(gamma='auto', C=1.0, epsilon=0.1),
    'RANSAC' : RANSACRegressor(),
    'HUBER' : HuberRegressor(epsilon=1.35)
}

In [17]:
for name, estimator in estimators.items():
    estimator.fit(X_train, y_train)
    predict = estimator.predict(X_test)
    print(name + ' : MSE = {}'.format(mean_squared_error(y_test,predict)))

SVR : MSE = 0.07455771301888525
RANSAC : MSE = 1.2756384242101977e-19
HUBER : MSE = 8.44486571216315e-07
