# Solucionando problemas de Regresion en ML usando 

Machine learning es una rama de la inteligencia artificial, que permite a los programas de computadora aprender automaticamente y mejorar de la experiencia.

Los algoritmos de ML aprenden de datasets y luego hacen predicciones basados en patrones.

Se pueden categorizar en dos tipos, supervisados y no supervisados.

Los algoritmos supervisados son aquellos donde el dataset de entrada y la correspondientes salida o prediccion verdadera estan habilitados, o sea, el argoritmo trata de encontrar relaciones entre entradas y salidas.

Los no supervisados nose se conocen los valores verdaderos, en cambio el algoritmo trata de encontrar patrones similares en los datos. Un ejemplo tipico son los de clusterizacion.

Los algoritmos de regresion preciden valores continuos, por ejemplo el precio de una casa, la presion en sangre de una persona, una puntuacion particular en el examen de algun estudiante.
Por el otro lado los algoritmos de clasificacion preciden un valor discreto, como por ejemplo si un alumno va a pasar o no un examen.

## Preparando los datos para problemas de regresion

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

sns.get_dataset_names() # Con esta funcion podemos ver los datasets que tiene integrado seaborn

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [2]:
tips_df = sns.load_dataset("tips")
tips_df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


Se va a trabajar con el dataset de propinas, y se utilizara algoritmos de machine learning para predecir la propina por un registro particular, basado en las caracteristicas restantes como "total_bill", "sex", "day", "time", etc

In [3]:
# Dividiendo datos entre caracteristicas y etiquetas

X = tips_df.drop(["tip"],axis=1)
y = tips_df["tip"]

X.head()

Unnamed: 0,total_bill,sex,smoker,day,time,size
0,16.99,Female,No,Sun,Dinner,2
1,10.34,Male,No,Sun,Dinner,3
2,21.01,Male,No,Sun,Dinner,3
3,23.68,Male,No,Sun,Dinner,2
4,24.59,Female,No,Sun,Dinner,4


In [4]:
y.head()

0    1.01
1    1.66
2    3.50
3    3.31
4    3.61
Name: tip, dtype: float64

In [5]:
# Conversion de datos categoricos en numeros

"""
Los algoritmos de machine learning en su mayor parte, solo puedn trabajar con numeros.
De tal manera es importante convertir los datos categoricos en formato numerico.
"""

numerical = X.drop(["sex",'smoker','day','time'], axis=1)
numerical.head()

Unnamed: 0,total_bill,size
0,16.99,2
1,10.34,3
2,21.01,3
3,23.68,2
4,24.59,4


In [6]:
# Creamos un dataframe que contenga solo datos categoricos

categorical = X.filter(['sex','smoker','day','time'])
categorical.head()

Unnamed: 0,sex,smoker,day,time
0,Female,No,Sun,Dinner
1,Male,No,Sun,Dinner
2,Male,No,Sun,Dinner
3,Male,No,Sun,Dinner
4,Female,No,Sun,Dinner


In [7]:
# Con el siguiente metodo llamada pd.get_dummies() podemos encodear las columnas para convertir los datos categoricos en one-hot

cat_numerical = pd.get_dummies(categorical, drop_first=True)
cat_numerical.head()

Unnamed: 0,sex_Female,smoker_No,day_Fri,day_Sat,day_Sun,time_Dinner
0,True,True,False,False,True,True
1,False,True,False,False,True,True
2,False,True,False,False,True,True
3,False,True,False,False,True,True
4,True,True,False,False,True,True


In [8]:
# El paso final es unir las columnas numericas con las columnas one-hot encoded utilizando la funcion concat.

X = pd.concat([numerical, cat_numerical], axis=1)
X.head()

Unnamed: 0,total_bill,size,sex_Female,smoker_No,day_Fri,day_Sat,day_Sun,time_Dinner
0,16.99,2,True,True,False,False,True,True
1,10.34,3,False,True,False,False,True,True
2,21.01,3,False,True,False,False,True,True
3,23.68,2,False,True,False,False,True,True
4,24.59,4,True,True,False,False,True,True


## Dividir los datos en entrenamiento y test

In [9]:
"""
Para realizar un split de datos para entrenamiento y test se puede utilizar la funcion train_test_split() que viene en la libreria
de Sklearn
"""

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

"""
Hay un paso mas que es opcional, antes de que la data sea pasada al algoritmo de ML, es escalar los datos.
se puede ver que columnas del dataset tienen valores chicos y otros valores demaciados grandes, siempre es mejor convertirlos en valores de escala uniforme
para hacerlo podemos utilizar el metodo StandarScaler() del modulo de preprocessing
"""

sc = StandardScaler()
# Escalando el dataset de entrenamiento
X_train = sc.fit_transform(X_train)

# Escalamos el dataset de test
X_test = sc.transform(X_test)

## Regresion lineal

La regresion lineal es un modelo que presume una relacion lineal entre entredas y salidas y minimiza el costo de error entre la salida predictiva y la actual
utilizando funciones como el promedio absoluto de error entre diferentes puntos de los datos.

Por que utilizar un algoritmo de regresion lineal?

1. La regresion lineal es simple de implementar y facil de interpretar.
2. Toma menos tiempo de entrenamiento, incluso para datasets muy grandes.
3. Los coeficientes de regresion lineal son facil de interpretar.

Cuales son las desventajas de los algoritmos de regresion lineal o KNN ?

1. La performance es facilmente afectada por valores atipicos.
2. Asume una relacion lineal entre variables dependientes e independientes, que puede resultar en un incremento del error.

In [10]:
# Importamos el algoritmo para entrenar desde la librearia de sklearn
from sklearn.linear_model import LinearRegression

# Entrenamos el algoritmo
lin_reg = LinearRegression()

regressor = lin_reg.fit(X_train, y_train)

# Haciendo predicciones con el dataframe de testing
y_pred = regressor.predict(X_test)

Una vez que tenemos nuestro modelo entrenado, e hicimos algunas predicciones con el dataframe de prueba.
El siguiente paso es entender que tan bien nuestro moldelo performo, haciendo predicciones.

Para eso hay varias metricas a tener en cuenta

### Media de error absoluto (MAE - Mean Absolute Error)
Es calculado tomando el promedio del valor absoluto obtenido , restando los valores reales de las predicciones

### Media de error cuadrado (MSE - Mean Squared Error)
Es similar al MAE, el error por cada registro es elevado al cuadrado en el caso del MSE para castigar los registros
con una gran diferencia entre las predicciones y los valores actuales

### Raiz media de error cuadrado
Raiz media del error cuadrado es simplemente la raiz de la media del error al cuadrado.

In [11]:
# Los metodos usados para buscar el valor de las metricas anteriores, estan en la libreria de sklearn

from sklearn import metrics

print("Mean Absolute Error", metrics.mean_absolute_error(y_test, y_pred))
print("Mean Squared Error", metrics.mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error", np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error 0.7080218832979828
Mean Squared Error 0.8939195221609608
Root Mean Squared Error 0.9454731736865731


En la salida podemos ver la media del error absoluto y concluir que en promedio hay un error de 0.70 para las predicciones,
que puede significar que en primedio la prediccion de los valores de la propina son $0.70 mas o menos que los valores actuales. 

## KNN Regression

KNN significa K-nearest neighbors. KNN es un algoritmo de aprendisaje perezoso basado en encontrar
la distancia Euclidea entre diferentes data points.

Por que usar el algoritmo KNN?

1. El algoritmo KNN no asume ninguna relacion entre las caracteristicas.
2. My util para datasets donde la localizacion es importante.
3. Solo tiene que cambiar el parametro K, que es el numero de los vecinos mar cercanos.
4. No se necesita entrenamiento, ya que es un algoritmo de aprendisaje perezoso.
5. Recomendar sistemas y buscar semanticas similares entre los documentos son muchas de las aplicaciones del algoritmo KNN

Desventajas del algoritmo KNN

1. Tu tienes que encontrar el valor optimo de K, lo cual no es facil
2. no apto para datos de dimensiones muy altas 

In [12]:
"""
Implementando el algoritmo KNN con SKlearn

Es muy sencillo de implementar utilizando la clase KNeighborsRegressor, el proceso de entrenamiendo y de testing es el mismo que el de la
regresion lineal.
"""

from sklearn.neighbors import KNeighborsRegressor

KNN_reg = KNeighborsRegressor(n_neighbors=5)
regressor = KNN_reg.fit(X_train, y_train)

y_pred = regressor.predict(X_test)

from sklearn import metrics

print("Mean Absolute Error", metrics.mean_absolute_error(y_test, y_pred))
print("Mean Squared Error", metrics.mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error", np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error 0.7513877551020406
Mean Squared Error 0.9462902040816326
Root Mean Squared Error 0.9727744877830794


## Random Forest Regression

Random forest regression es un algoritmo basado en árboles que convierte características en nodos de árbol y luego utiliza la pérdida de entropía para hacer predicciones.

Por que utilizar Random Forest Algorithms ?

1. Tiene un monton de datos perdidos o un dataset no balanceado.
2. Con un largo numero de arboles, se puede sobreajustar en el entranmiento, el sobreajuste ocurre cuando
los modelos de ML performan mejor en el entrenamiento pero peor en los tests
3. El random forest algorithm se puede usar cuando tenemos unos datos dimensionales.
4. A travez de la validacion cruzada, el random forest algorithm puede entregar una alta presicion.
5. El random forest algorithm puede resolver tareas de clasificacion y regresion y encontrar aplicaciones en una alto rango de variedad.
deteccion de fraudes de tarjetas de credito, prediccion de manejo de stock, transacciones fraudulentas, etc.

Desventajas de los Random Forest Algoritmns

1. Usar un largo numero de arboles puede hacer que el algoritmo sea lento
2. el Random forest algorithm es un algoritmo de prediccion, que solo puede predecir el futuro, pero no puede
explicar que paso en el pasado de nuestro dataset.

In [13]:
# Implementando el Random Forest Regressor usando SKLearn

from sklearn.ensemble import RandomForestRegressor

rf_reg = RandomForestRegressor(random_state=42, n_estimators=500)

regressor = rf_reg.fit(X_train, y_train)

y_pred = regressor.predict(X_test)

# Evaluando la performance del algoritmo
from sklearn import metrics

print("Mean Absolute Error", metrics.mean_absolute_error(y_test, y_pred))
print("Mean Squared Error", metrics.mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error", np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error 0.7045338775510206
Mean Squared Error 0.8021385735673484
Root Mean Squared Error 0.8956218920768677


## Support Vector Regression

La máquina de vectores de soporte son algoritmos de clasificación y regresión, que minimizan el error entre las predicciones reales y las predicciones predichas al maximizar la distancia entre hiperplanos que contienen datos para varios registros.

Por que utilizar SVR Algorithms?

1. Se puede utilizar para realizar una clasificación de regresión con datos de alta dimensión.
2. Con el truco del kernel, SVM es capaz de aplicar regresión y clasificación a conjuntos de datos no lineales.
3. Los algoritmos SVM se usan comúnmente para clasificación o regresión ordinal, y es por eso que se les conoce comúnmente como algoritmos de clasificación.

Desventajas

1. Muchos parámetros a optimizar para obtener el mejor rendimiento.
2. La capacitación puede llevar mucho tiempo en grandes conjuntos de datos
3. Produce malos resultados si la cantidad de características es mayor que la cantidad de registros en un conjunto de datos

In [14]:
# Implementando SVR usando SKlearn

from sklearn import svm

svm_reg = svm.SVR()

regressor = svm_reg.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

# Evaluando la performance del algoritmo
from sklearn import metrics

print("Mean Absolute Error", metrics.mean_absolute_error(y_test, y_pred))
print("Mean Squared Error", metrics.mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error", np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error 0.7362521512772694
Mean Squared Error 0.9684825097223089
Root Mean Squared Error 0.9841150896731077


## K Fold Cross-Validation

Anteriormente dividimos la data en un 80% para entrenar y un 20% para evaluar, esto quiere decir que solo el 20% de los datos son usado para testear y ese porcentaje
nunca es usado para entrenar.

Para resultados mas estables, es recomendable que todas las partes del dataset sean usadas al menos una vez para el entrenamiento y al menos una vez para testing, la tecnica del 
K-Fold Cross-Validation puede ser utilizada para esto.
los datos se dividen en K partes, en cada experimento K-1 es usado para entrenar y Kth parte es usado para testear todo esto utilizando la funcion cross_val_score() de model_selection

In [15]:
from sklearn.model_selection import cross_val_score

print(cross_val_score(regressor, X, y, cv=5, scoring="neg_mean_absolute_error"))

[-0.66386205 -0.57007269 -0.63598762 -0.96960743 -0.87391702]


## Haciendo predicciones en un registro simple

In [16]:
# Tomando el registro numero 100

tips_df.loc[100]

total_bill     11.35
tip              2.5
sex           Female
smoker           Yes
day              Fri
time          Dinner
size               2
Name: 100, dtype: object

In [17]:
"""
Vamos a tratar de predecir el valor de la propina del registro nro 100 usando el random forest regressor.
"""

from sklearn.ensemble import RandomForestRegressor

rf_reg = RandomForestRegressor(random_state=42, n_estimators=500)

regressor = rf_reg.fit(X_train, y_train)

single_record = sc.transform(X.values[100].reshape(1, -1))
predicted_tip = regressor.predict(single_record)
print(predicted_tip)

[2.26622]


