# Machine Learning

En este apartado veremos algun ejemplo de uso de Python en Machine Learning. No profundizaremos, hay muchísimo, pero si se puede hacer alguna cosa básica con pocos comandos muy interesantes.

## Machine Learning Algorithms

![ml-algorithms.jpg](./images/ml-algorithms.jpg)

## Supervised vs Unsupervised

![ml-supervised-vs-unsupervised.png](./images/ml-supervised-vs-unsupervised.png)

### Supervised Learning
-Learn the relationship between some input variables (INPUT, FEATURES, X) and outgoing ones (OUTPUT, TARGET, Y)

-From some labeled examples (we know the correct input and output), the algorithm is able to predict the value of the output for new cases not used in the learning or training process.

### Unsupervised Learning
-The algorithm extracts knowledge from the input data without the necessity of telling it what to learn

-Find regularities in input data by discovering patterns

-There is not a target

### Librería para ML en Python
https://scikit-learn.org/stable/index.html
![scikit-learn.png](./images/scikit-learn.png)


## Linear Regression (Supervised)
Recordemos que se trata de ajustar los datos a una línea de la forma $$y=mx+b$$

In [None]:
# importemos el dataset y miremos los datos
import matplotlib.pyplot as plt 
import pandas as pd
import numpy as np  
from sklearn.linear_model import LinearRegression

data = pd.read_excel('./datasets/datasetalquilereschamberi.xlsx')
data = data.dropna() #quitar las filas en las que no tenemos valores
display(data.head())
display(data.describe())

In [None]:
# Pasamos los valores a estructuras 2D X=(n_samples, n_features), Y=(n_samples, n_targets)
X = data[['Superficie']].values.reshape(-1, 1) 
Y = data['Precio'].values.reshape(-1, 1)  

# ajustamos el modelo
model = LinearRegression() 
model.fit(X, Y) 
Y_pred = model.predict(X)  

# imprimimos los resultados del modelo
print('Intercept: \n', model.intercept_)
print('Coefficients: \n', model.coef_)
print('R2 score: \n', model.score(X,Y))
print('mean absolute error: \n',str(np.mean(abs(Y_pred - Y))))

# podemos hacer predicción con sklearn
nueva_superficie = 50
print ('Predicted values: \n', model.predict([[nueva_superficie]]))

# Lo pintamos
plt.scatter(X, Y, alpha=0.7)
plt.plot(X, Y_pred, color='green')
plt.show()

### Training y Test

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, random_state=0)

#Tenemos la entrada del entrenamient en X_train y l asalida en y_train. Y lo mismo para test

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)

In [None]:
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

### Entrenamiento y predicción

In [None]:
# Entrenamiento
model.fit(X_train, y_train) 
print('R2 score - train: \n', model.score(X_train,y_train))

# podemos hacer predicción con sklearn
nueva_superficie = 50
print ('Predicted values: \n', model.predict([[nueva_superficie]]))


### Evaluación modelo

In [None]:
# Hacemos una predicción de todos los valores y compramos con los reales
y_pred = model.predict(X_test)

print('mean absolute error: \n',str(np.mean(abs(y_pred - y_test))))

### Predicción con más columnas

In [None]:
# Pasamos los valores a estructuras 2D X=(n_samples, n_features), Y=(n_samples, n_targets)
X = data[['Superficie','Habitaciones','Altura','Exterior','Distanciasol']]
Y = data['Precio'].values.reshape(-1, 1)  

# separamos los datos
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, random_state=0)

# ajustamos el modelo
model = LinearRegression() 
model.fit(X_train, y_train) 
Y_pred = model.predict(X_test)  

# imprimimos los resultados del modelo
print('Intercept: \n', model.intercept_)
print('Coefficients: \n', model.coef_)
print('R2 score: \n', model.score(X_train,y_train))
print('mean absolute error: \n',str(np.mean(abs(Y_pred - y_test))))

# podemos hacer predicción con sklearn
Superficie = 50
Habitaciones = 4
Altura = 3
Exterior = 1
Distanciasol = 2
print ('Predicted values: \n', model.predict([[Superficie,Habitaciones,Altura,Exterior,Distanciasol]]))

## Multi-layer Perceptron regressor (Supervised)
![multi_layer_perceptron.jpg](./images/multi_layer_perceptron.jpg)

In [None]:
import sklearn as sk
from sklearn.neural_network import MLPRegressor

NN = MLPRegressor(random_state=1, max_iter=1000)
NN.fit(X_train, y_train)
Y_pred = NN.predict(X_test)

# imprimimos los resultados del modelo
print('R2 score: \n', NN.score(X_train,y_train))
print('mean absolute error: \n',str(np.mean(abs(Y_pred - y_test))))

# nunca subestimen el poder una regresión lineal, y "fancy names" no siempre son sinónimo de calidad...

## Clustering (Unsupervised)
Existen diferentes algoritmos de agrupación, en este ejemplo se uno de los más populares: k-means
![kmean-clustering.png](./images/kmean-clustering.png)

In [None]:
from sklearn import cluster
from sklearn.preprocessing import MinMaxScaler

# seleccionamos las columnas para la clusterización
#data_clust = data[['Precio','Superficie']]
data_clust = data[['Precio','Superficie','Distanciasol']]

# K-means clustering
# parameter definition
num_clusters = 4
kmeans = cluster.KMeans(n_clusters=num_clusters, init='k-means++', max_iter=600)

# scaling the input data
scaler = MinMaxScaler()
data_scaled = scaler.fit_transform(data_clust)

# clustering and results
kmeans.fit(data_scaled)
centroids_scaled = kmeans.cluster_centers_
centroids = scaler.inverse_transform(centroids_scaled)
labels = kmeans.labels_

# including cluster information in a dataset
data_kmeans = data.copy()
data_kmeans['cluster'] = labels
data_kmeans['cluster'] = data_kmeans['cluster'].astype('category')
display(data)
display(data_kmeans)

# matplotlib scatter plot
plt.style.use('seaborn-dark-palette')
plt.scatter(data_kmeans['Superficie'], data_kmeans['Precio'], c= data_kmeans['cluster'], s=50, alpha=0.5)
plt.xlabel('Superficie')
plt.ylabel('Precio')
plt.title('Agrupación tipo k-means')

# export results to excel
data_kmeans.to_excel('datasetalquilereschamberi-kmeans.xlsx')