In [1]:
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor, plot_tree
import numpy as np

# Supervised learning
El dataset contiene informnación acerca de los artículos publicados en un sitio web (*Mashable*). Interesa saber cuánto ingreso podemos esperar por cada artículo.

Dado que el dataset no contiene informnación acerca de los ingresos, se supondrá que los ingresos están relacionado con las visitas a los articulos, y que las visitas están relacionadas con la cantidad de veces que el artículo se comparte.

In [2]:
news = pd.read_csv('OnlineNewsPopularity.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'OnlineNewsPopularity.csv'

In [None]:
news.head()

In [None]:
plt.scatter(news[' global_sentiment_polarity'],news[' shares'])
plt.title('Popularity by Sentiment')
plt.xlabel('Sentiment Polarity')
plt.ylabel('Shares')
plt.show()

## Regresión lineal

In [None]:
x = news[' global_sentiment_polarity'].values.reshape(-1,1)
y = news[' shares'].values.reshape(-1,1)
regressor = LinearRegression()
regressor.fit(x,y)
print(regressor.intercept_)
print(regressor.coef_)

La ecuación resultante es:

$$shares = 3335.8 + 499.3\cdot sentiment$$

In [None]:
regline = regressor.predict(x)
plt.scatter(news[' global_sentiment_polarity'],news[' shares'], color = 'blue')
plt.plot(sorted(news[' global_sentiment_polarity'].tolist()), regline,'r')
plt.title('Popularity by Sentiment')
plt.xlabel('Sentiment Polarity')
plt.ylabel('Shares')
plt.show()

El modelo de regresión lineal concibe el mundo de manera lineal, y no siempre es la manera más precisa con la que enfocarse en un problema.

## K-Nearest Neighbors
1. Escoger un punto $p$ para analizar.
2. Escoger un valor para $k$.
3. Buscar los $k$ puntos más cercanos a $p$.
4. La media de los $k$ valores es la predicción de $p$.

Fijemos un ejemplo con $k=15$ y $p=0.5$, donde $p$ es la medida de la polaridad de los artículos.

In [None]:
k=15
newsentiment = 0.5

In [None]:
allsentiment = news[' global_sentiment_polarity'].tolist() # Listar datos de polaridad
allshares = news[' shares'].tolist()                           # Listar datos de shares
distances = [abs(x-newsentiment) for x in allsentiment]    # Comparar distancias
idx = np.argsort(distances)                                    # Ordenar indices
idx[0:k]

In [None]:
nearbyshares = [allshares[x] for x in idx[0:k]]
np.mean(nearbyshares)

La predicción para una polaridad de $p=0.5$ es $shares = 7344$.

## K-NN con sklearn

In [None]:
x=np.array(allsentiment).reshape(-1,1)     # Acomodar valores
y=np.array(allshares)                      # Acomodar valores
knn = KNeighborsRegressor(n_neighbors=k)   # Crear modelo
knn.fit(x,y)                               # Ajustar modelo

In [None]:
knn.predict(np.array([newsentiment]).reshape(-1,1))

## Otros algoritmos de aprendizaje supervisado
La estructura seguida hasta ahora puede describirse como sigue:
    Importar el paquete.
    Definir un regressor.
    Ajustar el modelo.
    Usar el modelo para predecir.
A continuación se muestran algunos ejemplos de otros algoritmos de aprendizaje supervisado.

### Decision Trees


In [None]:
dtregressor = DecisionTreeRegressor(max_depth=3)
dtregressor.fit(np.array(allsentiment).reshape(-1,1), np.array(allshares))
dtregressor.predict(np.array([newsentiment]).reshape(1,-1))

In [None]:
plt.figure(figsize=(16,5))
plot_tree(dtregressor, filled=True, fontsize=8)
plt.savefig('decisiontree.png')

## Midiendo la precisión

allprediction = regressor.predict(np.array([allsentiment]).reshape(-1,1))
predictionerror = abs(allprediction - y) # Error absoluto predicciones - real

allprediction=regressor.predict(np.array([allsentiment]).reshape(-1,1))
predictionerror=abs(allprediction-y)
print(np.mean(predictionerror))