In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
sns.set(style="darkgrid")

In [None]:
df = pd.read_csv('data.csv',sep=';')
df.columns=['Throughput','Latency','Buffer Level','Quality']

# Análisis de los datos 

**1. Comprobación del formato y contenido de los datos**

    Primero, se mostrarán las 5 primeras y últimas filas del dataset, para comprobar que los datos con los que trabajamos son los esperados. También se comprobará su longitud, que debe ser en este caso 199 filas, y los tipos de cada uno de los datos disponibles.
    
    Por último, se hará una primera representación de los datos, simplemente se mostrará su evolución a lo largo del tiempo que dura la simulación de la reproducción del vídeo.

In [None]:
print("Primeras 5 líneas del dataset")
df.head()

In [None]:
print("Últimas 5 filas del dataset")
df.tail()

In [None]:
print("Número de filas del dataset:", len(df))
print("Tipos de los datos:")
df.dtypes

In [None]:
print("Representación de los datos")
df.plot()

Además de esta representación, visualizar las muestras de salida respecto a las de entrada puede ayudar a entender cómo se comporta la salida respecto a las diferentes entradas.

In [None]:
print("Representación de las muestras de calidad de vídeo respecto al throughput")
plt.plot(df["Throughput"],df["Quality"],"ro")
plt.ylabel("Quality")
plt.xlabel("Throughput")

In [None]:
print("Representación de las muestras de calidad de vídeo respecto a la latencia de la red")
plt.plot(df["Latency"],df["Quality"],"ro")
plt.ylabel("Quality")
plt.xlabel("Latency")

In [None]:
print("Representación de las muestras de calidad de vídeo respecto al nivel de buffer")
plt.plot(df["Buffer Level"],df["Quality"],"ro")
plt.ylabel("Quality")
plt.xlabel("Buffer Level")

**2. Cálculo y representación de métricas básicas**

    Una vez hemos comprobado que los datos se han leído correctamente, se pueden comenzar a calcular parámetros estadísticos básicos. 
    
    Para empezar, con la función describe() de la librería pandas, podemos obtener datos como la media, percentiles o la desviación media. 
    
    Se calculará y representará también la correlación entre los diferentes datos, para comprobar la relacion entre la variable de salida con las de entrada. 

In [None]:
df.describe()

In [None]:
print("Correlación entre las distintas columnas del dataset:")
df.corr()

In [None]:
corr = df.corr()
sns.heatmap(corr,
               xticklabels=corr.columns.values,
               yticklabels=corr.columns.values)

In [None]:
df.hist()
plt.show()

In [None]:
X = df.drop(columns=['Quality'])
y = df.loc[:,"Quality"]

#Separamos las muestras para entrenamiento y test
X_train = X[:int(len(X)*0.8)]
y_train = y[:int(len(y) * 0.8)]

X_test = X[int(len(X)*0.8):]
y_test = y[int(len(y) * 0.8):]

# Creamos el objeto de Regresión Lineal
regr = linear_model.LinearRegression()

# Entrenamos nuestro modelo
regr.fit(X_train, y_train)
print("Coeficientes obtenidos: ", regr.coef_)

#Hacemos las predicciones ¿Redondeo? 
y_pred = regr.predict(X_test)

#Imprimimos los resultados
print("Calidades predichas: ", round(y_pred))
print("Mean squared error: %.2f" % mean_squared_error(y_test, y_pred))
