# Proyecto Final. Mario Ruiz Ariza.

Imagina que trabajas en el departamento de marketing de una importante compañía de telefonía móvil. En los últimos meses habéis procedido a la obtención de numerosos datos relativos a diferentes modelos de teléfonos, estableciendo los precios de venta como variable principal a analizar. El planteamiento genérico del estudio que os proponéis realizar consiste en tratar de fijar un precio razonable, teniendo en cuenta el mercado, para los futuros modelos de móviles que vais a comercializar, en función de variables como el tamaño de memoria RAM, el de memoria interna, píxeles de resolución, etc.

En los siguientes apartados te iré planteando una serie de cuestiones encaminadas a desarrollar este estudio aplicando diversas técnicas de Machine Learning.

<b>1. El dataset que emplearemos en este caso, al tratarse de un ejercicio de naturaleza formativa, procede de kaggle. ¿Podrías indicar de qué tipo de plataforma estamos hablando?</b>

Kaggle es una plataforma web que reune a la comunidad de Data Science más grande del mundo. En esta plataforma se puede encontrar todo tipo de  datos y código publicados por la comunidad, que pueden sernos útiles para nuestros proyectos.

Kaggle te permite:

1. Buscar o publicar bases de datos.
2. Explorar y construir modelos en un espacio web con la interfaz de Jupyter Notebook.
3. Trabajar con otros profesionales y aficionados.
4. Realizar competencias y challenges sobre temas innovadores.

Éste último punto es para mi, el más importante para los que nos estamos adentrando en el mundo de Data Science, pues nos ofrece formación, y retos para poner a prueba nuestros conocimientos.

<b>2. El dataset al que hacemos referencia se denomina datos_moviles.csv y puedes descargarlo al final de la descripción de este proyecto. ¿Qué tipo de archivo es este? ¿Cómo se puede cargar esta tipología de ficheros mediante la biblioteca estándar de Python?</b>

El formato .csv corresponde a un tipo de archivo de texto en el que los datos recogidos se separan mediante comas (o puntos y comas, en los casos en los que pueda haber conflictos con números decimales). Tienen muy poco peso, y cualquier programa de hojas de cálculo puede trabajar con él, y exportarlo a otros formatos.

Para cargar este tipo de archivos en Python, podemos hacerlo de dos maneras:

a. A través del módulo csv. Abrimos el archivo con open() y cargamos el contenido en f, que es un objeto de archivo. Para leer, usaremos el método reader(). 

In [None]:
import csv

nomb_fich='datos_moviles.csv'
with open(nomb_fich) as f:
    lectura=csv.reader(f,delimiter=';')
    encabezados=next(lectura)
    for fila in lectura:
        print(fila)

b. A través de la librería Pandas, que carga los datos directamente en un DataFrame.

In [None]:
import pandas as pd

moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')
moviles.head()

<b>3. Carga el fichero datos_moviles.csv en Python, de modo que los datos se guarden en un DataFrame, y escribe el código necesario para visualizar las primeras filas del dataset y para saber cuántos registros, así como el número de características que tiene.</b>

In [None]:
import pandas as pd

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

#Muestro las primeras 5 filas del dataset
moviles.head()

In [None]:
moviles.describe()

In [None]:
print('El dataset contiene ',len(moviles),' filas.')
print('Está compuesto por ',len(moviles.columns),'Características.')
print('Las características son:', moviles.columns.values)

<b>4. En primer lugar, nos centraremos en la variable etiqueta price_range o rango de precios. Esta variable toma el valor 0 para un coste bajo del móvil, 1 para coste medio, 2 para coste alto y 3 para coste muy alto (por ejemplo, un móvil de lujo). Determina las correlaciones existentes entre todas las variables, pero, en particular, céntrate en las relaciones con price_range. ¿Cuáles son las 5 variables que tienen mayor correlación con price_range?</b>

In [None]:
import pandas as pd

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

print(moviles.corr())

In [None]:
import numpy as np
import seaborn as sns

columnas=['price_range','price','ram', 'battery_power','px_width','px_height']

matriz_corr=np.corrcoef(moviles[columnas].values.T)
sns.set(font_scale=1.5)
mapa_calor=sns.heatmap(matriz_corr, cbar=True, annot=True, square=True, fmt='.2f',
                      annot_kws={'size':15},yticklabels=columnas, xticklabels=columnas)

Las 5 variables que tienen mayor correlación con la columna de price_range son, en este orden: price, ram, battery_power, px_width y px_height.

<b>5. Dado que price (el precio en euros de cada móvil) es una variable continua, más interesante para nuestra investigación que range_price, procede a representar gráficamente la matriz de correlaciones considerando las dos variables más correlacionadas con price (excluyendo a price_range, que sirve para etiquetar los móviles en función de dicho precio): ram y battery_power. Recuerda incluir en la matriz a la propia variable price.</b>

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

#Seleccionamos las columnas que nos interesan para la matriz de correlaciones
columnas=['price','ram','battery_power']

sns.pairplot(moviles[columnas],height=2.5)
plt.tight_layout()

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

#Seleccionamos las columnas que nos interesan para la matriz de correlaciones
columnas=['price','ram','battery_power']

matriz_corr=np.corrcoef(moviles[columnas].values.T)
sns.set(font_scale=1.5)
mapa_calor=sns.heatmap(matriz_corr, cbar=True, annot=True, square=True, fmt='.2f',
                      annot_kws={'size':15},yticklabels=columnas, xticklabels=columnas)

<b>6. Procede a obtener la regresión lineal de la variable price frente a la variable ram. Genera la representación gráfica, determina los coeficientes de regresión y los de determinación. ¿Se alcanza un buen ajuste?</b>

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)


#Generamos los conjuntos de entrada y de entrenamiento. Invocamos el procedimiento de
#regresión.
X_train, X_test, y_train, y_test=train_test_split(ram,precio)
lr=LinearRegression().fit(X_train,y_train)
y_pred=lr.predict(X_test)

#Valores de los coeficientes.
print('Coeficiente W1:',lr.coef_)
print('Coeficiente W0:',lr.intercept_)

#valores del coeficiente de determinación.
print('Valor del coeficiente de determinación del conjunto de entrenamiento:',
     round(lr.score(X_train,y_train),3))
print('Vakir del coeficiente de determinación del conjunto de pruebas:',
     round(lr.score(X_test,y_test),3))

#Salidas gráficas.
#Representación del conjunto de prueba.
plt.scatter(X_test, y_test)
plt.xlabel('RAM')
plt.ylabel('Precio')
plt.show()


El coeficiente de determinación del conjunto de entrenamiento y del de prueba son muy similares, lo que revela que el ajuste no es especialmente bueno pero no hay excesivo riesgo de sobre-ajuste.

<b>7. Si quisieras fijar el precio de un móvil con 3100 GB de memoria RAM, considerando el anterior ajuste lineal, ¿qué valor establecerías?</b>

In [None]:
cantidad=[[3100]]

y_pred=lr.predict(cantidad)
print(y_pred)

<b>8. Representa gráficamente los residuos obtenidos frente a los valores predichos según el modelo de regresión lineal generado (ten en cuenta que los precios de los móviles oscilan aproximadamente entre 20 y 2000 €).</b>

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)

#Generamos los conjuntos de entrada y de entrenamiento. Invocamos el procedimiento de
#regresión.
X_train, X_test, y_train, y_test=train_test_split(ram,precio)
lr=LinearRegression().fit(X_train,y_train)
y_train_pred = lr.predict(X_train)
y_test_pred = lr.predict(X_test)

#Obtenemos la salida gráfica solicitada
plt.scatter(y_train_pred, y_train_pred-y_train,c='steelblue',marker='o',edgecolor='white',
            label='Datos de entrenamiento')
plt.scatter(y_test_pred, y_test_pred-y_test,c='limegreen',marker='s',edgecolor='white',
            label='Datos de prueba')
plt.xlabel('Predicción Precios')
plt.ylabel('Residuos')
plt.legend(loc='upper left')
plt.xlim(20,2000)
plt.grid
plt.show()

<b>9. Céntrate a continuación en las variables ram y battery_power, considerando price_range como una etiqueta de clasificación. Genera una clasificación del conjunto mediante un kernel lineal, incorporando, si puedes, la función plot_decisions_regions para mejorar la salida gráfica. Determina también la exactitud del test. Nota: carga los datos de price_range mediante la instrucción price_range=np.array(data['price_range']), a fin de que no tengas problemas con la dimensión de los arrays (recuerda transponerlo seguidamente).</b>

In [None]:
import pandas as pd
import numpy as np
from mlxtend.plotting import plot_decision_regions
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.svm import LinearSVC
import matplotlib.pyplot as plt

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array(moviles['ram'])
ram=np.transpose(ram)
bateria=np.array([moviles['battery_power']])
bateria=np.transpose(bateria)
rango=np.array(moviles['price_range'])
rango=np.transpose(rango)

X=pd.DataFrame(np.c_[bateria,ram],columns=['battery_power','ram'])
y=rango

#Creamos el conjunto de datos de entrenamiento y de prueba
X_train, X_test, y_train, y_test = train_test_split(X,y)

#Realizamos el pre-escalado de características
sc=StandardScaler()
sc.fit(X_train)

#Aplicamos una transformación para que los datos mantengan la misma media y la misma desviación estándar, guardamos
#los datos transformados en variables con la extensión _std
X_train_std=sc.transform(X_train)
X_test_std=sc.transform(X_test)

#Aplicamos el algoritmo LinearSVC sobre los datos normalizados
clf=LinearSVC()
clf.fit(X_train_std,y_train)

#Analizamos finalmente la exactitud del modelo sobre los datos de prueba
predicciones=clf.predict(X_test_std)
accuracy=accuracy_score(y_true=y_test,y_pred=predicciones,normalize=True)
print('')
print(f'La exactitud des test es: {100*accuracy}%')

#Creamos arrays bidimensionales con los datos del entrenamiento y del test.
X_combined_std=np.vstack((X_train_std,X_test_std))
y_combined=np.hstack((y_train, y_test))

#Representamos el resultado con plot_decision_regions
plt.show(plot_decision_regions(X_combined_std,y_combined,clf,legend=2,X_highlight=X_test_std))

<b>10. ¿Qué resultado obtendrías si aplicas una clasificación, en el caso anterior, de base radial gaussiana con gamma = 20?</b>

In [None]:
import pandas as pd
import numpy as np
from mlxtend.plotting import plot_decision_regions
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array(moviles['ram'])
ram=np.transpose(ram)
bateria=np.array([moviles['battery_power']])
bateria=np.transpose(bateria)
rango=np.array(moviles['price_range'])
rango=np.transpose(rango)

X=pd.DataFrame(np.c_[bateria,ram],columns=['battery_power','ram'])
y=rango

#Creamos el conjunto de datos de entrenamiento y de prueba
X_train, X_test, y_train, y_test = train_test_split(X,y)

#Realizamos el pre-escalado de características
sc=StandardScaler()
sc.fit(X_train)

#Aplicamos una transformación para que los datos mantengan la misma media y la misma desviación estándar, guardamos
#los datos transformados en variables con la extensión _std
X_train_std=sc.transform(X_train)
X_test_std=sc.transform(X_test)

#Aplicamos el algoritmo SVC sobre los datos normalizados, con kernel='rbf' y gamma=20
clf=SVC(kernel='rbf',gamma=20,C=1)
clf.fit(X_train_std,y_train)

#Analizamos finalmente la exactitud del modelo sobre los datos de prueba
predicciones=clf.predict(X_test_std)
accuracy=accuracy_score(y_true=y_test,y_pred=predicciones,normalize=True)
print('')
print(f'La exactitud des test es: {100*accuracy}%')

#Creamos arrays bidimensionales con los datos del entrenamiento y del test.
X_combined_std=np.vstack((X_train_std,X_test_std))
y_combined=np.hstack((y_train, y_test))

#Representamos el resultado con plot_decision_regions
plt.show(plot_decision_regions(X_combined_std,y_combined,clf,X_highlight=X_test_std))

Con gamma=20, la exactitud del modelo ronda el 80% , pero se detecta sobreajuste.

<b>11. Aplica una estrategia OvR para realizar la clasificación de los datos (el Foro de trabajo 2 te proporcionará pautas para ello) y determina de nuevo la exactitud del algoritmo.</b>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array(moviles['ram'])
ram=np.transpose(ram)
bateria=np.array([moviles['battery_power']])
bateria=np.transpose(bateria)
rango=np.array(moviles['price_range'])
rango=np.transpose(rango)

X=pd.DataFrame(np.c_[bateria,ram],columns=['battery_power','ram'])
y=rango

X_train, X_test, y_train, y_test = train_test_split(X,y)

sc=StandardScaler()
sc.fit(X_train)

#Aplicamos una transformación para que los datos mantengan la misma media y la misma desviación estándar, guardamos
#los datos transformados en variables con la extensión _std
X_train_std=sc.transform(X_train)
X_test_std=sc.transform(X_test)

#Aplicamos el algoritmo OvR sobre los datos normalizados
ovr_clf=OneVsRestClassifier(SVC(gamma='auto'))
ovr_clf.fit(X_train_std,y_train)

#Analizamos finalmente la exactitud del modelo sobre los datos de prueba
y_pred=ovr_clf.predict(X_test_std)
accuracy=accuracy_score(y_true=y_test,y_pred=y_pred,normalize=True)
print('')
print(f'La exactitud del test es: {100*accuracy}%')

#Creamos arrays bidimensionales con los datos del entrenamiento y del test.
X_combined_std=np.vstack((X_train_std,X_test_std))
y_combined=np.hstack((y_train, y_test))

#Representamos el resultado con plot_decision_regions
plt.show(plot_decision_regions(X_combined_std,y_combined,ovr_clf,X_highlight=X_test_std))

<b>12. Supón ahora que no dispones del etiquetado de datos (es decir, de la variable price_range). Considerando las variables ram y price trata de obtener los posibles agrupamientos del conjunto de todos los datos mediante el algoritmo de k-medias. ¿Qué número de clústeres deberías plantear? Obtén la solución para un número de clústeres superior en una unidad. Compara los dos resultados observando las correspondientes gráficas.</b>

K-medias con n_clusters=3 es lo que recomendaría, pues representa 3 clusters más o menos lógicos.

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
import mglearn

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)

X=pd.DataFrame(np.c_[ram,precio],columns=['ram','price'])

#Creamos la clase KMeans y las instanciamos.
kmeans=KMeans(n_clusters=3).fit(X)
print("Los clústers a los que pertenece cada instancia son:",kmeans.labels_)

#2. Ver la relación de centroides obtenidos.
#solo tienes que imprimir el array cluster_centers_ del objeto generado
print('Los centroides están en:',kmeans.cluster_centers_)

#3.Visualizar los resultados obtenidos.
mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1],kmeans.labels_,markers="o")
# Predicting the clusters
labels = kmeans.predict(X)
# Getting the cluster centers
C = kmeans.cluster_centers_

fig = plt.figure(figsize=(18,15))
ax=fig.add_subplot(111,projection='3d')
ax.scatter(X.iloc[:,0],X.iloc[:,1],c='b')
ax.scatter(C[:,0],C[:,1],c='r', marker='*', s=1000)
ax.set_xlabel('RAM',fontsize=15)
ax.set_ylabel('Precio',fontsize=15)
plt.show()

k-medias con n_cluster=4. Aquí el resultado no me parece tan aceptable.

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
import mglearn

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)

X=pd.DataFrame(np.c_[ram,precio],columns=['ram','price'])

#Creamos la clase KMeans y las instanciamos.
kmeans=KMeans(n_clusters=4).fit(X)
print("Los clústers a los que pertenece cada instancia son:",kmeans.labels_)

#2. Ver la relación de centroides obtenidos.
#solo tienes que imprimir el array cluster_centers_ del objeto generado
print('Los centroides están en:',kmeans.cluster_centers_)

#3.Visualizar los resultados obtenidos.
mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1],kmeans.labels_,markers="o")
# Predicting the clusters
labels = kmeans.predict(X)
# Getting the cluster centers
C = kmeans.cluster_centers_

fig = plt.figure(figsize=(18,15))
ax=fig.add_subplot(111,projection='3d')
ax.scatter(X.iloc[:,0],X.iloc[:,1],c='b')
ax.scatter(C[:,0],C[:,1],c='r', marker='*', s=1000)
ax.set_xlabel('RAM',fontsize=15)
ax.set_ylabel('Precio',fontsize=15)
plt.show()

<b>13. Obtén ahora los agrupamientos mediante el método DBSCAN y, si re resulta posible, con el método HDBSCAN. Recuerda que en el Foro de trabajo 3 ya has tratado sobre ambos métodos. Para el método DBSCAN investiga un posible valor de épsilon que proporcione un agrupamiento que te resulte razonable y para HDBSCAN emplea el recomendado por las personas que lo han desarrollado.</b>

In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
import mglearn

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)

X=pd.DataFrame(np.c_[ram,precio],columns=['ram','price'])

mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1])
dbscan=DBSCAN(eps=3)
dbscan.fit(X)
mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1],dbscan.labels_,markers="o")

print(dbscan.labels_)
print(len(dbscan.core_sample_indices_))
print(dbscan.components_)

<b>14. Aplica el algoritmo de agrupamiento por aglomeración al conjunto de datos, considerando el número que consideres más adecuado de clústeres.</b>

In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import AgglomerativeClustering
import mglearn

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

ram=np.array([moviles['ram']])
ram=np.transpose(ram)
precio=np.array(moviles['price'])
precio=np.transpose(precio)

X=pd.DataFrame(np.c_[ram,precio],columns=['ram','price'])

#Aplicamos agrupamiento por aglomeración
mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1])
agg=AgglomerativeClustering(n_clusters=2,linkage='single')
agg.fit(X)
mglearn.discrete_scatter(X.iloc[:,0],X.iloc[:,1],agg.labels_)

<b>15. Considera ahora el dataset completo. Aplica el algoritmo PCA y obtén y representa la varianza explicada en función del número de dimensiones. ¿Cuántas dimensiones requerirás para salvaguardar una varianza en torno al 95 %?</b>

In [None]:
import pandas as pd
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

#Cargar los datos en un dataframe
moviles=[]
moviles=pd.read_csv('datos_moviles.csv',sep=',')

moviles.head()

In [None]:
#Obtenemos información sobre los datos
moviles.info()
print("\nVarianza de cada dimensión:")
print(moviles.var(axis=0))

In [None]:
#Aplicamos el algoritmo PCA
pca_pipe = make_pipeline(StandardScaler(), PCA())
pca_pipe.fit(moviles)

#Guardamos los datos del método PCA aplicado en modelo_pca
modelo_pca = pca_pipe.named_steps['pca']

In [None]:
#Realizamos la representación gráfica de las varianzas explicadas
cumsum = np.cumsum(modelo_pca.explained_variance_ratio_)
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(6, 4))
ax.plot(np.arange(len(moviles.columns)) + 1,cumsum, marker = 'o')
plt.xlabel("Dimensiones principales")
plt.ylabel("Varianza explicada")
for x, y in zip(np.arange(len(moviles.columns)) + 1, cumsum):
    label = round(y, 2)
    ax.annotate(label,(x,y),textcoords="offset points",xytext=(0,10),ha='center')

En torno a 18 dimensiones alcanzamos una varianza del 0.93, por lo que podríamos plantearnos una reducción hasta dicho número de características.

La matriz de proyecciones sería:

In [None]:
#Obtenemos las proyecciones de la matriz original
proyecciones = pca_pipe.transform(X=moviles)
proyecciones = pd.DataFrame(proyecciones, columns = ['CP1','CP2','CP3','CP4','CP5','CP6','CP7','CP8','CP9','CP10','CP11','CP12','CP13','CP14','CP15','CP16','CP17','CP18','CP19','CP20','CP21','CP22'],index = moviles.index)
print(proyecciones.head())