# Investigar  que celular debería ser rango de precio

Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra. Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio, separando las clases a 2 espacios lo más amplios posibles mediante un hiperplano de separación definido como el vector entre los 2 puntos, de las 2 clases, más cercanos al que se llama vector soporte.

- Support vector machine

### Autores
   * Efrén Jiménez

## Análisis del Problema

Bob ha iniciado su propia empresa de telefonía móvil. Quiere dar una dura batalla a las grandes empresas como Apple, Samsung, etc.

No sabe cómo estimar el precio de los móviles que crea su empresa. En este competitivo mercado de la telefonía móvil, no se pueden simplemente asumir cosas. Para solucionar este problema, recopila datos de ventas de teléfonos móviles de varias empresas.

Bob quiere averiguar alguna relación entre las características de un teléfono móvil (por ejemplo: - RAM, memoria interna, etc.) y su precio de venta. Pero no es tan bueno en Machine Learning. Entonces necesita tu ayuda para resolver este problema.

En este problema, no tiene que predecir el precio real, sino un rango de precios que indica qué tan alto es el precio.

![blackbell](https://storage.googleapis.com/kaggle-datasets-images/11167/15520/cbfa0237b28059c7a20ed6ac3daf8b3c/dataset-cover.jpg?t=2018-01-28-09-11-09)

### Librerías

In [None]:
!pip install numpy
!pip install pandas

In [4]:
#imports
#numpy,pandas,scipy, math, matplotlib
import numpy as np
import pandas as pd
import scipy
from math import sqrt
import matplotlib.pyplot as plt
import seaborn as sns

#estimators
from sklearn.svm import SVR
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

#model metrics
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.model_selection import cross_val_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn import metrics

#cross validation
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler
import missingno as msno 
from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_auc_score


ModuleNotFoundError: No module named 'seaborn'

## Entendimiento de los Datos

In [None]:
El total es de 10000 registro con 5 columnas dentro del set de datos de Blackwell

- in.store : variable de tipo cualitativa nominal
- age      : variable de tipo cuantitativa discreta   
- items    : variable de tipo cuantitativa discreta  
- amount   : variable de tipo cuantitativa continua  
- region   : variable de tipo cualitativa nominal  

In [None]:
#Cargar los datos
sales = pd.read_csv(r"data/sales.csv")

In [None]:
#Primeros registros
sales.head()

In [None]:
#Describir dataset
sales.describe()

In [None]:
#Información del dataset
sales.info()

In [None]:
# Numero de registros del dataset
print("Cantidad de registros:",len(sales))
# Cantidad de columnas del dataset
print("Cantidad de columnas:",len(sales.columns))
# Tipos de datos del dataset
print("Tipo de datos:",sales.dtypes.unique())
# Tamaño del daset
print("Filas y columnas:",sales.shape)


In [None]:
# Chekear valores nulos
print(sales.isnull().any().sum(), ' / ', len(sales.columns))

In [None]:
#Cuales columnnas estas con valores nulos
sales.isnull().sum()[sales.isnull().sum() > 0]

In [None]:
# N/A= Valores vacios 
#Usar solo si se quiere eliminar los registros que contienen columnas vacías
sales=sales.dropna() 

In [None]:
sales["in.store"].unique()

In [None]:
sales['in.store'].value_counts(normalize=True)

In [None]:
sns.countplot(sales['in.store'])

In [None]:
## Exploración de los Datos

In [None]:
#### Gráficos exploratorios

In [None]:
plt.figure(1 , figsize = (15 , 6))
n = 0 
for x in ['age' , 'items' , 'amount']:
    n += 1
    plt.subplot(1 , 3 , n)
    plt.subplots_adjust(hspace =1 , wspace = 1)
    sns.distplot(sales[x] , bins = 20)
    plt.title('Distribucion de {}'.format(x))
plt.show()

In [None]:
plt.figure(1 , figsize = (15 , 5))
sns.countplot(y = 'in.store' , data = sales)
plt.show()

In [None]:
plt.figure(1 , figsize = (15 , 7))
n = 0 
for x in ['age' , 'items' , 'amount']:
    for y in ['age' , 'items' , 'amount']:
        n += 1
        plt.subplot(3 , 3 , n)
        plt.subplots_adjust(hspace = 0.5 , wspace = 0.5)
        sns.regplot(x = x , y = y , data = sales)
        plt.ylabel(y.split()[0]+' '+y.split()[1] if len(y.split()) > 1 else y )
plt.show()

In [None]:
labels = sales.tipo_edad.value_counts().index
colors = ['green','blue','red']
explode = [0,0,0]
sizes = sales.tipo_edad.value_counts().values

# visual
plt.figure(figsize = (7,7))
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%')
plt.title('Personas segun la edad de compra',color = 'blue',fontsize = 15)

In [None]:
sns.boxplot(x="in.store", y="amount", hue="in.store", data=sales, palette="PRGn")
plt.show()

In [None]:
sns.swarmplot(x="in.store", y="amount",hue="in.store", data=sales)
plt.show()

In [None]:
sns.pairplot(sales)
plt.show()

In [None]:
#Dividir el conjunto de datos en uno de entrenamiento y otro de pruebas:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(sales[["age","items","amount","region"]],sales[["in.store"]], test_size=0.3, random_state=1234)

In [None]:
>Es importante siempre validar los rangos de los conjuntos de datos creados, para evitar caer en extrapolación:

In [None]:
print("Entrenamiento dimensiones",X_train.shape)
print("Descripción")
X_train.describe

In [None]:
print("Pruebas dimensiones",X_test.shape)
print("Descripción")
X_train.describe

In [None]:
## Modelo de Machine Learning

In [None]:
Una vez seleccionadas las variables para incluir en el modelo de regresión, se procede a crearlo:

In [None]:
#-------------- 
# kernel SVM 
#--------------
classifier1 = SVC(kernel="rbf",C=1.0,probability=True)
classifier1.fit( X_train, y_train )

y_pred1 = classifier1.predict( X_test )
probs1 = classifier1.predict_proba( X_test )

train_predictions1 = classifier1.predict(X_train)
train_probs1 = classifier1.predict_proba(X_train)

cm = confusion_matrix( y_test, y_pred )
print("Accuracy on Test Set for kernel-SVM = %.2f" % ((cm[0,0] + cm[1,1] )/len(X_test)))
scoresSVC = cross_val_score( classifier1, X_train, y_train, cv=10)
print("Mean kernel-SVM CrossVal Accuracy on Train Set %.2f, with std=%.2f" % (scoresSVC.mean(), scoresSVC.std() ))
classifier1.score(X_train,y_train)

In [None]:
#Generar el modelo de regresión lineal
tree = DecisionTreeClassifier()

In [None]:
# Entrenamos nuestro modelo
tree.fit(X_train, y_train)

In [None]:
# Hacemos las predicciones que en definitiva una línea (en este caso, al ser 2D)
y_pred = tree.predict(X_test)

In [None]:
predict_values=tree.predict_proba(X_test)
predict_values[:, 1]

In [None]:
## Evaluación

In [None]:
matrix=confusion_matrix(y_test, predict_values[:, 1])
matrix

In [None]:
auc = roc_auc_score(y_test, predict_values[:, 1])
print('AUC: %.2f' % auc)

In [None]:
fpr, tpr, thresholds = roc_curve(y_test, predict_values)

In [None]:
predict_values[1]

In [None]:
plt.plot(fpr, tpr, color='orange', label='ROC')

plt.plot([0, 1], [0, 1], color='darkblue', linestyle='--')

plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend()
plt.show()

In [None]:
## Resultados
En conclusión, los valores obtenidos por la clasifición verdaderos positivos no son buenos. Por lo cual no se recomienda utilizar este modelo de machine learning.