In [1]:
# Ejemplo práctico de KNN (K Neighbors Nearest)

# Un proveedor de telecomuicaciones quiere predecir que clientes podrian contratar
# alguno de sus cuatro paquetes de productos (columna custcat):
  # 1 - Básico
  # 2 - Estándar
  # 3 - Plus
  # 4 - Total

# Buscando predecir mediante la clasificación de datos de sus clientes
#con base en los atributos: region, edad, status_marital, etc

In [2]:
#### Importamos las librerías necearias
import itertools
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import NullFormatter
import pandas as pd
import matplotlib.ticker as ticker
from sklearn import preprocessing
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

In [3]:
###############  CARGA DE DATOS   ###############

# Para uso práctico se han descargado los datos en archivo .csv
df = pd.read_csv('data_knn_python.csv')
# Veamos las primeras 5 filas
df.head()

Unnamed: 0.1,Unnamed: 0,region,tenure,age,marital,address,income,ed,employ,retire,gender,reside,custcat
0,0,2,13,44,1,9,64.0,4,5,0.0,0,2,1
1,1,3,11,33,1,7,136.0,5,5,0.0,0,6,4
2,2,3,68,52,1,24,116.0,1,29,0.0,1,2,3
3,3,2,33,33,0,12,33.0,2,0,0.0,1,1,1
4,4,2,23,30,1,9,30.0,1,2,0.0,0,4,3


In [4]:
# La tarea es construir un calsificador , para predecir a que clase pertenecen
# Usaremos la calsificacion de K Nearest Neighbours - (K Vecinos Cercanos)

In [5]:
# Veamos que columnas (variables) estamos manejando
df.columns

Index(['Unnamed: 0', 'region', 'tenure', 'age', 'marital', 'address', 'income',
       'ed', 'employ', 'retire', 'gender', 'reside', 'custcat'],
      dtype='object')

In [6]:
###############  SPLIT DEL CONJUNTO DE DATOS   ###############

# Convertimos el dataframe a un arreglo de listas (Numpy array)
# Tomando en cuenta todas las columnas exepto "custcat"
X = df[['region', 'tenure','age', 'marital', 'address', 'income', 'ed', 'employ','retire', 
        'gender', 'reside']].values  #.astype(float)
# Visualizamos las primeras 5 filas (como podemos ver coinciden con la tabla de arriba)
X[0:5]

array([[  2.,  13.,  44.,   1.,   9.,  64.,   4.,   5.,   0.,   0.,   2.],
       [  3.,  11.,  33.,   1.,   7., 136.,   5.,   5.,   0.,   0.,   6.],
       [  3.,  68.,  52.,   1.,  24., 116.,   1.,  29.,   0.,   1.,   2.],
       [  2.,  33.,  33.,   0.,  12.,  33.,   2.,   0.,   0.,   1.,   1.],
       [  2.,  23.,  30.,   1.,   9.,  30.,   1.,   2.,   0.,   0.,   4.]])

In [7]:
# Hacemos lo mismo pero con el atributo a predecir
y = df['custcat'].values
# El algoritmo de KNN trabaja mejor con valores normalizados
X = preprocessing.StandardScaler().fit(X).transform(X.astype(float))

In [8]:
# Dividimos en dos conjuntos mutuamente excluyentes los conjuntos de datos
X_train, X_test, y_train, y_test = train_test_split (X, y, test_size=0.2, random_state=4)
print ('Conjunto de entrenamiento:', X_train.shape,  y_train.shape)
print ('Conjunto de prueba:', X_test.shape,  y_test.shape)

Conjunto de entrenamiento: (800, 11) (800,)
Conjunto de prueba: (200, 11) (200,)


In [9]:
###############  ENTRENAMIENTO DEL MODELO   ###############

#### Establecemos el valor de los k vecinos
k = 4
clasificador = KNeighborsClassifier(n_neighbors = k).fit(X_train, y_train)

In [10]:
###############  PREDICCIÓN DEL MODELO   ###############
prediccion = clasificador.predict(X_test)

In [11]:
###############  EVALUACIÓN DEL MODELO   ###############
print("Accuracy del Conjunto de entrenamiento", metrics.accuracy_score(y_train, clasificador.predict(X_train)))
print("Accuracy del Conjunto de prueba", metrics.accuracy_score(y_test, prediccion))

Accuracy del Conjunto de entrenamiento 0.5475
Accuracy del Conjunto de prueba 0.32
