

# Laboratorio 8

Empezaremos a ver conceptos básicos de ML y sus diferencias con econometría

## ¿Qué es ML?

El aprendizaje automático ( ML ) es el estudio científico de algoritmos y modelos estadísticos que los sistemas informáticos utilizan para realizar una tarea específica sin utilizar instrucciones explícitas, basándose en patrones e inferencias. Se considera un subconjunto de la inteligencia artificial. Los algoritmos de aprendizaje automático construyen un modelo matemático basado en datos de muestra, conocidos como datos de entrenamiento, para hacer predicciones o decisiones sin estar programados explícitamente para realizar la tarea.

https://towardsdatascience.com/what-is-machine-learning-a-visual-explanation-14642b90429f



# ¿Para qué utilizar aprendizaje estadístico?

Hay dos razones por las que queremos utilizar las técnicas de aprendizaje estadístico:

* **Predicción**:  En el caso de aprendizaje estadístico, si tenemos un modelo $\hat{f}(X)$, podemos estimar $y$:

$$
E(y) = \hat{f}(X) + E(\epsilon) = \hat{f}(X)
$$
 asumiendo que $E(\epsilon)=0$.

* **Inferencia**: queremos *entender* cuáles variables $X_1, X_2, \cdots, X_p$ afectan el resultado $y$, y de qué forma lo hacen.

### ¿Explicar o predecir?
El punto de partida en un proyecto de análisis de datos es el siguiente:

(1) comprender las relaciones o

(2) obtener el mejor nivel de precisión posible. 

Galit Shmueli en su artículo [“Explain or Predict”](https://www.stat.berkeley.edu/~aldous/157/Papers/shmueli.pdf) sugiere la distinción entre modelado explicativo y predictivo. 

- El "modelo explicativo" utiliza métodos estadísticos para probar las relaciones causales. 
- Por el contrario, el "modelado predictivo" es el proceso de aplicar un modelo estadístico o un algoritmo de minería de datos a los datos con el fin de predecir observaciones nuevas o futuras. 

Como dijo Jerome H. Friedman en su artículo, "uno de los usos más comunes de los datos es la predicción". Si el objetivo es probar la hipótesis causal, el propósito "explicativo" es más importante que el propósito predictivo, y viceversa. 
- La econometría, desde su génesis, se ha enfatizado más en la prueba de hipótesis y la identificación de causalidad.
- Por el contrario, el aprendizaje automático tiene como objetivo la predicción y tiene un éxito impresionante.


Las preguntas causales requieren algunos diseños de generación de datos y no pueden calcularse solo a partir de los datos. Mira las siguientes preguntas:
- ¿Cuál es la eficacia de un fármaco determinado en una población determinada?
- ¿Qué fracción de delitos se puede evitar si se implementa una nueva política?
- ¿Cuál fue la causa de la muerte de un paciente debido a ciertas complicaciones médicas?
- ¿Cómo utilizar el análisis de datos para demostrar que un empleador es culpable de discriminación en la contratación?

Por el contrario, las preguntas predictivas son más del tipo:
- ¿Puedo predecir cuándo una persona podría reincidir en delitos?
- ¿Puedo predecir el riesgo de una persona de contraer diabetes?

### ¿Qué pueden aprender uno del otro? 

Hal Varian, economista jefe de Google Inc., pregunta qué puede aprender un economista del aprendizaje automático y qué puede aprender el aprendizaje automático de la econometría. Existen técnicas de aprendizaje automático ["new tricks"](https://www.aeaweb.org/articles?id=10.1257/jep.28.2.3) que deben adoptar los econometristas y las perspectivas econométricas que las técnicas de aprendizaje automático pueden considerar.

1. Curso de dimensionalidad (no puedo tener más columnas que filas) - importa para ML
    - Grados de libertad
2. Sobreespecificación  - importa para ML
3. La forma funcional debería sustentada en la teoría - no importa tanto para ML
4. Multicolinealidad

#### Econometría de ML 
- Regularización para evitar el sobreajuste: los modelos complejos tienden a ajustarse demasiado bien a los datos de entrenamiento, pero no se ajustan a los datos desconocidos. Las técnicas de regularización incorporan la función de pérdida para penalizar un modelo con demasiados parámetros. La palabra "regularización" significa hacer que la predicción sea regular o aceptable, para que pueda predecir datos desconocidos.

- Validación cruzada: Técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión de un modelo que se llevará a cabo a la práctica

- Promedio de modelos: técnica específica para mejorar la capacidad predictiva mediante la combinación de predicciones de un conjunto de modelos. Por ejemplo, se utiliza para promediar coeficientes de regresión en múltiples modelos con el objetivo final de capturar el efecto general de una variable.

- Análisis textual: Es un proceso de recopilación de datos para comprender las formas en que se puede interpretar el lenguaje humano


#### ML de Econometría

- Inferencia causal : El proceso de sacar una conclusión sobre una conexión causal basada en las condiciones de ocurrencia de un efecto. Ver Susan Athey https://www.tandfonline.com/doi/abs/10.1080/01621459.2017.1319839?journalCode=uasa20
- Variable de confusión: Una variable de confusión es una influencia externa que cambia el efecto de una variable dependiente e independiente. Por ejemplo, si está investigando si la falta de sueño conduce a la pérdida de peso, la falta de sueño es su variable independiente y la pérdida de peso es su variable dependiente. Una posible variable de confusión puede ser el consumo de pastillas para dormir
- Experimentos naturales: Un experimento natural es un estudio empírico en el que los individuos están expuestos a las condiciones experimentales y de control determinadas por la naturaleza u otros factores fuera del control de los investigadores. La forma más simple es similar a la asignación aleatoria.
- Diseño de regresión discontinua (DR): popular en econometría, ciencias políticas y epidemiología, un diseño de regresión discontinua identifica los efectos causales de las intervenciones para aquellos que están por encima y por debajo de un umbral. 
- Diferencia en diferencias (DID): DID es un diseño cuasi-experimental para estimar el efecto causal de una intervención o tratamiento específico (como la aprobación de una ley, la promulgación de una política o la implementación de un programa a gran escala) comparando los cambios en los resultados. a lo largo del tiempo entre una población que está inscrita en un programa (el grupo de intervención) y una población que no lo está (el grupo de control). 
- Variables instrumentales: una variable instrumental es una tercera variable, Z, que se utiliza en el análisis de regresión cuando tiene variables endógenas, variables que están influenciadas por otras variables en el modelo. La variable instrumental se utiliza para tener en cuenta el comportamiento inesperado entre variables.

Para más info pueden consultar

https://towardsdatascience.com/from-econometrics-to-machine-learning-ee182f3a45d7

# ¿Cómo aprendemos el proceso de generación de datos? 


* Si queremos comparar modelos, necesitamos una métrica que nos permita decir si un modelo es mejor que otro.


* En modelos de regresión, la métrica estándar es el error cuadrático medio (MSE):
$$
MSE = \frac{1}{N}\sum_i (y_i - \hat{y}_i)^2
$$


* Así: un modelo $A$ as mejor que un modelo $B$ si $MSE_A < MSE_B$


* Alternativamente, si queremos hacer supuestos sobre la distribución del término de error $\epsilon$, podemos utilizar (el logaritmo de) la función de verosimilitud, $LL(\theta)$ en el caso de un modelo paramétrico con parámetros a estimar $\mathbf \theta$.

    * En este caso el mejor modelo es el que tiene un *mayor loglikelihood LL*.


* En el caso paramétrico, lineal en los parámetros $Y = X\beta + \epsilon$, ya sabemos que el **estimador de mínimos cuadrados ordinarios** (OLS, por sus siglas en inglés), es la solución al problema de minimizar el MSE.

# Y en el caso de modelos de clasificación:

* En modelos con supuestos sobre la distribución (ejemplo: modelos *Logit* o *Probit*), se puede utilizar la respectiva verosimilitud.


* Pero en general podemos usar la **tasa de error**:
$$
\frac{1}{N}\sum_i I(y_i \neq \hat{y}_i)
$$

    * Es decir, para cada observación, sabemos si fue clasificada correcta o incorrectmente.  Si fue incorrecta $y_i \neq \hat{y}_i$ la variable indicador toma el valor $1$, si fue correcta toma el valor $0$.


* Los modelos de clasificación suelen tener asociada una probabilidad condicional: $Prob(y_i \in C_k| x_i)$, es decir, la probabilidad de que una obsevación $i$ sea del tipo $k$, condicional en el valor de sus regresores $x_i = x_{1i},x_{2i}, \cdots, x_{pi},$.


* En estos casos, el clasificador que minimiza la tasa de error se conoce como el **clasificador de Bayes** ("Bayes classifier"), y asigna cada observación $i$ a la clase que tiene una mayor probabilidad de ocurrir $k^* = argmax_k Prob(y_i \in C_k| x_i)$

# Modelos paramétricos y modelos no paramétricos

* **Modelo paramétrico:** si tiene un *número fijo de parámetros* y se hacen supuestos sobre la forma funcional del proceso de generación de datos $f(x)$.

    * Ejemplo1: $y = \beta_0 + \beta_1 x_1 + \epsilon$
    
    * Ejemplo2: $Prob(y=1|x,\beta) = \Phi(x'\beta)$, donde $\Phi()$ es la función de distribución acumulativa de una variable aleatoria normal estándar.




* **Modelo no paramétrico:** si no se hacen supuestos sobre la forma funcional del proceso de generación de datos.

    * **K-nearest neighbors**: 
        
        * Queremos clasificar la observación $i$.
        * Para hacerlo miramos las categorías de las $K$ observaciones más cercanas de acuerdo con las variables independientes $x$, se obtienen las fracciones empíricas (ej. $1/3$ de los K vecinos son de la categoría $1$ y $2/3$ son de la categoría $0$):
        $$
        Prob \left(y_i=c|\mathbf{x_i},K \right) = \frac{1}{K}\sum_{j \in N_K(x_i)} I(y_j =c)
        $$



# Un pipeline simple de ML

Los primeros pasos a seguir para ajustar un modelo de predicción usando Python son:

1. **Preparar los datos**. Como hemos visto, para llegar a este punto hemos aprendido a cargar los datos de diferentes maneras y de diferentes fuentes, a limpiarlos, a organizarlos, agruparlos, etc, y a hacer un análisis exploratorio de datos con el objetivo de entender mejor los datos y el problema.

2. **Identificar la variable objetivo**. Si ya está definida, identificarla y separarla del resto de las variables independientes. Si no está definida, construírla a partir del contexto del problema.

3. **División train/test de los datos**. La división puede ser aleatoria o predefinida según el contexto, con muestreo, despendiendo de la naturaleza del problema.

4. **Instanciación del modelo para el entrenamiento**. Usaremos una librería para cargar los algoritmos predefinidos llamada sklearn. 

5. **Ajuste del modelo**. Utilizaremos el método ```fit``` del modelo.

6. **Predicción**. Utilización del método ```predict``` del modelo.

7. **Elección y implemetación de un métrica**. Para poder estimar el error de prueba.



Primeramente vamos a llamar a la librería ```scikit-learn```, ésta contiene varios módulos en donde están cargadas las diferentes herramientas de ML.
Por ejemplo de model_selection obtendremos el método ```train_test_split```, de ```linear_model``` obtendremos el objeto ```LinearRegression``` la cuál contiene el algorítmo de regresión lineal cargado, etc.

In [1]:
import pandas as pd
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.preprocessing import StandardScaler



## Preparar los datos: valores de las casas de los suburbios de Boston

* Fuente: https://www.kaggle.com/c/boston-housing 

Lo podemos leer de la siguiente forma:

In [2]:
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

df = pd.read_csv('files/Boston.csv', header=None, 
                 delimiter=r"\s+", names=column_names)



El archivo contiene datos de las casas de los suburbios de Boston, cada registro representa una casa y tiene varios atributos.

Tanto caracteristicas físicas de la casa como atributos demográficos de la zona: número de habitaciones, el procentaje de crimen por zona, el ratio de alumno/maestro, etc... 

Estos datos ya vienen en una estructura que, a parte de estructurada de manera adecuada, no viene con registro repetidos, nulos, o atípicos. Podemos decir que fueron previamente tratados y que están listos para entrenar un modelo.

In [3]:
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2




## Identificar la variable objetivo
En este caso la variable objetivo está dada, no tenemos que hacer una transformación para obtenerla, simplemente la obtenemos a partir de la columna del dataframe ```df```. Las demás columnas ya son variables númericas que pueden servir como *input* de un modelo.

In [4]:
features = list(df.columns)[:-1]

In [5]:
X = df[features]
y = df.MEDV



## Hacer la separacion train/test
El método ```train_test_split``` regresa 4 outputs, las features divididas en entrenamiento y prueba, y la variable objetivo divida en entrenamiento y prueba respectivamente. Por convención (como en muchos casos en Python) en este contexto les llamamos ```X_train```, ```X_test```, ```y_train```, ```y_test```.

Por defecto se hace una particion aleatoria del 75% de entrenamiento, 25% de prueba.

¿En todos los casos es válido hacer un muestreo aleatorio? ¿En qué casos cambiarías el porcentaje de observaciones en cada muestra?

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [7]:
len(X_train)

379

In [8]:
len(X_test)

127



## Instanciación del modelo para el entrenamiento
Se instancia el objeto en donde van a cargar los métodos y atributos que harán el entrenamiento y ajuste para crear un modelo de aprendizaje de máquina.

En este caso ```LinearRegression``` es una instancia de la clase ```LinearRegression```, que contiene el algoritmo para obtener los coeficientes de mínimos de cuadrados. 

In [9]:
lr = LinearRegression()



## Ajuste del modelo

Para ejecutar el algoritmo se hace a través de un método llamado **fit**.

Una vez hecha una separación de entrenamiento y de prueba, realizamos el ajuste o entrenamiento, es decir, a partir de una muestra de los datos se van a obtener los coeficientes que minimizan el error.

Estos coeficientes define un modelo específico generado por esos datos. Por claridad lo vamos a guardar en una objeto llamado lr_model.

In [10]:
lr_model = lr.fit(X_train, y_train)
print ('Coeficientes: ',  lr_model.intercept_, lr_model.coef_)

Coeficientes:  36.47015247742959 [-1.07817012e-01  5.03354114e-02  4.07927430e-02  2.67942463e+00
 -1.77994899e+01  3.70618389e+00 -1.01944854e-03 -1.51998383e+00
  3.24187621e-01 -1.24790717e-02 -9.03981814e-01  1.03764695e-02
 -5.74510392e-01]




## Predicción

Una vez que ha sido entrenado el modelo, podemos probar con una observación de una muestra diferente, o sea, con la muestra de prueba. Notese que la muestra de prueba no ha sido usada en el método fit.

In [11]:
predictions_lr = lr_model.predict(X_test)
predictions_lr[:10]

array([42.34241904, 27.32515993,  5.3930836 , 20.13726285, 12.83325123,
       14.6703969 , 13.20389637, 33.44486181, 25.57312819, 18.28021741])

In [12]:
predictions_lr

array([42.34241904, 27.32515993,  5.3930836 , 20.13726285, 12.83325123,
       14.6703969 , 13.20389637, 33.44486181, 25.57312819, 18.28021741,
       28.62497935, 16.31726977, 22.73438626, 24.48419419, 23.42821045,
       20.7887315 , 29.02753009, 34.27401483, 20.92823223, 24.65732849,
       31.78101221, 24.35712111, 24.8953182 , 34.42930807, 17.42799605,
       14.33559525, 20.28782068, 25.29721234, 16.97530042, 23.34443048,
       27.76226912, 32.05314112, 23.06194422, 21.31094325, 32.67690334,
       22.64243682, 13.05594805, 13.28200901, 29.88934964,  3.42065607,
       26.1269553 , 24.56200153, 19.90468948, 18.00570123, 18.52371939,
       33.58499227, 22.75031269, 16.8948118 , 31.86328775, 22.89641876,
        8.0920779 , 32.94585775, 19.84296548, 20.31805233, 20.62026805,
       35.60357212, 20.68890994, 11.58450051, 19.15560097, 20.60838965,
       18.71426834, 17.04111141, 15.3733053 , 30.93200789, 34.63901422,
       -5.05334501, 27.79806656, 13.30705039, 24.52331089, 22.69

In [13]:
y_train

272    24.4
80     28.0
449    13.0
283    50.0
251    24.8
       ... 
229    31.5
172    23.1
120    22.0
155    15.6
433    14.3
Name: MEDV, Length: 379, dtype: float64



Observamos que el output del método **predict** es un array en donde están las predicciones de los valores de las casas.

El output dependerá del problema, si es supervisado de regresión o de clasificación.

¿Cómo sería el output en un contexto de apredizaje supervisado de clasificación? ¿Y de regresión? ¿Y de aprendizaje no supervisado?



## Elección de un métrica
La métrica que se elige es para medir qué tan bien tu modelo va a predecir cuando se tengan datos no observados previamente. Más adelante veremos los detalles de las distintas métricas que existen.

In [14]:
y_test.mean()

22.013385826771646

In [15]:
print ('Error medio absoluto: ', mean_absolute_error(y_test,predictions_lr))
print ('Error cuadrático medio: ', mean_squared_error(y_test,predictions_lr))

Error medio absoluto:  3.244313394654667
Error cuadrático medio:  18.154414769970018




## Conclusión

Como se ha mencionado este es un ejemplo introductorio del marco de trabajo básico del que partiremos.
A partir de aquí vamos a profundizar en cada uno de los pasos que hemos mencionado, a responder varias preguntas que han quedado inconclusas y estudiar problemas de naturaleza distinta como aprendizaje supervisado de clasificación, de regresión y apredizaje no supervisado.

## El algoritmo KNN

El K-NN es un algoritmo de aprendizaje supervisado, es decir, que a partir de un juego de datos inicial su objetivo será el de clasificar correctamente todas las instancias nuevas. El juego de datos típico de este tipo de algoritmos está formado por varios atributos descriptivos y un solo atributo objetivo (también llamado clase).

En esta implementación usaremos el algoritmo KNN para asignar las etiquetas de cada pieza de ropa que se encuentra en la imagen (vamos a usar imágenes de piezas de ropa).

Destacar que K-NN es muy sensible a:
1. La variable k, de modo que con valores distintos de k podemos obtener resultados también muy distintos. Este valor suele fijarse tras un proceso de pruebas con varias instancias.

2. La métrica de similitud utilizada, puesto que esta influirá, fuertemente, en las relaciones de cercanía que se irán estableciendo en el proceso de construcción del algoritmo. La métrica de distancia puede llegar a contener pesos que nos ayudarán a calibrar el algoritmo de clasificación, convirtiéndola, de hecho, en una métrica personalizada.

Vemos cómo influye el valor de k:

```Para k = 1 el algoritmo clasificará la bola con signo + como blanca
Para k = 2 el algoritmo no tiene criterio para clasificar la bola con signo +
Para k >= 3 el algoritmo clasificará la bola con signo + como negra```

_init_train: Esta función que asegura que la variable train_data de la clase KNN, contiene nuestro conjunto de entrenamiento, tenga el formato float, y luego extrae las características

In [1]:
 def _init_train(self,train_data):
    dim2 = train_data.shape[1]*train_data.shape[2]
    self.train_data = np.array(train_data.reshape([train_data.shape[0], dim2]), dtype = 'float')

get_k_neighbours: Recibe el conjunto de test que queremos etiquetar (Test_data) y hace lo siguiente:

1. Cambia de dimensiones de las imágenes de la misma manera que lo hemos hecho con el conjunto de entrenamiento.

2. Calcula la distancia entre las características del test_data con las del train_data.

3. Guarda en la variable de clase self.neighbors las K etiquetas de las imágenes más próximas para cada muestra del test.

In [2]:
def get_k_neighbours(self, test_data, k):
    dim2 = test_data.shape[1]*test_data.shape[2]
    test_data = np.array(test_data.reshape([test_data.shape[0], dim2]), dtype = 'float')
    distances = cdist(test_data, self.train_data, 'euclidean')
    self.neighbors = np.array([]).reshape([0, k])
    
    for img in distances:
        idx = np.argsort(img)[:k]
        labels = self.labels[idx].reshape([1, k])
        self.neighbors = np.vstack([self.neighbors, labels])

get_class: Comprueba cuál es la etiqueta que más veces ha aparecido en la variable de clase neighbors para cada imagen del conjunto de tes y devuelve un array con esta clase para cada imagen.

In [3]:
def get_class(self):

    if self.neighbors.shape[1] == 1:
        return self.neighbors
    else:
        clase = np.array([])
        for img in self.neighbors:
            _, indexes, counts = np.unique(img, return_counts = True, return_index=True)
            maxVal_index = np.where(counts == np.amax(counts))
            clase = np.append(clase, img[np.sort(indexes[maxVal_index])[0]])
        
        return clase

Predict: Toma como entrada el conjunto de test que queremos etiquetar (test_data) y el número de vecinos que queremos tener en cuenta (k), busca sus vecinos utilizando get_k_neighbours, y devuelve la clase más representativa utilizando get_class.

In [4]:
 def predict(self, test_data, k):
    self.get_k_neighbours(test_data, k)
    return self.get_class()

## EJERCICIOS

1. Escriba un programa de Python usando Scikit-learn para dividir el conjunto de datos del iris en un 80 % de datos de entrenamiento y un 20 % de datos de prueba. Del total de 150 registros, el conjunto de entrenamiento contendrá 120 registros y el conjunto de prueba contiene 30 de esos registros. Entrene o ajuste los datos en el modelo y calcule la precisión del modelo utilizando el algoritmo del vecino más cercano K.

In [21]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_selection import train_test_split  

iris = pd.read_csv("iris.csv")
#Drop id column
iris = iris.drop(['Id'],axis=1,inplace=True)
X = iris.iloc[:, :-1].values
y = iris.iloc[:, 4].values
#Split arrays or matrices into train and test subsets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20) 
knn = KNeighborsClassifier(n_neighbors=7)  
knn.fit(X_train, y_train)   
# Calculate the accuracy of the model 
print("Accuracy of the model:")
print(knn.score(X_test, y_test))

AttributeError: 'NoneType' object has no attribute 'iloc'

2. dividir el conjunto de datos del iris en un 70 % de datos de entrenamiento y un 30 % de datos de prueba. Del total de 150 registros, el conjunto de entrenamiento contendrá 105 registros y el conjunto de prueba contiene 45 de esos registros. Prediga la respuesta para el conjunto de datos de prueba (SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm) utilizando el algoritmo K vecino más cercano. Utilice 5 como número de vecinos.

In [20]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
iris = pd.read_csv("iris.csv")
#Drop id column
iris.head()
iris = iris.drop('Id',axis=1)
X = iris.iloc[:, :-1].values
y = iris.iloc[:, 4].values
#Split arrays or matrices into random train and test subsets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
'''
print("\n70% train data:")
print(X_train)
print(y_train)
print("\n30% test data:")
print(X_test)
print(y_test)
'''
#Create KNN Classifier
#Number of neighbors to use by default for kneighbors queries.
knn = KNeighborsClassifier(n_neighbors=5)
#Train the model using the training sets
knn.fit(X_train, y_train)
#Predict the response for test dataset
print("Response for test dataset:")
y_pred = knn.predict(X_test)
print(y_pred)

Response for test dataset:
['Iris-versicolor' 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-virginica' 'Iris-versicolor'
 'Iris-virginica' 'Iris-setosa' 'Iris-setosa' 'Iris-virginica'
 'Iris-virginica' 'Iris-virginica' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-setosa'
 'Iris-setosa' 'Iris-virginica' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-setosa' 'Iris-versicolor' 'Iris-setosa' 'Iris-versicolor'
 'Iris-setosa']


In [15]:
iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


3. divida el conjunto de datos del iris en un 80 % de datos de entrenamiento y un 20 % de datos de prueba. Del total de 150 registros, el conjunto de entrenamiento contendrá 120 registros y el conjunto de prueba contiene 30 de esos registros. Entrene o ajuste los datos en el modelo y calcule la precisión del modelo utilizando el algoritmo del vecino más cercano K

In [22]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_selection import train_test_split  
iris = pd.read_csv("iris.csv")
#Drop id column
iris = iris.drop('Id',axis=1)
X = iris.iloc[:, :-1].values
y = iris.iloc[:, 4].values
#Split arrays or matrices into train and test subsets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20) 
knn = KNeighborsClassifier(n_neighbors=7)  
knn.fit(X_train, y_train)   
# Calculate the accuracy of the model 
print("Accuracy of the model:")
print(knn.score(X_test, y_test))

Accuracy of the model:
0.9666666666666667
