## Linear and logistic regression

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
boston = load_boston()
X_train, X_test, Y_train, Y_test = train_test_split(boston.data,
                                                    boston.target, test_size=0.2, random_state=0)


In [20]:
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression

regr = LinearRegression()
regr.fit(X_train, Y_train)
Y_pred = regr.predict(X_test)
print("MAE", mean_absolute_error(Y_test, Y_pred))


MAE 3.8429092204444952


In [21]:
%timeit regr.fit(X_train, Y_train) 

957 µs ± 154 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [22]:
# convertir la variable objetivo en binaria(0 si el precio esta por debajo de la media)
import numpy as np
avg_price_house = np.average(boston.target)

high_priced_idx = (Y_train >= avg_price_house)
Y_train[high_priced_idx] = 1
Y_train[np.logical_not(high_priced_idx)] = 0
Y_train = Y_train.astype(np.int8)

high_priced_idx = (Y_test >= avg_price_house)
Y_test[high_priced_idx] = 1
Y_test[np.logical_not(high_priced_idx)] = 0
Y_test = Y_test.astype(np.int8)

In [25]:
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)
print(classification_report(Y_test, Y_pred))



              precision    recall  f1-score   support

           0       0.81      0.90      0.85        61
           1       0.82      0.68      0.75        41

    accuracy                           0.81       102
   macro avg       0.82      0.79      0.80       102
weighted avg       0.81      0.81      0.81       102



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Naive Bayes

In [26]:
from sklearn.model_selection import train_test_split
from sklearn import datasets
iris = datasets.load_iris()
X_train, X_test, Y_train, Y_test = train_test_split(iris.data,
                                                    iris.target, test_size=0.2, random_state=0)


Hay tres tipos de clasificadores Naive Bayes; cada uno de ellos tiene fuertes
suposiciones (hipótesis) sobre las características. 
*   Si se trata de datos reales/continuos, el clasificador **gaussiano de Naive Bayes** asume que las
características se generan a partir de un proceso gaussiano (es decir, que sedistribuyen normalmente).
*   Si se trata de un modelo de eventos en el que éstos pueden modelarse con una distribución multinomial (en tal caso, las
características son contadores o frecuencias), es necesario utilizar el clasificador **Naive Bayes multinomial**. 
*   si las características son independientes y booleanas, y es seguro asumir que son el resultado de un proceso
Bernoulli, puede utilizar el clasificador **Bernoulli Naive Bayes**.


Vamos a probar ahora un ejemplo de aplicación del clasificador gaussiano Naive
Bayes.

In [29]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)

In [30]:
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

print (classification_report(Y_test, Y_pred))
accuracy_score(Y_test, Y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.93      1.00      0.96        13
           2       1.00      0.83      0.91         6

    accuracy                           0.97        30
   macro avg       0.98      0.94      0.96        30
weighted avg       0.97      0.97      0.97        30



0.9666666666666667

## K-nearest neighbours
Es uno de los métodos supervisados más sencillos, ya que la predicción se realiza con sólo mirar los K ejemplos más parecidos del conjunto de entrenamiento (en términos de distancia euclidiana o de algún otro tipo de distancia)

Dosparámetros obligatorios para este algoritmo: la cardinalidad del
vecindario (K), y la medida para evaluar la similitud (aunque la distancia
euclidiana, o L2, es la más utilizada y es el parámetro por defecto para la
mayoría de las implementaciones).

In [88]:
# Vamos a utilizar un gran conjunto de datos, los dígitos manuscritos del MNIST. donde cada dijito esta compuesto por una matriz de 28 X 28 = 784 pixeles o caracteristicas

from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split

# imports the mnist object previously pickled and dumped to disk
import pickle
mnist = pickle.load(open("resources\mnist.pickle", "rb"))

# obtain 1000 random rows of data for reduce the dataset size, otherwise it'll take
# too much time to run
mnist.data, mnist.target = shuffle(mnist.data, mnist.target, random_state=101, n_samples=1000)

X_train, X_test, Y_train, Y_test = train_test_split(mnist.data,
                                                    mnist.target, test_size=0.4, random_state=0)
mnist.data.shape

(1000, 784)

In [89]:
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
# KNN: K=10, default measure of distance (euclidean)
clf = KNeighborsClassifier(3)
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)
print(classification_report(Y_test, Y_pred))


              precision    recall  f1-score   support

         0.0       0.98      1.00      0.99        40
         1.0       0.75      0.98      0.85        43
         2.0       0.97      0.83      0.89        41
         3.0       0.85      0.93      0.89        44
         4.0       0.91      0.83      0.87        35
         5.0       0.91      0.88      0.90        34
         6.0       1.00      0.96      0.98        47
         7.0       0.97      0.94      0.96        34
         8.0       0.94      0.73      0.83        45
         9.0       0.76      0.86      0.81        37

    accuracy                           0.90       400
   macro avg       0.90      0.89      0.90       400
weighted avg       0.90      0.90      0.90       400



Hagamos uso de una busqueda aleatroria para buscar los mejores parametros de nuestro modelo K-NN

In [100]:
from sklearn.model_selection import RandomizedSearchCV
h = KNeighborsClassifier()
search_dict = {
    'n_neighbors': [2, 3, 4, 5, 6, 10, 15, 20, 50, 100, 1000],
    'algorithm': ['ball_tree', 'kd_tree', 'brute'],
    'weights': ['uniform', 'distance']}


search_func = RandomizedSearchCV(estimator=h,
                                 param_distributions=search_dict,
                                 n_iter=10,
                                 scoring='accuracy',
                                 n_jobs=-1,
                                 refit=True,
                                 cv=10,
                                 return_train_score=False)

search_func.fit(X_train, Y_train)
Y_pred = search_func.predict(X_test)
# print(classification_report(Y_test, Y_pred))
print(search_func.best_estimator_)
print(search_func.best_params_)
print(search_func.best_score_)


        nan 0.675      0.80166667 0.82166667]


KNeighborsClassifier(algorithm='ball_tree', n_neighbors=3, weights='distance')
{'weights': 'distance', 'n_neighbors': 3, 'algorithm': 'ball_tree'}
0.8566666666666667
