# Básico de Aprendizaje Automático

Este laboratorio incluye las herramientas basicas y esenciales de aprendizaje automático.  Dará un vistazo de como o que hay debajo de la inteligencia artificial.

Revisaremos algebra lineal y probabilidades, luego nos moveremos a la construcción de los fundamentos de aprendizaje automatico de algoritmos y sistemas.

El laboratorio cubre:

- Matemática Basica Aplicada
- Teoría de Probabilidades
- Construcción de algoritmos básicos de aprendizaje automatico


## Matemática Básica Aplicada

La matemática es la base de resolución de problemas, y esto también se da para intelignecia artificial.  Con librerías como numpy podemos eliminar lazos y hacer algebra lineal facil.  Cuando se piensa en IA, la mayoría de los miles de miles de operaciones que tienen que hacer el computador en tiempo real se dan basados a los bloques bases de algebra lineal para ayudarnos de manera programática.

In [None]:
import numpy as np

## Multiplicación de elementos con lazos
x = [3,4,5]
y = [0.2,0.4,0.6]
product = []
for i in range(len(x)):
    product.append(x[i]*y[i])

## Multiplicación de productos con algebra lineal
x = np.array([3,4,5])
y = np.array([0.2,0.4,0.6])
x * y

### Los Bloques Básicos de Inteligencia Artifical

Las aplicaciones de aprendizaje profundo son construidas o se dan en base a bloques de algebra lineal; escalares, vecotres, matrices y tensores.  Cada linea inferior ilustra lo anterior descrito.

In [None]:
import numpy as np

## Con escalares
nscalar = 4
fscalar = 4.198

## Con vectores
nvector = np.array([1,22,51])

## Con matrices
nmatriz = np.array([[3,5,7], [9,12,16]])

## Con tensores

ntensor = [[[4,5,1,-1]],[[2,4,5,6]],[[9,6,3,1]]] 

ntensor2 = np.arange(64).reshape((4, 4, 4))


Tambien podemos manipular estas variables con operaciones matemáticas:

In [None]:
## Matriz matemáticamente

m = np.array([[-1,2],[3,-4]])
n = np.array([[0.3,0.8],[-0.3,-4]])

m + n

In [None]:
## Tomando producto punto (Salida a Escalar)

o = np.array([-1,4,-8])
p = np.array([-3,1,0])
np.dot(o,p)

In [None]:
# Realizando el producto Hadarmard (Salida a vector)

r = np.array([3,5,7])
s = np.array([21,31,41])
r * s 

## Distribuciones en Python

Graficando las funciones de densidad probabilistica en python.  En este ejemplo utilizamos un kernel gausiano (KDE), FUNCION DE python de la librería scipy.  Un KDE nos ayuda a estimar la densidad de la función probabilistica.  Gausianos son otra forma de distribución normal.

In [None]:
from scipy.stats.kde import gaussian_kde
from numpy import linspace
import matplotlib.pyplot as plt

data = np.random.randn(10000)  ## Crea datos aleatorios; numpy creará datos por nosotros

gKDE = gaussian_kde(data)

dspace = linspace(min(data), max(data), 100)

plt.plot(dspace, gKDE(dspace))

Graficando la probabilidad de la función de Mass. Usaremos la data superior

In [None]:
nbins = 50

## Numero de contenedores para la funcion de probabilidad de Mass. 
cnts, bins = np.histogram(data, bins=nbins)
bins = bins[:-1] + (bins[1] - bins[0])/2

prob = cnts/float(cnts.sum())

## Crear el gráfico
plt.bar(bins, prob, 1.0/nbins)
plt.show()

## Regla de Bayes y Estadísticas

La regla de Bayes nos permite calcular la condición de probabilidad de eventos ocurrientes por medio de invertir las condicioes de eventos.

### $$P\left(\;A\;|\;B\;\right) = \frac{P\left(\;B\;|\;A\;\right)P\left(\;A\;\right)}{P(\;B\;)}$$



Recordar que hay dos "escuelas" que giran en torno a como ver la estadística: 

**Frecuencionistas** creen que la distribución normal es fija y no es desconocida.  Podemos ganar mas vistazos a la "verdadera" distribución utilizando técnicas de muestreo, efectos para pruebas y estudiando los parametros relativos a la distribución.

**Bayesianos** creen que la data nos informa acerca de la distribución y a medida que recibimos más data nuestra vista de la distribuci´pn puede ser actualizada, más alla de confirmar o negar las creencias previas.  Las observaciones bayesianas nunca son "certeras".

En aplicaciones de IA, siempre vamos a verlo desde el punto de vista bayesiano de las estadísticas.


In [None]:
p_enfPos = 0.8 ## Probabilidad de tener una enfermedad.  Resultado Positivo.
p_enfNeg = 0.2 ## Probabilidad de tener una enfermedad.  Resultado Negativo.

p_noPos = 0.096
p_noNeg = 0.904

p_FalsosPos = (.80 * .01) + (.096 * .99)

p_enf_dado_pos = (.80 * .01) / p_FalsosPos

print(p_enf_dado_pos)

## Aprendizaje Supervizado

En algoritmos de aprendizaje supervizado se confia en la experiencia previa de las tareas; estas requieren etiquetar la data contenida sobre una variable objetivo.  Por ejemplo, la información suministrada inferiormente es muy famosa para hacer pruebas con aprendizaje supervisado y algoritmos, el Iris Dataset.  Esta nos muestra la información de características de diferentes flores... longitud de sépalo, separación de sépalo, ancho de sépao, ancho de pétalo, longitud de pétalo y ancho de pétalo.  En este dataset, nuestra variable objetivo, usualmente llamada etiqueta es la especie.  Primero carguemos el dataset y veamos como está formado.

In [None]:
import pandas as pd
import numpy as np

irisdata = pd.read_csv("iris.csv")
irisdata.head()

Necesitamos procesar nuestra data codificada por los labels antes de que la alimentemos a la red de aprendizaje.  Utilizaremos un método, que generalmente da buenso resultados llamados RandomForest.  Primero Dividiremos los datasets en datasets de características y etiquetas, luego codificaremos la data antes de ingresarla a nuestro algoritmo utilizando una libreria llamada scikitlearn.  También utilizaremos el labelencoder de scikitlearn.

In [None]:
from sklearn.model_selection import train_test_split

caracteristicas = irisdata.iloc[:,0:4]
etiquetas       = irisdata.iloc[:,4]

Xtrain, Xtest, Ytrain, Ytest = train_test_split(caracteristicas, etiquetas, test_size = 0.25, random_state=50)

Ahora podemos proceder a hacer "fit" que es el entrenamiento de nuestro clasificador

In [None]:
from sklearn.ensemble import RandomForestClassifier

RFclassifier = RandomForestClassifier(n_estimators=1000) 
RFclassifier.fit(Xtrain, Ytrain)

Veamos como lo hizo el modelo.  Podemos predecir utilizando el conjunto de variables de pruebas utilizando las entradas de pruebas para luego, ya finalmente, retornar estos valores a etiquetas que vamos a decodificar del dataset de iris.

In [None]:
predicciones = RFclassifier.predict(Xtest)

Finalmente crearemos una matriz de confusión para probar como lo hicimos.

In [None]:
pd.crosstab(Ytest, predicciones, rownames=['Actual'], colnames=['Predecido'])

Búsqueda de hyperparámetros

In [None]:
from sklearn.model_selection import GridSearchCV
params = {
    'n_estimators': [100, 500, 1000],
    'max_features': [2, 3, 4],
    'max_depth': [90, 100, 110, 120],
    'min_samples_split': [6, 10, 14],
    'min_samples_leaf': [2, 4, 6],   
}

In [None]:
busqueda = GridSearchCV(estimator=RFclassifier, param_grid=params, cv=3)

In [None]:
# Esto tardará bastante, probar en casa solamente...
# ... puede demorar de 15min a horas
busqueda.fit(Xtrain, Ytrain)
busqueda.best_params_

## Aprendizaje No Supervizado

Componentes de Análisis Principal o PCA de sus siglas en inglés es un método de aprendizaje no supervisado para la extracción de características.  Este combina diferentes variables de entrada en una manera de la cual podría darnos las variables que proveen la menor cantidad de información para nosotros.

In [None]:
import pandas as pd
import numpy as np

In [None]:
caracteristicas = (caracteristicas - caracteristicas.mean()) / caracteristicas.std()

corrMat = np.corrcoef(caracteristicas.values.T)
corrMat

In [None]:
eigenVal, eigenVec = np.linalg.eig(corrMat)
print(eigenVal)
print(eigenVec)

In [None]:
eigenpairs = [[eigenVal[i], eigenVec[:,i]] for i in range(len(eigenVec))]
eigenpairs.sort(reverse=True)

In [None]:
proyeccion = np.hstack((eigenpairs[0][1].reshape(eigenVec.shape[1],1), eigenpairs[1][1].reshape(eigenVec.shape[1],1)))

In [None]:
transformar = caracteristicas.dot(proyeccion)

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
fig = plt.figure(figsize=(8,8))

ax = fig.gca()
ax = sns.regplot(transformar.iloc[:,0], transformar.iloc[:,1],fit_reg=False, scatter_kws={'s':70}, ax=ax)

ax.set_xlabel('componente principal 1', fontsize=10)
ax.set_ylabel('componente principal 2', fontsize=10)


for tick in ax.xaxis.get_major_ticks():
    tick.label.set_fontsize(12) 
    
for tick in ax.yaxis.get_major_ticks():
    tick.label.set_fontsize(12) 
    
ax.set_title('Componente Principal 1 vs Componente Principal 2\n', fontsize=15)

plt.show()

## Laboratorio - Clasificación de Sitio Segun Censo de US

En el siguiente laboratorio ud utilizará un dataset de censo de los estados unidos reducido a unas cuantas columnas.

Su objetivo es estimar dependiendo de las columnas county, stname, census2010 y births2010 saber en que ciudad nació la persona.

Los puntos a evaluar serán:

- Cargar el dataset (10 pt)
- Visualizar los primeros 5 campos (10 pt)
- Saber el tamaño de filas y columnas del dataset (10 pt)
- Hacer una matriz de correlacion (10 pt)
- Limpiar el dataset (no todos los campos son necesarios, solo use los que necesite), (5 pt)
- Codificar la data categorica (10 pt)
- Entrenar el modelo utilizando estos dos algoritmos:
 - DecisionTreeClassifier (10 pt)
 - KNeighborsClassifier (10 pt)
- Utilizarl a metrica 'acurracy_score' para evaluar su precisión (10 pt)
- Al elegir le mejor algoritmo evaluar las predicciones (10 pt)
- Crear una matriz de confusión (5 pt)