## Asignacion 2

Todos los asignaciones serán presentadas utilizando los cuadernos de [Jupyter Notebook](http://jupyter.org/), además de respectivas pruebas como ejemplo, así como el uso de mediciones de velocidad de ejecución utilizando el comando `timeit` y algunos gráficos si fuese necesario.

### Preguntas

1. Presenta un reporte del siguiente artículo [Data Science, Machine Learning, and Statistics: what is in a name?](http://www.win-vector.com/blog/2013/04/data-science-machine-learning-and-statistics-what-is-in-a-name/).

2. Revisa el simpático proyecto kickstarter [The Emoji Translation Project :The world needs an emoji translation engine. Help us build it using the power of crowdsourcing. ](https://www.kickstarter.com/projects/fred/the-emoji-translation-project). 

3. Leer el artículo de Paul Graham [A Plan for Spam](http://www.paulgraham.com/spam.html) y responder las siguientes  preguntas de acuerdo a lo que dice el autor y lo que piensas tu:

   - ¿Cuáles son los componentes clave de su sistema de filtrado estadístico? En otras palabras, ¿cómo funciona?.
   - Presenta una lista de beneficios del enfoque estadístico.

4. Presenta un reporte de tus ideas con ejemplos  del siguiente artículo [Choosing a Machine Learning Classifier](http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier/).

<b>Data Science, Machine Learning, and Statistics: what is in a name?</b>


<b>The Emoji Translation Project</b>

En el proyecto Emoji, Fred Benenson y Chris Mulligan proponen crear un motor de traducción(como google translate) para Emojis.

<img src="https://tctechcrunch2011.files.wordpress.com/2017/08/1-shpv5hx-voeaxvpfiokaaw.png?w=738">
<center>Emojis para Android. Obtenido de <a href="https://techcrunch.com/2017/08/21/meet-android-oreos-all-new-emoji/">Techcrunch</a></center>

El problema con la traducción a emoji es que no existe una única y adecuada forma de traducir una frase a emoji, así como una traducción directa de diccionario produce errores por no no respetar la gramática y el contexto. Esto produjo que los intentos antecesores a este proyecto no fueran tan efectivos, como comentan en su video promocional.

Para poder recoger esa variabilidad, requieren de una masiva cantidad (Big Data) de texto existente en ambos lenguajes, a lo que se denomina texto paralelo. El problema es que no existe tanto contenido en emoji a diferencia del inglés (su lengua madre), por lo que requieren traductores y fondos para pagarles.

Con la data mencionada, plantean generar un algoritmo aplicando estadística y machine learning para poder modelar como las ideas son representadas en emojis y como a base de ideas simples se comunican ideas complejas.

Si bien no se detalla en su página de kickstarter, se puede deducir que el algoritmo a usar será supervisado (tiene data comparativa) y de clasificación. Podría usarse frecuencias de frases/palabras y asignar probabilidades de ocurrencia para todas las posibles frases por cada oración, pero resultaría poco escalable. Otra manera es a través del Deep Learning, con redes neuronales recurrentes, como se detalla <a href="https://medium.com/@ageitgey/machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa">aqui</a>. 


El motor quedará disponible al público, al igual que la data usada. Así mismo, prometen entregar un libro de frases en emoji a quienes apoyen su causa.

<b> A plan for Spam</b>



<b> Choosing a Machine Learning Classifier</b>



## Lista de ejercicios

Las referencias a los ejercicios son :

   * Asignaciones de Andrew Ng de Stanford University y cursos en Coursera.
   * David Barber, [Bayesian Reasoning and Machine Learning](http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.Online), Cambridge University Press, 2017.
   * Pattern Recognition and Machine Learning de Chris Bishop 2006.
   * Machine Learning Refined, Watt, Borhani, Katsaggelos 2016.


1 . Este conjunto de problemas implica la implementación de varias variantes del algoritmo Perceptron. Antes de poder construir estos modelos y medir su rendimiento, divide tus datos de entrenamiento (es decir, `entrenamiento_spam.txt`) en un conjunto de entrenamiento y validación, poniendo los últimos 1000 correos electrónicos en el conjunto de validación. Por lo tanto, tendrá un nuevo conjunto de entrenamiento con 4000 correos electrónicos y un conjunto de validación con 1000 correos electrónicos. 

Explica por qué medir el rendimiento de su clasificador final sería problemático si no hubiera creado este conjunto de validación.

<b>Respuesta</b>

Sería problemático porque puede producir distorsión en los resultados.
El rendimiento del modelo sobre la data de entrenamiento no es un buen indicador del rendimiento predictivo, ya que el modelo puede haber memorizado la data de entrenamiento resultando en un accuracy cercano al 100%; pero para nuevos datos que no se encuentren en la data de entrenamiento, puede que no haga una predección adecuada. A esto se le conoce como overfitting.

<img src="https://chunml.github.io/images/tutorials/underfit-overfit/poly_9_overfit.jpg" width="500">
<center>Ejemplo de Overfitting obtenido del <a href="https://chunml.github.io/ChunML.github.io/tutorial/Underfit-Overfit/">Tutorial de Trung Tran</a></center>

Una técnica para evitar esto consiste en, si se tiene una gran cantidad de data, separar una parte para entrenar el modelo (conjunto de entrenamiento) y otra data para evaluarlo (conjunto de validación), permitiendonos verificar que el modelo generalice (aprenda) correctamente.



In [1]:
import numpy as np
import pandas as pd

data = pd.read_csv('entrenamiento_spam.txt')#,sep="\s",header=None)

In [2]:
data.columns = ['Text']
display(data.head())

# Separamos la columna de Spam
df = pd.DataFrame(data.Text.str.split(' ',1).tolist(),columns=['Spam','Text'])
display(df.head())

Unnamed: 0,Text
0,1 have tax problem do you ow the ir monei if y...
1,0 r robert harlei write r scuse me for post in...
2,0 on wed number oct number brian fahrland wrot...
3,0 quot ronan waid sure but soft link would do ...
4,0 i notic a low count of razor d spam messag s...


Unnamed: 0,Spam,Text
0,1,have tax problem do you ow the ir monei if you...
1,0,r robert harlei write r scuse me for post in g...
2,0,on wed number oct number brian fahrland wrote ...
3,0,quot ronan waid sure but soft link would do th...
4,0,i notic a low count of razor d spam messag so ...


In [3]:
X = df['Text']
X = X.to_frame() # Volvemos X nuevamente un DataFrame
y = df['Spam']
test_size = 1.0/5.0

from sklearn.model_selection import train_test_split
# Partimos la data en un set de entrenamiento y un set de validación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = test_size,random_state=2)

print (len(X_train))
X_train.head()

3999


Unnamed: 0,Text
1305,todai s headlin from the regist to unsubscrib ...
2525,here s clarif of why i did first test result u...
3966,newslett coachnvest septembr number coachnvest...
3394,onc upon a time vill wrote i assum that you wo...
2961,ar your tire of number to number let us show y...


2 . Transforme todos los datos en vectores de características. Construya una lista de vocabulario usando solamente el conjunto de entrenamiento de 4000 correos electrónicos encontrando todas las palabras que aparecen en el conjunto de entrenamiento.

Ten en cuenta que suponemos que los datos de los conjuntos de validación y prueba no se ven completamente cuando entrenamos nuestro modelo y, por lo tanto, no utilizamos ninguna información contenida en ellos. 

Ignora todas las palabras que aparecen en menos de X = 30 correos electrónicos del conjunto de 4000 mensajes de correo electrónico, esto es tanto un medio de prevenir el ajuste excesivo y de mejorar la escalabilidad. Para cada correo electrónico, transformarlo en un vector de características $\mathbf{x}$ donde la i-ésima entrada, $x_i$, es 1 si la i-ésima palabra del vocabulario aparece en el correo electrónico y 0 en caso contrario.

In [4]:
#Separamos las palabras y calculamos su frecuencia para todos los correos
from collections import Counter
word_freq = Counter(" ".join(X_train.Text.str.lower().values.tolist()).split(" ")).items()

# Colocamos las frecuencias en tablas y restringimos para frecuencias mayores a 30
wf = pd.DataFrame(word_freq,columns=['Word','Freq'])
wf = wf[wf['Freq']>=30]

print 'Numero de palabras más frecuentes:',len(wf)
words = wf.Word
wf.head()


Numero de palabras más frecuentes: 3251


Unnamed: 0,Word,Freq
45,showcas,55
56,wednesdai,97
94,china,122
136,music,191
147,yahoo,311


In [5]:
# n filas, m columnas
n = X_train.shape[0]
m = wf.shape[0]

# Declaramos una matriz donde guardaremos las evaluaciones de las palabras
flags = np.zeros((n,m), dtype='int32')
k = 0
for word in words:
    for i in range(n):
        if word in X_train.Text.iloc[i]:
            flags[i,k]=1
    k = k+1

index = X_train.index.values # indices
words_in = pd.DataFrame(flags,columns = words, index = index) # Cambio a DataFrame
X_train = pd.concat((X_train,words_in),axis=1)
X_train.head()

Unnamed: 0,Text,showcas,wednesdai,china,music,yahoo,exce,centuri,want,travel,...,settl,leader,ex,boot,book,boom,branch,junk,june,emerg
1305,todai s headlin from the regist to unsubscrib ...,0,0,0,0,0,0,0,0,0,...,0,0,1,1,0,0,0,0,0,0
2525,here s clarif of why i did first test result u...,0,0,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3966,newslett coachnvest septembr number coachnvest...,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3394,onc upon a time vill wrote i assum that you wo...,0,0,0,0,0,0,0,0,0,...,1,0,1,0,0,0,0,0,0,0
2961,ar your tire of number to number let us show y...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


3 .Implementar las funciones **entrenamiento_perceptron(datos)** y **prueba_perceptron(w, datos)**.

La función `entrenamiento_perceptron(datos)` entrena un clasificador perceptron usando los ejemplos proporcionados a la función, y devuelve `w`, `k`, `iter`, el vector de clasificación final, el número de actualizaciones (errores) realizados y el número de pasadas los datos, respectivamente. 

Se puede  suponer que los datos de entrada proporcionados a la función son linealmente separables (por lo que el criterio de parada debe ser que todos los puntos estén clasificados correctamente).

Para el caso  `w·x = 0`, predecir la clase +1 (spam). Para este ejercicio, no es necesario agregar una función de sesgo al vector de características 

La función `prueba_perceptron(w, datos)` debe tomar como entrada el vector de peso `w`  (el vector de clasificación a utilizar) y un conjunto de ejemplos. La función debe devolver el error de prueba, es decir, la fracción de ejemplos que son mal clasificados por w.

In [58]:
def entrenamiento_perceptron(x ,yt): # x dataframe con caracteristicas, yt series a predecir
    yt = yt.astype(np.float64)
    w = np.random.rand(x.shape[1]) # vector de pesos aleatorios 
    dw = np.ones(x.shape[1],dtype = 'float64') #vector de deltas en 0
    tasa = 0.005
    iters = 0
    k = 0
    flag = 1
    while flag != 0 or iters <100:
        for i in range(n):
            val = x.iloc[i].dot(w)
            if val > 0 and not yt[i]:
                k += 1
                w -= tasa * x.iloc[i]
                dw -= tasa * 1.
            elif val <=0 and yt[i]:
                w += tasa * x.iloc[i]
                dw += tasa * 1.
                k += 1
        flag = dw.dot(dw) #suma de cuadrados
        iters +=1
    return w,k,iters

In [59]:
def prueba_perceptron(w,xp,yp):
    error = 0
    n = xp.shape[0]
    yp = yp.astype(np.float64)
    for i in range(n):
        val = xp.iloc[i].dot(w)
        val = 1 if val>0 else 0
        if yp.iloc[i] != val:
            error +=1
    return float(error/n)

4 .Entrene el clasificador lineal usando su conjunto de entrenamiento. ¿Cuántos errores se cometen antes de que termine el algoritmo? Prueba tu implementación `prueba_perceptron` con  los parámetros aprendidos y los datos de entrenamiento, asegurándose de que el error de entrenamiento es cero. A continuación, clasifique los correos electrónicos en su conjunto de validación. ¿Qué es el error de validación?

In [60]:
w,errores,it = entrenamiento_perceptron(X_train[words] ,y_train)
print ('Cantidad de Errores:',errores)
error_val = prueba_perceptron(w,X_train[words],y_train)
print ('Error de validación:',error,val)

KeyError: 2

5 .Para entender mejor cómo funciona este clasificador de spam, podemos inspeccionar los parámetros para ver qué palabras cree que el clasificador es la más predictiva a spam. Usando la lista de vocabulario junto con los parámetros aprendidos en la pregunta anterior, muestra las 15 palabras con los pesos más positivos. ¿Cuáles son las  15 palabras que tienen los pesos más negativos?.


In [None]:
# Tu respuesta

6 . Implementar el algoritmo de perceptron promedio, que es el mismo que tu implementación actual, pero que, en lugar de devolver el vector de peso final, devuelve el promedio de todos los vectores de peso considerados durante el algoritmo (incluyendo ejemplos donde no se cometió ningún error). El promedio reduce la varianza entre los diferentes vectores, y es un poderoso medio para evitar que el algoritmo de aprendizaje sea sobrefijado (sirviendo como un tipo de regularización).

In [None]:
# Tu respuesta

7 .Uno debe esperar que el error de prueba disminuye a medida que aumenta la cantidad de datos de entrenamiento. Usando sólo las primeras N filas de tus datos de entrenamiento, ejecute tanto el algoritmo del perceptron como el  algoritmo de perceptron promedio en este conjunto de entrenamiento  y evalúe el error de validación correspondiente (usando todos los datos de validación). Hacer esto para N = 100, 200, 400, 800, 2000, 4000 y crear un gráfico del error de validación de ambos algoritmos como una función de N.

In [None]:
# Tu respuesta

8 . También para N = 100, 200, 400, 800, 2000, 4000, crea un diagrama del número de iteraciones para el perceptrón como una función de N, donde por iteración nos referimos a un paso completo a través de los datos de entrenamiento. A medida que aumenta la cantidad de datos de entrenamiento, el margen del conjunto de entrenamiento disminuye, lo que generalmente conduce a un aumento en el número de iteraciones que el perceptron toma para converger.


In [None]:
# Tu respuesta

9 . Prueba varias configuraciones de los algoritmos usando todos los 4000 datos de entrenamiento y encuentra una buena configuración con un error pequeño en su conjunto de validación. En particular, trata de cambiar la elección del algoritmo perceptron y el número máximo de iteraciones. 

Reporta el error de validación para varias de las configuraciones, qué configuración funciona mejor?

Combina el conjunto de entrenamiento y el conjunto de validación (es decir, utiliza `entrenamiento_spam.txt`) y aprenda usando la mejor de las configuraciones encontradas anteriormente.

¿Cuál es el error en el conjunto de pruebas, es decir, en  `prueba_spam.txt`?

In [None]:
# Tu respuesta