# De texto a vectores

Como vimos en el [Curso de ciencia de datos](https://www.freecodingtour.com/cursos/espanol/datascience/datascience.html) tenemos cajas negras que podemos entrenar mediante una tabla de entrenamiento que contiene filas con ejemplos y su respectivo resultado esperado. Estas filas son numeros que llamamos vectores. 

Que pasa si queremos entrenar una caja negra para que reconozca texto, por ejemplo queremos entrenar una caja negra para que reconozca si un comentario sobre un restaurante es positivo o negativo. En ese caso nuestra tabla de entrenamiento estara compuesta por filas que tienen un texto en vez de numeros como vemos a continuacion:

<div style="text-align:center">
<img src="img/tabla_comentarios.png" width="700"/>
</div>

Sabiendo que nuestras cajas negras funcionan muy bien con numeros en cada fila (vectores), la pregunta es como podemos hacer para convertir estos comentarios en vectores que las representen bien.

Lo primero que se nos viene a la cabeza es crear una columna por cada palabra y contar cuantas veces aparece cada palabra en cada comentario:

<div style="text-align:center">
<img src="img/tabla_comentarios_vectores.png" width="700"/>
</div>

Veamos como hacer esto con pandas y sklearn. Primero creemos nuestra tabla con pandas:

In [5]:
import pandas as pd
df = pd.DataFrame({
        "Comentario": ["Deliciosa comida","No me gusto el lugar","Comida insulsa","Me encanto el lugar"],
        "Resultado Esperado": ["Positivo","Negativo","Negativo","Positivo"]})
df

Unnamed: 0,Comentario,Resultado Esperado
0,Deliciosa comida,Positivo
1,No me gusto el lugar,Negativo
2,Comida insulsa,Negativo
3,Me encanto el lugar,Positivo


Luego utilizamos la clase CountVectorizer de la libreria sklearn para que nos cree los vectores:

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["Comentario"])
print(vectorizer.get_feature_names_out())
print(X.toarray())

['comida' 'deliciosa' 'el' 'encanto' 'gusto' 'insulsa' 'lugar' 'me' 'no']
[[1 1 0 0 0 0 0 0 0]
 [0 0 1 0 1 0 1 1 1]
 [1 0 0 0 0 1 0 0 0]
 [0 0 1 1 0 0 1 1 0]]


Ahora creemos nuestro dataframe con estos vectores:

In [12]:
vect_df = pd.DataFrame(X.todense(), columns=vectorizer.get_feature_names_out())
vect_df["Resultado Esperado"] = ["Positivo","Negativo","Negativo","Positivo"]
vect_df

Unnamed: 0,comida,deliciosa,el,encanto,gusto,insulsa,lugar,me,no,Resultado Esperado
0,1,1,0,0,0,0,0,0,0,Positivo
1,0,0,1,0,1,0,1,1,1,Negativo
2,1,0,0,0,0,1,0,0,0,Negativo
3,0,0,1,1,0,0,1,1,0,Positivo


Al igual que paso en las imagenes con los pixeles este metodo de convertir texto en vectores no es tan bueno para que las cajas negras puedan aprender porque las palabras tienen relaciones entre si y al contar las palabras por separado las cajas negras no pueden aprender estas relaciones pero los cientificos empezaron a probar distintas formas de convertir el texto en vectores a partir de los cuales las cajas negras puedan aprender.

Durante años de investigacion se crearon y probaron diferentes modelos, desde el mencionado anteriormente que cuenta las palabras y es conocido como Bag of Words pasando por las redes recurrentes, la arquitectura word2vec que marco un hito y finalmente los conocidos transformers que son utilizados hoy en dia en los famosos chatbots como chatGPT o Bard.

Afortunadamente todo este proceso que llevo muchos años de prueba y error fue introducido adentro de las cajas negras y estas cajas negras mas complejas que aprenden solas a como convertir las imagenes en vectores para poder aprender se llaman cajas negras de deep learning.

Probablemente en el futuro se sigan creando nuevas arquitecturas para convertir texto en vectores que sean aun mejores que las mencionadas.

Si quieres profundizar mas en como esta compuesta la arquitectura interna de dichas cajas negras hay mas informacion en las unidades avanzadas de este curso pero no es necesario conocer en profundidad como funcionan para poder utilizarlas.

### Ejercicio 1:

Clasificar las siguientes peliculas por genero, terror o comedia, utilizando un metodo simple para vectorizar el texto y un modelo de ML de la libreria sklearn.

Entrenamiento:

Comedia: 
- Risa en el paraíso (1987)
- Risa y lágrimas (1954)
- La vida en risa (1996)
- El club de la risa (1999)
- Divertido, divertido (1969)
- Divertida aventura (1964)
- Divertida mente (2015)
- Diversión con Bob (1994)
- Locura de amor (1948)
- Locura en el oeste (1973)
- Locura de verano (1986)
- Locura en el espacio (1987)

Terror:
- Miedo (2007)
- Miedo en la noche (1972)
- Miedo a volar (1990)
- La matanza de Texas (1974)
- La matanza de Texas 2 (1986)
- La matanza de Texas: El origen (2007)
- Matanza en el colegio (1982)
- La masacre de los inocentes (1991)
- Masacre en la autopista (1977)
- Masacre en el hospital (1982)
- Masacre de zombies (1978)

Prueba:

Comedia: 
- La risa es contagiosa (1969)
- Diversión asegurada (2003)
- Locura y dinero (2008)

Terror:
- Miedo profundo (1998)
- Matanza en Fresno (2016)
- La masacre de Amityville (1979)


In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 1 {display-mode:"form"}


# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/deeplearning/deeplearning.html)