# Clase 6 - Procesamiento

### Carga de librerias

In [19]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import feature_extraction

### Carga de datos

In [20]:
datos = pd.read_csv("datos_procesamiento.csv")
datos.col_texto.values[:10]

array(['Tenía en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la podadera.',
       'El resto della concluían sayo de velarte, calzas de velludo para las fiestas con sus pantuflos de lo mismo, los días de entre semana se honraba con su vellori de lo más fino.',
       'El resto della concluían sayo de velarte, calzas de velludo para las fiestas con sus pantuflos de lo mismo, los días de entre semana se honraba con su vellori de lo más fino.',
       'Una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lentejas los viernes, algún palomino de añadidura los domingos, consumían las tres partes de su hacienda.',
       'Tenía en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la podadera.',
       'En un lugar de la Mancha, de cuyo nom

### Tratamiento de texto

Para convertir texto en variables numéricas, podemos proceder de igual forma que con las variables categóricas, simplemente separando palabras.

Para ello tenemos dos vectorizadores en scikit-learn, que covierten texto **"Count Vectorizer"** devuelve un vector con el valor de 0 en todas las que no existen en una frase y con el numero de ocurrencias de las palabras que si existen

In [21]:
ejemplo_frases = ['los coches rojos',
          'los aviones son rojos',
          'los coches y los aviones son rojos',
          'los camiones rojos'
                 ]

Utilizando vectorizador

In [22]:
vectorizador_count = feature_extraction.text.CountVectorizer()
X = vectorizador_count.fit_transform(ejemplo_frases)
X

<4x6 sparse matrix of type '<class 'numpy.int64'>'
	with 15 stored elements in Compressed Sparse Row format>

Palabras que existen o tomo en cuenta

In [23]:
vectorizador_count.get_feature_names()



['aviones', 'camiones', 'coches', 'los', 'rojos', 'son']

Por ultimo, se muestra en un DF la informacion donde cada columna contiene una palabra y en cada renglon se muestra el valor que le dio por la palabra que aparece.

In [24]:
eg_4frases = pd.DataFrame(X.toarray(), columns=vectorizador_count.get_feature_names())
eg_4frases

Unnamed: 0,aviones,camiones,coches,los,rojos,son
0,0,0,1,1,1,0
1,1,0,0,1,1,1
2,1,0,1,2,1,1
3,0,1,0,1,1,0


Se utiliza otro tipo de transformacion, para poder darle valor al aparecimiento de las palabras

El tomar simplemente el número de veces que aparece cada palabra tiene un problema, y es que da un mayor peso a aquellas palabras que aparecen muchas veces pero que no aportan ningún valor semántico (por ejemplo, **los**).

Una manera más sifisticada de vectorizar un texto es en vex de usar el número de paraciones, usar TF-IDF.

TF-IDF se traduce como Frecuencia de Texto - Frecuencia Inversa de Documento, y es una medida que asigna pesos a cada palabra en función de su frecuencia de aparación en todos los documentos.

Se aplica el TF IDF para el ejemplo de las 4 frases

In [25]:
vectorizador_tfidf = feature_extraction.text.TfidfVectorizer()
X = vectorizador_tfidf.fit_transform(ejemplo_frases)
eg_4frasesTFID = pd.DataFrame(X.toarray(), columns=vectorizador_tfidf.get_feature_names())
eg_4frases



Unnamed: 0,aviones,camiones,coches,los,rojos,son
0,0,0,1,1,1,0
1,1,0,0,1,1,1
2,1,0,1,2,1,1
3,0,1,0,1,1,0


Aplicando para todas las frases de la tabal original

In [29]:
vectorizador_tfidf = feature_extraction.text.TfidfVectorizer()
texto_vectorizado = vectorizador_tfidf.fit_transform(datos.col_texto)
texto_vectorizado = texto_vectorizado.toarray()
print(texto_vectorizado)
texto_vectorizado.shape

[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.19788701 0.19788701 0.         ... 0.         0.         0.19788701]
 [0.         0.         0.         ... 0.         0.         0.        ]]


(1000, 134)