
<div style="text-align:center; color:  #13476a ; font-size:20px">

<h1> Feature Engineering  </h1> 

Alejandro Fandiño B
</div>

<h5>Parte 1: Pre-Procesamiento</h5>

- Leer el archivo dialogos.csv usando pandas
- Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

<h5>Parte 2: Representación vectorial </h5>

- Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada

- ¿Cuántas palabras hay en el vocabulario? (Usando la función de sklearn)

<h5>Parte 3: </h5>

- ¿En qué casos es buena idea tomar en la cuenta la frecuencia de las palabras para la bolsa de palabras?

- ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

In [1]:
import re
import pandas as pd

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# PUNTO 1: pre-procesamiento de texto

#### Leer el archivo dialogos.csv usando pandas

In [5]:
df = pd.read_csv("dialogos.csv")
df.head()

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger


#### Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

In [10]:
# Conservar solo palabras
import re
df['pre_procesado']=df['Locución'].apply(lambda x: re.sub(r"[\W\d_]+",' ', str(x)))
df.head()

Unnamed: 0,Locución,pre_procesado
0,Francamente no,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro...",Lo del canadiense Por favor como que vosotros ...
2,Tienes razón. A lo mejor así te liberas de tu ...,Tienes razón A lo mejor así te liberas de tu e...
3,"Pues, tú sabrás",Pues tú sabrás
4,Para mí que fue Krieger,Para mí que fue Krieger


In [11]:
# Conversión a minusculas
df['pre_procesado']=df['pre_procesado'].apply(lambda x: x.lower())
df.head()

Unnamed: 0,Locución,pre_procesado
0,Francamente no,francamente no
1,"Lo del canadiense. Por favor, como que vosotro...",lo del canadiense por favor como que vosotros ...
2,Tienes razón. A lo mejor así te liberas de tu ...,tienes razón a lo mejor así te liberas de tu e...
3,"Pues, tú sabrás",pues tú sabrás
4,Para mí que fue Krieger,para mí que fue krieger


In [12]:
# Palabras vacias
df['pre_procesado'] = df['pre_procesado'].apply(lambda x: ' '.join([palabra for palabra in x.split() if palabra not in (stopwords_sp)]))
df.head()

Unnamed: 0,Locución,pre_procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa
3,"Pues, tú sabrás",pues sabrás
4,Para mí que fue Krieger,krieger


# PUNTO 2

#### - Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada

In [13]:
# BoW usando la columna pre-procesada
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(df['pre_procesado'].values)

In [16]:
df['bow'] = [bow.toarray() for bow in bow_rep]
df.head()

Unnamed: 0,Locución,pre_procesado,bow
0,Francamente no,francamente,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
3,"Pues, tú sabrás",pues sabrás,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
4,Para mí que fue Krieger,krieger,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."


#### -¿Cuántas palabras hay en el vocabulario? (Usando la función de sklearn)

In [17]:
len(count_vect.vocabulary_)

2115

# PUNTO 3

#### - ¿En qué casos es buena idea tomar en la cuenta la frecuencia de las palabras para la bolsa de palabras?

En las corpus pueda que haya muchas palabras o pocas pero las palabras más frecuentes son relevantes, debido a que son las que mejor representa la información de un texto.

#### - ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

En el contexto de obtener las frases más comunes y debido a que el número de ocurrencias representa la importancia de la palabra. No solo se puede traer las frases más comunes sino también las más interesantes o relevantes y podria terminar en una representacion excesiva de palabras compuestas y menos palabras informativas en la bolsa de palabras, por tal razón, se querrá extraer en n-gramas para después encontrar las palabras que contienen la información mutua más alta.