# Featuring Engineering 

1. Pre-procesamiento

In [13]:
import pandas as pd
data = pd.read_csv("C:/Users/eliza/OneDrive/Desktop/Claus/Konrad/NLP/dialogos.csv")
data.head()

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger


In [19]:
import re
import unicodedata
from unicodedata import normalize
from collections import Counter

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

In [16]:
def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\´_]+", " ", texto)
    texto = [palabra for palabra in texto.split() if palabra not in stopwords_sp]
    texto = " ".join(texto)
    return texto

data['pre-procesado'] = data['Locución'].apply(lambda texto: pre_procesado(texto))

data

Unnamed: 0,Locución,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa
3,"Pues, tú sabrás",pues sabrás
4,Para mí que fue Krieger,krieger
...,...,...
954,"Yo qué sé, digo yo qué será",sé digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¿De dónde? ¿Del coño de tu madre?,dónde coño madre


Las 10 palabras más frecuentes

In [17]:
Counter(data['pre-procesado'].str.cat(sep=" ").split()).most_common(10)

[('bien', 36),
 ('si', 34),
 ('cómo', 34),
 ('así', 30),
 ('oh', 28),
 ('vamos', 26),
 ('sarcasmobol', 24),
 ('aquí', 24),
 ('bueno', 24),
 ('lana', 22)]

2. Representación Vectorial del texto

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

In [20]:
# Vectorización
count_vect = CountVectorizer()

# Creación de la bolsa de palabras
bow_rep = count_vect.fit_transform(data['pre-procesado'].values)

data['bow'] = [bow.toarray() for bow in bow_rep]
data

Unnamed: 0,Locución,pre-procesado,bow
0,Francamente no,francamente,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
3,"Pues, tú sabrás",pues sabrás,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
4,Para mí que fue Krieger,krieger,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
...,...,...,...
954,"Yo qué sé, digo yo qué será",sé digo,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
956,Oooo... Me llamo Vivian,oooo llamo vivian,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
957,¿De dónde? ¿Del coño de tu madre?,dónde coño madre,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."


Frecuencia de cada término en la bolsa de palabras

In [22]:
count_vect.vocabulary_

{'francamente': 831,
 'canadiense': 283,
 'favor': 812,
 'tiraríais': 1948,
 'allí': 72,
 'si': 1826,
 'pudieseis': 1606,
 'razón': 1669,
 'mejor': 1245,
 'así': 142,
 'liberas': 1124,
 'energía': 705,
 'nagativa': 1318,
 'pues': 1614,
 'sabrás': 1751,
 'krieger': 1101,
 'bebé': 193,
 'lando': 1110,
 'serio': 1813,
 'randy': 1664,
 'creo': 483,
 'deporte': 589,
 'hizo': 968,
 'daño': 548,
 'cerebro': 324,
 'estáte': 779,
 'quieto': 1650,
 'esperad': 758,
 'parecido': 1439,
 'archer': 119,
 'asustado': 139,
 'usted': 2013,
 'jode': 1061,
 'carajo': 297,
 'dios': 633,
 'pibe': 1506,
 'oigo': 1393,
 'claro': 358,
 'fuma': 844,
 'junto': 1089,
 'niña': 1345,
 'decir': 561,
 'robotizado': 1730,
 'dónde': 677,
 'coño': 467,
 'sacado': 1757,
 'mano': 1219,
 'biónica': 206,
 'venga': 2043,
 'subid': 1879,
 'atrás': 148,
 'avión': 161,
 'esperando': 760,
 'recordadme': 1679,
 'desgraciado': 604,
 'mata': 1232,
 'haga': 938,
 'jodas': 1060,
 'cyril': 524,
 'haces': 934,
 'ventana': 2049,
 'exist