# Reto 03S2: Extracción y reducción de características

In [1]:
# Importar el núcleo de trabajo en Español
import spacy

nlp_es = spacy.load("es_core_news_md")

In [2]:
# Frases de películas 
Frases = {'Frase1': nlp_es(u'Hasta la vista, baby.'),
          'Frase2': nlp_es(u'La locura es como la gravedad, solo se necesita un empujoncito.'),
          'Frase3': nlp_es(u'Algunos hombres sólo quieren ver el mundo arder.'),
          'Frase4': nlp_es(u'¿Por qué caemos Bruce? Para aprender a levantarnos.'),
          'Frase5': nlp_es(u'¿De qué sirve confesarme, si no me arrepiento?.'),
          'Frase6': nlp_es(u'¡Soy el rey del mundo!'),
          'Frase7': nlp_es(u'Todos tenemos el amor que creemos merecer.'),
          'Frase8': nlp_es(u'Todos flotan, y tú también flotarás.'),
          'Frase9': nlp_es(u'Hay tres maneras de hacer las cosas, la correcta, la incorrecta y la mía.'),
          'Frase10': nlp_es(u'No. No lo intentes. Hazlo, o no lo hagas, pero no lo intentes.')}

In [3]:
# Construcción del vocabulario (Diccionario de características)
# El diccionario "Vocabulario" almacena cada uno de los tokens diferentes, con
# su respectivo valor de frecuencia o repetición
# El arreglo "Voc" almacena los nombres de los tokens, permitiendo conocer
# la posición de cada uno (index) ya que los diccionarios no soportan el uso
# de index
Vocabulario = {}
Voc = []

i = 0
for Frase in Frases.values():
    for Token in Frase:
        if(Token.text.lower() not in Vocabulario):
            Vocabulario[Token.text.lower()] = i
            Voc.append(Token.text)
            i += 1

print("Vocabulario: ")
print(Vocabulario)

Vocabulario: 
{'hasta': 0, 'la': 1, 'vista': 2, ',': 3, 'baby': 4, '.': 5, 'locura': 6, 'es': 7, 'como': 8, 'gravedad': 9, 'solo': 10, 'se': 11, 'necesita': 12, 'un': 13, 'empujoncito': 14, 'algunos': 15, 'hombres': 16, 'sólo': 17, 'quieren': 18, 'ver': 19, 'el': 20, 'mundo': 21, 'arder': 22, '¿': 23, 'por': 24, 'qué': 25, 'caemos': 26, 'bruce': 27, '?': 28, 'para': 29, 'aprender': 30, 'a': 31, 'levantarnos': 32, 'de': 33, 'sirve': 34, 'confesarme': 35, 'si': 36, 'no': 37, 'me': 38, 'arrepiento': 39, '¡': 40, 'soy': 41, 'rey': 42, 'del': 43, '!': 44, 'todos': 45, 'tenemos': 46, 'amor': 47, 'que': 48, 'creemos': 49, 'merecer': 50, 'flotan': 51, 'y': 52, 'tú': 53, 'también': 54, 'flotarás': 55, 'hay': 56, 'tres': 57, 'maneras': 58, 'hacer': 59, 'las': 60, 'cosas': 61, 'correcta': 62, 'incorrecta': 63, 'mía': 64, 'lo': 65, 'intentes': 66, 'hazlo': 67, 'o': 68, 'hagas': 69, 'pero': 70}


In [4]:
# Asignación de frecuencia de características en la matriz, e impresión
Caract = []

for Label in Frases.keys():
    Caract.append([Label] + [0]*len(Vocabulario))

F = 0
# Llenado de la frecuencia de cada elemento del vocabulario por cada frase
for Frase in Frases.values():
    for token in Frase:
        # Lista bidimensional [Frase][Token]
        # Añadir el índice de frase y token correspondiente para sumar "1" su frecuencia
        Caract[F][Vocabulario[token.text.lower()] + 1] += 1
    F += 1

for Car in Caract:
    print(Car)

['Frase1', 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['Frase2', 0, 2, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['Frase3', 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['Frase4', 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['Frase5', 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 

In [5]:
# Conteo de apariciones de cada característica (Global)
Repeticiones = []

for i in range(len(Caract)):
    N = 0
    for j in range(len(Caract)):
        if(Caract[j][i+1] != 0):
            N += 1
      # Agregar en el arreglo el valor obtenido 
    Repeticiones.append(N)

print(Repeticiones)

[1, 3, 1, 6, 1, 9, 1, 1, 1, 1]


In [None]:
# Generación del nuevo diccionario e impresión de características rechazadas
# Utilizar "Vocabulario2" como el nuevo vocabulario de palabras sin repetir
# y sus respectivos valores de frecuencia
# Voc2 ayuda a conocer la posición de cada token (Index)
Vocabulario2 = {}
Voc2 = []
Eliminadas = []
n = 0

for r in range(len(Repeticiones)):
    # Solo agregar las que aparecen solo una vez
    if(Repeticiones[r] == 1):
        # Agregar la característica (En minúsculas)
        Vocabulario2._____(Voc[r].lower(), n)
        Voc2._____(Voc[r])
        n += 1
    else:
        Eliminadas._____(Voc[r].lower())

print("Nuevo vocabulario:")
print(Vocabulario2)
print("\nCaracterísticas rechazadas:")
print(Eliminadas)

In [None]:
# Nueva matriz de características
Caract2 = []

for Label in Frases.keys():
    Caract2._____([Label] + [0]*len(Vocabulario2))

F2 = 0
for Frase in Frases.values():
    for token in Frase:
        if(str(token) in Voc2):
            # Arreglo bidimensional [Frase][Token]
            # Añadir el índice de frase y token correspondiente para sumar "1" su frecuencia
            Caract2[F2][Vocabulario2[token._____.lower()]+1] += 1
    F2 += 1

for Car2 in Caract2:
    print(Car2)