# Selección de características

Una vez extraidas las características hay que analizarlas y seleccionar aquellas que consideremos útiles

## Imports necesarios

In [1]:
import os
import pickle
from collections import defaultdict, Counter

## Funciones que se van a usar

Función para importar estructuras de datos de ficheros .pkl

In [2]:
def loadCharacteristics(path):
    with open(path, "rb") as f:
        return pickle.load(f)

Función para guardar datos como .pkl

In [3]:
def saveCharacteristics(path, data):
    with open(path, "wb") as file:
        pickle.dump(data, file)

Función para guardar un diccionario de características como un fichero .txt

In [4]:
def saveCharacteristicsAsTxt(path, dataCounter):
    with open(path, "w", encoding = "utf-8") as file:
        for key in dataCounter:
            file.write(str(key) + ": ")

            for subkey in dataCounter[key]:
                file.write("(" + str(subkey) + ", " + str(dataCounter[key][subkey]) + ")" )
            
            file.write("\n")

## Selección de sustantivos

In [5]:
inputFolderPath = "../1. Data/6. Reviews Characteristics/3. Filtered Antonyms"

nouns = {}

for station in os.listdir(inputFolderPath):

    if not station.lower().endswith(".pkl"):
        continue

    # Import the data
    inputPath = os.path.join(inputFolderPath, station)
    characteristics = loadCharacteristics(inputPath)

    for noun in characteristics.keys():
        if noun in nouns:
            nouns[noun] += 1
        else:
            nouns[noun] = 1

In [6]:
nouns

{'acceso': 138,
 'movilidad': 147,
 'cobertura': 74,
 'rollo': 2,
 'estacion': 244,
 'trabajador': 11,
 'olor': 16,
 'conectividad': 10,
 'situada': 3,
 'verdes': 4,
 'entorno': 16,
 'usuarios': 18,
 'senalizacion': 48,
 'navegacion': 6,
 'maquina': 65,
 'opinion': 21,
 'funcionalidad': 5,
 'embajadores': 1,
 'pasillo': 12,
 'sucio': 7,
 'escalera': 156,
 'salida': 61,
 'metro': 173,
 'pco': 1,
 'inconveniente': 4,
 'servicio': 106,
 'fruta': 1,
 'uso': 11,
 'personal': 45,
 'asiento': 10,
 'billete': 12,
 'tarde': 4,
 'puerta': 17,
 'mujer': 6,
 'imagen': 6,
 'diseno': 30,
 'organizacion': 1,
 'ordenado': 1,
 'informacion': 34,
 'amable': 3,
 'tablero': 3,
 'horario': 26,
 'forma': 14,
 'arquitectura': 14,
 'variedad': 6,
 'movil': 2,
 'resena': 6,
 'lectura': 2,
 'cinta': 6,
 'terminal': 8,
 'aseo': 10,
 'afluencia': 12,
 'fiesta': 4,
 'division': 2,
 'atocha': 4,
 'espectacular': 2,
 'muuuuy': 1,
 'moderna': 16,
 'isabel': 2,
 'lastima': 3,
 'wifi': 1,
 'mapa': 4,
 'tienda': 14,
 'e

In [7]:
len(nouns.keys())

1487

Como se puede ver, hay muchos sustantivos, pero la mayoría no son relevantes. Además, aquellos que no son representatitvos no tienen mucha frecuencia (número de estaciones en las que aparece).

Se va a guardar esta información en un fichero llamado nouns.txt

In [8]:
with open(os.path.join(inputFolderPath, "nouns.txt"), "w", encoding = "utf-8") as file:
    for noun in nouns.keys():
        file.write(noun + ": " + str(nouns[noun]) + "\n")

In [9]:
limit = 30
counter = 0

for noun in nouns.keys():
    if nouns[noun] > limit:
        counter += 1

print("sustantivos con una frecuencia mayor a " + str(limit) + ": " + str(counter))

sustantivos con una frecuencia mayor a 30: 25


Se van a ver cuales son esos sustantivos

In [10]:
filteredNouns = {}

for noun in nouns.keys():
    if nouns[noun] > limit:
        filteredNouns[noun] = nouns[noun]

filteredNouns

{'acceso': 138,
 'movilidad': 147,
 'cobertura': 74,
 'estacion': 244,
 'senalizacion': 48,
 'maquina': 65,
 'escalera': 156,
 'salida': 61,
 'metro': 173,
 'servicio': 106,
 'personal': 45,
 'informacion': 34,
 'conexion': 63,
 'zona': 73,
 'instalacion': 45,
 'ascensor': 38,
 'estado': 35,
 'tren': 37,
 'linea': 104,
 'gente': 36,
 'transporte': 33,
 'experiencia': 34,
 'persona': 32,
 'limpieza': 32,
 'frecuencia': 40}

Únicamente vamos a seleccionar los sustantivos que aparezcan en más de 30 estaciones 

In [11]:
inputFolderPath = "../1. Data/6. Reviews Characteristics/3. Filtered Antonyms"
outputFolderPath = "../1. Data/6. Reviews Characteristics/4. Filtered Nouns"

for station in os.listdir(inputFolderPath):

    if not station.lower().endswith(".pkl"):
        continue

    # Import the data
    inputPath = os.path.join(inputFolderPath, station)
    characteristics = loadCharacteristics(inputPath)

    # Filter the selected nouns 
    finalCharacteristics = {}
    for noun in characteristics.keys():
        if noun in filteredNouns.keys():
            finalCharacteristics[noun] = characteristics[noun]
    
    # Save the data
    station = station[:-4]

    outputPathPkl = os.path.join(outputFolderPath, station + ".pkl")
    outputPathTxt = os.path.join(outputFolderPath, station + ".txt")

    saveCharacteristics(outputPathPkl, Counter(finalCharacteristics))
    saveCharacteristicsAsTxt(outputPathTxt, Counter(finalCharacteristics))
    
    