## Conversión de un archivo de texto en un diccionario de frecuencias
  
  Con este script tan sencillico convertiremos el texto en un archivo .txt en un diccionario que contenga cada palabra junto con el número de veces que aparece. Después, se convertirá este diccionario en un archivo separado por comas (.csv) que podremos utilizar para su análisis con Matplotlib, Excel o como mejor veamos.  

In [1]:
# Convertir el texto bruto en el formato que queremos: todo en minúsculas y sin signos de puntuación.

# Importamos el módulo re, que nos permite trabajar con expresiones regulares

import re

# Definimos la función que transformará nuestro texto

def transformar (texto):
    textolimpio = re.sub(r"[^a-zA-Z\s]", "", texto) # Expresión regular para indicar qué caracteres queremos conservar
    texto_listo = textolimpio.lower() # Pasamos todo a minúsculas
    listapalabras = texto_listo.split() # Creamos una lista con todas las palabras del texto
    
    mapa_frecuencias = {} # Creamos un diccionario donde almacenaremos los pares palabra-nº de veces que aparece
    for p in set(listapalabras): # Convertimos la lista en un conjunto (set) para evitar duplicados
        mapa_frecuencias[p] = listapalabras.count(p) # Añadimos cada palabra y su cuenta al diccionario
        
    return mapa_frecuencias


In [2]:
# Abrimos el archivo .txt que contiene el texto para transformar

with open ("#ruta del archivo de texto que queremos transformar#") as texto_original:
    mapa = transformar(texto_original.read()) # mapa es el nombre que damos al diccionario resultado de tr

In [3]:
# Importamos el módulo pandas para convertir el diccionario en un dataframe (df)

import pandas as pd

df = pd.DataFrame([[key, mapa[key]] for key in mapa.keys()], columns=['Palabra', 'Cuenta'])

df.head() # Para que nos muestre las primeras líneas del dataframe

Unnamed: 0,Palabra,Cuenta
0,scheme,2
1,fatherinlaw,3
2,contemporary,9
3,rouge,3
4,confession,3


In [4]:
# Exportamos el dataframe a un archivo separado por comas (csv), que podremos analizar como mejor veamos

df.to_csv('#ruta del archivo.csv#')