# Utilización del Patron Pipe&amp;Filter 
### Tratamiento de lenguaje natural

## Introducción
Cuando se va a  hacer análisis de texto en lenguaje natural, antes de hacer los análisis mas complejos, se debe depurar el texto de palabras "vacias" desde el punto de vista analítico y luego hacer los cálculos necesarios.

Este ejemplo presenta un caso de estudio básico para identificar las palabras mas importantes de un texto.


In [None]:
!pip install pandas
!pip install numpy
!pip install scipy
!pip install sklearn
!pip install matploplib
!pip install nltk #Libreria para lenguaje natural


# Importar las librerias necesarias en Python

In [None]:
from __future__ import division

import codecs
import re
import copy
import collections

import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords 
from nltk.stem import PorterStemmer
from nltk.tokenize import WordPunctTokenizer

import matplotlib

%matplotlib inline



# Descarga las palabras "vacias" del Inglés

In [None]:
nltk.download("stopwords")
esw=stopwords.words('english')

# Define la expresion regular para identificar palabras

In [None]:
word_pattern=re.compile("\w+$")

# Tokeniza el texto
Obtiene las palabras del texto dado, las convierte a minúsculas y elimina las palabfras vacias. 

In [None]:
def get_text_counter(text):
    tokens=WordPunctTokenizer().tokenize(PorterStemmer().stem(text))
    tokens=list(map(lambda x: x.lower(),tokens))
    tokens = [token for token in tokens if re.match(word_pattern,token) and token not in esw]
    return collections.Counter(tokens), len(tokens)
    
    

# Calcula la ferecuencia absoluta y relativa de cada palabra

In [None]:
def make_df(counter,size):
    abs_freq=np.array([el[1] for el in counter])
    rel_freq=abs_freq/size
    index=[el[0] for el in counter]
    df = pd.DataFrame(data=np.array([abs_freq,rel_freq]).T,index=index, columns=["Frecuencia Absoluta", "Frecuencia Relativa"])
    df.index.name="Palabras mas comunes"
    return df
    

# Análiis del texto

In [None]:
file1 = open("alice29.txt")
jane_eyre = file1.read()
je_counter, je_size=get_text_counter(jane_eyre)

je_df=make_df(je_counter.most_common(10),je_size)

je_df
