In [36]:
# EN AQUESTS EXEMPLES TREBALLAREM AMB UNA CARACTERÍSTICA BÀSICA PER ANALITZAR UN TEXT
# ANALITZAREM EL NOMBRE DE VEGADES QUE APAREIX CADA TERME AMB L'OBJECTE CountVectorizer
import nltk
nltk.download("stopwords") 
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer 
#sklearn: llibreria per aprenentatge automàtic (Machine Learning) de Python

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anton\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [37]:
doc_1="Este ha sido un buen trabajo. No dudaría dudaría en volver a repetirlo"
doc_2="Esto no ha sido para nada un buen trabajo realizado"
spanish_stopwords = stopwords.words('spanish')
# creem un nou objecte vectorizer al qual li passem les stopwords del castellà
vectorizer = CountVectorizer(stop_words = spanish_stopwords)
# CountVectorizer és un objecte que permet extreure les paraules de cada document
# fixa't que llevam de la colecció les stopwords!! això és opcional però recomanable

In [38]:
# entrenarem amb tota la colecció per extreure el vocabulari
# es pot treballar només amb una part de la colecció o bé amb tota
vectorizer.fit([doc_1,doc_2])  
print("Vocabulari: ", vectorizer.vocabulary_)# imprimeix les paraules detectades
# el nº que surt devora cada paraula és l'índex del vector.
# tot el vocabulari es passa a minúscules i per defecte ignora els signes de puntuació

Vocabulari:  {'sido': 4, 'buen': 0, 'trabajo': 5, 'dudaría': 1, 'volver': 6, 'repetirlo': 3, 'realizado': 2}


In [39]:
# el mètode transform converteix una colecció de documents en un vector de paraules
doc_3="Este ha sido un buen año pero no volvería a repetirlo"
dades = vectorizer.transform([doc_3])
print("Vocabulari de la nostra colecció: \n", vectorizer.get_feature_names())# imprimeix les paraules detectades
# si aquest vector té 7 posicions el següent vector que compta la greqüència de cada paraula també tendrà 7 posicions.
print("Nº de vegades que apareix cada paraula de la colecció: ", dades.toarray())# "toarray" mostra el nombre de vegades que apareix cada terme.
print("Files i columnes de la matriu resultant:", dades.shape)

Vocabulari de la nostra colecció: 
 ['buen', 'dudaría', 'realizado', 'repetirlo', 'sido', 'trabajo', 'volver']
Nº de vegades que apareix cada paraula de la colecció:  [[1 0 0 1 1 0 0]]
Files i columnes de la matriu resultant: (1, 7)


In [40]:
# si ara el text d'entrada no té cap terme que estigui a les dades d'entrenament els ignorarà!!
doc_4="Si lloviera mañana podría crecer la hierba."
print("Vocabulari de la nostra colecció: \n", vectorizer.get_feature_names())
dades = vectorizer.transform([doc_4])
print("Nº de vegades que apareix cada paraula de la colecció: ", dades.toarray())
# tot són "0" perquè cap de les paraules que hi ha a la nostra colecció apareix a la frase doc_4

Vocabulari de la nostra colecció: 
 ['buen', 'dudaría', 'realizado', 'repetirlo', 'sido', 'trabajo', 'volver']
Nº de vegades que apareix cada paraula de la colecció:  [[0 0 0 0 0 0 0]]


In [41]:
# creem dataframe per a visualitzar millor les dades.
# en aquest cas la matriu resultant també ens diu quantes vegades apareix cada terme a cada frase.
import pandas as pd
dades = vectorizer.transform([doc_1,doc_2])
# les files indicaran la freqüència i les columnes les paraules de la nostra colecció
matriu=pd.DataFrame(dades.toarray(), columns=vectorizer.get_feature_names())
print(matriu)

   buen  dudaría  realizado  repetirlo  sido  trabajo  volver
0     1        2          0          1     1        1       1
1     1        0          1          0     1        1       0


In [42]:
# Com filtrar les paraules de la nostra colecció???? Aquí ho tenim!!
# min_df: ignora les paraules que apareixen menys del 30% en els documents
# max_df: ignora les paraules que apareixen més del 50% en els documents
# min_df < max_df
# max_features: treballarà amb les 50 paraules amb més aparicions en els documents
vectorizer = CountVectorizer(min_df = 0.3, max_df = 0.5, max_features = 50)

In [43]:
# El mètode fit_transform() permet entrenar i analitzar a la vegada si es fa sobre la mateixa col·lecció
dades = vectorizer.fit_transform([doc_1,doc_2])
print("Stopwords detectades: ", vectorizer.stop_words_)
# definim la matriu amb les files (documents) i columnes (paraules)
# cada posició de la matriu mostra el nº de vegades que surt cada terme
matriu=pd.DataFrame(dades.toarray(),columns=vectorizer.get_feature_names())
print(matriu)

Stopwords detectades:  {'un', 'no', 'ha', 'trabajo', 'sido', 'buen'}
   dudaría  en  este  esto  nada  para  realizado  repetirlo  volver
0        2   1     1     0     0     0          0          1       1
1        0   0     0     1     1     1          1          0       0


In [60]:
!pip install stop-words
from stop_words import get_stop_words
catala_stopwords = set(get_stop_words('ca'))
print("Stopwords catalanes: \n",catala_stopwords )
doc_5="La casa era massa gran per jo, la vull vendre"
doc_6="Per vendre aquesta casa necessites llicència de lloguer"
vectorizer1 = CountVectorizer(stop_words = catala_stopwords)
dades_catala = vectorizer1.fit_transform([doc_5,doc_6])
# les files indicaran la freqüència i les columnes les paraules de la nostra colecció
matriu_catala=pd.DataFrame(dades_catala.toarray(), columns=vectorizer1.get_feature_names())
print("\n \n La matriu resultat és: \n \n", matriu_catala)

Stopwords catalanes: 
 {'ans', '', 'últim', 'tot', 'tenim', 'alguns', 'som', 'amb', 'sota', 'poden', 'ells', 'fer', 'te', 'haver', 'consigueix', 'soc', 'fem', 'inclòs', 'les', 'per', 'altre', 'cada', 'conseguir', 'aquells', 'si', 'teu', 'estava', 'es', 'conseguim', 'aquell', '\ufeffa', 'estan', 'qui', 'en', 'primer', 'sabeu', 'estem', 'feu', 'podem', 'fan', 'mode', 'tinc', 'una', 'esteu', 'bé', 'sabem', 'tene', 'ens', 'vaig', 'anar', 'éssent', 'des de', 'elles', 'fas', 'mentre', 'com', 'teniu', 'vosaltres', 'algunes', 'els', 'dins', 'poder', 'consegueixo', 'també', 'algun', 'on', 'era', 'aquelles', 'sap', 'de', 'llavors', 'meu', 'van', 'estic', 'solament', 'faig', 'saber', 'unes', 'consigueixen', 'fa', 'puc', 'aquí', 'o', 'molt', 'perquè', 'ambdós', 'saben', 'estat', 'seu', 'ets', 'alguna', 'per que', 'i', 'bastant', 'ser', 'el', 'potser', 'eren', 'entre', 'llarg', 'consigueixes', 'sols', 'tenir', 'però', 'la', 'un', 'molts', 'podeu', 'sense', 'està', 'va', 'fi', 'jo', 'abans', 'erem',

