#### Stemming
Reduce the sentence to its stem.

For example, Finally, Final, Finalized will be converted to "fina"

#### Lemmatization

For example, Finally, Final, Finalized will be converted to "final"

#### Bag of Words 

I creates vectors of the presence of words

## Stemming

In [5]:
import nltk
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/felipe_q/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
paragraph = """ La Sala Plena de la Corte Constitucional declaró inexequible 5 de los decretos que estaban relacionados con la Emergencia Económica, Social y Ecológica declarada el pasado 2 de julio en el departamento de La Guajira, por el gobierno del presidente Gustavo Petro. """

In [7]:
pip install unidecode --q

Note: you may need to restart the kernel to use updated packages.


In [8]:
import re
from unidecode import unidecode

#bad_chars  = [',','']
def preprocessing_text(paragraph):
    
    para_clean = unidecode(paragraph)
    lower_case = para_clean.lower()
    no_numbers = re.sub(r'\d', '', lower_case) #Remove Numbers out of the Text
    no_special_chars = re.sub(r'[^ a-zA-Z]', '', no_numbers) #Remove Special Characters
    #out of the text
    
    return no_special_chars
    
paragraph = preprocessing_text(paragraph)

In [6]:
#sentences = nltk.sent_tokenize(paragraph)
#spanish_tokenizer = nltk.data.load('tokenizers/punkt/PY3/spanish.pickle')
#sentences = spanish_tokenizer.tokenize()

In [7]:
nltk.download('punkt')
words = nltk.word_tokenize(paragraph)
words

[nltk_data] Downloading package punkt to /Users/felipe_q/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['la',
 'sala',
 'plena',
 'de',
 'la',
 'corte',
 'constitucional',
 'declaro',
 'inexequible',
 'de',
 'los',
 'decretos',
 'que',
 'estaban',
 'relacionados',
 'con',
 'la',
 'emergencia',
 'economica',
 'social',
 'y',
 'ecologica',
 'declarada',
 'el',
 'pasado',
 'de',
 'julio',
 'en',
 'el',
 'departamento',
 'de',
 'la',
 'guajira',
 'por',
 'el',
 'gobierno',
 'del',
 'presidente',
 'gustavo',
 'petro']

In [12]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')
stop_words = stopwords.words('spanish')

In [9]:
#Set method only takes the unique stopwords in the language
words_mod = [stemmer.stem(word) for word in words if str(word) not in set(stop_words)]

In [10]:
words_mod

['sal',
 'plen',
 'cort',
 'constitucional',
 'declar',
 'inexequ',
 'decret',
 'relacion',
 'emergent',
 'econom',
 'social',
 'ecolog',
 'declar',
 'pas',
 'juli',
 'departament',
 'guajir',
 'gobiern',
 'president',
 'gustav',
 'petr']

## Lemmatization

In [11]:
pip install -U spacy --q

Note: you may need to restart the kernel to use updated packages.


In [16]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [13]:
paragraph_mod = [word for word in words if word not in set(stop_words)]
paragraph_mod = ' '.join(paragraph_mod) 

doc = nlp(paragraph_mod)
words_mod_lemma = [word.lemma_ for word in doc if word not in set(stop_words)]

In [14]:
words_mod_lemma

['sala',
 'plena',
 'corte',
 'constitucional',
 'declaro',
 'inexequible',
 'decretos',
 'relacionado',
 'emergencia',
 'economica',
 'social',
 'ecologica',
 'declarada',
 'pasado',
 'julio',
 'departamento',
 'guajira',
 'gobierno',
 'presidente',
 'gustavo',
 'petro']

Lemmatization is not as good as expected. Read about stanford NLP.. In this stackoverflow website they say it has really good results:

https://stackoverflow.com/questions/60534999/how-to-solve-spanish-lemmatization-problems-with-spacy 

### Bag of Words - Creating the vectors of the words that are in the text

In [15]:
paragraph_mod = ' '.join(words_mod_lemma)

In [16]:
list_paragraph = []
list_paragraph.append(paragraph_mod)

In [17]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
X = cv.fit_transform(list_paragraph).toarray()

#### Take into account that this must be a lot of sentences to train an ML Model

In [18]:
X

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

## TF-IDF (Term Frequency - Inverse Document Frequency)

In [2]:
para_1 = """ La Sala Plena de la Corte Constitucional declaró inexequible 5 de los decretos que estaban relacionados con la Emergencia Económica, Social y Ecológica declarada el pasado 2 de julio en el departamento de La Guajira, por el gobierno del presidente Gustavo Petro. """
para_2 = """ Ningún partido, político o movimiento se puede considerar gran vencedor o gran perdedor de las elecciones que eligieron 1.102 alcaldías y 32 gobernaciones: hubo, en realidad, un poco de todo y las variables de cada elección respondieron a dinámicas locales más que nacionales."""
para_3 = """ El pasado martes 24 de octubre, decenas de miles de mujeres en Islandia - incluida la primera ministra Katrín Jakobsdóttir-, se negaron a trabajar. Fue una huelga masiva que hizo eco de la que ocurrió en 1975, cuando el 90% de las mujeres de ese país paralizaron bancos, fábricas, escuelas y tiendas para manifestarse por la igualdad de género. """

In [9]:
para_1 = preprocessing_text(para_1)
para_2 = preprocessing_text(para_2)
para_3 = preprocessing_text(para_3)

In [10]:
para_1 = nltk.word_tokenize(para_1)
para_2 = nltk.word_tokenize(para_2)
para_3 = nltk.word_tokenize(para_3)

Removing Stopwords out of the text

In [13]:
para_1 = [word for word in para_1 if word not in stop_words]
para_2 = [word for word in para_2 if word not in stop_words]
para_3 = [word for word in para_3 if word not in stop_words]

In [14]:
para_1 = ' '.join(para_1)
para_2 = ' '.join(para_2)
para_3 = ' '.join(para_3)

Lemmatizate the words 

In [17]:
doc_1 = nlp(para_1)
doc_2 = nlp(para_2)
doc_3 = nlp(para_3)

In [18]:
para_1 = [word.lemma_ for word in doc_1]
para_2 = [word.lemma_ for word in doc_2]
para_3 = [word.lemma_ for word in doc_3]

In [23]:
para_1 = ' '.join(para_1)
para_2 = ' '.join(para_2)
para_3 = ' '.join(para_3)

#### TFIDF Process

In [24]:
corpus = []
corpus.append(para_1)
corpus.append(para_2)
corpus.append(para_3)

In [25]:
corpus

['sala plena corte constitucional declaro inexequible decretos relacionado emergencia economica social ecologica declarada pasado julio departamento guajira gobierno presidente gustavo petro',
 'ningun partido politico movimiento puede considerar gran vencedor gran perdedor eleccione eligieron alcaldias gobernaciones realidad variables cada eleccion respondieron dinamicas locale mas nacionale',
 'pasado marte octubre decenas miles mujere islandia incluida primera ministra katrin jakobsdottir negaron trabajar huelga masiva hizo eco ocurrio mujeres pais paralizaron bancos fabricas escuelas tiendas manifestarse igualdad genero']

In [28]:
from sklearn.feature_extraction.text import TfidfVectorizer
cv = TfidfVectorizer()
X = cv.fit_transform(corpus)

In [30]:
print(X)

  (0, 56)	0.2204419293447693
  (0, 26)	0.2204419293447693
  (0, 59)	0.2204419293447693
  (0, 23)	0.2204419293447693
  (0, 25)	0.2204419293447693
  (0, 10)	0.2204419293447693
  (0, 34)	0.2204419293447693
  (0, 54)	0.167651769257334
  (0, 7)	0.2204419293447693
  (0, 13)	0.2204419293447693
  (0, 66)	0.2204419293447693
  (0, 14)	0.2204419293447693
  (0, 18)	0.2204419293447693
  (0, 63)	0.2204419293447693
  (0, 9)	0.2204419293447693
  (0, 31)	0.2204419293447693
  (0, 8)	0.2204419293447693
  (0, 4)	0.2204419293447693
  (0, 5)	0.2204419293447693
  (0, 57)	0.2204419293447693
  (0, 65)	0.2204419293447693
  (1, 46)	0.2
  (1, 39)	0.2
  (1, 36)	0.2
  (1, 11)	0.2
  :	:
  (2, 19)	0.18706005118782956
  (2, 20)	0.18706005118782956
  (2, 1)	0.18706005118782956
  (2, 52)	0.18706005118782956
  (2, 51)	0.18706005118782956
  (2, 45)	0.18706005118782956
  (2, 50)	0.18706005118782956
  (2, 12)	0.18706005118782956
  (2, 27)	0.18706005118782956
  (2, 40)	0.18706005118782956
  (2, 28)	0.18706005118782956
  (2, 