# Intro NLP

<img src="https://miro.medium.com/max/768/1*JbQ58utmVAnAQ1G7ueLMAA.png">

<br>
<hr>


**N**atural **L**anguage **P**rocessing

It is a field that combines computer science, linguistics and programming languages, to understand how interactions between humans and machines can be created through natural language, which is what we humans use to communicate.


**N**atural **L**anguage **U**nderstanding (NLU)

It is a smaller field which is in charge of specific tasks that the machines can execute in the process of communication with human beings so that those tasks reflect that the robot is capable of processing our language and understanding it.




## Where do we find it?

- Search machines
    <img width=300 src="https://www.reliablesoft.net/wp-content/uploads/2016/12/best-search-engines.png">
- Text translation
    <img width=300 src="https://www.at-languagesolutions.com/en/wp-content/uploads/2018/02/translate.jpg">
- Chatbots
    <img width=300 src="https://www.grupoftp.com/noticias/wp-content/uploads/2018/03/Chatbot11-825x510.jpg">
- Discourse analysis
    <img width=300 src="https://307853.smushcdn.com/956669/wp-content/uploads/sites/53/2018/06/Bea3.jpg?lossy=1&strip=1&webp=1">
- Speech recognition
    <img width=300 src="https://i0.wp.com/ventsmagazine.com/wp-content/uploads/2019/11/1NhOH4X9wKWfO6o8faYFf-w.png?fit=556%2C260&ssl=1">
- etc

## Why is so hard?

### How can we interpt this poem:

<img src="https://miro.medium.com/max/640/1*oUFe82URjWheBW7Ch0dVGw.jpeg">


**human language is fuzzy, ambiguous and requires a lot of context.**

### Evolution

<img src="https://image.slidesharecdn.com/trf-ai20180307-180306132755/95/shaping-our-ai-strategy-7-638.jpg?cb=1520342960">

## Process
- input text -> Normalization
- Normalization:
    - Tokenization
    <img width=400 src="https://cdn.analyticsvidhya.com/wp-content/uploads/2019/07/Screenshot-from-2019-07-05-13-50-56.png">
    - Stemming
    <img width=400 src="https://qph.fs.quoracdn.net/main-qimg-cd7f4bafaa42639deb999b1580bea69f">
    - Segmentation
    <img src="https://s3.amazonaws.com/work-sample-images/blog_segmentation.jpg">

### Corpus

Corpus is a set of texts

<img src="http://corpora.lancs.ac.uk/clmtp/images/2-tagconc.jpg">

### Corpora 

Corpora is a set of multiple corpus 



# Code

In [1]:
import nltk 

# Download dataset
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\TheGlitchCat\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

## Regular expressions

In [2]:
# Regular expressions 
import re

corpus = nltk.corpus.cess_esp.sents()
print(corpus)

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]


In [3]:
print(len(corpus))

6030


In [4]:
# only one list 

flatten = [w for l in corpus for w in l]
print(len(flatten))
print(flatten[:30])

192685
['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation']


In [5]:
# p = pattern
# s = string
# re.search(p,s) -> return true or false 

arr = [w for w in flatten if re.search('es', w)]
print(arr[:5])

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']


In [6]:
# $ -> ends with 
arr = [w for w in flatten if re.search('es$', w)]
print(arr[:5])

['jueves', 'centrales', 'millones', 'millones', 'dólares']


In [7]:
# ^ -> start with 
arr = [w for w in flatten if re.search('^es', w)]
print(arr[:5])

['estatal', 'es', 'esta', 'esta', 'eso']


In [8]:
# range = [a-z] [abc] 
 
arr = [w for w in flatten if re.search('^[ghi]', w)]
print(arr[:5])

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']


In [9]:
# Clausure
# * = repeat 0 or more 
# + = repeat 1 or more 

arr = [w for w in flatten if re.search('^(no)*', w)]
print(arr[:5])

arr = [w for w in flatten if re.search('^(no)+', w)]
print(arr[:5])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-']
['norte', 'no', 'no', 'noche', 'no']


## Normalization

In [10]:
print('this is \n no raw text')

# raw
print(r'this is \n no raw text')

# Raw
text = """ Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
           Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera 
           visualizar en su cabeza ...""" 



this is 
 no raw text
this is \n no raw text


In [11]:
# Tokenization with spaces 
spaces = re.split(r' ', text)

print(spaces)

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', '\n', '', '', '', '', '', '', '', '', '', '', 'visualizar', 'en', 'su', 'cabeza', '...']


In [12]:
# Regex Tokenization
reg = re.split(r'[ \t\n]+', text)
print(reg)

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [13]:
# Special Regex Tokenization
reg = re.split(r'[ \W\t\n]+', text)
print(reg)

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


In [14]:
# NLTK Tokenization

corrupt_text = 'En U.S.A. esa consola portatil vale $399.99 ... '

In [15]:
pattern = r'''(?x)                  # Flag for verbose mode
              (?:[A-Z]\.)+          # Matches with abbreviations like U.S.A.
              | \w+(?:-\w+)*        # Matches words that may have an internal hyphen
              | \$?\d+(?:\.\d+)?%?  # Matches money or percentages like $ 15.5 or 100%
              | \.\.\.              # Matches ellipsis
              | [][.,;"'?():-_`]    # Matches punctuation marks
              '''

In [16]:
nltk.regexp_tokenize(corrupt_text, pattern)


['En', 'U.S.A.', 'esa', 'consola', 'portatil', 'vale', '$399.99', '...']

In [17]:
nltk.regexp_tokenize(text, pattern)

['Cuando',
 'sea',
 'el',
 'rey',
 'del',
 'mundo',
 '(',
 'imaginaba',
 'él',
 'en',
 'su',
 'cabeza',
 ')',
 'no',
 'tendré',
 'que',
 'preocuparme',
 'por',
 'estas',
 'bobadas',
 '.',
 'Era',
 'solo',
 'un',
 'niño',
 'de',
 '7',
 'años',
 ',',
 'pero',
 'pensaba',
 'que',
 'podría',
 'ser',
 'cualquier',
 'cosa',
 'que',
 'su',
 'imaginación',
 'le',
 'permitiera',
 'visualizar',
 'en',
 'su',
 'cabeza',
 '...']

In [18]:
bbc_news_text = '''
    The pound has risen 0.35% against the dollar to $1.3067 after the Bank of England's Monetary Policy Committee voted to hold the interest rate.

    Sterling also gained against the euro, up 0.21% at €1.1849.

    The MPC made clear, however, that it may act if the UK economy fails to gain momentum.

    "With Mark Carney seemingly having deferred this policy decision to his successor, Andrew Bailey will need to land on his feet running," says Principal Global Investors' market strategist, Seema Shah.

    "Unless economic activity data improves measurably over the coming months, reflecting proof of the so-called 'Boris bounce', and interest rate cut is likely to remain on the agenda for 2020.".
'''

In [19]:
nltk.regexp_tokenize(bbc_news_text, pattern)

['The',
 'pound',
 'has',
 'risen',
 '0',
 '.',
 '35',
 'against',
 'the',
 'dollar',
 'to',
 '$1.3067',
 'after',
 'the',
 'Bank',
 'of',
 'England',
 "'",
 's',
 'Monetary',
 'Policy',
 'Committee',
 'voted',
 'to',
 'hold',
 'the',
 'interest',
 'rate',
 '.',
 'Sterling',
 'also',
 'gained',
 'against',
 'the',
 'euro',
 ',',
 'up',
 '0',
 '.',
 '21',
 'at',
 '1',
 '.',
 '1849',
 '.',
 'The',
 'MPC',
 'made',
 'clear',
 ',',
 'however',
 ',',
 'that',
 'it',
 'may',
 'act',
 'if',
 'the',
 'UK',
 'economy',
 'fails',
 'to',
 'gain',
 'momentum',
 '.',
 '"',
 'With',
 'Mark',
 'Carney',
 'seemingly',
 'having',
 'deferred',
 'this',
 'policy',
 'decision',
 'to',
 'his',
 'successor',
 ',',
 'Andrew',
 'Bailey',
 'will',
 'need',
 'to',
 'land',
 'on',
 'his',
 'feet',
 'running',
 ',',
 '"',
 'says',
 'Principal',
 'Global',
 'Investors',
 "'",
 'market',
 'strategist',
 ',',
 'Seema',
 'Shah',
 '.',
 '"',
 'Unless',
 'economic',
 'activity',
 'data',
 'improves',
 'measurably',
 'o

In [20]:
wiki_text = '''
    El presidente Donald Trump firmó un memorando el 22 de marzo de 2018 bajo el artículo 301 de la Ley de Comercio de 1974, ordenando al Representante Comercial de Estados Unidos (United States Trade Representative, USTR) que se apliquen aranceles de 50 000 millones de dólares a los productos chinos. 
    En una declaración formal, según establece la ley, Trump dijo que la propuesta de aranceles fue «una respuesta a las prácticas comerciales desleales de China a lo largo de los años», incluyendo el robo de propiedad intelectual.
'''

In [21]:
nltk.regexp_tokenize(wiki_text, pattern)

['El',
 'presidente',
 'Donald',
 'Trump',
 'firmó',
 'un',
 'memorando',
 'el',
 '22',
 'de',
 'marzo',
 'de',
 '2018',
 'bajo',
 'el',
 'artículo',
 '301',
 'de',
 'la',
 'Ley',
 'de',
 'Comercio',
 'de',
 '1974',
 ',',
 'ordenando',
 'al',
 'Representante',
 'Comercial',
 'de',
 'Estados',
 'Unidos',
 '(',
 'United',
 'States',
 'Trade',
 'Representative',
 ',',
 'USTR',
 ')',
 'que',
 'se',
 'apliquen',
 'aranceles',
 'de',
 '50',
 '000',
 'millones',
 'de',
 'dólares',
 'a',
 'los',
 'productos',
 'chinos',
 '.',
 'En',
 'una',
 'declaración',
 'formal',
 ',',
 'según',
 'establece',
 'la',
 'ley',
 ',',
 'Trump',
 'dijo',
 'que',
 'la',
 'propuesta',
 'de',
 'aranceles',
 'fue',
 'una',
 'respuesta',
 'a',
 'las',
 'prácticas',
 'comerciales',
 'desleales',
 'de',
 'China',
 'a',
 'lo',
 'largo',
 'de',
 'los',
 'años',
 ',',
 'incluyendo',
 'el',
 'robo',
 'de',
 'propiedad',
 'intelectual',
 '.']

In [22]:
wiki_text2 = '''
    El 2 de abril, el Ministerio de Comercio de China impuso aranceles a 128 productos estadounidenses, incluyendo chatarra de aluminio, aviones, automóviles, productos derivados del cerdo y la soja (que tiene un arancel del 25 %), así como a frutas, frutos secos y tuberías de acero (15 %). Al día siguiente, el USTR publicó una lista de más de 1300 categorías de las importaciones chinas, por un valor de 50 000 millones, 
    a las que se prevé establecer aranceles, incluyendo piezas de aviones, baterías, televisores de pantalla plana, dispositivos médicos, satélites y armas.4​5​6​
'''

In [23]:
nltk.regexp_tokenize(wiki_text2, pattern)

['El',
 '2',
 'de',
 'abril',
 ',',
 'el',
 'Ministerio',
 'de',
 'Comercio',
 'de',
 'China',
 'impuso',
 'aranceles',
 'a',
 '128',
 'productos',
 'estadounidenses',
 ',',
 'incluyendo',
 'chatarra',
 'de',
 'aluminio',
 ',',
 'aviones',
 ',',
 'automóviles',
 ',',
 'productos',
 'derivados',
 'del',
 'cerdo',
 'y',
 'la',
 'soja',
 '(',
 'que',
 'tiene',
 'un',
 'arancel',
 'del',
 '25',
 ')',
 ',',
 'así',
 'como',
 'a',
 'frutas',
 ',',
 'frutos',
 'secos',
 'y',
 'tuberías',
 'de',
 'acero',
 '(',
 '15',
 ')',
 '.',
 'Al',
 'día',
 'siguiente',
 ',',
 'el',
 'USTR',
 'publicó',
 'una',
 'lista',
 'de',
 'más',
 'de',
 '1300',
 'categorías',
 'de',
 'las',
 'importaciones',
 'chinas',
 ',',
 'por',
 'un',
 'valor',
 'de',
 '50',
 '000',
 'millones',
 ',',
 'a',
 'las',
 'que',
 'se',
 'prevé',
 'establecer',
 'aranceles',
 ',',
 'incluyendo',
 'piezas',
 'de',
 'aviones',
 ',',
 'baterías',
 ',',
 'televisores',
 'de',
 'pantalla',
 'plana',
 ',',
 'dispositivos',
 'médicos',
 ','