# Notacion de nivelacion

**Lenguaje Natural** es un lenguaje desarrollado y evolucionado por los humanos a través del uso natural y la comunicación, en lugar de construido y creado artificialmente, como un lenguaje de programación de computadoras.

**Filosofia del lenguaje** como opera y se entiende el lenguaje. Se ocupa de los siguientes cuatro problemas y busca respuestas para resolverlos:
1. **La naturaleza del significado en un idioma:** semantica y la naturaleza del significado
2. **El uso del lenguaje:** como se usa para lograr comunicacion
3. **Cognición del lenguaje:** como las funciones cognitivas del cerebro humano operan para entender e interpretar el lenguaje
4. **La relación entre el lenguaje y la realidad:** explora el alcance de la verdad de las expresiones que se originan en el lenguaje

Uno de los modelos mas sencillos el el triangulo de referencia propuesto por Charles Ogden e Ivor Richards en 1923

![the-meaning-of-meaning-model.jpg](attachment:the-meaning-of-meaning-model.jpg)


# Linguistica
La lingüística se define como el estudio científico del lenguaje, incluida la forma y la sintaxis del lenguaje, el significado y la semántica representados por el uso del lenguaje y el contexto de uso.

Aunque no se necesita una exploración detallada de la lingüística para el análisis de texto, es útil conocer las diferentes áreas de la lingüística porque algunas de ellas se utilizan ampliamente en el procesamiento del lenguaje natural y los algoritmos de análisis de texto. Las principales áreas distintivas de estudio en lingüística son las siguientes:

1. **Fonetica:** Este es el estudio de las propiedades acústicas de los sonidos producidos por el tracto vocal humano durante el habla.
2. **Fonología:** Este es el estudio de los patrones de sonido interpretados en la mente humana y utilizados para distinguir entre diferentes fonemas para descubrir cuáles son significativos.
3. **Sintaxis:** Este suele ser el estudio de oraciones, frases, palabras y sus estructuras. Incluye investigar cómo las palabras se combinan gramaticalmente para formar frases y oraciones.
4. **Semantica:** el estudio del significado en el lenguaje y se puede subdividir en semántica léxica (significado de las palabras) y composicional (relaciones entre palabras).
5. ** Morfologia:** La morfología es el estudio de la estructura y el significado de estas unidades distintivas o morfemas en un idioma. Un morfema es la unidad basica del lenguaje con un significado distintivo
6. **Lexico:** Este es el estudio de las propiedades de las palabras y frases utilizadas en un idioma y cómo construyen el vocabulario del idioma.
7. **Pragmatica:** Este es el estudio de cómo los factores lingüísticos y no lingüísticos, como el contexto y el escenario, pueden afectar el significado de una expresión de un mensaje o una declaración.
8. **Analisis de discurso:** Este analiza el lenguaje y el intercambio de información en forma de oraciones a través de conversaciones entre seres humanos.
9. **Estilistica:** Este es el estudio del idioma con un enfoque en el estilo de escritura, incluido el tono, el acento, el diálogo, la gramática y el tipo de voz.
10. **Semiotica:** Este es el estudio de signos, símbolos y procesos de signos y cómo comunican significado.

$\color{blue}{\text{Para el caso del NLP lo más importante es la SINTEXIS Y LA SEMANTICA}}$

# Sintaxis del lenguaje y estructura 

Conjunto de reglas, convenciones y principios específicos que generalmente gobiernan la forma en que las palabras se combinan en frases, las frases se combinan en cláusulas y las cláusulas se combinan en oraciones

1. **Palabras:** Las palabras son las unidades más pequeñas en un idioma que son independientes y tienen un significado propio. Pueden ser pronombres, verbos, adjetivos, pronombres, proposiciones, conjunciones, determinantes y advervios entre otros posibles tags
2. **Frases:** grupos de palabras forman frases, que forman el tercer nivel en el árbol sintáctico.
3. **Clausulas:** Una cláusula es un grupo de palabras con alguna relación entre ellas que generalmente contiene un sujeto y un predicado (pueden ser declarativas, imperativas, relativas, interrogativas, exclamativas)
![phrases-and-clauses2.png](attachment:phrases-and-clauses2.png)

# Topologia 

Es un campo que se ocupa específicamente de tratar de clasificar los idiomas en función de su sintaxis, estructura y funcionalidad.

Los idiomas se pueden clasificar de varias maneras, y uno de los modelos más comunes es clasificarlos de acuerdo con sus órdenes de palabras dominantes, también conocido como tipología de orden de palabras.

Segun Russel Tolin tenemos esta clasificación de los word orders en distintos lenguajes:

No | Word Order | Lang Frequency | Example Languages|
---|------------|----------------|-----------------|
1|Sujeto-Objeto-Verbo|180(45\%)|Bengali, Gothic, Hindu, Latin|
2|Sujeto-Verbo-Objeto|168(42\%)|Ingles. Frances, Mandarin, Español|
3|Verbo-Sujeto-Objeto|37(9\%)|Hebrero, Irlandes, Filipino, Arameo|
4|Verbo-Objeto-Sujeto|12(3\%)|Baure, Malagasy|
5|Objeto-Verbo-Sujeto|5(1\%)|Apalai, Arecua|
6|Objeto-Sujeto-Verbo|11(0\%)|Warao|

Ejemplo del ingles(español): He ate cake (El come ponque)

Has la prueba de traducir esta frase al indu y te daras cuenta de algo divertido!!

# Corpus
**Corpus** Conjunto de palabras dentro de un contexto determinado 
**Corpora** Los corpus de texto son colecciones grandes y estructuradas de textos o datos textuales, que generalmente consisten en cuerpos de texto escrito o hablado, a menudo almacenados en formato electrónico.

Los corpus de texto se crean con metadatos enriquecidos, lo que es extremadamente útil para obtener información valiosa al utilizar los corpus para NLP y análisis de texto. Las anotaciones populares para corpus de texto incluyen etiquetas de partes del discurso (POS), raíces de palabras, lemas y muchas más. Estos son algunos de los métodos y técnicas más utilizados para anotar corpus de texto:

1. POS Tagging
2. Word Stems
3. Word Lemmas
4. Constitucion de gramatica
5. Tipos de semantica y roles

Los Corpora mas comunes son:
1. Key Word in Context: KWIC creada en 1860 y se uso hasta 1950
2. Brown Corpus: un corpues de cerca de un millon de palabras en ingles creado en 1961
3. LOB Corpus: Lancaster-Oslo-Bergen (LOB) creado en 1970 creado con distintas fuentes
4. Collins Corpus: COBUILD creado en 1980 
5. CHILDES: Child Languaje Data Exchange System creado en 1984 con audios, vidoes y 26 lenguajes
6. WordNet: es una base de datos semantico-lexica orientado para el Ingles creado en 1985 por George Armitage en Princenton
7. Penn Treebank: creado en la universidad de Pensilvania 
8. BNC: British National Corpus tiene cerca de 100 millones de palabras del ingles creado en los 90
9. ANC: American NAtional Corpus es un corpus de 22 millones de palabras escritas y habladas desde 1990
10. COCA Corpus of Contemporary American English con 450 millones de palabras del ingles
11. Google N-gram Corpus: cerca de un trillon de palabras de fuentes de libros, paginas web etc creado en 2013
12. Reuters Corpus: coleccion de articulos e historias lanzado en los 2000

$\color{red}{\text{Para el idioma español tenemos alguno?}}$

Si claro existen algunos como: 
1. cess_cat
2. cess_esp : corpus de noticias de español

Y como accedo al corpus?

In [1]:
!pip install nltk



In [3]:
import nltk # Esto puede demorar un rato
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping grammars\basque_grammars.zip.
[nlt

[nltk_data]    |   Unzipping corpora\names.zip.
[nltk_data]    | Downloading package nombank.1.0 to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package nonbreaking_prefixes to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\nonbreaking_prefixes.zip.
[nltk_data]    | Downloading package nps_chat to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\nps_chat.zip.
[nltk_data]    | Downloading package omw to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package omw-1.4 to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package opinion_lexicon to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\opinion_lexicon.zip.
[nltk_data]    | Downloading package panlex_swadesh to
[nltk_data]  

[nltk_data]    | Downloading package verbnet to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\verbnet.zip.
[nltk_data]    | Downloading package verbnet3 to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\verbnet3.zip.
[nltk_data]    | Downloading package webtext to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\webtext.zip.
[nltk_data]    | Downloading package wmt15_eval to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping models\wmt15_eval.zip.
[nltk_data]    | Downloading package word2vec_sample to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping models\word2vec_sample.zip.
[nltk_data]    | Downloading package wordnet to
[nltk_data]    |     C:\Users\Windows\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package w

True

In [5]:
# Accedamos a un corpus e.g Brown Corpus
from nltk.corpus import brown
print('Categorias totales:', len(brown.categories()))

Categorias totales: 15


In [8]:
print(brown.categories())

['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction']


In [9]:
# oraciones tokenizadas
brown.sents(categories='mystery')

[['There', 'were', 'thirty-eight', 'patients', 'on', 'the', 'bus', 'the', 'morning', 'I', 'left', 'for', 'Hanover', ',', 'most', 'of', 'them', 'disturbed', 'and', 'hallucinating', '.'], ['An', 'interne', ',', 'a', 'nurse', 'and', 'two', 'attendants', 'were', 'in', 'charge', 'of', 'us', '.'], ...]

In [10]:
# Oraciones con POS tagging
brown.tagged_sents(categories='mystery')

[[('There', 'EX'), ('were', 'BED'), ('thirty-eight', 'CD'), ('patients', 'NNS'), ('on', 'IN'), ('the', 'AT'), ('bus', 'NN'), ('the', 'AT'), ('morning', 'NN'), ('I', 'PPSS'), ('left', 'VBD'), ('for', 'IN'), ('Hanover', 'NP'), (',', ','), ('most', 'AP'), ('of', 'IN'), ('them', 'PPO'), ('disturbed', 'VBN'), ('and', 'CC'), ('hallucinating', 'VBG'), ('.', '.')], [('An', 'AT'), ('interne', 'NN'), (',', ','), ('a', 'AT'), ('nurse', 'NN'), ('and', 'CC'), ('two', 'CD'), ('attendants', 'NNS'), ('were', 'BED'), ('in', 'IN'), ('charge', 'NN'), ('of', 'IN'), ('us', 'PPO'), ('.', '.')], ...]

In [11]:
# Obtener oraciones en forma natural
oraciones = brown.sents(categories='mystery')
[' '.join(sentence_token) for sentence_token in oraciones]

['There were thirty-eight patients on the bus the morning I left for Hanover , most of them disturbed and hallucinating .',
 'An interne , a nurse and two attendants were in charge of us .',
 "I felt lonely and depressed as I stared out the bus window at Chicago's grim , dirty West Side .",
 'It seemed incredible , as I listened to the monotonous drone of voices and smelled the fetid odors coming from the patients , that technically I was a ward of the state of Illinois , going to a hospital for the mentally ill .',
 'I suddenly thought of Mary Jane Brennan , the way her pretty eyes could flash with anger , her quiet competence , the gentleness and sweetness that lay just beneath the surface of her defenses .',
 'We had become good friends during my stay at Cook County Hospital .',
 'I had told her enough about myself to offset somewhat the damaging stories that had appeared in local newspapers after my little adventure in Marshall Field & Co. .',
 'She knew that I lived at a good addr

In [12]:
# Tages words
tagged_words = brown.tagged_words(categories='mystery')
# Obtener solo los nouns
nouns = [(word, tag) for word, tag in tagged_words if any(noun_tag in tag for noun_tag in ['NP', 'NN'])]
nouns

[('patients', 'NNS'),
 ('bus', 'NN'),
 ('morning', 'NN'),
 ('Hanover', 'NP'),
 ('interne', 'NN'),
 ('nurse', 'NN'),
 ('attendants', 'NNS'),
 ('charge', 'NN'),
 ('bus', 'NN'),
 ('window', 'NN'),
 ("Chicago's", 'NP$'),
 ('Side', 'NN-TL'),
 ('drone', 'NN'),
 ('voices', 'NNS'),
 ('odors', 'NNS'),
 ('patients', 'NNS'),
 ('ward', 'NN'),
 ('state', 'NN'),
 ('Illinois', 'NP'),
 ('hospital', 'NN'),
 ('Mary', 'NP'),
 ('Jane', 'NP'),
 ('Brennan', 'NP'),
 ('way', 'NN'),
 ('eyes', 'NNS'),
 ('anger', 'NN'),
 ('competence', 'NN'),
 ('gentleness', 'NN'),
 ('sweetness', 'NN'),
 ('surface', 'NN'),
 ('defenses', 'NNS'),
 ('friends', 'NNS'),
 ('stay', 'NN'),
 ('Cook', 'NP-TL'),
 ('County', 'NN-TL'),
 ('Hospital', 'NN-TL'),
 ('stories', 'NNS'),
 ('newspapers', 'NNS'),
 ('adventure', 'NN'),
 ('Marshall', 'NP-TL'),
 ('Field', 'NP-TL'),
 ('Co.', 'NN-TL'),
 ('address', 'NN'),
 ('Coast', 'NN-TL'),
 ('student', 'NN'),
 ('university', 'NN'),
 ('studies', 'NNS'),
 ('relative', 'NN'),
 ('remorse', 'NN'),
 ('newspap

In [13]:
nouns_freq = nltk.FreqDist([word for word, tag in nouns])
nouns_freq

FreqDist({'man': 106, 'time': 82, 'door': 80, 'car': 69, 'room': 65, 'Mr.': 63, 'way': 61, 'office': 50, 'eyes': 48, 'hand': 46, ...})

In [14]:
print(nouns_freq.most_common(10))

[('man', 106), ('time', 82), ('door', 80), ('car', 69), ('room', 65), ('Mr.', 63), ('way', 61), ('office', 50), ('eyes', 48), ('hand', 46)]


In [18]:
# Un Corpus en español
from nltk.corpus import cess_esp
cess_esp = cess_esp.tagged_sents()
cess_esp

[[('El', 'da0ms0'), ('grupo', 'ncms000'), ('estatal', 'aq0cs0'), ('Electricité_de_France', 'np00000'), ('-Fpa-', 'Fpa'), ('EDF', 'np00000'), ('-Fpt-', 'Fpt'), ('anunció', 'vmis3s0'), ('hoy', 'rg'), (',', 'Fc'), ('jueves', 'W'), (',', 'Fc'), ('la', 'da0fs0'), ('compra', 'ncfs000'), ('del', 'spcms'), ('51_por_ciento', 'Zp'), ('de', 'sps00'), ('la', 'da0fs0'), ('empresa', 'ncfs000'), ('mexicana', 'aq0fs0'), ('Electricidad_Águila_de_Altamira', 'np00000'), ('-Fpa-', 'Fpa'), ('EAA', 'np00000'), ('-Fpt-', 'Fpt'), (',', 'Fc'), ('creada', 'aq0fsp'), ('por', 'sps00'), ('el', 'da0ms0'), ('japonés', 'aq0ms0'), ('Mitsubishi_Corporation', 'np00000'), ('para', 'sps00'), ('poner_en_marcha', 'vmn0000'), ('una', 'di0fs0'), ('central', 'ncfs000'), ('de', 'sps00'), ('gas', 'ncms000'), ('de', 'sps00'), ('495', 'Z'), ('megavatios', 'ncmp000'), ('.', 'Fp')], [('Una', 'di0fs0'), ('portavoz', 'nccs000'), ('de', 'sps00'), ('EDF', 'np00000'), ('explicó', 'vmis3s0'), ('a', 'sps00'), ('EFE', 'np00000'), ('que', 'c

In [19]:
# la etiqueta de 3 pers plur del pret. perf simpl es: vmis3p0
verbos_en_pasado = []
total = 0

for oracion in cess_esp:
    total += len(oracion)
    for item in oracion:
        if item[1] == 'vmis3p0':
            verbos_en_pasado.append(item[0])
        
print('Tengo', len(verbos_en_pasado), 'verbos en pasado y', total, 'palabras en total') 
print('El porcentaje de verbos es', len(verbos_en_pasado)/total)

Tengo 629 verbos en pasado y 192686 palabras en total
El porcentaje de verbos es 0.0032643783149787736


In [21]:
# Wordnet Corpus
from nltk.corpus import wordnet as wn
word = 'bike'
# Synsets
word_synsets = wn.synsets(word)
print(word_synsets)

[Synset('motorcycle.n.01'), Synset('bicycle.n.01'), Synset('bicycle.v.01')]


In [23]:
for synset in word_synsets:
    print('Synset Name:', synset.name())
    print('POS Tag:', synset.pos())
    print('Definicion:', synset.definition())
    print('Ejemplos:', synset.examples())

Synset Name: motorcycle.n.01
POS Tag: n
Definicion: a motor vehicle with two wheels and a strong frame
Ejemplos: []
Synset Name: bicycle.n.01
POS Tag: n
Definicion: a wheeled vehicle that has two wheels and is moved by foot pedals
Ejemplos: []
Synset Name: bicycle.v.01
POS Tag: v
Definicion: ride a bicycle
Ejemplos: []


# NLP

Se define como un campo especializado de la informática y la ingeniería y la inteligencia artificial con raíces en la lingüística computacional. Se ocupa principalmente del diseño y la construcción de aplicaciones y sistemas que permiten la interacción entre máquinas y lenguajes naturales desarrollados para uso humano.

Algunas aplicaciones son:
1. Traduccion
2. Reconocimiento de voz
3. Respuestas automaticas
4. Reconocimiento de entidades
5. Resumen textual
6. Categorizacion de texto
7. Analisis de sentimiento
8. Deteccion de spam
9. Monitoreo de marcas
10. Bio medica
11. Seguridad
12. Chatbots
13. Asistentes virtuales