# Lematización

La lematización es un proceso donde se agrupan diferentes formas o inflecciones de una misma palabra. De esta manera esp posible analizarlas como una misma ocurrencia en vez de como palabras diferentes. Para lograr este objetivo se realiza un analisis morfológico de las palabras.

## Lematización VS Derivación

La derivación o stemming es un porceso donde un conjunto de palabtras es transformada en una formato más corto eliminando de esta manera las variaciones que la palabra tiene de acuerdo al contexto. Esto nos da como resultado lo que se denomina <b> palabra raíz </b>


In [1]:
from nltk.stem import PorterStemmer

love = ["love", "loved", "loving", "loves"]
eat = ["eat", "ate", "eating", "eats", "eaten"]
study = ["study", "studied", "studying", "studies", "student"]
be = ["is", "am", "are", "were", "was"]
car = ["car", "cars", "car's", "cars"]
big = ["big", "bigger", "biggest"]

# Instanciar Stemmer
ps = PorterStemmer()

In [2]:
for e in love:
    print(ps.stem(e))

love
love
love
love


In [3]:
for e in eat:
    print(ps.stem(e))

eat
ate
eat
eat
eaten


In [4]:
for e in study:
    print(ps.stem(e))

studi
studi
studi
studi
student


In [5]:
for e in be:
    print(ps.stem(e))

is
am
are
were
wa


In [6]:
for e in car:
    print(ps.stem(e))

car
car
car'
car


In [7]:
for e in big:
    print(ps.stem(e))

big
bigger
biggest


Mientras que la derivación se limita a eliminar los sufijos de una palabra la lematización obtiene la base de inflexión de la palabra o lemma. Los algoritmos de lematización utilizan conocimiento de lingüistica para determinar el lemma correspondiente para cada palabra. 

In [8]:
# nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

# Importar Lemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

In [9]:
for e in love:
    print(wordnet_lemmatizer.lemmatize(e))

love
loved
loving
love


In [10]:
for e in eat:
    print(wordnet_lemmatizer.lemmatize(e))

eat
ate
eating
eats
eaten


In [11]:
for e in study:
    print(wordnet_lemmatizer.lemmatize(e))

study
studied
studying
study
student


In [12]:
for e in be:
    print(wordnet_lemmatizer.lemmatize(e))

is
am
are
were
wa


In [13]:
for e in car:
    print(wordnet_lemmatizer.lemmatize(e))

car
car
car's
car


In [14]:
for e in big:
    print(wordnet_lemmatizer.lemmatize(e))

big
bigger
biggest


## Utilizar POS

El Lematizador Wordnet permite pasar como parámetro el tipo de palabra con la que se está trabajando, de esta manera es capaz de lematizar de manera más eficiente.

<table class="striped" style="float:left;font-size:18px">
    <tr>
        <th>A</th> <td>Adjetivo</td>
     </tr>
    <tr>
        <th>N</th> <td>Sustantivo</td>
     </tr>
    <tr>
        <th>V</th> <td>Verbo</td>
     </tr>
    <tr>
        <th>R</th> <td>Adverbio</td>
        
   
   
</table>

In [15]:
for e in love:
    print(wordnet_lemmatizer.lemmatize(e, "v"))

love
love
love
love


In [16]:
for e in study:
    print(wordnet_lemmatizer.lemmatize(e, "v"))

study
study
study
study
student


In [17]:
for e in be:
    print(wordnet_lemmatizer.lemmatize(e, "v"))

be
be
be
be
be


In [18]:
for e in big:
    print(wordnet_lemmatizer.lemmatize(e, "a"))

big
big
big


# Ejercicio

- Obtener de la API todos los Tweets (usar paginación) que no sean retweet y que contengan la palabra WhatsApp en inglés.
- Realizar la tokenización
- Hacer nube de palabras

### Cargar env

In [19]:
import os
from dotenv import load_dotenv

load_dotenv()
bearer_token = os.environ.get("BEARER_TOKEN")

### Url de consulta

In [20]:
url = "https://api.twitter.com/2/tweets/search/recent"

### Query def

In [21]:
params = {
    "query": "WhatsApp -is:retweet -lang:en",
    "tweet.fields": "created_at",
    "max_results": 100,
}

- Realizar un etiquetado POS con la función pos_tag de NLTK
- Lematizar mapeando las clasificaciones de POS con las clasificaciones permitidas por el lematizador
- Hacer nuevamente la nube de palabras

- Describir los cambios observador