In [1]:
# Add all necessary imports here
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.reload_library()
plt.style.use("ggplot")

from IPython.display import Image
# Image(filename='img/IIC_logoP.png', width=400)

import plotly.plotly as py
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
init_notebook_mode(connected=True)

import numpy as np

### Cover Slide 1

# Introducción

![IIC](img/IIC_logoP.png)

# Modelos de lenguaje

![IIC](img/word_embs.png)

# NER

![IIC](img/ner.jpg)

# ¿Contexto?

<img src='img/predict_gone_wrong.jpg' width="50%">

# BERT

![BERT](img/bert.png)

# Transformer

![BERT](img/metodologia/Transformer.gif)

# Glove vs BERT

Lionel Andrés Messi Cuccittini (Rosario, 24 de junio de 1987), conocido como Leo Messi, es un futbolista argentino que juega como delantero o centrocampista. Ha desarrollado toda su carrera en el F. C. Barcelona de la Primera División de España y en la selección argentina, de la que es capitán. Cristiano Ronaldo dos Santos Aveiro, (Funchal, Madeira, 5 de febrero de 1985), más conocido como Cristiano Ronaldo, es un futbolista portugués que juega como delantero en la Juventus de Turín de la Serie A de Italia y en la selección de Portugal, de la que es capitán.

In [2]:
# import numpy as np

reduced = np.load("embs/bert_pca.npy")
colores = np.load("embs/bert_colores.npy")
textos = np.load("embs/bert_textos.npy")
x, y, z = reduced.T

trace1 = go.Scatter3d(
    x=x,
    y=y,
    z=z,
    mode='markers',
    hoverinfo = 'text',
    hoverlabel=dict(bgcolor=colores),
    hovertext = textos,
    marker=dict(
        color=colores,
        size=3,
        opacity=0.8
    )
)


data = [trace1]
layout = go.Layout(
    title=go.layout.Title(
        text='Embeddings con BERT',
        y=1,
        x=0
    ),
    width=720,
    height=480,
    margin=dict(
        l=0,
        r=0,
        b=0,
        t=0
    )
)
fig = go.Figure(data=data, layout=layout)

In [3]:
iplot(fig)

In [4]:
reduced = np.load("embs/glove_pca.npy")
colores = np.load("embs/glove_colores.npy")
textos = np.load("embs/glove_textos.npy")
x, y, z = reduced.T

trace1 = go.Scatter3d(
    x=x,
    y=y,
    z=z,
    mode='markers',
    hoverinfo = 'text',
    hoverlabel=dict(bgcolor=colores),
    hovertext = textos,
    marker=dict(
        color=colores,
        size=3,
        opacity=0.8
    )
)


data = [trace1]
layout = go.Layout(
    title=go.layout.Title(
        text='Embeddings con GloVe',
        y=1,
        x=0
    ),
    width=720,
    height=480,
    margin=dict(
        l=0,
        r=0,
        b=0,
        t=0
    )
)
fig = go.Figure(data=data, layout=layout)

In [5]:
iplot(fig)

# Análisis Exploratorio

# WIKINER

![wikiner](img/wordcloud_wikiner.png)

# MUC3 y MUC4

![wc_muc](img/muc34/wordcloud.png)

# Fechas de las noticias

![wc_muc](img/muc34/fechas.png)

# Fechas de las noticias sin outlier

![wc_muc](img/muc34/fechas_final.png)

# Descripción de la víctima

![wc_muc](img/muc34/hum_tgt_description.png)

# Nombre de la víctima

<img src="img/muc34/hum_tgt_name.png" alt="drawing" width="350"/>

# Instrumento utilizado para el atentado

![wc_muc](img/muc34/incident_instrument_id.png)

# Autor atentado

![wc_muc](img/muc34/perp_individual_id.png)

# Organización autora del atentado

<img src="img/muc34/perp_organization_id.png" alt="drawing" width="300"/>

# Elemento físico dañado/destruido

![wc_muc](img/muc34/phys_tgt_id.png)

# Lugares de las noticias

<iframe src="https://davidbetancur8.github.io/data_science_tfm/exploration/mapa.html" width="800" height="300"></iframe> 

<a href="https://davidbetancur8.github.io/data_science_tfm/exploration/mapa.html">Mapa</a>

# Metodología

# Preprocesamiento

# WNUT y WIKINER


* NLPTaskDataFetcher.load_corpus(NLPTask.WNUT_17)
* from flair.datasets import WIKINER_ENGLISH
 
<img src="img/smiley.jpg" alt="drawing" width="200"/>

# MUC3 y MUC4


<img src="img/muc34/text_etl.png" alt="Smiley face" border="5"> 
<img src="img/muc34/keys_etl.png" alt="Smiley face" border="5"> 



<img src="img/muc34/biluo_muc.png" alt="Smiley face" border="5"> 

<img src="img/pandas.png" alt="Smiley face" border="5"> 
<img src="img/spacy.png" alt="Smiley face" width=500> 

# Embeddings y NER

![flair](img/metodologia/flair_logo.png)
![pytorch](img/metodologia/Pytorch_logo.png)

# NER para MUC


<img src="img/metodologia/metod_muc.png" alt="drawing" width="1000"/>

# Resultados

# GloVe-WIKINER

![bert_wn](img/glove_wn.png)

# BERT-WIKINER

![bert_wn](img/bert_wn.png)

# MUC3 and MUC4

## gamma=10, alpha=5
<img src="img/muc34/gamma10_alpha5_100epoc.png" alt="cm" width=700 />

## gamma=20, alpha=2
<img src="img/muc34/gamma20_alpha2_100epoc.png" alt="cm" width=700 />

## gamma=20, alpha=1
<img src="img/muc34/gamma20_alpha1_100epoc.png" alt="cm" width=700 />

# Conclusiones

<ul>
  <li>Se logró acercar al estado del arte en distintos datasets de NER utilizando embeddings contextualizados.</li>
  <li>BERT.</li>
  <li>Flair.</li>
</ul> 

# Trabajo futuro

<ul>
  <li>Otros datasets.</li> 
  <li>BERT en otras tareas como de clasificación.</li>
  <li>Fine tunning de BERT.</li>
  <li>Implementación propia de BERT.</li>
  <li>BioBert</li>
</ul> 