# Imports

In [141]:
%autosave 60

Autosaving every 60 seconds


In [145]:
import spacy
import numpy
import seaborn
import matplotlib.pyplot as plt
import pandas
import pickle
from pathlib import Path
from dataclasses import dataclass, field
from tqdm import tqdm
import transformers # conda install tensorflow
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
from IPython.display import display, HTML
from collections import deque
from multiprocessing import Pool
import os
from functools import partial
import pandas as pd
import numpy as np

# Needed to train the model
from datasets import Dataset,DatasetDict
from transformers import AutoModelForSequenceClassification,AutoTokenizer

# Data

Read the table containing *ID*, *sentence*, and *name*.

In [143]:
inputdir = Path('/home/stefano')
filename = Path('portuguese_sentences_with_names_v3.csv')
dtype={'id':int,
       'sentence':str,
       'name':str
       }
df = pd.read_csv(inputdir/filename, dtype=dtype)

Take a look at the data

In [85]:
df

Unnamed: 0,id,sentence,name
0,54006424,O presidente do FC Schalke 04 e proprietário ...,Clemens Tönnies
1,54006424,O comentário foi criticado como racista por e...,Gerald Asamoah
2,54006424,O comentário foi criticado como racista por e...,Hans Sarpei
3,54006424,O comentário foi criticado como racista por e...,Cacau
4,54006424,A revolta gerada pelo papel da empresa no ress...,Clemens Tönnies
...,...,...,...
124833,54006072,"Paulo, o nome mais cotado para substituir Deco...",Anderson Correia
124834,54006072,Também seriam possíveis candidatos o secreta...,Renato Feder
124835,54006072,Também seriam possíveis candidatos o secreta...,Sérgio
124836,54006072,O nome de Freitas é relacionado como orientad...,Freitas


# Sample

Take a sample of the data to manually label it and later use it to train a model.

*Note that the sample below may be composed of different articles each time the cell below is run, despite the argument `random_state=1`.

In [88]:
df_mini = df.sample(100, random_state=1)
df_mini

Unnamed: 0,id,sentence,name
33639,56826911,Löw começou como assistente de Jürgen Klins...,Klinsmann
13122,55237697,"Nos últimos meses, as atenções estavam volt...",George Floyd
62506,61420848,Zelenski divulgou fotografias dele dando as bo...,Zelenski
118113,53396286,Já Greta que em 2018 ficou em 27o caiu duas p...,Greta
87354,59194621,"Apenas o senador Marcos Rogério (DEM-RO), que...",Bolsonaro
...,...,...,...
98352,60071197,"Em dezembro de 2019, Bolsonaro editou uma medi...",Bolsonaro
30029,56515777,Entre seus autores esteve a física Jana Lasse...,Jana Lasser
80371,58656640,"""Como ocorre com a AfD, ele foi inimizado por ...",Bystron
33362,56810487,Isso significa que influências ocultas contin...,Ebener


# Method with one sencente 

## Labelling 

Print the name and its sentence to manually decide on the gender.

In [38]:
for irow,row in enumerate(df_mini.itertuples(index=False)):
    print(f'--- {irow} ---')
    print(f'::{row.name}::')
    print(f'{row.sentence}')
    print('---------')
    print('')

--- 0 ---
::Neri::
Os problemas, porém, começaram bem antes, lembra Neri.
---------

--- 1 ---
::Wowereit::
Em entrevista ao jornal Tagesspiegel, Wowereit, que há vários anos se afastou da política, confirmou que, olhando para trás, se sente também "um pouco orgulhoso de ter mudado algo para os outros": "A extensão, eu só percebi depois, as ondas que a coisa tinha desencadeado, não só em Berlim e na Alemanha, mas por todo o mundo."
---------

--- 2 ---
::Pellanda::
Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia.
---------

--- 3 ---
::Assange::
A juíza Vanessa Baraitser, do Tribunal Criminal de Old Bailey, em Londres, ordenou que Assange deve permanecer na prisão, onde está desde 2019, enquanto os tribunais avaliam um recurso contra a decisão das autoridades britânicas de não permitirem a extradição.
---------

--- 4 ---
::Araújo Filho::
"A frequência tem 

Below we created a list containing the labels. We put a comment after each label indicating (1) the name in question and, between parenthesis, (2) the reason for deciding on male or female. If no reason given, then the sentence did not have enough information to determine the gender.

*Note that the sentences and names below are the ones I got after drawing a random sample from the original data so it may differ from the cells above if those cells are rerun. 

In [40]:
# label values: male, female, unknown
M  = 1.0 #'male'
F  = -1.0 #'female'
NA = 0.0 #'unknown'

labels = [
    NA, # 0: Neri ()
    M,  # 1: Wowereit (because of "orgulhoso")
    NA, # 2: Pellanda ()
    NA, # 3: Assange ()
    NA, # 4: Araújo Filho ()
    NA, # 5: Phillips ()
    F,  # 6: Kate Brow (because of "governadora")
    NA, # 7: Macron ()
    NA, # 8: Gonçalves ()
    NA, # 9: Moraes ()
    
    M,  # 10: Emmanuel Macron (because "O")
    NA, # 11: Trump ()
    NA, # 12: Duque ()
    NA, # 13: Neri ()
    NA, # 14: D () !! Find why the name says "D" but the sentence says "DW"
    M,  # 15: Michael (because "o")
    NA, # 16: Martins Filho ()
    NA, # 17 Jean - Paul Mira ()
    M,  # 18: Serge (bacause of "um")
    NA, # 19: Doria ()
    
    NA, # 20: Bolsonaro ()
    NA, # 21: Trump ()
    NA, # 22: Milgrom ()
    F,  # 23: Merkel (because of "Elogiada")
    NA, # 24: Joe Biden ()
    NA, # 25: Guilherme Boulos ()
    M,  # 26: Vassili Nebenza (because of "O")
    M,  # 27: Spike Lee (because of "O")
    F,  # 28: Scarlett Johansson (because of "Ela")
    NA, # 29: Donald Trump ()
    
    NA, # 30: Alvim ()
    NA, # 31: Kramp ()
    NA, # 32: Leandro Paredes ()
    NA, # 33: Manring ()
    NA, # 34: Fachin () !! Find why this sentence has only one quotation mark?
    NA, # 35: Mauro Benevides ()
    NA, # 36: Decotelli ()
    M,  # 37: Emmanuel Macron (because of "o")
    NA, # 38: Kristensen ()
    M,  # 39: Omar al - Bashir (because of "do") !! Find why the name says "al - Bashir" but the sentence says "al-Bashir"
    
    NA, # 40: Trump ()
    NA, # 41: Grosz ()
    NA, # 42: Neymar ()
    NA, # 43: Kjaer ()
    F,  # 44: Juana Galvão (because of "Proprietária")
    NA, # 45: Bolsonaro ()
    NA, # 46: Merkel ()
    M,  # 47: Carlos Bolsonaro (because of "o")
    M,  # 48: Bolsonaro (because of "Questionado")
    NA, # 49: Bolsonaro ()
    
    NA, # 50: Moc () !! Find why the name says "Moc" but the sentence says "al-Bashir"
    M,  # 51: John Bolton (because of "ex-assessor")
    M,  # 52: Recep Tayyip Erdogan (because of "o")
    NA, # 53: Macron ()
    M,  # 54: Johnson (because of "o")
    M,  # 55: Sarkozy (because of "ele")
    NA, # 56: Thurid ()
    NA, # 57: Bannon ()
    M,  # 58: Filipe Domingues (because of "ele")
    F,  # 59: Elke Göttsche (because of "prefeita")
    
    NA, # 60: Wang Yi ()
    F,  # 61: Renata Bichir (because of "cientista")
    M,  # 62: Shefir (because of "um")
    NA, # 63: Maia ()
    NA, # 64: Anderson Gomes ()
    M,  # 65: Arthur Lira (because of "do")
    NA, # 66: Altmaier ()
    NA, # 67: Bolsonaro ()
    M,  # 68: Justin Trudeau (because of "O")
    NA, # 69: Richard Wagner ()
    
    M,  # 70: Carlos Alvarado (because of "o")
    M,  # 71: Domingo (because of "ele")
    NA, # 72: Li Keqiang ()
    M,  # 73: Donald Trump (because of "aliado")
    NA, # 74: Gerd Wenzel ()
    NA, # 75: Maome () !! Find why the name says "Maome" but the sentence says "Maomé"
    M,  # 76: Sergio Camargo (because of "o")
    NA, # 77: Merkel ()
    M,  # 78: Joe Biden (because of "no")
    NA, # 79: Pacheco ()
    
    NA, # 80: Boris Johnson ()
    NA, # 81: Bolsonaro ()
    M,  # 82: Dirk Brockmann (because of "O")
    NA, # 83: Basil Jones ()
    NA, # 84: Ramelow ()
    NA, # 85: Lucas Hernandez ()
    F,  # 86: Kamala Harris (because of "a")
    NA, # 87: Glauco Vaz Feijo () !! Find why the name says "Glauco Vaz Feijo" but the sentence says "Glauco Vaz Feijó́"
    M,  # 88: Pete Buttigieg (because of "o")
    M,  # 89: Dmitry Muratov (because of "o")
    
    M,  # 90: Tedros Adhanom Ghebreyesus (because of "o")
    M,  # 91: Regina Duarte (because of "actriz")
    NA, # 92: Heard ()
    NA, # 93: Kim Jong - Un () !! Find why the name says "Kim Jong - Un" but the sentence says "Kim Jong-Un"
    NA, # 94: Kateryna ()
    NA, # 95: D () !! Find why the name says "D" but the sentence says "DW"
    NA, # 96: Gassen ()
    NA, # 97: Bezerra ()
    NA, # 98: Barack Obama ()
    NA, # 99: Machado de Assis ()
]

Summarize the labels

In [49]:
pd.DataFrame({'gender':labels}).value_counts()

gender 
unknown    65
male       28
female      7
dtype: int64

*Note that most of the sentences do not provide enough information to determine the gender of a name. This is because the genders of a name often is hinted in the nexts sentences. For example, the sentence "Maria is 28. She likes apples." is composed of two sentences. Sentence (1) contains the name but not enough information to determine its gender. Sentence (2) does not contain any name but hints that the name in the preceding sentence is female.Since the dataset only contains sentences that contain names, sentences like (2) are lost. This can be improved in the future. 

## Create data set

Add the labels to the data set

In [65]:
data = df_mini.copy()

In [66]:
data['label'] = labels

In [67]:
data = data.reset_index(drop=True)
data

Unnamed: 0,id,sentence,name,label
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown
...,...,...,...,...
95,60611462,"""A Europa Oriental é altamente dependente do ...",D,unknown
96,60664532,"Segundo Gassen, a Alemanha precisa aprender a ...",Gassen,unknown
97,59387153,"""A preservação da Amazônia, e a proteção ...",Bezerra,unknown
98,54792402,Só o governo Barack Obama levou 16 casos cont...,Barack Obama,unknown


## Create input for the model 

The input below is based on the example addressed in lecture 4 of the course “Practical Deep Learning for Coders 2022”: https://www.youtube.com/watch?v=toUgBQv1BT8&list=PLfYUBJiXbdtSvpQjSnJJ_PmDQB_VyT5iU&index=4&t=4674s 

In particular, the **minute 28:28** and **chapter “Question: rationale behind how input data was formatted”** of the video.

Input format: 

A single string containing three fields (PERSON, SENTENCE, and GENDER) separated by semicolon as indicated below. 
> PERSON: name; SENTENCE: sentence; GENDER: gender

Example:

> “PERSON: Maria; Gender: Female; SENTENCE: Maria is 28. She likes apples.”

Let us add a columns to our dataset using the input formate avobe 

In [146]:
data['input'] = 'PERSON: ' + data['name'] + '; SENTENCE: ' + data['sentence'] + '; GENDER: ' + data['label']

In [69]:
data

Unnamed: 0,id,sentence,name,label,input
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown,"PERSON: Neri; SENTENCE: Os problemas, porém, ..."
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male,PERSON: Wowereit; SENTENCE: Em entrevista ao j...
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown,PERSON: Pellanda; SENTENCE: Pellanda acredita ...
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown,PERSON: Assange; SENTENCE: A juíza Vanessa Ba...
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown,"PERSON: Araújo Filho; SENTENCE: ""A frequênci..."
...,...,...,...,...,...
95,60611462,"""A Europa Oriental é altamente dependente do ...",D,unknown,"PERSON: D; SENTENCE: ""A Europa Oriental é alt..."
96,60664532,"Segundo Gassen, a Alemanha precisa aprender a ...",Gassen,unknown,"PERSON: Gassen; SENTENCE: Segundo Gassen, a Al..."
97,59387153,"""A preservação da Amazônia, e a proteção ...",Bezerra,unknown,"PERSON: Bezerra; SENTENCE: ""A preservação da..."
98,54792402,Só o governo Barack Obama levou 16 casos cont...,Barack Obama,unknown,PERSON: Barack Obama; SENTENCE: Só o governo ...


In [150]:
data.head(15)

Unnamed: 0,id,sentence,name,label,input
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown,"PERSON: Neri; SENTENCE: Os problemas, porém, ..."
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male,PERSON: Wowereit; SENTENCE: Em entrevista ao j...
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown,PERSON: Pellanda; SENTENCE: Pellanda acredita ...
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown,PERSON: Assange; SENTENCE: A juíza Vanessa Ba...
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown,"PERSON: Araújo Filho; SENTENCE: ""A frequênci..."
5,62055196,A embaixada brasileira acabou pedindo desculpa...,Phillips,unknown,PERSON: Phillips; SENTENCE: A embaixada brasil...
6,54886378,"No vizinho Oregon, a governadora Kate Brow dec...",Kate Brow,female,PERSON: Kate Brow; SENTENCE: No vizinho Oregon...
7,59529328,"Após a cerimônia, Macron apertou as mãos e ...",Macron,unknown,"PERSON: Macron; SENTENCE: Após a cerimônia, ..."
8,52695770,"""Se você reduzir o preço [do petróleo] talv...",Gonçalves,unknown,"PERSON: Gonçalves; SENTENCE: ""Se você reduzi..."
9,58964915,"Em 13 de agosto, Moraes autorizou a prisão pr...",Moraes,unknown,"PERSON: Moraes; SENTENCE: Em 13 de agosto, Mor..."


Take a closer look at the `input` column

In [70]:
data.iloc[0]

id                                                   52453963
sentence    Os problemas, porém, começaram bem antes, le...
name                                                     Neri
label                                                 unknown
input       PERSON: Neri; SENTENCE: Os problemas, porém, ...
Name: 0, dtype: object

In [132]:
print(data.iloc[4]['name'])
print(data.iloc[4]['sentence'])
print(data.iloc[4]['input'])

Araújo Filho
"A frequência tem sido muito baixa", comenta Araújo Filho.
PERSON: Araújo Filho; SENTENCE: "A frequência tem sido muito baixa", comenta Araújo Filho.; GENDER: unknown


## Save dataset

In [90]:
outputdir = Path('/home/stefano')
filename = Path('portuguese_training_data.csv')
data.to_csv(outputdir/filename, index=False)

## Read dataset

In [151]:
inputdir = Path('/home/stefano')
filename = Path('portuguese_training_data.csv')
dtype={'id':int,
       'sentence':str,
       'name':str,
       'label':str,
       'input':str,
       }
data = pd.read_csv(inputdir/filename, dtype=dtype)

## Format the dataset

Conform to Transformers standard dataset format.

In [152]:
ds = Dataset.from_pandas(data)

Take a look at the dataset

In [153]:
ds

Dataset({
    features: ['id', 'sentence', 'name', 'label', 'input'],
    num_rows: 100
})

## Tokenization

Here, **I am choosing the same model that I used for the Portuguese NER.**

In [107]:
model_nm = "Davlan/bert-base-multilingual-cased-ner-hrl"
tokz = AutoTokenizer.from_pretrained(model_nm)

Function to tokenize the input

In [109]:
def tok_func(x):
    return tokz (x["input"])

Tokenize the dataset

In [110]:
tok_ds = ds.map(tok_func)



  0%|          | 0/100 [00:00<?, ?ex/s]

Take a look at the tokenized dataset

In [134]:
tok_ds

Dataset({
    features: ['id', 'sentence', 'name', 'label', 'input', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 100
})

Look at a row of the tokenized dataset

In [113]:
row = tok_ds[0]
row

{'id': 52453963,
 'sentence': 'Os problemas, porém, começaram bem antes, lembra Neri.',
 'name': 'Neri',
 'label': 'unknown',
 'input': 'PERSON: Neri; SENTENCE: Os problemas, porém, começaram bem antes, lembra Neri.; GENDER: unknown',
 'input_ids': [101,
  80468,
  39469,
  30118,
  131,
  102354,
  132,
  23056,
  77261,
  50655,
  43161,
  131,
  12087,
  20088,
  117,
  10183,
  10112,
  82091,
  10147,
  117,
  10678,
  10350,
  111021,
  50647,
  19685,
  12847,
  117,
  10141,
  44992,
  102354,
  119,
  132,
  62997,
  58521,
  24093,
  131,
  27306,
  102],
 'token_type_ids': [0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0],
 'attention_mask': [1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1]}

## Separate the training set and the test set

Use a 25% of the dataset as test set

In [120]:
dds = tok_ds.train_test_split(0.25, seed=42)
dds

DatasetDict({
    train: Dataset({
        features: ['id', 'sentence', 'name', 'label', 'input', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 75
    })
    test: Dataset({
        features: ['id', 'sentence', 'name', 'label', 'input', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 25
    })
})

## Training of the model

Transformers expects metrics to be returned as a `dict`, since that way the trainer knows what label to use, so let's create a function to do that:

In [None]:
def corr(x,y):
    return np.corrcoef(x,y)[0][1]

In [None]:
def corr_d(eval_pred):
    return {'pearson': corr(*eval_pred)}

In [125]:
from transformers import TrainingArguments, Trainer

In [126]:
epochs = 4
lr = 1e-4 # Learning rate

Prepare the argument. I am using the same arguments as in the example in the video (1:15:50): https://www.youtube.com/watch?v=toUgBQv1BT8&t=652s

In [137]:
# Because my data set is only 100 rows, I did not specified batch size

# It gave me an erro when `fp16=True` o I used `fp16=False`

args = TrainingArguments('outputs', learning_rate=lr, warmup_ratio=0.1, lr_scheduler_type='cosine',\
                         fp16=False, evaluation_strategy="epoch", num_train_epochs=epochs,\
                         weight_decay=0.01, report_to='none')

In [138]:
model = AutoModelForSequenceClassification.from_pretrained(model_nm, num_labels=1)
trainer = Trainer(model, args, train_dataset=dds['train'], eval_dataset=dds['test'], tokenizer=tokz, compute_metrics=corr_d)

RuntimeError: Error(s) in loading state_dict for BertForSequenceClassification:
	size mismatch for classifier.weight: copying a param with shape torch.Size([9, 768]) from checkpoint, the shape in current model is torch.Size([1, 768]).
	size mismatch for classifier.bias: copying a param with shape torch.Size([9]) from checkpoint, the shape in current model is torch.Size([1]).
	You may consider adding `ignore_mismatched_sizes=True` in the model `from_pretrained` method.

# Method with multiple sencentes

## Version 1 of data as starting point

In [254]:
inputdir = Path('/home/stefano')
filename = Path('portuguese_training_data.csv')
dtype={'id':int,
       'sentence':str,
       'name':str,
       'label':str,
       'input':str,
       }
data2 = pd.read_csv(inputdir/filename, dtype=dtype)

In [255]:
data2 = data2.drop(columns=['input'])

In [256]:
data2

Unnamed: 0,id,sentence,name,label
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown
...,...,...,...,...
95,60611462,"""A Europa Oriental é altamente dependente do ...",D,unknown
96,60664532,"Segundo Gassen, a Alemanha precisa aprender a ...",Gassen,unknown
97,59387153,"""A preservação da Amazônia, e a proteção ...",Bezerra,unknown
98,54792402,Só o governo Barack Obama levou 16 casos cont...,Barack Obama,unknown


Show some rows

In [257]:
i=0
print(f"id\t= {data2.iloc[i]['id']}")
print(f"name\t= {data2.iloc[i]['name']}")
print(f"label\t= {data2.iloc[i]['label']}")
print(f"id\t= {data2.iloc[i]['id']}")
print(data2.iloc[i]['sentence'])

id	= 52453963
name	= Neri
label	= unknown
id	= 52453963
Os problemas, porém, começaram bem antes, lembra Neri.


In [258]:
i=1
print(f"id\t= {data2.iloc[i]['id']}")
print(f"name\t= {data2.iloc[i]['name']}")
print(f"label\t= {data2.iloc[i]['label']}")
print(f"id\t= {data2.iloc[i]['id']}")
print(data2.iloc[i]['sentence'])

id	= 57830324
name	= Wowereit
label	= male
id	= 57830324
Em entrevista ao jornal Tagesspiegel, Wowereit, que há vários anos se afastou da política, confirmou que, olhando para trás, se sente também "um pouco orgulhoso de ter mudado algo para os outros": "A extensão, eu só percebi depois, as ondas que a coisa tinha desencadeado, não só em Berlim e na Alemanha, mas por todo o mundo."


## Original data (including sentences with no names in it) 

In [259]:
inputdir = Path('/home/stefano')
filename = Path('portuguese_sentences_with_names.csv')
dtype={'id':int,
       'language':str,
       'sentence':str,
       'name':str
       }

original = pd.read_csv(inputdir/filename, dtype=dtype).fillna('')
original = original.drop(columns=['language'])

In [260]:
original

Unnamed: 0,id,sentence,name
0,54006424,O presidente do FC Schalke 04 e proprietário ...,Clemens Tönnies
1,54006424,O Schalke não conseguiu nenhuma vitória nos ...,
2,54006424,"A equipe dos ""azuis-reais"" terminou o campeona...",
3,54006424,A participação em uma dessas grandes competi...,
4,54006424,Tönnies foi amplamente criticado no ano passa...,
...,...,...,...
386070,54006316,Na avaliação por grupo de 100 mil habitantes...,
386071,54006316,"O Rio de Janeiro, a segunda unidade da federac...",
386072,54006316,O estado mais afetado continua sendo São Paul...,
386073,54006316,"Em números acumulados, o Brasil tem 790.040 p...",


## Enhance version 1 of data

Let's find the immediate next sentence for the sentence in `data`.

In [261]:
new_sentences = []
number_of_sentences = 3

In [262]:
for row in data2.itertuples():
    sentences = original.query('id==@row.id').sentence.unique()
    ind = np.argwhere(row.sentence==sentences).item()
    continued_sentence = ' '.join(sentences[ind:ind+number_of_sentences])
    new_sentences.append(continued_sentence)

In [263]:
data2['new_sentence'] = new_sentences

In [264]:
data2.head()

Unnamed: 0,id,sentence,name,label,new_sentence
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown,"Os problemas, porém, começaram bem antes, le..."
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male,"Em entrevista ao jornal Tagesspiegel, Wowereit..."
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown,Pellanda acredita que futuras pesquisas ainda ...
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown,"A juíza Vanessa Baraitser, do Tribunal Crimin..."
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown,"""A frequência tem sido muito baixa"", comenta ..."


## Compare

In [266]:
i=0
print(data2.iloc[i].sentence)
print('')
print(data2.iloc[i].new_sentence)

Os problemas, porém, começaram bem antes, lembra Neri.

Os problemas, porém, começaram bem antes, lembra Neri. "É importante dizer que o programa sofre um esvaziamento já há cinco anos, desde 2015, pela via do congelamento de benefícios, sem reajuste nominal. Só havia reajuste em ano de eleição." Assim, o mais importante benefício para os pobres vivia perdendo valor.


In [267]:
i=1
print(data2.iloc[i].sentence)
print('')
print(data2.iloc[i].new_sentence)

Em entrevista ao jornal Tagesspiegel, Wowereit, que há vários anos se afastou da política, confirmou que, olhando para trás, se sente também "um pouco orgulhoso de ter mudado algo para os outros": "A extensão, eu só percebi depois, as ondas que a coisa tinha desencadeado, não só em Berlim e na Alemanha, mas por todo o mundo."

Em entrevista ao jornal Tagesspiegel, Wowereit, que há vários anos se afastou da política, confirmou que, olhando para trás, se sente também "um pouco orgulhoso de ter mudado algo para os outros": "A extensão, eu só percebi depois, as ondas que a coisa tinha desencadeado, não só em Berlim e na Alemanha, mas por todo o mundo." Com sua revelação, o social-democrata de fato desencadeou uma onda. No mesmo ano, Ole von Beust, da União Democrata Cristã (CDU), foi eleito prefeito de Hamburgo sem precisar esconder sua homossexualidade.


In [268]:
i=2
print(data2.iloc[i].sentence)
print('')
print(data2.iloc[i].new_sentence)

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia.

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia. Só assim, segundo ela, será possível planejar meios de reduzir os impactos de médio e longo prazos na vida desses estudantes. A perda de um ano de estudos é especialmente grave para aqueles que já enfrentam em suas vidas os desafios socioeconômicos, afirma.


## Replace original column

In [269]:
data2['sentence'] = new_sentences

Check

In [270]:
i=2
print(data2.iloc[i].sentence)
print('')
print(data2.iloc[i].new_sentence)

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia. Só assim, segundo ela, será possível planejar meios de reduzir os impactos de médio e longo prazos na vida desses estudantes. A perda de um ano de estudos é especialmente grave para aqueles que já enfrentam em suas vidas os desafios socioeconômicos, afirma.

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia. Só assim, segundo ela, será possível planejar meios de reduzir os impactos de médio e longo prazos na vida desses estudantes. A perda de um ano de estudos é especialmente grave para aqueles que já enfrentam em suas vidas os desafios socioeconômicos, afirma.


In [271]:
data2 = data2.drop(columns=['new_sentence'])

In [272]:
data2.head()

Unnamed: 0,id,sentence,name,label
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown


Check

In [273]:
i=2
print(data2.iloc[i].sentence)

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia. Só assim, segundo ela, será possível planejar meios de reduzir os impactos de médio e longo prazos na vida desses estudantes. A perda de um ano de estudos é especialmente grave para aqueles que já enfrentam em suas vidas os desafios socioeconômicos, afirma.


## Save

In [274]:
outputdir = Path('/home/stefano')
filename = Path('portuguese_3sentences_with_names.csv')
data2.to_csv(outputdir/filename, index=False)

## Read dataset

In [275]:
inputdir = Path('/home/stefano')
filename = Path('portuguese_3sentences_with_names.csv')
dtype={'id':int,
       'sentence':str,
       'name':str,
       'label':str,
       'input':str,
       }
data = pd.read_csv(inputdir/filename, dtype=dtype)

In [277]:
data

Unnamed: 0,id,sentence,name,label
0,52453963,"Os problemas, porém, começaram bem antes, le...",Neri,unknown
1,57830324,"Em entrevista ao jornal Tagesspiegel, Wowereit...",Wowereit,male
2,56192270,Pellanda acredita que futuras pesquisas ainda ...,Pellanda,unknown
3,56144916,"A juíza Vanessa Baraitser, do Tribunal Crimin...",Assange,unknown
4,53995144,"""A frequência tem sido muito baixa"", comenta ...",Araújo Filho,unknown
...,...,...,...,...
95,60611462,"""A Europa Oriental é altamente dependente do ...",D,unknown
96,60664532,"Segundo Gassen, a Alemanha precisa aprender a ...",Gassen,unknown
97,59387153,"""A preservação da Amazônia, e a proteção ...",Bezerra,unknown
98,54792402,Só o governo Barack Obama levou 16 casos cont...,Barack Obama,unknown


Check

In [280]:
i=2
print(data.iloc[i].sentence)

Pellanda acredita que futuras pesquisas ainda precisarão ser feitas para mapear como a exclusão escolar e as desigualdades foram aprofundadas pela pandemia. Só assim, segundo ela, será possível planejar meios de reduzir os impactos de médio e longo prazos na vida desses estudantes. A perda de um ano de estudos é especialmente grave para aqueles que já enfrentam em suas vidas os desafios socioeconômicos, afirma.


## Labelling 

Print the name and its sentence to manually decide on the gender.

In [281]:
for irow,row in enumerate(data.itertuples(index=False)):
    print(f'--- {irow} ---')
    print(f'::{row.name}::')
    print(f'{row.sentence}')
    print('---------')
    print('')

--- 0 ---
::Neri::
Os problemas, porém, começaram bem antes, lembra Neri. "É importante dizer que o programa sofre um esvaziamento já há cinco anos, desde 2015, pela via do congelamento de benefícios, sem reajuste nominal. Só havia reajuste em ano de eleição." Assim, o mais importante benefício para os pobres vivia perdendo valor.
---------

--- 1 ---
::Wowereit::
Em entrevista ao jornal Tagesspiegel, Wowereit, que há vários anos se afastou da política, confirmou que, olhando para trás, se sente também "um pouco orgulhoso de ter mudado algo para os outros": "A extensão, eu só percebi depois, as ondas que a coisa tinha desencadeado, não só em Berlim e na Alemanha, mas por todo o mundo." Com sua revelação, o social-democrata de fato desencadeou uma onda. No mesmo ano, Ole von Beust, da União Democrata Cristã (CDU), foi eleito prefeito de Hamburgo sem precisar esconder sua homossexualidade.
---------

--- 2 ---
::Pellanda::
Pellanda acredita que futuras pesquisas ai

Below we created a list containing the labels. We put a comment after each label indicating (1) the name in question and, between parenthesis, (2) the reason for deciding on male or female. If no reason given, then the sentence did not have enough information to determine the gender.

*Note that the sentences and names below are the ones I got after drawing a random sample from the original data so it may differ from the cells above if those cells are rerun. 

In [282]:
# label values: male, female, unknown
#M  = 1.0 #'male'
#F  = -1.0 #'female'
#NA = 0.0 #'unknown'
M  = 'male'
F  = 'female'
NA = 'unknown'

labels = [
    NA, # 0: Neri ()
    M,  # 1: Wowereit (because of "orgulhoso")
    F, # 2: Pellanda (because of "ela")
    M, # 3: Assange (because of "ele")
    NA, # 4: Araújo Filho ()
    NA, # 5: Phillips ()
    F,  # 6: Kate Brow (because of "governadora")
    NA, # 7: Macron ()
    NA, # 8: Gonçalves ()
    NA, # 9: Moraes ()
    
    M,  # 10: Emmanuel Macron (because "O")
    NA, # 11: Trump ()
    NA, # 12: Duque ()
    NA, # 13: Neri ()
    NA, # 14: D () !! Find why the name says "D" but the sentence says "DW" TODO: Remove
    M,  # 15: Michael (because "o")
    M, # 16: Martins Filho (because of "O sociólogo")
    NA, # 17 Jean - Paul Mira ()
    M,  # 18: Serge (bacause of "um")
    NA, # 19: Doria ()
    
    M,  # 20: Bolsonaro (because of "católico")
    M,  # 21: Trump (because of "um presidente")
    NA, # 22: Milgrom ()
    F,  # 23: Merkel (because of "Elogiada")
    NA, # 24: Joe Biden ()
    NA, # 25: Guilherme Boulos ()
    M,  # 26: Vassili Nebenza (because of "O")
    M,  # 27: Spike Lee (because of "O")
    F,  # 28: Scarlett Johansson (because of "Ela")
    NA, # 29: Donald Trump ()
    
    M, # 30: Alvim (because of "o") !! Why the column name puts only last name whe full name appears in following entences?
    NA, # 31: Kramp ()
    NA, # 32: Leandro Paredes ()
    NA, # 33: Manring ()
    M , # 34: Fachin (because of "ele")
    NA, # 35: Mauro Benevides ()
    NA, # 36: Decotelli ()
    M,  # 37: Emmanuel Macron (because of "o")
    NA, # 38: Kristensen ()
    M,  # 39: Omar al - Bashir (because of "do") !! Find why the name says "al - Bashir" but the sentence says "al-Bashir"
    
    M, # 40: Trump (because of "ele")
    NA, # 41: Grosz ()
    NA, # 42: Neymar ()
    M, # 43: Kjaer (because of "o")
    F,  # 44: Juana Galvão (because of "Proprietária")
    NA, # 45: Bolsonaro ()
    NA, # 46: Merkel ()
    M,  # 47: Carlos Bolsonaro (because of "o")
    M,  # 48: Bolsonaro (because of "Questionado")
    NA, # 49: Bolsonaro ()
    
    NA, # 50: Moc () !! Find why the name says "Moc" but the sentence says "al-Bashir" TODO: Remove
    M,  # 51: John Bolton (because of "ex-assessor")
    M,  # 52: Recep Tayyip Erdogan (because of "o")
    NA, # 53: Macron ()
    M,  # 54: Johnson (because of "o")
    M,  # 55: Sarkozy (because of "ele")
    NA, # 56: Thurid ()
    M , # 57: Bannon (because of "cercado")
    M,  # 58: Filipe Domingues (because of "ele")
    F,  # 59: Elke Göttsche (because of "prefeita")
    
    NA, # 60: Wang Yi ()
    F,  # 61: Renata Bichir (because of "cientista")
    M,  # 62: Shefir (because of "um")
    NA, # 63: Maia ()
    NA, # 64: Anderson Gomes ()
    M,  # 65: Arthur Lira (because of "do")
    NA, # 66: Altmaier ()
    M,  # 67: Bolsonaro (because of "Ele")
    M,  # 68: Justin Trudeau (because of "O")
    NA, # 69: Richard Wagner ()
    
    M,  # 70: Carlos Alvarado (because of "o")
    M,  # 71: Domingo (because of "ele")
    NA, # 72: Li Keqiang ()
    M,  # 73: Donald Trump (because of "aliado")
    NA, # 74: Gerd Wenzel ()
    NA, # 75: Maome () !! Find why the name says "Maome" but the sentence says "Maomé"
    M,  # 76: Sergio Camargo (because of "o")
    NA, # 77: Merkel ()
    M,  # 78: Joe Biden (because of "no")
    NA, # 79: Pacheco ()
    
    NA, # 80: Boris Johnson ()
    M,  # 81: Bolsonaro (because of "Ele")
    M,  # 82: Dirk Brockmann (because of "O")
    NA, # 83: Basil Jones ()
    NA, # 84: Ramelow ()
    NA, # 85: Lucas Hernandez ()
    F,  # 86: Kamala Harris (because of "a")
    M,  # 87: Glauco Vaz Feijo (because of "o") !! Find why the name says "Glauco Vaz Feijo" but the sentence says "Glauco Vaz Feijó́"
    M,  # 88: Pete Buttigieg (because of "o")
    M,  # 89: Dmitry Muratov (because of "o")
    
    M,  # 90: Tedros Adhanom Ghebreyesus (because of "o")
    M,  # 91: Regina Duarte (because of "actriz")
    NA, # 92: Heard ()
    NA, # 93: Kim Jong - Un () !! Find why the name says "Kim Jong - Un" but the sentence says "Kim Jong-Un"
    F,  # 94: Kateryna (because of "Ela")
    NA, # 95: D () !! Find why the name says "D" but the sentence says "DW" TODO: Remove
    M,  # 96: Gassen (because of "o")
    NA, # 97: Bezerra ()
    NA, # 98: Barack Obama ()
    NA, # 99: Machado de Assis (because of "a")
]

Summarize the labels

In [49]:
pd.DataFrame({'gender':labels}).value_counts()

gender 
unknown    65
male       28
female      7
dtype: int64

In [283]:
pd.DataFrame({'gender':labels}).value_counts()

gender 
unknown    50
male       41
female      9
dtype: int64

In [284]:
pwd

'/home/stefano'