# Passado, futuro e presente do digital na História: Fontes, método e análise

<small>Material para o Encontro Virtual 2, 03/11/2021</small>

Nessa aula vamos debater acerca dos elementos constitutivos da disciplina História e sua relação com as transformações e continuidades na era digital.

Buscamos avaliar o papel dos profissionais da História diante da sociedade contemporânea, assim como refletir sobre as mudanças de percepção do tempo e como isso pode afetar as formas de analisar e entender o passado e impactar nas formas de ensinar e narrar a História.

## O historiador do futuro ou será programador ou não será?

<img src="https://media4.giphy.com/media/Xch9I90tRezyicQgma/giphy.gif?cid=790b7611917058ce2d4fba49c611758a9bd0f87a2ea36267&rid=giphy.gif&ct=g" alt="wall-e" style="zoom:100%;" />

FORTES, A.; ALVIM, L. G. M. Evidências, códigos e classificações: o ofício do historiador e o mundo digital. *Esboços: histórias em contextos globais*, v. 27, n. 45, p. 207–227, 19 jun. 2020. 

### Ofício do Históriador/a 

#### Marc Bloch (2001) e E. P. Thompson (1981)

1. Conhecimento histórico => análise de fontes, validado pelo diálogo com a realidade, voltado para orientação da ação humana no presete (210)
2. Fontes sçao epistemologicamente transformadas em conhecimento histórico pela formulação de problçemas (Bloch) e perguntas que interrogam as evidências (Thompson)


#### Questões centrais da virada digital na História

1. AMpliação de fontes + ferramentas que auxiliam em análises 'de qualidade superior'
2. Qual contribuição do ofício dp historiador/a para o enfrentamento dos dilemas da sociedade contemporânea marcada por Big Data, Fake news e Inteligência Artificial

### Codificar e classificar

> De que modo as operações congnitivas referentes à linguagem realizadas pelo historiador são afetadas pelo desenvolvimento da tecnologia digital? (212)

#### Linguagem de processamento natural

Computadores "lendo" e "entendendo" linguagem humana.

### Produção de conhecimento histórico e a relevância na era Digital

Instrumentos do historiodor/a - manipular evidências, transformar em 'informações racionalmente classificadas', escrever narrativas: é ao mesmo tempo método e técnica, mas também sensibilidade, 'intuição alta' (nas palavras de Ginzburg)

> Chegarão as máquinas a desenvolver esse tipo de “alta intuição”? Em que tipo de operação cognitiva a inteligência artificial já pode, hoje em dia, auxiliar a pesquisa histórica? (215)

#### Possibilidades e caminhos: Inteligência Articifial, Processamento de Linguagem Natural e mais...

- Análise textual (gramática, semântica, lexicográfica, etc.)
- NER (Name Entity Recognition) - Nomes, entidades, etc.
- Topic modeling - Modelagem de tópicos
- Reconhecimento de Layout
- Análise de redes
- Georeferenciamento

### Um rápido exemplo: Python e spaCy para "ler" Helena de Machado de Assis

> Esses exemplos foram inspirados pelo material produzido por Melanie Walsh em  seu curso ["Introduction to cultural analytics & Python"](https://melaniewalsh.github.io/Intro-Cultural-Analytics/05-Text-Analysis/Multilingual/Portuguese/00-Portuguese.html).

In [None]:
# Instalando spacy
!pip install spacy

In [1]:
# importando spacy para ser usado no Python
import spacy

In [2]:
# lendo o arquivo de texto
corpus = open('helena.txt', 'r').read()
# carregando o modelo de linguagem
nlp = spacy.load('pt_core_news_lg')
# processando o texto
doc = nlp(corpus)

In [24]:
# para cada entidade até 50 tokens
for named_entity in doc.ents[:20]:
    # imprimindo o nome da entidade
    print(named_entity.text, named_entity.label_)

HELENA MISC
Machado de Assis PER
Helena PER
M. de A.

 
CAPÍTULO I PER
Vale ORG
Dr. Camargo PER
Melchior PER
Andaraí LOC
Estado LOC
Dr. Estácio PER
D. Úrsula PER
Estácio PER
Dr. Camargo PER
Estácio PER
D. Úrsula PER
Estácio PER
Camargo LOC
Quer MISC
Estácio PER
Estácio PER


In [None]:
spacy.displacy.render(doc,style='ent') # renderizando a entidade

In [7]:
# importando tokens
from spacy import tokens 

In [8]:
# transformando em tokens
tokens = [token.orth_ for token in doc] # token.orth_ = token.text

In [9]:
classes = [(token.orth_, token.pos_) for token in doc] # part of speech = classes gramaticais
print(f'Classes no corpus: {classes[:50]}')

Classes no corpus: [('HELENA', 'PROPN'), ('\n\n\n', 'SPACE'), ('Machado', 'PROPN'), ('de', 'ADP'), ('Assis', 'PROPN'), ('\n\n\n\n\n\n\n\n\n\n\n \n', 'SPACE'), ('ADVERTÊNCIA', 'PROPN'), ('\n\n\n', 'SPACE'), ('Esta', 'DET'), ('nova', 'ADJ'), ('edição', 'NOUN'), ('de', 'ADP'), ('Helena', 'PROPN'), ('sai', 'VERB'), ('com', 'ADP'), ('várias', 'DET'), ('emendas', 'NOUN'), ('de', 'ADP'), ('linguagem', 'NOUN'), ('e', 'CCONJ'), ('outras', 'PRON'), (',', 'PUNCT'), ('que', 'PRON'), ('não', 'ADV'), ('alteram', 'VERB'), ('a', 'DET'), ('feição', 'NOUN'), ('do', 'ADP'), ('livro', 'NOUN'), ('.', 'PUNCT'), ('Ele', 'PRON'), ('é', 'AUX'), ('o', 'DET'), ('mesmo', 'PRON'), ('da', 'ADP'), ('data', 'NOUN'), ('em', 'ADP'), ('que', 'PRON'), ('o', 'PRON'), ('compus', 'VERB'), ('e', 'CCONJ'), ('imprimi', 'VERB'), (',', 'PUNCT'), ('diverso', 'ADJ'), ('do', 'ADP'), ('que', 'PRON'), ('o', 'DET'), ('tempo', 'NOUN'), ('me', 'PRON'), ('fez', 'VERB')]


In [10]:
morfologicas = [(token.orth_, token.morph) for token in doc] # morfologia de cada token
print(f'Morfologias: {morfologicas[:50]}')

Morfologias: [('HELENA', Gender=Masc|Number=Sing), ('\n\n\n', ), ('Machado', Number=Sing), ('de', ), ('Assis', Number=Sing), ('\n\n\n\n\n\n\n\n\n\n\n \n', ), ('ADVERTÊNCIA', Number=Sing), ('\n\n\n', ), ('Esta', Gender=Fem|Number=Sing|PronType=Dem), ('nova', Gender=Fem|Number=Sing), ('edição', Gender=Fem|Number=Sing), ('de', ), ('Helena', Gender=Fem|Number=Sing), ('sai', Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin), ('com', ), ('várias', Gender=Fem|Number=Plur|PronType=Ind), ('emendas', Gender=Fem|Number=Plur), ('de', ), ('linguagem', Gender=Fem|Number=Sing), ('e', ), ('outras', Gender=Fem|Number=Plur|PronType=Ind), (',', ), ('que', Gender=Masc|Number=Plur|PronType=Rel), ('não', Polarity=Neg), ('alteram', Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin), ('a', Definite=Def|Gender=Fem|Number=Sing|PronType=Art), ('feição', Gender=Fem|Number=Sing), ('do', Definite=Def|Gender=Masc|Number=Sing|PronType=Art), ('livro', Gender=Masc|Number=Sing), ('.', ), ('Ele', Case=Nom|Gender

In [12]:
lemma_tokens = [token.lemma_ for token in doc if token.pos_ == 'VERB'] # reduz a palavra para o lema, nesse caso, apenas os verbos
print(f'Verbos no corpus: {lemma_tokens[:50]}')

Verbos no corpus: ['sair', 'alterar', 'compor', 'imprimir', 'fazer', 'corresponder', 'fazer', 'prezar', 'haver', 'ouvir', 'reler', 'tirar', 'pertencer', 'morrer', 'Morreu', 'cochilar', 'costumar', 'dizer', 'preparar', 'jogar', 'chamar', 'chegar', 'empregar', 'poder', 'dar-lhe', 'fez-se', 'virar', 'acompanhar', 'achando-se', 'representar', 'figurar', 'ocupar', 'elevar', 'adquirir', 'descender', 'exercer', 'havendo-se', 'decorar', 'advir', 'conservar', 'achar', 'dar', 'Tinha', 'colhido', 'poder', 'confundir-se', 'deitar', 'haver', 'ver', 'ir']


In [14]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print(f'Tokens alfa: {alpha_tokens[:50]}')

Tokens alfa: ['HELENA', 'Machado', 'de', 'Assis', 'ADVERTÊNCIA', 'Esta', 'nova', 'edição', 'de', 'Helena', 'sai', 'com', 'várias', 'emendas', 'de', 'linguagem', 'e', 'outras', 'que', 'não', 'alteram', 'a', 'feição', 'do', 'livro', 'Ele', 'é', 'o', 'mesmo', 'da', 'data', 'em', 'que', 'o', 'compus', 'e', 'imprimi', 'diverso', 'do', 'que', 'o', 'tempo', 'me', 'fez', 'depois', 'correspondendo', 'assim', 'ao', 'capítulo', 'da']


In [15]:
# criar grupos de tokens
import math
number_of_chunks = 80  # numero de grupos

chunk_size = math.ceil(len(corpus) / number_of_chunks) # tamanho de cada grupo

text_chunks = [] # lista de grupos

for number in range(0, len(corpus), chunk_size): # para cada grupo
    text_chunk = corpus[number:number+chunk_size]
    text_chunks.append(text_chunk) 

In [16]:
chunked_documents = list(nlp.pipe(text_chunks)) # processando cada grupo

In [17]:
import pandas as pd # para criar um dataframe

In [18]:
from collections import Counter # para contar o numero de tokens por grupo

In [19]:
# criando um dataframe com PESSOAS
people = []

for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "PER":
            people.append(named_entity.text)

people_tally = Counter(people)

df = pd.DataFrame(people_tally.most_common(), columns=['character', 'count'])
df

Unnamed: 0,character,count
0,Estácio,501
1,Helena,479
2,D. Úrsula,158
3,Melchior,134
4,Mendonça,96
...,...,...
188,venturosas,1
189,Esvaíra-se-lhe,1
190,casa de Estácio,1
191,Sozinho,1


In [20]:
# criando um dataframe com LOCAIS
places = []
for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "LOC":
            places.append(named_entity.text)

places_tally = Counter(places)

df = pd.DataFrame(places_tally.most_common(), columns=['place', 'count'])
df

Unnamed: 0,place,count
0,Camargo,55
1,Salvador,22
2,Andaraí,20
3,Rio Comprido,10
4,Corte,8
...,...,...
127,Passeio Público,1
128,Passeio,1
129,absolvemos,1
130,Ande,1


In [21]:
# contexto
from IPython.display import Markdown, display
import re

def get_ner_in_context(keyword, document, desired_ner_labels= False):
    
    if desired_ner_labels != False:
        desired_ner_labels = desired_ner_labels
    else:
        desired_ner_labels = ['PER', 'ORG', 'LOC']  
        
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        #process each sentence
        sentence_doc = nlp(sentence.text)
        for named_entity in sentence_doc.ents:
            #Check to see if the keyword is in the sentence (and ignore capitalization by making both lowercase)
            if keyword.lower() in named_entity.text.lower()  and named_entity.label_ in desired_ner_labels:
                #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
                #sentence_text = sentence.text
            
                sentence_text = re.sub('\n', ' ', sentence.text)
                sentence_text = re.sub(f"{named_entity.text}", f"**{named_entity.text}**", sentence_text, flags=re.IGNORECASE)

                display(Markdown('---'))
                display(Markdown(f"**{named_entity.label_}**"))
                display(Markdown(sentence_text))

In [28]:
for document in chunked_documents[:10]:
    get_ner_in_context('Andaraí', document)

---

**LOC**

 No dia seguinte fez-se o enterro, que foi um dos mais concorridos que ainda viram os moradores do **Andaraí**.

---

**LOC**

Na manhã seguinte escreveu um bilhete, que foi logo caminho de **Andaraí**.

---

**LOC**

Em casa foram-lhe preparados os aposentos; e marcou-se uma tarde de segunda-feira para ser a moça trasladada a **Andaraí**.

---

**LOC**

Se as obrigações eclesiásticas não o chamavam a outro lugar, não se arredava de **Andaraí**, sítio de repouso após trabalhosa mocidade.

---

**LOC**

 Das outras pessoas que freqüentavam a casa e residiam no mesmo bairro de **Andaraí**, mencionaremos ainda o Dr. Matos, sua mulher, o coronel Macedo e dous filhos.

In [29]:
for document in chunked_documents[:5]:
    get_ner_in_context('Helena', document)

---

**PER**

   Esta nova edição de **Helena** sai com várias emendas de linguagem e outras, que não alteram a feição do livro.

---

**PER**

O conselheiro declarava reconhecer uma filha natural, de nome **Helena**, havida com D. Ângela da Soledade.

---

**PER**

Parecia-lhe que, a despeito dos impulsos naturais e licenças jurídicas, o reconhecimento de **Helena** era um ato de usurpação e um péssimo exemplo.

---

**LOC**

A aspereza destes sentimentos tornou-se ainda maior quando lhe ocorreu a origem possível de **Helena**.

---

**PER**

**Helena** seria filha de um encontro fortuito, ou nasceria de algum afeto irregular embora, mas verdadeiro e único?

---

**PER**

Ele percebera a má vontade com que a tia recebera a notícia do reconhecimento de **Helena**, e não podia negar a si mesmo que semelhante fato criava para a família uma nova situação.

---

**PER**

Quanto à camada social a que pertencia a mãe de **Helena**, não se preocupou muito com isso, certo de que eles saberiam levantar a filha até à classe a que ela ia subir.

---

**PER**

 Estácio desejara ainda saber alguma cousa acerca da mãe de **Helena**, mas repugnou-lhe entrar em novas indagações, e tentou encarreirar a conversa para outro assunto.

---

**PER**

 – O conselheiro falou-me algumas vezes no projeto de reconhecer **Helena**; procurei dissuadi-lo, mas sabe como era teimoso, acrescendo neste caso o natural impulso de amor paterno.

#### O que dá pra fazer com isso?

### Big Data terá um impacto revolucionário na base epistemológica da História?

* Voltaremos a uma história quantitativa?
* Voltaremos a uma hegemonia das fontes escritas?
* Ou não muda nada?

> Digital approaches to the past that sit within the digital humanities use our computational power to force us to look at the materials differently, to think about them playfully, and to explore what these sometimes jarring deformations could mean. (34)

## Temporalidade e tecnologia digital

> Não lembro nem o que comi ontem...

### Ler, escrever e representar o passado: o que muda com a era digital?

1. Temporalidade: "constitutivo e estruturados do conheciumento histórico" (159)
   * como entender historicidade quando a orientação temporal é abalada no presente? (160)
2. Presente: "o tempo-espaço no qual se ministram as tensões e se fazem a gestão e o equacionamento entre passado e futuro: é o espaço das demandas e da onde emergem questões políticas que nos interpelam."
   * Que outros 'espaços de experiência' e 'horizontes de expectativa' a tecnologia possibilita construir? (160)
3. Uso e problematização da tecnologia: descentralização da concepção de História como progresso linear.