# Classroom example on indexing

In [1]:
import numpy as np
import pandas as pd
from tqdm import tqdm_notebook

In [2]:
import json
from datetime import datetime

In [3]:
import spacy

In [4]:
nlp = spacy.load("it_core_news_sm")

In [5]:
with open('data/twitter-news.json', 'r') as infile:
    dataset = json.load(infile)

In [6]:
documents = [(k, v['text']) for k, v in dataset.items()]
texts = [y for x, y in documents]

In [7]:
texts[:10]

['🇺🇸🇨🇳 Il supercomputer giapponese Fugaku ha toccato un picco di velocità pari a 415,5 petaflops, milioni di miliardi… https://t.co/mgqmtteL8K',
 '🇺🇸🇨🇳 Nel Mar cinese meridionale e intorno a Taiwan i pattugliamenti delle marine americana e cinese e delle due aer… https://t.co/rxRjqmfTaH',
 '🇺🇸🇨🇳 I turisti americani potranno venire in Italia? Perché Trump non vuole finanziare i tamponi contro il Covid? Ci… https://t.co/2prunf5TTp',
 'Antonucci, il giocatore della Roma cacciato dal Vitoria Setubal  per un video su TikTok https://t.co/T50jbUKf4p https://t.co/L7SOjGLFPW',
 '«Giocava come Giggs, suonava come Bob Dylan»: l’incredibile (e triste) storia di Adrian... https://t.co/133HEMDkqL https://t.co/KYGNG3GDrV',
 'Porto Empedocle,  sono 28 i migranti positivi al Covid sul traghetto in quarantena   https://t.co/VGrvsdc9ER https://t.co/MXOWI6r1Nr',
 'Maria Elena Boschi e Giulio Berruti: ecco il bacio. La serata romana della coppia https://t.co/KOljzhUJ51 https://t.co/9FU3Jk9Tjf',
 'Il Trenti

## Tokenizing with SpaCy

In [8]:
doc = nlp(texts[0])

In [9]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_)

🇺 🇺 PROPN obl
🇸 🇸 VERB amod
🇨 🇨 PROPN amod
🇳 🇳 PROPN nmod
Il Il DET det
supercomputer supercomputer NOUN nsubj
giapponese giapponese ADJ amod
Fugaku Fugaku PROPN nmod
ha avere AUX aux
toccato toccare VERB ROOT
un un DET det
picco piccare NOUN obj
di di ADP case
velocità velocità NOUN nmod
pari pario ADJ amod
a a ADP case
415,5 415,5 NUM punct
petaflops petaflops NOUN appos
, , PUNCT punct
milioni milione NOUN conj
di di ADP case
miliardi miliardo NOUN nmod
… … PUNCT punct
https://t.co/mgqmtteL8K https://t.co/mgqmtteL8K PROPN amod


In [14]:
for token in doc:
    if token.pos_ not in ['PUNCT', 'DET', 'ADP'] and not token.text.startswith('http'):
        print(token.text)

🇺
🇸
🇨
🇳
supercomputer
giapponese
Fugaku
ha
toccato
picco
velocità
pari
415,5
petaflops
milioni
miliardi


### Exercize: transform text by keeping NOUN and ADJ only

In [15]:
def nounadj(text):
    tokens = [x.text.lower() for x in nlp(text) if x.pos_ in ['NOUN', 'ADJ', 'PROPN'] and 
              not x.text.startswith('http')]
    return tokens

In [16]:
nounadj(texts[0])

['🇺',
 '🇨',
 '🇳',
 'supercomputer',
 'giapponese',
 'fugaku',
 'picco',
 'velocità',
 'pari',
 'petaflops',
 'milioni',
 'miliardi']

In [17]:
corpus = [nounadj(x) for x in texts]

In [18]:
len(corpus)

1344

In [21]:
print(texts[10])
print(corpus[10])

Correre, gli errori da evitare per non mettere a rischio i piedi https://t.co/rJalQBe1LG https://t.co/0DER3ehcaL
['errori', 'rischio', 'piedi']


## Indexing

In [22]:
from collections import defaultdict

In [23]:
doc_freq = defaultdict(lambda: 0)
term_freq = defaultdict(lambda: defaultdict(lambda: 0))

In [25]:
for i, text in enumerate(corpus):
    for word in set(text):
        doc_freq[word] += 1
    for word in text:
        term_freq[i][word] += 1

In [28]:
print(doc_freq['della'], doc_freq['computer'])

79 3


In [30]:
np.log(len(corpus) / doc_freq['computer'])

6.104793232414985