<a href="https://colab.research.google.com/github/venezianof/booksum/blob/main/course/en/chapter6/section3_pt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fast tokenizers' special powers (PyTorch)

### Effetti Neuroprotettivi del GLP-1

Il cervello è particolarmente vulnerabile ai processi di invecchiamento e a diverse patologie neurodegenerative. Il GLP-1 e i suoi analoghi possono attraversare la barriera emato-encefalica e sono stati studiati per i loro potenziali effetti neuroprotettivi. Questi includono:

*   **Promozione della Neurogenesi:** Stimola la formazione di nuovi neuroni, un processo cruciale per la plasticità cerebrale e la riparazione.
*   **Riduzione dell'Apoptosi Neuronale:** Diminuisce la morte cellulare programmata (apoptosi) nei neuroni, aiutando a preservare l'integrità del tessuto cerebrale.
*   **Protezione contro l'Accumulo di Placche Amiloidi e Grovigli Tau:** Questi sono marcatori distintivi di malattie neurodegenerative come l'Alzheimer. Il GLP-1 può contribuire a contrastare la loro formazione e accumulo, offrendo un potenziale approccio terapeutico.
*   **Effetti Antinfiammatori nel Cervello:** Riduce l'infiammazione cronica che può contribuire al danno neuronale e alla progressione delle malattie neurodegenerative.
*   **Miglioramento della Funzione Mitocondriale Neuronale:** Supporta la salute e l'efficienza dei mitocondri nelle cellule cerebrali, essenziale per la produzione di energia e la protezione dallo stress ossidativo.

### GLP-1 e Longevità Cellulare: Un Ruolo Emergente

Oltre ai suoi ben noti effetti sul metabolismo del glucosio e sull'appetito, la ricerca emergente sta rivelando un ruolo promettente per il GLP-1 e i suoi analoghi nella modulazione della longevità cellulare e nei processi di invecchiamento. Questi effetti sembrano essere mediati da diversi meccanismi complessi:

1.  **Protezione dallo Stress Ossidativo:** Il GLP-1 può agire come antiossidante, riducendo lo stress ossidativo nelle cellule. Lo stress ossidativo è una delle principali cause di danno cellulare e invecchiamento, contribuendo a malattie croniche come quelle cardiovascolari e neurodegenerative. Proteggendo le cellule dai danni dei radicali liberi, il GLP-1 può contribuire a preservare l'integrità cellulare e la funzione organica nel tempo.

2.  **Miglioramento della Funzione Mitocondriale:** I mitocondri sono le "centrali energetiche" delle cellule e la loro disfunzione è un segno distintivo dell'invecchiamento. Studi suggeriscono che il GLP-1 può migliorare la funzione mitocondriale, aumentando l'efficienza della produzione di energia e riducendo la produzione di specie reattive dell'ossigeno (ROS) dannose. Un metabolismo energetico efficiente è cruciale per la longevità cellulare.

3.  **Riduzione dell'Infiammazione Cronica:** L'infiammazione cronica di basso grado (nota come "inflammaging") è strettamente correlata all'invecchiamento e allo sviluppo di molte malattie legate all'età. Il GLP-1 ha dimostrato proprietà antinfiammatorie, riducendo la produzione di citochine pro-infiammatorie e proteggendo i tessuti dai danni indotti dall'infiammazione.

4.  **Effetti Neuroprotettivi:** Il cervello è particolarmente vulnerabile ai processi di invecchiamento. Il GLP-1 e i suoi analoghi possono attraversare la barriera emato-encefalica e sono stati studiati per i loro potenziali effetti neuroprotettivi. Questi includono la promozione della neurogenesi (la formazione di nuovi neuroni), la riduzione dell'apoptosi (morte cellulare programmata) nei neuroni e la protezione contro l'accumulo di placche amiloidi e grovigli tau, che sono caratteristiche distintive di malattie neurodegenerative come l'Alzheimer.

5.  **Regolazione dell'Autofagia:** L'autofagia è un processo cellulare fondamentale di "riciclo" che rimuove componenti cellulari danneggiati e contribuisce al mantenimento dell'omeostasi. La disregolazione dell'autofagia è associata all'invecchiamento e a varie patologie. Alcune ricerche indicano che il GLP-1 può modulare l'autofagia, contribuendo a mantenere la salute cellulare e a promuovere la longevità.

6.  **Benefici Cardioprotettivi:** L'invecchiamento è un fattore di rischio significativo per le malattie cardiovascolari. Oltre ai suoi effetti benefici sul peso e sul controllo glicemico, il GLP-1 ha dimostrato di migliorare la funzione cardiaca, ridurre la pressione sanguigna e proteggere il miocardio dallo stress ischemico, contribuendo alla salute cardiovascolare a lungo termine.

In sintesi, mentre la ricerca è ancora in corso, il GLP-1 emerge come un ormone con un potenziale ruolo multifattoriale nella promozione della longevità cellulare e nella protezione contro i danni associati all'invecchiamento, attraverso meccanismi che vanno ben oltre il solo controllo glicemico.

Il GLP-1 (Glucagon-Like Peptide-1) è un ormone intestinale con funzioni chiave nel metabolismo del glucosio e nella regolazione dell'appetito.

**In sintesi, il GLP-1:**
*   Stimola la produzione di insulina (abbassando la glicemia).
*   Riduce la produzione di glucagone (che alza la glicemia).
*   Rallenta lo svuotamento gastrico (controllando i picchi di zucchero).
*   Aumenta il senso di sazietà (aiutando a ridurre l'appetito).

Per queste proprietà, farmaci che mimano l'azione del GLP-1 sono usati per trattare il diabete di tipo 2 e per la gestione del peso.

GLP-1: Modulatore di Longevità Cellulare e Invecchiamento

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [1]:
!pip install datasets evaluate transformers[sentencepiece]

Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Downloading evaluate-0.4.6-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.6


In [2]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
encoding = tokenizer(example)
print(type(encoding))

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

<class 'transformers.tokenization_utils_base.BatchEncoding'>


In [3]:
tokenizer.is_fast

True

In [4]:
encoding.is_fast

True

In [5]:
encoding.tokens()

['[CLS]',
 'My',
 'name',
 'is',
 'S',
 '##yl',
 '##va',
 '##in',
 'and',
 'I',
 'work',
 'at',
 'Hu',
 '##gging',
 'Face',
 'in',
 'Brooklyn',
 '.',
 '[SEP]']

In [6]:
encoding.word_ids()

[None, 0, 1, 2, 3, 3, 3, 3, 4, 5, 6, 7, 8, 8, 9, 10, 11, 12, None]

In [7]:
start, end = encoding.word_to_chars(3)
example[start:end]

'Sylvain'

In [8]:
from transformers import pipeline

token_classifier = pipeline("token-classification")
token_classifier("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Device set to use cpu


[{'entity': 'I-PER',
  'score': np.float32(0.99938285),
  'index': 4,
  'word': 'S',
  'start': 11,
  'end': 12},
 {'entity': 'I-PER',
  'score': np.float32(0.99815494),
  'index': 5,
  'word': '##yl',
  'start': 12,
  'end': 14},
 {'entity': 'I-PER',
  'score': np.float32(0.99590707),
  'index': 6,
  'word': '##va',
  'start': 14,
  'end': 16},
 {'entity': 'I-PER',
  'score': np.float32(0.99923277),
  'index': 7,
  'word': '##in',
  'start': 16,
  'end': 18},
 {'entity': 'I-ORG',
  'score': np.float32(0.9738931),
  'index': 12,
  'word': 'Hu',
  'start': 33,
  'end': 35},
 {'entity': 'I-ORG',
  'score': np.float32(0.976115),
  'index': 13,
  'word': '##gging',
  'start': 35,
  'end': 40},
 {'entity': 'I-ORG',
  'score': np.float32(0.9887976),
  'index': 14,
  'word': 'Face',
  'start': 41,
  'end': 45},
 {'entity': 'I-LOC',
  'score': np.float32(0.9932106),
  'index': 16,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [9]:
from transformers import pipeline

token_classifier = pipeline("token-classification", aggregation_strategy="simple")
token_classifier("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


[{'entity_group': 'PER',
  'score': np.float32(0.9981694),
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': np.float32(0.9796019),
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': np.float32(0.9932106),
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [10]:
from transformers import AutoTokenizer, AutoModelForTokenClassification

model_checkpoint = "dbmdz/bert-large-cased-finetuned-conll03-english"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForTokenClassification.from_pretrained(model_checkpoint)

example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
inputs = tokenizer(example, return_tensors="pt")
outputs = model(**inputs)

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [11]:
print(inputs["input_ids"].shape)
print(outputs.logits.shape)

torch.Size([1, 19])
torch.Size([1, 19, 9])


In [12]:
import torch

probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)[0].tolist()
predictions = outputs.logits.argmax(dim=-1)[0].tolist()
print(predictions)

[0, 0, 0, 0, 4, 4, 4, 4, 0, 0, 0, 0, 6, 6, 6, 0, 8, 0, 0]


In [13]:
model.config.id2label

{0: 'O',
 1: 'B-MISC',
 2: 'I-MISC',
 3: 'B-PER',
 4: 'I-PER',
 5: 'B-ORG',
 6: 'I-ORG',
 7: 'B-LOC',
 8: 'I-LOC'}

In [14]:
results = []
tokens = inputs.tokens()

for idx, pred in enumerate(predictions):
    label = model.config.id2label[pred]
    if label != "O":
        results.append(
            {"entity": label, "score": probabilities[idx][pred], "word": tokens[idx]}
        )

print(results)

[{'entity': 'I-PER', 'score': 0.9993828535079956, 'word': 'S'}, {'entity': 'I-PER', 'score': 0.9981548190116882, 'word': '##yl'}, {'entity': 'I-PER', 'score': 0.995907187461853, 'word': '##va'}, {'entity': 'I-PER', 'score': 0.9992327690124512, 'word': '##in'}, {'entity': 'I-ORG', 'score': 0.9738931059837341, 'word': 'Hu'}, {'entity': 'I-ORG', 'score': 0.9761149883270264, 'word': '##gging'}, {'entity': 'I-ORG', 'score': 0.9887974858283997, 'word': 'Face'}, {'entity': 'I-LOC', 'score': 0.99321049451828, 'word': 'Brooklyn'}]


In [15]:
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
inputs_with_offsets["offset_mapping"]

[(0, 0),
 (0, 2),
 (3, 7),
 (8, 10),
 (11, 12),
 (12, 14),
 (14, 16),
 (16, 18),
 (19, 22),
 (23, 24),
 (25, 29),
 (30, 32),
 (33, 35),
 (35, 40),
 (41, 45),
 (46, 48),
 (49, 57),
 (57, 58),
 (0, 0)]

In [16]:
example[12:14]

'yl'

In [17]:
results = []
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
tokens = inputs_with_offsets.tokens()
offsets = inputs_with_offsets["offset_mapping"]

for idx, pred in enumerate(predictions):
    label = model.config.id2label[pred]
    if label != "O":
        start, end = offsets[idx]
        results.append(
            {
                "entity": label,
                "score": probabilities[idx][pred],
                "word": tokens[idx],
                "start": start,
                "end": end,
            }
        )

print(results)

[{'entity': 'I-PER', 'score': 0.9993828535079956, 'word': 'S', 'start': 11, 'end': 12}, {'entity': 'I-PER', 'score': 0.9981548190116882, 'word': '##yl', 'start': 12, 'end': 14}, {'entity': 'I-PER', 'score': 0.995907187461853, 'word': '##va', 'start': 14, 'end': 16}, {'entity': 'I-PER', 'score': 0.9992327690124512, 'word': '##in', 'start': 16, 'end': 18}, {'entity': 'I-ORG', 'score': 0.9738931059837341, 'word': 'Hu', 'start': 33, 'end': 35}, {'entity': 'I-ORG', 'score': 0.9761149883270264, 'word': '##gging', 'start': 35, 'end': 40}, {'entity': 'I-ORG', 'score': 0.9887974858283997, 'word': 'Face', 'start': 41, 'end': 45}, {'entity': 'I-LOC', 'score': 0.99321049451828, 'word': 'Brooklyn', 'start': 49, 'end': 57}]


In [18]:
example[33:45]

'Hugging Face'

In [19]:
import numpy as np

results = []
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
tokens = inputs_with_offsets.tokens()
offsets = inputs_with_offsets["offset_mapping"]

idx = 0
while idx < len(predictions):
    pred = predictions[idx]
    label = model.config.id2label[pred]
    if label != "O":
        # Remove the B- or I-
        label = label[2:]
        start, _ = offsets[idx]

        # Grab all the tokens labeled with I-label
        all_scores = []
        while (
            idx < len(predictions)
            and model.config.id2label[predictions[idx]] == f"I-{label}"
        ):
            all_scores.append(probabilities[idx][pred])
            _, end = offsets[idx]
            idx += 1

        # The score is the mean of all the scores of the tokens in that grouped entity
        score = np.mean(all_scores).item()
        word = example[start:end]
        results.append(
            {
                "entity_group": label,
                "score": score,
                "word": word,
                "start": start,
                "end": end,
            }
        )
    idx += 1

print(results)

[{'entity_group': 'PER', 'score': 0.998169407248497, 'word': 'Sylvain', 'start': 11, 'end': 18}, {'entity_group': 'ORG', 'score': 0.9796018600463867, 'word': 'Hugging Face', 'start': 33, 'end': 45}, {'entity_group': 'LOC', 'score': 0.99321049451828, 'word': 'Brooklyn', 'start': 49, 'end': 57}]
