<a href="https://colab.research.google.com/github/venezianof/booksum/blob/main/course/en/chapter6/section3_pt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fast tokenizers' special powers (PyTorch)

In [1]:
from google.colab import userdata
userdata.get('secretName')

SecretNotFoundError: Secret secretName does not exist.

### Riassunto delle principali vie di segnalazione del GLP-1R

Il GLP-1R attiva una complessa rete di vie intracellulari, fondamentali per i suoi effetti metabolici e cardiometabolici. Le principali vie includono:

1.  **Via dell'AMP ciclico (cAMP)/PKA**: Questa è la via primaria, in cui l'attivazione del recettore porta alla produzione di cAMP e all'attivazione della Protein Chinasi A (PKA). Nelle cellule beta pancreatiche, questo stimola la secrezione di insulina glucosio-dipendente, favorisce la proliferazione cellulare e protegge dall'apoptosi.

2.  **Via della Fosfolipasi C (PLC)/Proteina Chinasi C (PKC)**: Una via secondaria che, tramite l'attivazione della PLC, genera IP3 e DAG. Questo porta al rilascio di calcio intracellulare e all'attivazione della PKC, contribuendo alla secrezione di insulina.

3.  **Via delle MAP Kinasi (MAPK) - ERK1/2**: L'attivazione del GLP-1R può anche stimolare le chinasi ERK1/2, che sono coinvolte nella proliferazione, sopravvivenza e differenziazione cellulare.

4.  **Vie di Segnalazione Indipendenti dalla Proteina G (β-arrestine)**: Le β-arrestine, oltre a mediare la desensibilizzazione e l'internalizzazione del recettore, possono attivare vie di segnalazione alternative, come alcune MAPK.

È importante sottolineare che queste vie non operano in isolamento, ma interagiscono e si influenzano reciprocamente (cross-talk), contribuendo alla specificità e alla robustezza della risposta cellulare al GLP-1.

### GLP-1R: Accoppiamento e Vie di Segnalazione

Il recettore del GLP-1 (GLP-1R) è un recettore accoppiato a proteine G (GPCR) di classe B, espresso su diverse cellule, tra cui le cellule beta pancreatiche, le cellule neuronali, le cellule cardiache e le cellule del tratto gastrointestinale. L'attivazione di questo recettore da parte del GLP-1 (Glucagon-Like Peptide-1) induce una serie di vie di segnalazione intracellulare che mediano i suoi effetti biologici.

Le principali vie di segnalazione attivate dal GLP-1R includono:

1.  **Via dell'AMP ciclico (cAMP)/PKA (Protein Kinase A)**:
    *   **Accoppiamento**: Il GLP-1R è principalmente accoppiato alle proteine G stimolatorie (Gs).
    *   **Attivazione**: L'associazione del GLP-1 al suo recettore induce un cambiamento conformazionale che attiva la proteina Gs. La subunità Gsα attivata dissocia e stimola l'adenilato ciclasi (AC).
    *   **Produzione di cAMP**: L'AC catalizza la conversione dell'ATP in cAMP.
    *   **Attivazione della PKA**: L'aumento dei livelli intracellulari di cAMP lega e attiva la Protein Chinasi A (PKA). La PKA, una volta attivata, fosforila una serie di substrati proteici bersaglio, modulando la loro attività.
    *   **Effetti a valle**: Nelle cellule beta pancreatiche, questo porta a un aumento della secrezione di insulina glucosio-dipendente, alla promozione della proliferazione delle cellule beta e alla protezione dall'apoptosi. Contribuisce anche a modulare la sensibilità al glucosio dei canali del potassio ATP-dipendenti (KATP) e dei canali del calcio voltaggio-dipendenti (VDCC).

2.  **Via della Fosfolipasi C (PLC)/Proteina Chinasi C (PKC)**:
    *   **Accoppiamento secondario**: Sebbene meno prominente rispetto alla via del cAMP/PKA, il GLP-1R può anche accoppiarsi a proteine Gq in alcuni contesti.
    *   **Attivazione**: L'attivazione della Gq porta all'attivazione della fosfolipasi C (PLC).
    *   **Produzione di IP3 e DAG**: La PLC idrolizza il fosfatidilinositolo 4,5-bifosfato (PIP2) in inositolo trifosfato (IP3) e diacilglicerolo (DAG).
    *   **Rilascio di Calcio e Attivazione della PKC**: L'IP3 causa il rilascio di ioni calcio (Ca2+) dai depositi intracellulari (reticolo endoplasmatico), mentre il DAG, in presenza di Ca2+, attiva la Protein Chinasi C (PKC). L'aumento del calcio intracellulare è un segnale chiave per la secrezione di insulina.

3.  **Via delle MAP Kinasi (MAPK) - ERK1/2**:
    *   **Attivazione**: La stimolazione del GLP-1R può anche attivare le vie delle MAP chinasi, in particolare ERK1/2 (Extracellular signal-Regulated Kinases).
    *   **Meccanismo**: Questo può avvenire attraverso diverse vie, inclusa l'attivazione a valle della PKA o attraverso meccanismi indipendenti dalla Gs che coinvolgono le β-arrestine o le tirosina chinasi.
    *   **Effetti a valle**: L'attivazione di ERK1/2 è coinvolta in processi come la proliferazione cellulare, la sopravvivenza e la differenziazione, contribuendo agli effetti trofici del GLP-1 sulle cellule beta.

4.  **Vie di Segnalazione Indipendenti dalla Proteina G (β-arrestine)**:
    *   **Ruolo delle β-arrestine**: Dopo l'attivazione, il GLP-1R viene fosforilato e recluta le β-arrestine. Le β-arrestine non solo mediano la desensibilizzazione e l'internalizzazione del recettore, ma possono anche agire come scaffold per l'attivazione di vie di segnalazione indipendenti dalla proteina G, come alcune MAPK.
    *   **Internalizzazione e riciclo**: L'internalizzazione del recettore è un meccanismo chiave per regolare la durata e l'intensità della segnalazione.

**Interazioni e Cross-talk**: È importante notare che queste vie non operano in isolamento, ma interagiscono e si influenzano reciprocamente (cross-talk), contribuendo alla complessità e alla specificità della risposta cellulare al GLP-1. Ad esempio, la PKA può fosforilare componenti di altre vie, modulandone l'attività.

In sintesi, il GLP-1R orchestra una complessa rete di vie di segnalazione intracellulare, principalmente attraverso l'attivazione del sistema cAMP/PKA, che è fondamentale per i suoi effetti pleiotropici sul metabolismo del glucosio e sulla salute cardiometabolica.

In [3]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
sentence = "Ciao, questo è un esempio di tokenizzazione con BERT."

encoded_input = tokenizer(sentence, return_tensors='pt')

print("Sentence:", sentence)
print("Input IDs:", encoded_input['input_ids'])
print("Token Type IDs:", encoded_input['token_type_ids'])
print("Attention Mask:", encoded_input['attention_mask'])
print("Decoded tokens:", tokenizer.convert_ids_to_tokens(encoded_input['input_ids'][0]))
print("Decoded string:", tokenizer.decode(encoded_input['input_ids'][0]))

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Sentence: Ciao, questo è un esempio di tokenizzazione con BERT.
Input IDs: tensor([[  101,   140,  1465,  1186,   117, 12485,  1186,   254,  8362, 13936,
          5521, 27931,  4267, 22559,  9368,  3293, 23316, 14255,   139,  9637,
          1942,   119,   102]])
Token Type IDs: tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
Attention Mask: tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
Decoded tokens: ['[CLS]', 'C', '##ia', '##o', ',', 'quest', '##o', 'è', 'un', 'es', '##em', '##pio', 'di', 'token', '##iz', '##za', '##zione', 'con', 'B', '##ER', '##T', '.', '[SEP]']
Decoded string: [CLS] Ciao, questo è un esempio di tokenizzazione con BERT. [SEP]


### Come funziona la tokenizzazione con il tokenizer BERT

Il tokenizer BERT, come molti altri tokenizer basati su modelli Transformer, utilizza un algoritmo di tokenizzazione chiamato **WordPiece**.

Ecco i passaggi principali:

1.  **Suddivisione in parole (Whitespace Tokenization)**: La frase iniziale viene prima divisa in parole usando gli spazi come delimitatori. Ad esempio, "Hugging Face" diventa ["Hugging", "Face"].

2.  **Tokenizzazione WordPiece**: Per ciascuna parola, il tokenizer cerca nel suo vocabolario pre-costruito. Il vocabolario WordPiece contiene parole complete, ma anche sotto-parole o parti di parole (subword units) che appaiono frequentemente nei dati di addestramento.

    *   Se una parola è presente nel vocabolario, viene usata così com'è.
    *   Se una parola non è nel vocabolario, viene scomposta in parti più piccole (subwords). Queste subwords sono precedute da `##` per indicare che sono la continuazione di un token precedente. L'algoritmo cerca la scomposizione più lunga possibile in subwords valide.

    **Esempio**: Se la parola "tokenization" non fosse nel vocabolario, potrebbe essere scomposta in `"token"` e `"##ization"`.

3.  **Aggiunta di token speciali**: Il tokenizer aggiunge token speciali necessari per il modello BERT:

    *   `[CLS]`: Un token speciale all'inizio della sequenza, che viene utilizzato come rappresentazione dell'intera sequenza per compiti di classificazione.
    *   `[SEP]`: Un token speciale alla fine di ogni sequenza (o tra due sequenze se si gestiscono coppie di frasi), che indica la fine di una frase.

4.  **Conversione in ID**: Ogni token (parola, subword o token speciale) viene convertito nel suo ID numerico corrispondente presente nel vocabolario del tokenizer.

5.  **Creazione di Attention Mask e Token Type IDs**: Per l'input del modello BERT, vengono generate anche:

    *   **`attention_mask`**: Una sequenza di 0 e 1, dove 1 indica un token reale e 0 indica un token di padding (aggiunto per uniformare la lunghezza delle sequenze in un batch).
    *   **`token_type_ids` (o `segment_ids`)**: Una sequenza di 0 e 1 per distinguere tra le due frasi in un input di coppia. Se si ha una singola frase, saranno tutti 0.

Il vantaggio di WordPiece è che permette di gestire parole sconosciute (Out-Of-Vocabulary, OOV) scomponendole in parti conosciute, e di rappresentare efficientemente un vasto vocabolario con un numero gestibile di token, catturando sia informazioni semantiche di parole intere che la morfologia delle parole attraverso le subwords.

In [None]:
decoded_string = tokenizer.decode(encoding['input_ids'])
print(decoded_string)

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
encoding = tokenizer(example)
print(type(encoding))

Un "tokenizer veloce" è implementato in Rust e offre prestazioni migliori. Possiamo verificare se il nostro tokenizer è veloce.

In [None]:
tokenizer.is_fast

L'oggetto `encoding` ha anche una proprietà `is_fast`.

In [None]:
encoding.is_fast

Possiamo visualizzare i token individuali generati dal tokenizer.

In [None]:
encoding.tokens()

Per i token che derivano da una singola parola, possiamo ottenere l'ID della parola corrispondente.

In [None]:
encoding.word_ids()

Possiamo anche mappare un ID di parola agli intervalli di caratteri nella frase originale.

In [None]:
start, end = encoding.word_to_chars(3)
example[start:end]

In [2]:
!pip install datasets evaluate transformers[sentencepiece]

Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Downloading evaluate-0.4.6-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.6


# GLP-1R: Accoppiamento e Vie di Segnalazione

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
encoding = tokenizer(example)
print(type(encoding))

In [None]:
tokenizer.is_fast

In [None]:
encoding.is_fast

In [None]:
encoding.tokens()

In [None]:
encoding.word_ids()

In [None]:
start, end = encoding.word_to_chars(3)
example[start:end]

In [None]:
from transformers import pipeline

token_classifier = pipeline("token-classification")
token_classifier("My name is Sylvain and I work at Hugging Face in Brooklyn.")

In [None]:
from transformers import pipeline

token_classifier = pipeline("token-classification", aggregation_strategy="simple")
token_classifier("My name is Sylvain and I work at Hugging Face in Brooklyn.")

In [None]:
from transformers import AutoTokenizer, AutoModelForTokenClassification

model_checkpoint = "dbmdz/bert-large-cased-finetuned-conll03-english"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForTokenClassification.from_pretrained(model_checkpoint)

example = "My name is Sylvain and I work at Hugging Face in Brooklyn."
inputs = tokenizer(example, return_tensors="pt")
outputs = model(**inputs)

In [None]:
print(inputs["input_ids"].shape)
print(outputs.logits.shape)

In [None]:
import torch

probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)[0].tolist()
predictions = outputs.logits.argmax(dim=-1)[0].tolist()
print(predictions)

In [None]:
model.config.id2label

In [None]:
results = []
tokens = inputs.tokens()

for idx, pred in enumerate(predictions):
    label = model.config.id2label[pred]
    if label != "O":
        results.append(
            {"entity": label, "score": probabilities[idx][pred], "word": tokens[idx]}
        )

print(results)

In [None]:
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
inputs_with_offsets["offset_mapping"]

In [None]:
example[12:14]

In [None]:
results = []
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
tokens = inputs_with_offsets.tokens()
offsets = inputs_with_offsets["offset_mapping"]

for idx, pred in enumerate(predictions):
    label = model.config.id2label[pred]
    if label != "O":
        start, end = offsets[idx]
        results.append(
            {
                "entity": label,
                "score": probabilities[idx][pred],
                "word": tokens[idx],
                "start": start,
                "end": end,
            }
        )

print(results)

In [None]:
example[33:45]

In [None]:
import numpy as np

results = []
inputs_with_offsets = tokenizer(example, return_offsets_mapping=True)
tokens = inputs_with_offsets.tokens()
offsets = inputs_with_offsets["offset_mapping"]

idx = 0
while idx < len(predictions):
    pred = predictions[idx]
    label = model.config.id2label[pred]
    if label != "O":
        # Remove the B- or I-
        label = label[2:]
        start, _ = offsets[idx]

        # Grab all the tokens labeled with I-label
        all_scores = []
        while (
            idx < len(predictions)
            and model.config.id2label[predictions[idx]] == f"I-{label}"
        ):
            all_scores.append(probabilities[idx][pred])
            _, end = offsets[idx]
            idx += 1

        # The score is the mean of all the scores of the tokens in that grouped entity
        score = np.mean(all_scores).item()
        word = example[start:end]
        results.append(
            {
                "entity_group": label,
                "score": score,
                "word": word,
                "start": start,
                "end": end,
            }
        )
    idx += 1

print(results)