# Introduction to Data Science 2025

# Week 4

In this week's exercise, we look at prompting and zero- and few-shot task settings. Below is a text generation example from https://github.com/TurkuNLP/intro-to-nlp/blob/master/text_generation_pipeline_example.ipynb demonstrating how to load a text generation pipeline with a pre-trained model and generate text with a given prompt. Your task is to load a similar pre-trained generative model and assess whether the model succeeds at a set of tasks in zero-shot, one-shot, and two-shot settings.

**Note: Downloading and running the pre-trained model locally may take some time. Alternatively, you can open and run this notebook on [Google Colab](https://colab.research.google.com/), as assumed in the following example.**

## Text generation example

This is a brief example of how to run text generation with a causal language model and `pipeline`.

Install [transformers](https://huggingface.co/docs/transformers/index) python package. This will be used to load the model and tokenizer and to run generation.

In [None]:
!pip install --quiet transformers

Import the `AutoTokenizer`, `AutoModelForCausalLM`, and `pipeline` classes. The first two support loading tokenizers and generative models from the [Hugging Face repository](https://huggingface.co/models), and the last wraps a tokenizer and a model for convenience.

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

Load a generative model and its tokenizer. You can substitute any other generative model name here (e.g. [other TurkuNLP GPT-3 models](https://huggingface.co/models?sort=downloads&search=turkunlp%2Fgpt3)), but note that Colab may have issues running larger models.

In [None]:
MODEL_NAME = 'TurkuNLP/gpt3-finnish-large'

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/218 [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/96.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/562 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/3.53G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.53G [00:00<?, ?B/s]

Instantiate a text generation pipeline using the tokenizer and model.

In [None]:
pipe = pipeline(
    'text-generation',
    model=model,
    tokenizer=tokenizer,
    device=model.device
)

Device set to use cpu


We can now call the pipeline with a text prompt; it will take care of tokenizing, encoding, generation, and decoding:

In [None]:
output = pipe('Terve, miten menee?', max_new_tokens=25)

print(output)

[{'generated_text': 'Terve, miten menee?”\n”Loistavasti, kiitos kysymästä.”\n”Sinulla on ollut vähän vastoinkäymisiä, eikö totta?”\n”Ei'}]


Just print the text

In [None]:
print(output[0]['generated_text'])

Terve, miten menee?”
”Loistavasti, kiitos kysymästä.”
”Sinulla on ollut vähän vastoinkäymisiä, eikö totta?”
”Ei


We can also call the pipeline with any arguments that the model `generate` function supports. For details on text generation using `transformers`, see e.g. [this tutorial](https://huggingface.co/blog/how-to-generate).

Example with sampling and a high `temperature` parameter to generate more chaotic output:

In [None]:
output = pipe(
    'Terve, miten menee?',
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Terve, miten menee? Hei tyttö.
»Hyvää kesää.
A.
Onko hän nyt täällä meillä? »Rakkaan poikaparka. Mutta sinulla ei vielä


## Exercise 1

Your task is to assess whether a generative model succeeds in the following tasks in zero-shot, one-shot, and two-shot settings:

- binary sentiment classification (positive / negative)

- person name recognition

- two-digit addition (e.g. 11 + 22 = 33)

For example, for assessing whether a generative model can name capital cities, we could use the following prompts:

- zero-shot:
	>"""\
	>Identify the capital cities of countries.
	>
	>Question: What is the capital of Finland?\
	>Answer:\
	>"""
- one-shot:
	>"""\
	>Identify the capital cities of countries.
	>
	>Question: What is the capital of Sweden?\
	>Answer: Stockholm
	>
	>Question: What is the capital of Finland?\
	>Answer:\
	>"""
- two-shot:
	>"""\
	>Identify the capital cities of countries.
	>
	>Question: What is the capital of Sweden?\
	>Answer: Stockholm
	>
	>Question: What is the capital of Denmark?\
	>Answer: Copenhagen
	>
	>Question: What is the capital of Finland?\
	>Answer:\
	>"""

You can do the tasks either in English or Finnish and use a generative model of your choice from the Hugging Face models repository, for example the following models:

- English: `gpt2-large`
- Finnish: `TurkuNLP/gpt3-finnish-large`

You can either come up with your own instructions for the tasks or use the following:

- English:
	- binary sentiment classification: "Do the following texts express a positive or negative sentiment?"
	- person name recognition: "List the person names occurring in the following texts."
	- two-digit addition: "This is a first grade math exam."
- Finnish:
	- binary sentiment classification: "Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?"
	- person name recognition: "Listaa seuraavissa teksteissä mainitut henkilönnimet."
	- two-digit addition: "Tämä on ensimmäisen luokan matematiikan koe."

Come up with at least two test cases for each of the three tasks, and come up with your own one- and two-shot examples.

In [None]:
# Use this cell for your code

output = pipe(
       "Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?\n\nKysymys 1: Rakastin konserttia — ääni oli kirkas.\nVastaus:\n\nKysymys 2: Palvelu oli hidasta ja ruoka oli kylmää.\nVastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?

Kysymys 1: Rakastin konserttia — ääni oli kirkas.
Vastaus:

Kysymys 2: Palvelu oli hidasta ja ruoka oli kylmää.
Vastaus: -
Kysymys kuuluu: Mistä pidän musiikissa on, onko minussa joitakin musiikin herättämisiä toiveita?

Vastaus 4 > > Kysymykset 5: 1.)


**Submit this exercise by submitting your code and your answers to the above questions as comments on the MOOC platform. You can return this Jupyter notebook (.ipynb) or .py, .R, etc depending on your programming preferences.**

In [None]:
# Use this cell for your code

output = pipe(
       "Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?\n\nKysymys 1: Rakastin konserttia — ääni oli kirkas.\nVastaus: Positiivista\n\nKysymys 2: Palvelu oli hidasta ja ruoka oli kylmää.\nVastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?

Kysymys 1: Rakastin konserttia — ääni oli kirkas.
Vastaus: Positiivista

Kysymys 2: Palvelu oli hidasta ja ruoka oli kylmää.
Vastaus: Ilmavaa tai äänepainoista tunnetta ilmaisema.

Entä löytyykö mielestäsi jotakin asiaa kuvaavaa tunnetilana: jännittynyt (jännitys)?
Ilmaa


In [None]:
output = pipe(
    "Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta? Esimerkki 1: Sovellus kaatuu koko ajan ja se turhauttaa minua. Vastaus: Negatiivinen Esimerkki 2: Ihana yllätys — tämä piristi päivääni! Vastaus: Positiivinen Kysymys 1: Rakastin konserttia — ääni oli kirkas. Vastaus:Kysymys 2: Palvelu oli hidasta ja ruoka oli kylmää. Vastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Ilmaisevatko seuraavat tekstit positiivista vai negatiivista tunnetta?

Esimerkki 1: Sovellus kaatuu koko ajan ja se turhauttaa minua.
Vastaus: Negatiivinen

Esimerkki 2: Ihana yllätys — tämä piristi päivääni!
Vastaus: Positiivinen

Kysymys 1: Rakastin konserttia — ääni oli kirkas.
Vastaus:

Kysymys 2: Palvelu oli hidasta ja ruoka oli kylmää.
Vastaus: Se sai ruokahalulta loppua ja minua vihoittelemaan palvelun hitaauden yhteydessä kokit voisivat palkata apumiehiä ja huolehtia ruuan lämmittämistoi


In [None]:
output = pipe(
    "Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen.",    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen. Kun se nyt niin kamalasti teitä kiinnostaa.

Kun me ollaan puhuttu ton Marian Antin tapaamisesta mun kanssa ollaan yleensä menty vähän eri reiteillä koska


In [None]:
output = pipe(
    "Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Vastaus: Arttu, Tapani ja Maria Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen.",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Vastaus: Arttu, Tapani ja Maria Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen. Tapani otti asian rennosti.
Hän istui koko päiväs aman risaiseen vaat. Ei mikään kovin hyvä homma. Siinä saattoi


In [None]:
output = pipe(
    "Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Vastaus: Arttu, Tapani ja Maria Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen. Vastaus: John, Artturi. Teksti 3: John kävi pyörällä Painimassa Oliverin kanssa. Vastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Listaa seuraavissa teksteissä mainitut henkilönnimet. Teksti 1: Arttu tapasi Tapanin matkallaan, jotta he voivat käydän hengaamassa Marian kanssa. Vastaus: Arttu, Tapani ja Maria Teksti 2: John oli vanhoollismielinen, koska hänen kasvatuksensa Artturin kanssa oli vanhoollinen. Vastaus: John, Artturi. Teksti 3: John kävi pyörällä Painimassa Oliverin kanssa. Vastaus: Alexander pääsi sisäkautta karkaamaan Paisujakselta pihalle kesken illan kello 23:na Joulu yönä eli 24 Joulu p :n
19 6


In [None]:
output = pipe(
    "Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = Vastaus: Kysymys 2: 26 + 57 = Vastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = Vastaus: Kysymys 2: 26 + 57 = Vastaus: 7225; Vastaus 14: 48648 Vastaus 4: 561353 Vastauksia kaikkiin tehtäviin tulee neljä joka sivulle, sillä vastaussivun


In [None]:
output = pipe(
    "Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = 65 Vastaus: Kysymys 2: 26 + 57 = Vastaus:",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = 65 Vastaus: Kysymys 2: 26 + 57 = Vastaus: 27.2. (3p+kysymyskohtainen essee)
Matemaattinen mallinnusohjelmisto sisältää matematii­seita kaaviointitasoja tietojen


In [None]:
output = pipe(
    "Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = Vastaus: 65 Kysymys 2: 26 + 57 = Vastaus: 83 Kysymys 3: 11 + 22 = Vastaus: ",
    do_sample=True,
    temperature=10.0,
    max_new_tokens=25
)

print(output[0]['generated_text'])

Tämä on ensimmäisen luokan matematiikan koe. Ratkaise kukin yhteenlasku ja palauta vain lopullinen kokonaisluku ilman välivaiheita. Kysymys 1: 47 + 18 = Vastaus: 65 Kysymys 2: 26 + 57 = Vastaus: 83 Kysymys 3: 11 + 22 = Vastaus: ᄄ 0 Tehtävä 1: 67 x 5+9*271x308 + 277= 861 Ei vastausta 3
