## Zero-Shot Learning Experiments

### Topic classification

Using https://huggingface.co/zero-shot/ 

#### 1. Replicate the results from app in code

In [1]:
from transformers import pipeline

In [18]:
classifier = pipeline('zero-shot-classification',
                      model='joeddav/xlm-roberta-large-xnli')

Some weights of the model checkpoint at joeddav/xlm-roberta-large-xnli were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPretraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [19]:
sequence = "The Avengers - Hammer Top Besetzung - Top Film endlich war es soweit. Meine Superhelden vereint in einem Film. Ich habe mich besonders auf Robert Downey Jr. und Chris Hemsworth gefreut. Robert stellt Iron Man mit einer Coolness dar, die man nicht überbieten kann. Die Rolle ist perfekt auf ihn zugeschnitten. Chris Hemsworth ist einfach eine Augenweide:-). Loki war auch super. Gegen Mark Ruffalo als Hulk hatte ich meine Bedenken, die wurden dann aber im Film widerlegt. Wenn man die einzelnen Filme vorher gesehen hat und auch die Anspielungen auf 'The Avengers' verstanden hat, ist der Film noch interessanter. Die Story war vorhersehbar, aber trotzdem gut. Was mir am besten gefallen hat, ist das jeder Charakter gleich stark vertreten war. Fazit: Unbedingt anschauen!"
hypothesis_template = 'This text is about {}.' 
labels = "películas, acción, superhéroes, libros"
allow_multi_class = False

In [20]:
result = classifier(sequence, labels,
           hypothesis_template=hypothesis_template,
           multi_class=allow_multi_class)

result

{'sequence': "The Avengers - Hammer Top Besetzung - Top Film endlich war es soweit. Meine Superhelden vereint in einem Film. Ich habe mich besonders auf Robert Downey Jr. und Chris Hemsworth gefreut. Robert stellt Iron Man mit einer Coolness dar, die man nicht überbieten kann. Die Rolle ist perfekt auf ihn zugeschnitten. Chris Hemsworth ist einfach eine Augenweide:-). Loki war auch super. Gegen Mark Ruffalo als Hulk hatte ich meine Bedenken, die wurden dann aber im Film widerlegt. Wenn man die einzelnen Filme vorher gesehen hat und auch die Anspielungen auf 'The Avengers' verstanden hat, ist der Film noch interessanter. Die Story war vorhersehbar, aber trotzdem gut. Was mir am besten gefallen hat, ist das jeder Charakter gleich stark vertreten war. Fazit: Unbedingt anschauen!",
 'labels': ['superhéroes', 'películas', 'acción', 'libros'],
 'scores': [0.6955559253692627,
  0.13673992455005646,
  0.12396324425935745,
  0.04374098777770996]}

In [21]:
result["labels"][0], result["scores"][0]

('superhéroes', 0.6955559253692627)

#### 2. Apply method to all the sentences from our data

In [25]:
HYPOTHESIS_TEMPLATE = 'This text is about {}.' 
LABELS = "Direct payment, Tax deduction, Credit/guarantee, Technical assistance, Supplies, Fines"

def classify_sentence(sentence, allow_multi_class=False, all_probs=False):
    result = classifier(sentence, LABELS,
           hypothesis_template=HYPOTHESIS_TEMPLATE,
           multi_class=allow_multi_class)
    
    if all_probs:
        return result["labels"], result["scores"]
    
    return result["labels"][0], result["scores"][0]

In [26]:
# True label: guarantee
classify_sentence("Disminuir los riesgos para el inversionista implementando mecanismos de aseguramiento.")

('Credit/guarantee', 0.5056334137916565)

In [27]:
# True label: direct payment
classify_sentence("Los recursos que el Fondo Forestal Mexicano obtenga por el cobro de bienes y servicios ambientales se entregarán directamente a los proveedores de dichos servicios y una parte se destinará a cubrir los costos de esta operación.")

('Direct payment', 0.43826329708099365)

In [28]:
# True label: Tax deduction
classify_sentence("Otorgar incentivos fiscales a las plantaciones forestales comerciales, incluyendo incentivos dirigidos a promover la industria ligada a las plantaciones comerciales forestales.")

('Tax deduction', 0.5178943276405334)

### TODO
- Script to iterate through latest dataset JSON
- Script to iterate through El Salvador JSON?
- Try 6 labels
- Try 2 labels