## 21.02.2024 - Update

## Coding Scheme

- There was an already-generated coding scheme (by GESIS) for this survey question. **GLES Coding of the Most Important Political Problem (2018-2022):** https://search.gesis.org/research_data/ZA7957?doi=10.4232/1.14200
    - Codes are  semi-automatically created with the help of a BERT model 
    - The question in Panel Waves 10-21 are classified and made available online.
    - I downloaded the codes and the coded text data.

In [29]:
import os 
import pandas as pd
DATA_DIR= os.path.join('/dss/dsshome1/0F/ra46lup2/ma-yoztyurk/data')
code_df= pd.read_csv(os.path.join(DATA_DIR,r"GLES/coding_list2.csv"), sep=',')
code_df

Unnamed: 0,Code,Category,Examples,Category_Eng,Example_Eng
0,-99,keine Angabe,"…, xxx, asdf, k.A., sag ich nicht, Elefantenbabys",No information,"..., xxx, asdf, n/a, wont say, baby elephants"
1,-98,weiß nicht,"weiß ich nicht, weiß nicht, keine Ahnung, kann...",Do not know,"I don’t know, don’t know, no idea, can’t say"
2,1,Sonstiges,-,Other,-
3,2,Wahlkampf und Regierungsbildung,"der nächste Bundeskanzler, Koalitionsverhandlu...",Election campaign and government formation,"the next Chancellor, coalition negotiations, e..."
4,3,Politische Strukturen und Prozesse,"Regierungsform, Föderalismus, Kritik an Bundes...",Political structures and processes,"Form of government, federalism, criticism of f..."
5,4,"Werte, politische Kultur und Gesellschaftskritik","Nationalismus, Rechtsruck, rechte Politik verm...","Values, political culture, and social criticism","Nationalism, shift to the right, avoid right-w..."
6,5,Demokratie,"Demokratieerhaltung, mehr Bürgerbeteiligung, d...",Democracy,"Preservation of democracy, more citizen partic..."
7,6,Medien,"Lügenpresse, GEZ, Rundfunkbeitrag, Pressefreiheit",Media,"Lying press, broadcasting fee, press freedom"
8,7,Bürokratie,"Überbürokratisierung des gesamten Lebens, Beam...",Bureaucracy,"Over-bureaucratization of entire life, abolish..."
9,8,Lobbyismus,"Einfluss der Wirtschaft, Macht der Wirtschaft ...",Lobbyism,"Influence of economy, power of economy in poli..."


## Code percentages across panel waves

wave_class_perc.html

- Fine tuned **bert-base-german-cased** with 13000 (text_answer, answer_code) to code my synthetic answers.

## Experiments with Llama-2-13b-chat-hf

- setting up meta-llama/Llama-2-13b-chat-hf
- experimenting with prompts.
- results are in : https://docs.google.com/spreadsheets/d/1XyfMw1Z0waxiZDGzRkFmXDSOpK4iNtw_koA1rEVFixM/edit?usp=sharing

prompt used : 

In [11]:
"""
<s>
[INST] 
    <<SYS>> 
        Identifizieren Sie im Jahr 2021 das wichtigste Problem, mit dem Deutschland aus der Sicht eines Befragten konfrontiert ist. 
        Geben Sie die Antwort in einem prägnanten Satz an, konzentrieren Sie sich nur auf ein einziges Thema ohne weitere Ausführungen oder Auflistung zusätzlicher Probleme. 
        Wiederholen Sie nicht die Informationen, die Ihnen gegeben wurden, und bitte geben Sie eine direkte Antwort ohne einleitende Phrasen. 
        Antworten Sie auf Deutsch.
    <</SYS>> 

    Der Befragte ist ein {age}-jähriger {gender}, der in {eastwest} Deutschland lebt und hauptsächlich {party} unterstützt. 
[/INST]
"""

'\n<s>\n[INST] \n    <<SYS>> \n        Identifizieren Sie im Jahr 2021 das wichtigste Problem, mit dem Deutschland aus der Sicht eines Befragten konfrontiert ist. \n        Geben Sie die Antwort in einem prägnanten Satz an, konzentrieren Sie sich nur auf ein einziges Thema ohne weitere Ausführungen oder Auflistung zusätzlicher Probleme. \n        Wiederholen Sie nicht die Informationen, die Ihnen gegeben wurden, und bitte geben Sie eine direkte Antwort ohne einleitende Phrasen. \n        Antworten Sie auf Deutsch.\n    <</SYS>> \n\n    Der Befragte ist ein {age}-jähriger {gender}, der in {eastwest} Deutschland lebt und hauptsächlich {party} unterstützt. \n[/INST]\n'

In [8]:
ex1_params = {"max_new_tokens": 300,
              "temperature":1,
              "do_sample":True}

ex2_params = {"max_new_tokens": 300,
              "temperature":1.5,
              "do_sample":True}

experiment result format:

In [None]:
log_sample= {
model_name:"meta-llama/Llama-2-13b-chat-hf"
survey_wave:21
user_id:10005
runtime:31.60722780227661
prompt:"<s>[INST] <<SYS>> Identifizieren Sie im Jahr 2021 das wichtigste Problem, mit dem Deutschland aus der Sicht eines Befragten konfrontiert ist. Geben Sie die Antwort in einem prägnanten Satz an, konzentrieren Sie sich nur auf ein einziges Thema ohne weitere Ausführungen oder Auflistung zusätzlicher Probleme. Wiederholen Sie nicht die Informationen, die Ihnen gegeben wurden, und bitte geben Sie eine direkte Antwort ohne einleitende Phrasen. Antworten Sie auf Deutsch. <</SYS>> Der Befragte ist ein 58-jähriger female, der in West Deutschland lebt und hauptsächlich GRÜNE unterstützt. [/INST] "
input_num_token:175
output_num_token:255
temperature:1.5
do_sample:true
max_new_tokens:300
output:"Laut Meinung des Befragten ist das wichtigste Problem, das Deutschland im Jahr 2021 konfrontiert, die anhaltende Demografie- und Altersstrukturwandel, da diese den Gesundheits- und Sozialsystemen stark belastet und eine Gefahrenquelle für dieirtschaftliche Stabilität des Landes darstellt."
}

- sampled 1000 rows from original survey.
- removed dropped out & not answered respondents. (33)


- Temp and Answer Language 

In [20]:
ex1_ex2= pd.read_csv(r"ex1_ex2.csv", sep=',')
print("temp 1 , answer languages")
print(ex1_ex2.output_ex1_lang.value_counts(1))

temp 1 , answer languages
de    0.976215
en    0.023785
Name: output_ex1_lang, dtype: float64


In [22]:
print("temp==1.5 , answer languages")
print(ex1_ex2.output_ex2_lang.value_counts(1))

temp==1.5 , answer languages
de    0.838676
en    0.161324
Name: output_ex2_lang, dtype: float64


- classified the experiment answers with german-bert model. 
- compared the frequencies : **sample_code_frequencies.html**

## Todos & Questions 

- mixtral moe model : 1 GPU (16 GB) was not enought, I might try the model with 2 GPUs later.
- does survey month matter ? should it be included in the prompt ? 
- should an experiment be repeated on the same sample to see variability ?