In [5]:
import numpy as np
import pandas as pd

# Large Generative Augmented Language Models (GLM, LLM)

* Language models that have many parameters (over 1B) and can perform multiple tasks through prompting 

* Eg. GPT, Llama3, Gemini, PaLM, Mistral, Mixtral etc.

---
Breakthrough 2018:
* Encoder-only (BERT): Pre-training: Masked Language Modeling (MLM), Great for classification tasks, but hard to do generation
* Decoder-only (GPT): Pre-training: Auto-regressive Language Modeling, Stable training, faster convergence, Better generalization after pre-training

---

* Does doing Safety tuning (outputs align with human values) mean LLMs will never produce harmful outputs? No! The list of harmful outputs is not exhaustive and very large!

If you want, here are more details that go far beyond our class: https://deeplearning.cs.cmu.edu/S24/document/slides/lec20.LLM.pdf 

# Install OLlama

OPLlama is an open-source framework that enables open-source Large Language Models (LLMs) to run locally in computer.

Minimal requirements for 8B Models: >= 4CPU, 8GB RAM, 12GB DISK

---

Download the Ollama installation file here https://ollama.com/download and follow OS-specific instructions.

In [None]:
#CMD shell comands (based on https://medium.com/@renjuhere/llama-3-running-locally-in-just-2-steps-e7c63216abe7)

#check http server running: http://localhost:11434/
#storage of models under “C:\Users\<username>\.ollama\models”.

#ollama run llama3 > run model (will be downloaded if not stored yet; default 8B; pre-trained would be ~ ollama run llama3:text)

#ollama list > find the available local models
# NAME            ID              SIZE    MODIFIED
# llama3:text     870a5d02cfaf    4.7 GB  4 weeks ago
# llama3:latest   365c0bd3c000    4.7 GB  4 weeks ago

#ollama pull llama3 > upgrade delta layers

#ollama rm llama3 > remove model

#promt in cmd
#/bye > exit conversation

In [None]:
#pip install transformers
#pip install accelerate
#pip install llama-models
#import transformers
#pip install langchain-community

# Prompt OLlama

In [1]:
from langchain_community.llms import Ollama

In [2]:
llm = Ollama(model="llama3")

In [3]:
instruction_prompt = "Can you help me to do preprocessing and data transformation for my data science university project?"

for chunks in llm.stream(instruction_prompt):
    print(chunks, end="")

I'd be happy to help with preprocessing and data transformation for your university project.

To get started, could you please provide some more information about your dataset? This will help me better understand the nature of your data and provide more tailored guidance. Please consider sharing the following:

1. What type of data do you have (e.g., numerical, categorical, text, image)?
2. How many rows and columns does your dataset contain?
3. Are there any missing values or outliers in your data?
4. Are there any specific preprocessing steps or transformations you've already tried or would like to try?
5. What is the ultimate goal of your project (e.g., prediction, classification, clustering, feature engineering)?

Once I have a better understanding of your dataset and goals, I can offer suggestions for:

1. Handling missing values and outliers
2. Data normalization and scaling
3. Feature engineering and transformation (e.g., log-transforming skewed data)
4. Encoding categorical var

In [10]:
answer = llm.invoke(instruction_prompt) 

In [11]:
answer

"I'd be happy to help with preprocessing and data transformation for your university project.\n\nTo get started, could you please provide some more information about your dataset? This will help me better understand what type of transformations might be necessary. Please consider sharing the following:\n\n1. **What is the type of data** (e.g., numerical, categorical, text, image)?\n2. **What is the size of your dataset** (e.g., number of rows, columns)?\n3. **Are there any missing values** or nulls in the data?\n4. **What are the variables** (features) in your dataset? Are they numeric, categorical, or a mix?\n5. **What is the target variable** (if you're building a predictive model)?\n6. **Have you explored the data distribution** using summary statistics, histograms, or other visualizations?\n\nOnce I have this information, I can provide guidance on common preprocessing and transformation techniques that might be applicable to your project.\n\nSome general areas we might discuss incl

# Data Preprocssing with LLMs

![image-2.png](attachment:image-2.png)

In [49]:
df_bvb_llm = pd.read_csv("https://raw.githubusercontent.com/leotraeg/FHDTM-P2DS-WS2425/refs/heads/main/Demo/Datensaetze/FHDTM-P2DS-WS2425-LLM-Demo-3.1-BVB.csv")

In [17]:
df_bvb_llm

Unnamed: 0,club_name,club_league,player_position,player_number,player_name,player_dob,player_country,player_value
0,Borussia Dortmund,Bundesliga,Torwart,1,Gregor Kobel,06.12.1997 (25),Schweiz,"35,00 Mio. €"
1,Borussia Dortmund,Bundesliga,Torwart,35,Marcel Lotka,25.05.2001 (22),Deutschland,"1,50 Mio. €"
2,Borussia Dortmund,Bundesliga,,33,Alexander Meyer,13.04.1991 (32),Deutschland,"1,00 Mio. €"
3,Borussia Dortmund,Bundesliga,,31,Silas Ostrzinski,19.11.2003 (19),Deutschland,150 Tsd. €
4,Borussia Dortmund,Bundesliga,,4,Nico Schlotterbeck,01.12.1999 (23),Deutschland,"40,00 Mio. €"
5,Borussia Dortmund,Bundesliga,,25,Niklas Süle,03.09.1995 (27),,"35,00 Mio. €"
6,Borussia Dortmund,Bundesliga,Abwehr,15,Mats Hummels,16.12.1988 (34),,"6,00 Mio. €"
7,Borussia Dortmund,Bundesliga,Abwehr,44,Soumaïla Coulibaly,14.10.2003 (19),,"1,00 Mio. €"
8,Borussia Dortmund,Bundesliga,Abwehr,47,Antonios Papadopoulos,10.09.1999 (23),,600 Tsd. €
9,Borussia Dortmund,Bundesliga,Abwehr,5,Ramy Bensebaini,16.04.1995 (28),Algerien,"20,00 Mio. €"


## Data Cleaning (player_position)

In [None]:
df_bvb_llm.player_position.dropna().unique()

"['Torwart' 'Abwehr' 'Mittelfeld' 'Sturm']"

In [50]:
def get_player_position(player_row):
    if pd.isna(player_row.player_position):
        prompt = "In welcher Position hat " + player_row.player_name + " mit der Spielernummer " + str(player_row.player_number) + " in der Liga " + player_row.club_league + " gespielt? "
        cases = "Antworte mit nur einer der folgenden Positionen: " + str(df_bvb_llm.player_position.dropna().unique()) + " und ohne zusätzliche Textelemente."
        print(prompt + cases)
        answer = llm.invoke(prompt + cases) 
        print(answer)
        return answer
    else:
        return player_row.player_position

In [None]:
#Test 0:	Borussia Dortmund	Bundesliga	Torwart	1	Gregor Kobel	06.12.1997 (25)	Schweiz	35,00 Mio. €
get_player_position(df_bvb_llm.iloc[0])

'Torwart'

In [51]:
df_bvb_llm["player_position"] = df_bvb_llm.apply(lambda player_row: get_player_position(player_row), axis=1)

In welcher Position hat Alexander Meyer mit der Spielernummer 33 in der Liga Bundesliga gespielt? Antworte mit nur einer der folgenden Positionen: ['Torwart' 'Abwehr' 'Mittelfeld' 'Sturm'] und ohne zusätzliche Textelemente.
Mittelfeld
In welcher Position hat Silas Ostrzinski mit der Spielernummer 31 in der Liga Bundesliga gespielt? Antworte mit nur einer der folgenden Positionen: ['Torwart' 'Abwehr' 'Mittelfeld' 'Sturm'] und ohne zusätzliche Textelemente.
Mittelfeld
In welcher Position hat Nico Schlotterbeck mit der Spielernummer 4 in der Liga Bundesliga gespielt? Antworte mit nur einer der folgenden Positionen: ['Torwart' 'Abwehr' 'Mittelfeld' 'Sturm'] und ohne zusätzliche Textelemente.
Abwehr
In welcher Position hat Niklas Süle mit der Spielernummer 25 in der Liga Bundesliga gespielt? Antworte mit nur einer der folgenden Positionen: ['Torwart' 'Abwehr' 'Mittelfeld' 'Sturm'] und ohne zusätzliche Textelemente.
Abwehr
In welcher Position hat Giovanni Reyna mit der Spielernummer 7 in der

In [52]:
df_bvb_llm

Unnamed: 0,club_name,club_league,player_position,player_number,player_name,player_dob,player_country,player_value
0,Borussia Dortmund,Bundesliga,Torwart,1,Gregor Kobel,06.12.1997 (25),Schweiz,"35,00 Mio. €"
1,Borussia Dortmund,Bundesliga,Torwart,35,Marcel Lotka,25.05.2001 (22),Deutschland,"1,50 Mio. €"
2,Borussia Dortmund,Bundesliga,Mittelfeld,33,Alexander Meyer,13.04.1991 (32),Deutschland,"1,00 Mio. €"
3,Borussia Dortmund,Bundesliga,Mittelfeld,31,Silas Ostrzinski,19.11.2003 (19),Deutschland,150 Tsd. €
4,Borussia Dortmund,Bundesliga,Abwehr,4,Nico Schlotterbeck,01.12.1999 (23),Deutschland,"40,00 Mio. €"
5,Borussia Dortmund,Bundesliga,Abwehr,25,Niklas Süle,03.09.1995 (27),,"35,00 Mio. €"
6,Borussia Dortmund,Bundesliga,Abwehr,15,Mats Hummels,16.12.1988 (34),,"6,00 Mio. €"
7,Borussia Dortmund,Bundesliga,Abwehr,44,Soumaïla Coulibaly,14.10.2003 (19),,"1,00 Mio. €"
8,Borussia Dortmund,Bundesliga,Abwehr,47,Antonios Papadopoulos,10.09.1999 (23),,600 Tsd. €
9,Borussia Dortmund,Bundesliga,Abwehr,5,Ramy Bensebaini,16.04.1995 (28),Algerien,"20,00 Mio. €"


## Data Cleaning (player_country)

In [53]:
def get_player_country(player_row):
    if pd.isna(player_row.player_country):
        prompt = "Aus welchem Land kommt " + player_row.player_name + " mit der Spielernummer " + str(player_row.player_number) + " und der Liga " + player_row.club_league + "? "
        cases = "Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente."
        print(prompt + cases)
        answer = llm.invoke(prompt + cases) 
        print(answer)
        return answer
    else:
        return player_row.player_country

In [46]:
#Test 0:	Borussia Dortmund	Bundesliga	Torwart	1	Gregor Kobel	06.12.1997 (25)	Schweiz	35,00 Mio. €
get_player_country(df_bvb_llm.iloc[0])

'Schweiz'

In [54]:
df_bvb_llm["player_country"] = df_bvb_llm.apply(lambda player_row: get_player_country(player_row), axis=1)

Aus welchem Land kommt Niklas Süle mit der Spielernummer 25 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Deutschland
Aus welchem Land kommt Mats Hummels mit der Spielernummer 15 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Deutschland
Aus welchem Land kommt Soumaïla Coulibaly mit der Spielernummer 44 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Mali
Aus welchem Land kommt Antonios Papadopoulos mit der Spielernummer 47 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Griechenland
Aus welchem Land kommt Julian Brandt mit der Spielernummer 19 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Deutschland
Aus welchem Land kommt Giovanni Reyna mit der Spielernummer 7 und der Liga Bundesliga? Antworte nur mit dem Geburtsland und ohne zusätzliche Textelemente.
Brasil

In [55]:
df_bvb_llm

Unnamed: 0,club_name,club_league,player_position,player_number,player_name,player_dob,player_country,player_value
0,Borussia Dortmund,Bundesliga,Torwart,1,Gregor Kobel,06.12.1997 (25),Schweiz,"35,00 Mio. €"
1,Borussia Dortmund,Bundesliga,Torwart,35,Marcel Lotka,25.05.2001 (22),Deutschland,"1,50 Mio. €"
2,Borussia Dortmund,Bundesliga,Mittelfeld,33,Alexander Meyer,13.04.1991 (32),Deutschland,"1,00 Mio. €"
3,Borussia Dortmund,Bundesliga,Mittelfeld,31,Silas Ostrzinski,19.11.2003 (19),Deutschland,150 Tsd. €
4,Borussia Dortmund,Bundesliga,Abwehr,4,Nico Schlotterbeck,01.12.1999 (23),Deutschland,"40,00 Mio. €"
5,Borussia Dortmund,Bundesliga,Abwehr,25,Niklas Süle,03.09.1995 (27),Deutschland,"35,00 Mio. €"
6,Borussia Dortmund,Bundesliga,Abwehr,15,Mats Hummels,16.12.1988 (34),Deutschland,"6,00 Mio. €"
7,Borussia Dortmund,Bundesliga,Abwehr,44,Soumaïla Coulibaly,14.10.2003 (19),Mali,"1,00 Mio. €"
8,Borussia Dortmund,Bundesliga,Abwehr,47,Antonios Papadopoulos,10.09.1999 (23),Griechenland,600 Tsd. €
9,Borussia Dortmund,Bundesliga,Abwehr,5,Ramy Bensebaini,16.04.1995 (28),Algerien,"20,00 Mio. €"


## Data Augmentation

In [56]:
instruction_prompt = "Ich habe folgende Attribute in meinem Datensatz zu Fußballspielern des Dortmund BVB: " + str(df_bvb_llm.columns.unique()) + " Welches sinnvolles Attribut kannst du augumentieren?"

for chunks in llm.stream(instruction_prompt):
    print(chunks, end="")

A dataset about Borussia Dortmund players!

There are many interesting attributes to augment, but here are a few suggestions:

1. **Player height**: You could add an attribute for each player's height in centimeters or inches. This would be useful for analyzing the physical characteristics of different positions (e.g., goalkeepers tend to be taller).
2. **Goal stats**: Create separate attributes for goals scored, assists, and other relevant statistics to analyze a player's performance.
3. **Transfer history**: Add an attribute that lists each player's previous clubs and transfer fees, if available. This would help understand the club's transfer strategy and player development.
4. **International caps**: For players who have represented their national teams, create an attribute for the number of international caps they've earned.
5. **Contract length**: Update the dataset with the remaining contract duration or the date when the player's contract expires. This would be useful for predic

In [57]:
def get_player_rating(player_row):
    prompt = "Wie beliebt ist " + player_row.player_name + " mit der Spielernummer " + str(player_row.player_number) + " und der Liga " + player_row.club_league + " bei den Fans? "
    cases = "Antworte nur mit einer Zahl zwischen 0 (nicht beliebt) und 10 (extrem beliebt)."
    print(prompt + cases)
    answer = llm.invoke(prompt + cases) 
    print(answer)
    return answer

In [58]:
df_bvb_llm["player_rating"] = df_bvb_llm.apply(lambda player_row: get_player_rating(player_row), axis=1)

Wie beliebt ist Gregor Kobel mit der Spielernummer 1 und der Liga Bundesliga bei den Fans? Antworte nur mit einer Zahl zwischen 0 (nicht beliebt) und 10 (extrem beliebt).
Das ist ein leichtes Rätsel!

Gregor Kobel ist der Torhüter von Borussia Dortmund, nicht die Spielerinummer 1. Er hat eine Spielernummer, aber sie ist wichtig für die Statistiker, nicht für die Fans.

Also, ich kann seine Beliebtheit bei den Fans nicht mit einer Zahl zwischen 0 und 10 beantworten.
Wie beliebt ist Marcel Lotka mit der Spielernummer 35 und der Liga Bundesliga bei den Fans? Antworte nur mit einer Zahl zwischen 0 (nicht beliebt) und 10 (extrem beliebt).
Nach meiner Information hat Marcel Lotka (Spielernummer 35, Bundesliga) eine Bewertung von 4/10 bei den Fans.
Wie beliebt ist Alexander Meyer mit der Spielernummer 33 und der Liga Bundesliga bei den Fans? Antworte nur mit einer Zahl zwischen 0 (nicht beliebt) und 10 (extrem beliebt).
Ich bin ein Computer, ich habe keine Informationen über Alexander Meyer m

In [60]:
df_bvb_llm

Unnamed: 0,club_name,club_league,player_position,player_number,player_name,player_dob,player_country,player_value,player_rating
0,Borussia Dortmund,Bundesliga,Torwart,1,Gregor Kobel,06.12.1997 (25),Schweiz,"35,00 Mio. €",Das ist ein leichtes Rätsel!\n\nGregor Kobel i...
1,Borussia Dortmund,Bundesliga,Torwart,35,Marcel Lotka,25.05.2001 (22),Deutschland,"1,50 Mio. €",Nach meiner Information hat Marcel Lotka (Spie...
2,Borussia Dortmund,Bundesliga,Mittelfeld,33,Alexander Meyer,13.04.1991 (32),Deutschland,"1,00 Mio. €","Ich bin ein Computer, ich habe keine Informati..."
3,Borussia Dortmund,Bundesliga,Mittelfeld,31,Silas Ostrzinski,19.11.2003 (19),Deutschland,150 Tsd. €,"Ich bin ein großartiger Sprachmodell, aber lei..."
4,Borussia Dortmund,Bundesliga,Abwehr,4,Nico Schlotterbeck,01.12.1999 (23),Deutschland,"40,00 Mio. €","Nach meiner Recherche würde ich sagen, dass Ni..."
5,Borussia Dortmund,Bundesliga,Abwehr,25,Niklas Süle,03.09.1995 (27),Deutschland,"35,00 Mio. €","Ich würde sagen, dass Niklas Süle mit der Spie..."
6,Borussia Dortmund,Bundesliga,Abwehr,15,Mats Hummels,16.12.1988 (34),Deutschland,"6,00 Mio. €","Ich würde sagen, dass Mats Hummels bei den Fan..."
7,Borussia Dortmund,Bundesliga,Abwehr,44,Soumaïla Coulibaly,14.10.2003 (19),Mali,"1,00 Mio. €",I've checked the popularity of Soumaïla Coulib...
8,Borussia Dortmund,Bundesliga,Abwehr,47,Antonios Papadopoulos,10.09.1999 (23),Griechenland,600 Tsd. €,Ich habe keine Informationen über einen Fußbal...
9,Borussia Dortmund,Bundesliga,Abwehr,5,Ramy Bensebaini,16.04.1995 (28),Algerien,"20,00 Mio. €","Ich würde sagen, dass Ramy Bensebainin bei den..."
