# Avsluttende programmerings prosjekt ProgMod
## Problemstillingen
* Hvordan kan vi bruke programmering til å modellere og simulere kunstig intelligens? 
* Hvilke faktorer påvirker læring, beslutningstaking og etikk? 
* Hvilke begrensninger har modellene dine, og drøft hva de forteller oss om kunstig intelligens

## Introduksjon til kunstig inteligens
Oxford ordboken definerer kunstig intelligens som “utviklingen av datasystemer i stand til å utføre oppgaver som normalt krever menneskelig intelligens, for eksempel visuell persepsjon, talegjenkjenning, beslutningstaking og oversettelse mellom språk”. Men flere av disse vanlige algoritmene og programmene klarer også å utføre disse oppgavene. Så hva er det som skiller kunstig intelligens fra vanlige datasystemer? Den store forskjellen mellom kunstig intelligens og vanlige programmer er at i vanlig programmering må vi finne mønstrene selv og programmere et system som bruker mønsteret. Med kunstig intelligens skjer utviklingen på en grunnleggende annen måte. Istedenfor å fortelle programmet nøyaktig hva det skal gjøre, gir vi det et datasett, og programmet finner mønstre selv. Ofte kan dette være mer effektivt enn den “gamle måten”, men det kan også ha ulemper, for eksempel ved å finne mønstre som ikke er relevante. Det kan også være partisk hvis datasettet ikke er representativt, og mønstrene AIen finner er derfor ikke representative. Et eksempel på dette er Amazons AI som hjalp dem med ansettelse. Den var partisk fordi den var basert på tidligere CV-er de hadde mottatt som da var mannsdominerte. Programmet anbefalte derfor menn oftere enn kvinner.<sup>[1]</sup> Kunstig intelligens er ikke en perfekt løsning på alt, og man må være klar over hvordan man bruker det på en ansvarlig måte. Men det betyr ikke at det ikke kan være nyttig hvis man forstår begrensningene og bygger rundt dem.



## Bruk av kunstig inteligens
Det er enkelt å komme i gang med å bruke KI i dag. Et eksempel er Tensoflow. TensorFlow er et populært rammeverk for maskinlæring og dyp læring som kan brukes til å bygge og trene modeller for ulike formål. For eksempel kan du bruke TensorFlow til å bygge en modell som kan klassifisere bilder av hunder og katter. TensorFlow har også mange ressurser og dokumentasjon tilgjengelig på nettet som kan hjelpe deg med å komme i gang. Under kan du se et eksempel som bruker Tensoflow på et enkelt datasett.

In [35]:
import numpy as np

def map_string_to_number(s):
    # Define your custom mapping from strings to numbers here
    if s == 'Adelie' or s == 'MALE':
        return float(0)
    elif s == 'Chinstrap' or s == 'FEMALE':
        return float(1)
    elif s == 'Gentoo':
        return float(2)
    else:
        return 3

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# Load the iris dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target



#print(iris)
# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Create a decision tree classifier
clf = DecisionTreeClassifier()

# Train the classifier on the training data
clf.fit(X_train, y_train)

# Make predictions on the test data
y_pred = clf.predict(X_test)

# Calculate the accuracy of the model
accuracy = clf.score(X_test, y_test)
print(f'Accuracy: {accuracy}')


In [None]:
import tensorflow as tf
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
#index,referenceTime,mean(air_temperature P1D),mean(cloud_area_fraction P1D),sum(duration_of_sunshine P1D)


# Load the data from the CSV file
data = pd.read_csv('C:\\Users\\elias\\Downloads\\vaerdata13-22.csv')#, parse_dates=['referenceTime'])
data = data.iloc[: , 1:]
data = data.iloc[: , 2:]

#data['sum(duration_of_sunshine P1D)'] = data['sum(duration_of_sunshine P1D)'].replace({'nan': '0'}, regex=True)
data.fillna(0, inplace=True)
print(data)
# Convert the referenceTime column to a numerical value
data['referenceTime'] = data['referenceTime'].apply(lambda x: x.timestamp())

#data = data.T
print(data)
# Create a StandardScaler object
scaler = StandardScaler()

# Fit the scaler on the data
scaler.fit(data)

# Transform the data using the fitted scaler
data_normalized = scaler.transform(data)

# Convert the normalized data back to a DataFrame
data = pd.DataFrame(data_normalized, columns=data.columns)



#------------------------------------


# Split the data into features and labels
#df_features = df.copy()
#df_labels = df_features.pop('referenceTime')

X = data[["referenceTime"]]
y = data[['mean(air_temperature P1D)',"mean(air_temperature P1D)", "mean(cloud_area_fraction P1D)"]]

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Create a TensorFlow model
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=[X.shape[1]]),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(3)
])

# Compile the model
model.compile(loss='mean_squared_error', optimizer='adam')

# Train the model
model.fit(X_train, y_train, epochs=10)

# Evaluate the model on the test set
loss = model.evaluate(X_test, y_test)

In [40]:
treningsandel = 0.8 # Velger 80 prosent av datasettet til trening

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn import tree
from sklearn.metrics import accuracy_score, confusion_matrix

pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels

# Velge ut data til trening og testing

ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

#print(treningskriterier)

modell = tree.DecisionTreeClassifier()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

forutsigelser = modell.predict(testkriterier)
print("Accuracy:", round(accuracy_score(testkategorier, forutsigelser), 2))

from sklearn.metrics import precision_score, recall_score, f1_score

# Assume y_test and y_pred are the true and predicted labels for the test set
precision = precision_score(testkategorier, forutsigelser, average='macro')
recall = recall_score(testkategorier, forutsigelser, average='macro')
f1 = f1_score(testkategorier, forutsigelser, average='macro')

print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')  
print(f'F1-score: {f1:.2f}')

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels

# Velge ut data til trening og testing

ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

#print(treningskriterier)

modell = RandomForestClassifier()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

forutsigelser = modell.predict(testkriterier)
print("Accuracy:", round(accuracy_score(testkategorier, forutsigelser), 2))

from sklearn.metrics import precision_score, recall_score, f1_score

# Assume y_test and y_pred are the true and predicted labels for the test set
precision = precision_score(testkategorier, forutsigelser, average='macro')
recall = recall_score(testkategorier, forutsigelser, average='macro')
f1 = f1_score(testkategorier, forutsigelser, average='macro')

print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')  
print(f'F1-score: {f1:.2f}')

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels

# Velge ut data til trening og testing
ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

#print(treningskriterier)

modell = LogisticRegression()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

forutsigelser = modell.predict(testkriterier)
print("Accuracy:", round(accuracy_score(testkategorier, forutsigelser), 2))

from sklearn.metrics import precision_score, recall_score, f1_score

# Assume y_test and y_pred are the true and predicted labels for the test set
precision = precision_score(testkategorier, forutsigelser, average='macro')
recall = recall_score(testkategorier, forutsigelser, average='macro')
f1 = f1_score(testkategorier, forutsigelser, average='macro')

print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')  
print(f'F1-score: {f1:.2f}')

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels

# Velge ut data til trening og testing
ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

#print(treningskriterier)

modell = KNeighborsClassifier()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

forutsigelser = modell.predict(testkriterier)
print("Accuracy:", round(accuracy_score(testkategorier, forutsigelser), 2))

from sklearn.metrics import precision_score, recall_score, f1_score

# Assume y_test and y_pred are the true and predicted labels for the test set
precision = precision_score(testkategorier, forutsigelser, average='macro')
recall = recall_score(testkategorier, forutsigelser, average='macro')
f1 = f1_score(testkategorier, forutsigelser, average='macro')

print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')  
print(f'F1-score: {f1:.2f}')

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix

pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels

# Velge ut data til trening og testing
ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

#print(treningskriterier)

modell = SVC()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

forutsigelser = modell.predict(testkriterier)
print("Accuracy:", round(accuracy_score(testkategorier, forutsigelser), 2))

from sklearn.metrics import precision_score, recall_score, f1_score

# Assume y_test and y_pred are the true and predicted labels for the test set
precision = precision_score(testkategorier, forutsigelser, average='macro')
recall = recall_score(testkategorier, forutsigelser, average='macro')
f1 = f1_score(testkategorier, forutsigelser, average='macro')

print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')  
print(f'F1-score: {f1:.2f}')

In [None]:
import tensorflow as tf
from tensorflow.keras import layers
pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")


model = tf.keras.Sequential()
model.add(layers.Dense(10, activation="sigmoid", input_shape=(2,)))
model.add(layers.Dense(1, activation="linear"))

kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']  
ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)
x = ml_data[0]
X_test = ml_data[1]
y = ml_data[2]
y_test = ml_data[3]

def loss(y, y_pred):
    return tf.math.reduce_mean((y-y_pred)**2)

model.compile(optimizer=tf.keras.optimizers.Adam(0.1),
              loss=loss)

model.fit(x, y, epochs=150)

In [61]:
import tensorflow as tf
from tensorflow.keras import layers
pingvindata = pd.read_csv("C:\\Users\\elias\\Documents\\GitHub_loc\\ModelleringII\\penguings.txt", delimiter = ",")

pingvindata['species'] = pingvindata['species'].map(map_string_to_number)
pingvindata['sex'] = pingvindata['sex'].map(map_string_to_number)

accuracy_list=[]



kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']
for i in range(20):  
    model = tf.keras.Sequential()
    model.add(layers.Dense(10, activation="sigmoid", input_shape=(2,)))
    model.add(layers.Dense(1, activation="linear"))
    ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)
    x = ml_data[0]
    X_test = ml_data[1]
    y = ml_data[2]
    y_test = ml_data[3]

    def loss(y, y_pred):
        return float(tf.math.reduce_mean((y-y_pred)**2))

    model.compile(optimizer=tf.keras.optimizers.Adam(0.1),
                loss=loss,
                metrics=['accuracy'])

    model.fit(x, y, epochs=1000, verbose=0)

    loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
    
    print('Accuracy:', round(accuracy, 2))
    accuracy_list.append(accuracy)

print('Average accuracy:', round(sum(accuracy_list)/len(accuracy_list),3))

Accuracy: 0.17
Accuracy: 0.17
Accuracy: 0.68
Accuracy: 0.17
Accuracy: 0.62
Accuracy: 0.17
Accuracy: 0.17
Accuracy: 0.65
Accuracy: 0.65
Accuracy: 0.68
Accuracy: 0.68
Accuracy: 0.17
Accuracy: 0.17
Accuracy: 0.17
Accuracy: 0.65
Accuracy: 0.17
Accuracy: 0.68
Accuracy: 0.17
Accuracy: 0.68
Accuracy: 0.17
Average accuracy: 0.395


## Kunstig inteligens i dag
Kunstig intelligens (KI) har blitt stadig mer utbredt i dagens samfunn og har mange bruksområder, inkludert chat-modeller. Chat-modeller er en type KI som brukes til å simulere en samtale mellom mennesker og maskiner. Disse modellene kan brukes til å automatisere kundeservice og gi raskere svar på spørsmål fra kunder.

Det er imidlertid også bekymringer knyttet til bruken av KI i chat-modeller og andre applikasjoner. For eksempel kan KI-systemer være sårbare for angrep og manipulasjon, og det kan være vanskelig å avgjøre om en samtale skjer mellom et menneske eller en maskin. Det er også bekymringer knyttet til personvern og sikkerhet når det gjelder innsamling og bruk av data i KI-systemer.

Når det gjelder ChatGPT, er dette en modell som ble utviklet av OpenAI for å simulere samtaler mellom mennesker og maskiner. Microsoft integrerte denne modellen i Bing for å gi brukerne bedre søkemotorer og anbefalingssystemer. Selv om ChatGPT har gjort det mulig for den gjennomsnittlige forbrukeren å bruke AI i det daglige livet sitt, har det også vært noen utfordringer med modellen. For eksempel var GPT-3-modellen som ChatGPT var basert på, trent på eldre data og var optimalisert for samtaleflyt og ikke nøyaktighet. Dette førte til at modellen slet med matematikk og fant opp fakta. Microsoft integrerte senere OpenAI sin GPT-3-modell i Bing for å gi brukerne bedre søkemotorer og anbefalingssystemer.


En bekymring som har kommet frem etter at chat-modeller ble populære er at forbrukere kan ha urealistiske forventninger til hva KI kan gjøre. For eksempel kan noen forbrukere tro at KI-systemer kan løse alle problemer eller gi nøyaktige svar på alle spørsmål. Dette kan føre til at forbrukere tar beslutninger basert på feilaktig informasjon eller at de blir skuffet når KI-systemer ikke fungerer som forventet. Chat-modeller er er ofte veldig selvsikre selv når de har feil, noe som kan føre til at forburkere bil villedet.

## Fotnoter
<sup id=“fn1”>[1]</sup> The Guardian

<span id="fn2"> footnote 1</span>