In [None]:
#Innstallerer pakker som er nødvendige

pip install vaderSentiment
pip install nltk
import pandas as pd
import numpy as np
from textblob import TextBlob
import re
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from nltk.tokenize import sent_tokenize, word_tokenize

In [None]:
#Laster inn datasettet for et av selskapene som er blitt filtrert i R
#Filtrert på artikler som er utgitt utenfor børsens åpningstid og kun omhandler et selskap

AmazonR = pd.read_csv(r"/Users/joakimlarsen/Documents/MasterOppgave/Amazon/Amazon_Ferdig.csv")

In [None]:
AmazonR.shape

In [None]:
#Ser hvordan datasettet ser ut

AmazonR.head(3)

In [None]:
#Laster inn datasettet med selskapets aksjepriser, hentet fra Yahoo Finance direkte i Python

AmazonAksje = pd.read_csv(r"/Users/joakimlarsen/Documents/MasterOppgave/Amazon/AmazonPrice_Label.csv")

In [None]:
AmazonAksje.shape

In [None]:
#Ser hvordan datasettet ser ut

AmazonAksje.head(3)

In [None]:
#Merger datasettene på dato

merge = AmazonR.merge(AmazonAksje, how = "inner", on = "Date")

In [None]:
#Importerer og laster inn stopword funksjon fra NLTK

import nltk

from nltk.corpus import stopwords
stop = stopwords.words('english')

In [None]:
#Lager en ny kolonne i "merge" etter at stopword har blitt innført på artikkel innholdet

merge['article_content_without_stopwords'] = merge['article_content'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))

In [None]:
#Importer PorterStemmer fra NLTK

from nltk.stem import PorterStemmer

port = PorterStemmer()

In [None]:
#Lager en funksjon som tar PorterStemming på artikkel innholdet etter stopword
#Lager en ny kolonne som har dette innholdet

def stem_words(article_content_without_stopwords):
    return " ".join([port.stem(word) for word in article_content_without_stopwords.split()])

merge["EtterStemming"] = merge["article_content_without_stopwords"].apply(lambda article_content_without_stopwords: stem_words(article_content_without_stopwords))
merge.head()

In [None]:
#Lager en funksjon som fanger opp subjektivitet
def getSubjectivity(text):
    return TextBlob(text).sentiment.subjectivity

#Lager en funksjon som fanger opp polaritet
def getPolarity(text):
    return TextBlob(text).sentiment.polarity

In [None]:
#Lager to nye kolonner som heter "Subjectivity" og "Polarity"

merge["Subjectivity"] = merge["EtterStemming"].apply(getSubjectivity)
merge["Polarity"] = merge["EtterStemming"].apply(getPolarity)

In [None]:
#Lager en funksjon som finner sentiment scoren
def getSIA(article_content):
    sia = SentimentIntensityAnalyzer()
    sentiment = sia.polarity_scores(article_content)
    return sentiment

In [None]:
#Laster inn leksikonet fra Vader

nltk.download("vader_lexicon")

In [None]:
#Henter tak i sentiment scorene for hver dag

compound = []
neg = []
pos = []
neu = []
SIA = 0

for i in range(0, len(merge["article_content"])):
    SIA = getSIA(merge["article_content"][i])
    compound.append(SIA["compound"])
    neg.append(SIA["neg"])
    neu.append(SIA["neu"])
    pos.append(SIA["pos"])

In [None]:
#Lager kolonner i datasettet "merge" slik at alle er samlet

merge["Compound"] = compound
merge["Negative"] = neg
merge["Neutral"] = neu
merge["Positive"] = pos

In [None]:
#Viser datasettet "merge"

merge.head(3)

In [None]:
#Beholder nødvendige kolonner

keep_columns = ["Open", "Low", "High", "Date", "Close", "Volume", "Subjectivity", "Polarity", "Compound", "Negative", "Neutral", "Positive", "Label"]
df = merge[keep_columns]
df

In [None]:
#Gjør datasettet om til en csv fil

df.to_csv("AmazonFørTrening.csv")

In [None]:
#Filtrerer datasettet i R til train og test sett, der 80% er train og 20% er test.
#For KNN var det 80% train, 10% validering og 10% testsett.
#Setter sammen alle selskapene innenfor de forskjellige sektorene til en fil.
#Laster inn test settet innenfor sektoren

TeknologiTest = pd.read_csv(r"/Users/joakimlarsen/Documents/MasterOppgave/6 Big/TestTeknologiVader.csv")

In [None]:
TeknologiTest.shape

In [None]:
#Ser hvordan datasetter ser ut

TeknologiTest.head(3)

In [None]:
#Laster inn treningssettet for sektoren

TeknologiTrain = pd.read_csv(r"/Users/joakimlarsen/Documents/MasterOppgave/6 Big/TrainTeknologiVader.csv")

In [None]:
TeknologiTrain.shape

In [None]:
#Ser hvordan datasettet ser ut

TeknologiTrain.head(3)

In [None]:
#Laster inn valideringssett for sektoren (Bare for KNN)

TeknologiValidering = pd.read_csv(r"/Users/joakimlarsen/Documents/MasterOppgave/6 Big/ValideringTeknologiVader.csv")

In [None]:
#Lager en liste hvor man bare beholder de kolonnene som er viktige
#For Vader blir det disse:

keep_columns1 = ["Open", "Low", "High", "Volume","Close", "Compound", "Negative", "Neutral", "Positive", "Label"]
df1 = TeknologiTest[keep_columns1]
df1

#For TextBlob blir det disse:

keep_columns1 = ["Open", "Low", "High", "Volume","Close", "Subjectivity", "Polarity", "Label"]
df1 = TeknologiTest[keep_columns1]
df1

In [None]:
#Lager en liste for datasettet som bare inneholder parameterne som sier noe om sentiment scoren

X = df1
X = np.array(X.drop(["Label", "Open", "Low", "High", "Close", "Volume"], 1))

#Lager liste for om det faktisk er oppgang eller nedgang
y = np.array(df1["Label"])

In [None]:
#Ser hvordan listen ser ut

X

In [None]:
#Ser hvordan listen ser ut

y

In [None]:
#Kaller X for testsettet vårt

x_test = X

In [None]:
#Sjekker lengden på settet

len(x_test)

In [None]:
#Kaller y for y_test slik at det stemmer med testsettet vårt

y_test = y

In [None]:
#Sjekker lengden på settet

len(y_test)

In [None]:
#Lager en liste hvor man bare beholder de kolonnene som er viktige
#For Vader blir det disse:

keep_columns2 = ["Open", "Low", "High", "Volume", "Close", "Compound", "Negative", "Neutral", "Positive", "Label"]
df2 = TeknologiTrain[keep_columns2]
df2

#For TextBlob blir det disse:

keep_columns1 = ["Open", "Low", "High", "Volume","Close", "Subjectivity", "Polarity", "Label"]
df2 = TeknologiTrain[keep_columns2]
df2

In [None]:
#Lager en liste for datasettet som bare inneholder parameterne som sier noe om sentiment scoren

X1 = df2
X1 = np.array(X1.drop(["Label", "Open", "Low", "High", "Close", "Volume"], 1))

#Lager liste for om det faktisk er oppgang eller nedgang

y1 = np.array(df2["Label"])

In [None]:
#Ser hvordan listen ser ut

X1

In [None]:
#Ser hvordan listen ser ut

y1

In [None]:
#Kaller X1 for treningssettet vårt

x_train = X1

In [None]:
#Sjekker lengden på settet

len(x_train)

In [None]:
#Kaller y1 for y_train slik at det stemmer med treningssettet vårt

y_train = y1

In [None]:
#Sjekker lengden på settet

len(y_train)

In [None]:
#Lager en liste hvor man bare beholder de kolonnene som er viktige
#For Vader blir det disse:

keep_columns3 = ["Open", "Low", "High", "Volume", "Close", "Compound", "Negative", "Neutral", "Positive", "Label"]
df3 = TeknologiValidering[keep_columns3]
df3

#For TextBlob blir det disse:

keep_columns3 = ["Open", "Low", "High", "Volume","Close", "Subjectivity", "Polarity", "Label"]
df3 = TeknologiValidering[keep_columns3]
df3

In [None]:
#Lager en liste for datasettet som bare inneholder parameterne som sier noe om sentiment scoren

X2 = df3
X2 = np.array(X2.drop(["Label", "Open", "Low", "High", "Close", "Volume"], 1))

#Lager liste for om det faktisk er oppgang eller nedgang

y2 = np.array(df3["Label"])

In [None]:
#Ser hvordan listen ser ut

X2

In [None]:
#Ser hvordan listen ser ut

y2

In [None]:
#Kaller X2 for valideringssettet vårt

x_validering = X2

In [None]:
#Sjekker lengden på settet

len(x_validering)

In [None]:
#Kaller y2 for y_validering

y_validering = y2

In [None]:
#Sjekker lengden på settet

len(y_validering)

In [None]:
#Lager en liste som inneholder begge listene vi lagde

frame = [df1, df2]

In [None]:
#Ser hvordan settet ser ut

result = pd.concat(frame)
result.shape

In [None]:
#Importerer pakker som trengs for å kjøre deskriptiv statistikk

import statistics
from scipy.stats import skew
from scipy.stats import norm, kurtosis

In [None]:
#Får frem mesteparten av den deskriptive statistikken som trengs

result.describe(include = "all")

In [None]:
#Finner medianen på de forskjellige parameterne

statistics.median(result[" "])

In [None]:
#Finner skjevheten på de forskjellige parameterne

skew(result[" "])

In [None]:
#Finner kurtosen på de forskjellige parameterne

kurtosis(result[" "])

In [None]:
#Lager og trener modell for LDA

model = LinearDiscriminantAnalysis().fit(x_train, y_train)

In [None]:
#Viser prediksjonene til modellen

predictions = model.predict(x_test)
predictions

In [None]:
#Viser om det faktisk er oppgang eller nedgang

y_test

In [None]:
#Viser modellen sine beregninger

print( classification_report(y_test, predictions))

In [None]:
#Sjekker sannsynligheten for oppgang og nedgang

Linear = model.predict_proba(x_test)
Linear

In [None]:
#Importerer pakke som er nødvendig

from sklearn import metrics

In [None]:
#Lager to kolonner som inneholder den prosentvise sjansen for oppgang og nedgang

column_values_Linear = ["Nedgang-Linear", "Oppgang-Linear"]

df6 = pd.DataFrame(data = Linear,
                  columns = column_values_Linear)

In [None]:
#Trekker ut den ene kolonnen

extracted_col_Linear = df6["Nedgang-Linear"]
extracted_col_Linear

In [None]:
#Setter den utrekte kolonnen sammen med datasettet, det samme blir gjort for oppgang

df1 = df1.join(extracted_col_Linear)
df1

In [None]:
#Lager og trener modell for Naive Bayes Gaussian

from sklearn.naive_bayes import GaussianNB
modelNB = GaussianNB()

In [None]:
#Trener modellen

modelNB.fit(x_train, y_train)

In [None]:
#Treffsikkerhet for modellen

modelNB.score(x_test, y_test)

In [None]:
#Viser prediksjonene til modellen

predictions1 = modelNB.predict(x_test)
predictions1

In [None]:
#Viser modellen sine beregninger

print( classification_report(y_test, predictions1))

In [None]:
#Sjekker sannsynligheten for oppgang og nedgang

Bayes = modelNB.predict_proba(x_test)
Bayes

In [None]:
#Lager kolonner for oppgang og nedgang slik som vist under LDA

In [None]:
#Lager og trener modell for KNN
#Bruker antall naboer etter best optimalisering fra valideringssett

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 9)
knn.fit(x_train, y_train)

In [None]:
#Treffsikkerhet for modellen

knn_score = knn.score(x_test, y_test)
print("Results for KNN Classifier:")
print(knn_score)

In [None]:
#Viser modellen sine beregninger

from sklearn.metrics import confusion_matrix
cm_knn = confusion_matrix(y_test, y_pred_knn)

In [None]:
#Viser true negative, false positive, false negative og true positive for modellen

tn, fp, fn, tp = confusion_matrix(y_test, y_pred_knn).ravel()
print(tn, fp, fn, tp)

In [None]:
#Finner true positive og true negative som prosent

tpr_knn = round(tp/(tp + fn), 4)
tnr_knn = round(tn/(tn + fp), 4)
print(tpr_knn, tnr_knn)

In [None]:
#Sjekker sannsynligheten for oppgang og nedgang

KNN = knn.predict_proba(x_test)

In [None]:
#Finner prediksjonen for modellen

predictions_KNN = knn.predict(x_test)
predictions_KNN

In [None]:
#Viser beregningene til modellen

print( classification_report(y_test, predictions_KNN))

In [None]:
#Lager egne kolonner for oppgang og nedgang som under LDA og Naive Bayes

In [None]:
#Innstallerer pakker som er nødvendig

from sklearn import svm

In [None]:
#Lager og trener modellen for Support Vector Machine

cls1 = svm.LinearSVC()
cls1.fit(x_train, y_train)

In [None]:
#Viser prediksjonen til modellen

predSVC1 = cls1.predict(x_test)
predSVC1

In [None]:
#Viser beregningene til modellen

print( classification_report(y_test, predSVC1))

In [None]:
#Sjekker sannsynligheten for oppgang og nedgang

Support = cls1._predict_proba_lr(x_test)
Support

In [None]:
#Lager egne kolonner for oppgang og nedgang slik som under de foregående klassifikatorene

In [None]:
#Importerer pakker som er nødvendig

from sklearn.tree import DecisionTreeClassifier, plot_tree

In [None]:
#Lager og trener modellen

tree1 = DecisionTreeClassifier(max_depth = 4)
tree1 = tree1.fit(x_train, y_train)

In [None]:
#Viser informasjon om treet

tree1.get_params()

In [None]:
#Viser prediksjonen til modellen

predictionsTree = tree1.predict(x_test)
predictionsTree

In [None]:
#Viser prediksjonen til modellen i prosent

Tree2 = tree1.predict_proba(x_test)
Tree2

In [None]:
#Viser beregningene til modellen

from sklearn.metrics import classification_report
print(classification_report(y_test, predictionsTree))

In [None]:
#Fjerner de parameterne som ikke er nødvendige for modellen

feature_names3 = df1.columns.drop(["Open", "Low", "High", "Volume", "Close", "Label", "Nedgang-Bayes", "Oppgang-Bayes", "Nedgang-KNN", "Oppgang-KNN", "Nedgang-Linear", "Oppgang-Linear", "Nedgang-Support", "Oppgang-Support", "Nedgang-Tree", "Oppgang-Tree"], 1)
feature_names3

In [None]:
#Viser prosentvis viktighet for hver av parameterne som er igjen

tree1.feature_importances_

In [None]:
#Viser det i tabellform

feature_importance = pd.DataFrame(tree1.feature_importances_, index = feature_names3)
feature_importance

In [None]:
#Viser det grafisk

feature_importance.head(10).plot(kind = "bar")

In [None]:
#Lager et decision tree som viser oss valgene og om det er nedgang eller oppgang

from sklearn import tree
from matplotlib import pyplot as plt

fig = plt.figure(figsize = (35,30))
_ = tree.plot_tree(tree1,
                   feature_names = feature_names3,
                   class_names = {0: "Nedgang", 1: "Oppgang"},
                   filled = True,
                   fontsize = 12)

In [None]:
#Lager egne kolonner for oppgang og nedgang slik som under de foregående klassifikatorene

In [None]:
#Gjør hele datasettet om til en csv fil før vi gjennomfører en trading strategi ved hjelp av excel