# USW-AI-Projekt: Einfluss sozialer Medien auf Aktienkurse
## CRISP-DM Struktur
---

### 1. Business Understanding
- Ziel: Zusammenhang zwischen Twitter-Stimmung und Aktienkursentwicklung untersuchen
- Zielgruppe: Finanzanalysten, Anleger
- Fragestellung: Kann man Kursbewegungen durch Stimmung erklären oder sogar vorhersagen?

### 2. Data Understanding
- Datenquellen: Twitter API v2, yfinance
- Zeitraum: z. B. letzte 3–6 Monate
- Unternehmen: z. B. SAP, Siemens, BMW

- Daten vorbereiten & alle nötigen Libaries laden


In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as stat

%matplotlib inline
sns.set()

# To avoid Warning message inbetween ...
import warnings
warnings.filterwarnings('ignore')

### 3. Data Preparation
- Dataset laden
- Hier werden die .csv-Dateien geladen:
- Tweets.csv enthält Tweets über Tesla (z. B. Datum, Text, Sentiment)

In [6]:
import pandas as pd

company_tweet = pd.read_csv("../Datasets/raw/tweets_top_companies/Company_Tweet.csv")
tweet         = pd.read_csv("../Datasets/raw/tweets_top_companies/Tweet.csv")
company       = pd.read_csv("../Datasets/raw/tweets_top_companies/Company.csv")
company_value = pd.read_csv("../Datasets/raw/company_values/CompanyValues.csv")


### 4. Merge Data
- Daten zusammenführen
- Jetzt sind für jeden Tag Kursdaten + Durchschnittssentiment in einer gemeinsamen Tabelle

In [None]:
# Merge beider Datensätze anhand des Datums
merged_df = pd.merge(stock_df, daily_sentiment, on='Date', how='inner')

### 5. Korrelation berechnen
- Korrelation zeigt, ob positive Tweets mit steigenden Kursen einhergehen (+1 = stark positiv)

In [None]:
correlation = merged_df[['Avg_Sentiment', 'Close']].corr()
print("📊 Korrelation zwischen Sentiment und Schlusskurs:")
print(correlation)

### 6.Visualisierung

Die Entwicklung des Aktienkurses von Tesla (Close-Preis)
Den durchschnittlichen Sentiment-Wert pro Tag (z. B. aus Twitter-Daten)

In [None]:
import matplotlib.pyplot as plt

# x-Achse = Datum, y-Achse = Schlusskurs (Close) der Tesla-Aktie, durchschnittliches Sentiment pro Tag (multipliziert mit 100, um auf ähnlicher Skala wie Aktienkurs sichtbar zu sein)
plt.figure(figsize=(12,5)) # Diagramm mit einer Größe von 12 x 5
plt.plot(merged_df['Date'], merged_df['Close'], label='Schlusskurs', color='blue')
plt.plot(merged_df['Date'], merged_df['Avg_Sentiment'] * 100, label='Sentiment (x100)', color='orange')

plt.legend()
plt.title("Tesla: Sentiment vs. Aktienkurs")
plt.xlabel("Datum")
plt.ylabel("Wert")
plt.grid(True)
plt.show()


📌 Zeigt die Verteilung der Sentiment-Scores (z. B. wie viele Tweets sind stark negativ, positiv oder neutral).

In [None]:
column_distplot(tweet_df, column_name="afinn_score", bins=10)
column_distplot(tweet_df, column_name="vander_score", bins=10)


🔹 2. Liniendiagramm: Sentiment vs. Aktienkurs über Zeit

📌 Visualisiert zeitlich: Wann starke positive oder negative Tweets auftraten und wie sich der Aktienkurs parallel dazu veränderte.



In [None]:
def sentiment_overtime(tweet_df, stock_df, title, score_column_name="score"):
    fig = plt.figure(figsize=(24,10))
    ax1 = fig.add_subplot()
    ax2 = ax1.twinx()

    # Sentiment (Vader oder Afinn)
    ax1.vlines(tweet_df['day_date'], 0, tweet_df[score_column_name])
    ax1.axhline(y=0, color='r', linestyle='-')

    # Aktienkurs (Close)
    ax2.plot(stock_df['day_date'], stock_df['close_value'], color='orange', label='Stock price')

    ax2.set_title("Effects of " + title +" tweets to stock price")
    ax1.set_xlabel('Datum')
    ax1.set_ylabel('Sentiment Score', color="blue")
    plt.show()
