# USW-AI-Projekt: Einfluss sozialer Medien auf Aktienkurse
## CRISP-DM Struktur
---

### 1. Business Understanding
- Ziel: Zusammenhang zwischen Twitter-Stimmung und Aktienkursentwicklung untersuchen
- Zielgruppe: Finanzanalysten, Anleger
- Fragestellung: Kann man Kursbewegungen durch Stimmung erklÃ¤ren oder sogar vorhersagen?

### 2. Data Understanding
- Datenquellen: Twitter API v2, yfinance
- Zeitraum: z.â€¯B. letzte 3â€“6 Monate
- Unternehmen: z.â€¯B. SAP, Siemens, BMW

- Daten vorbereiten & alle nÃ¶tigen Libaries laden


In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as stat

%matplotlib inline
sns.set()

# To avoid Warning message inbetween ...
import warnings
warnings.filterwarnings('ignore')

### 3. Data Preparation
- Dataset laden
- Hier werden die .csv-Dateien geladen:
- Tweets.csv enthÃ¤lt Tweets Ã¼ber Tesla (z.â€¯B. Datum, Text, Sentiment)

In [5]:
import pandas as pd

company_tweet = pd.read_csv("../Datasets/raw/tweets_top_companies/Company_Tweet.csv")
tweet         = pd.read_csv("../Datasets/raw/tweets_top_companies/Tweet.csv")
company       = pd.read_csv("../Datasets/raw/tweets_top_companies/Company.csv")
company_value = pd.read_csv("../Datasets/raw/company_values/CompanyValues.csv")


### 4. Merge Data
- Daten zusammenfÃ¼hren
- Jetzt sind fÃ¼r jeden Tag Kursdaten + Durchschnittssentiment in einer gemeinsamen Tabelle

In [20]:
# 4. Merge Data
# Ziel: Kursdaten und durchschnittliches Twitter-Sentiment pro Tag zusammenfÃ¼hren

# Datumsspalten in datetime-Format umwandeln
company_value['day_date'] = pd.to_datetime(company_value['day_date'])
tweet['post_date'] = pd.to_datetime(tweet['post_date'])

# Schritt 1: Sentiment berechnen mit VADER
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

analyzer = SentimentIntensityAnalyzer()
tweet['sentiment_score'] = tweet['body'].apply(lambda x: analyzer.polarity_scores(str(x))['compound'])

# Schritt 2: Ã˜-Sentiment pro Tag berechnen
daily_sentiment = tweet.copy()
daily_sentiment['Date'] = daily_sentiment['post_date'].dt.date
daily_sentiment = daily_sentiment.groupby('Date')['sentiment_score'].mean().reset_index()
daily_sentiment['Date'] = pd.to_datetime(daily_sentiment['Date'])

# Schritt 3: Merge mit Kursdaten
merged_df = pd.merge(company_value, daily_sentiment, left_on='day_date', right_on='Date', how='inner')

# Ergebnis anzeigen
merged_df.head()


Unnamed: 0,ticker_symbol,day_date,close_value,volume,open_value,high_value,low_value,Date,sentiment_score


### 5. Korrelation berechnen
- Korrelation zeigt, ob positive Tweets mit steigenden Kursen einhergehen (+1 = stark positiv)

In [18]:
print(merged_df[['sentiment_score', 'close_value']].isnull().sum())


sentiment_score    0
close_value        0
dtype: int64


In [15]:
correlation = merged_df[['sentiment_score', 'close_value']].corr()
print("ðŸ“Š Korrelation zwischen Sentiment und Schlusskurs:")
print(correlation)

ðŸ“Š Korrelation zwischen Sentiment und Schlusskurs:
                 sentiment_score  close_value
sentiment_score              NaN          NaN
close_value                  NaN          NaN


### 6.Visualisierung

Die Entwicklung des Aktienkurses von Tesla (Close-Preis)
Den durchschnittlichen Sentiment-Wert pro Tag (z.â€¯B. aus Twitter-Daten)

In [None]:
import matplotlib.pyplot as plt

# x-Achse = Datum, y-Achse = Schlusskurs (Close) der Tesla-Aktie, durchschnittliches Sentiment pro Tag (multipliziert mit 100, um auf Ã¤hnlicher Skala wie Aktienkurs sichtbar zu sein)
plt.figure(figsize=(12,5)) # Diagramm mit einer GrÃ¶ÃŸe von 12 x 5
plt.plot(merged_df['Date'], merged_df['Close'], label='Schlusskurs', color='blue')
plt.plot(merged_df['Date'], merged_df['Avg_Sentiment'] * 100, label='Sentiment (x100)', color='orange')

plt.legend()
plt.title("Tesla: Sentiment vs. Aktienkurs")
plt.xlabel("Datum")
plt.ylabel("Wert")
plt.grid(True)
plt.show()


ðŸ“Œ Zeigt die Verteilung der Sentiment-Scores (z.â€¯B. wie viele Tweets sind stark negativ, positiv oder neutral).

In [None]:
column_distplot(tweet_df, column_name="afinn_score", bins=10)
column_distplot(tweet_df, column_name="vander_score", bins=10)


ðŸ”¹ 2. Liniendiagramm: Sentiment vs. Aktienkurs Ã¼ber Zeit

ðŸ“Œ Visualisiert zeitlich: Wann starke positive oder negative Tweets auftraten und wie sich der Aktienkurs parallel dazu verÃ¤nderte.



In [None]:
def sentiment_overtime(tweet_df, stock_df, title, score_column_name="score"):
    fig = plt.figure(figsize=(24,10))
    ax1 = fig.add_subplot()
    ax2 = ax1.twinx()

    # Sentiment (Vader oder Afinn)
    ax1.vlines(tweet_df['day_date'], 0, tweet_df[score_column_name])
    ax1.axhline(y=0, color='r', linestyle='-')

    # Aktienkurs (Close)
    ax2.plot(stock_df['day_date'], stock_df['close_value'], color='orange', label='Stock price')

    ax2.set_title("Effects of " + title +" tweets to stock price")
    ax1.set_xlabel('Datum')
    ax1.set_ylabel('Sentiment Score', color="blue")
    plt.show()
