In [1]:
import pandas as pd
import numpy as np

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('vader_lexicon')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Daniëlla\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Daniëlla\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Daniëlla\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\Daniëlla\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Daniëlla\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

## Sentiment analyse reviews

In [3]:
# Step 1: Tokenization
def tokenize_text(text):
    tokens = word_tokenize(text)
    return tokens

# Step 2: Remove stop words
def remove_stop_words(tokens):
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
    return filtered_tokens

# Step 3: Lemmatization
def lemmatize_tokens(tokens):
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
    return lemmatized_tokens

# Step 4: Sentiment analysis
def analyze_sentiment(text):
    sia = SentimentIntensityAnalyzer()
    sentiment_scores = sia.polarity_scores(text)
    sentiment = sentiment_scores['compound']
    return sentiment

# Step 5: Preprocessing pipeline
def preprocess_text(text):
    tokens = tokenize_text(text)
    filtered_tokens = remove_stop_words(tokens)
    lemmatized_tokens = lemmatize_tokens(filtered_tokens)
    preprocessed_text = ' '.join(lemmatized_tokens)
    return preprocessed_text

# Example usage
corpus1 = ["I love this show.",
           "i love this movie, but i hate this one character.",
           "i hate this character but love this season more than the last one."]

corpus2 = ["This is the worst movie i have ever watched.",
           "This sucks ass.",
           "Everything about this movie sucks except the main character."]

preprocessed_corpus1 = [preprocess_text(text) for text in corpus1]
preprocessed_corpus2 = [preprocess_text(text) for text in corpus2]

# Tussenstappen printen
print("Tussenstappen:")
print("Original text:", corpus1[0])
tokens = tokenize_text(corpus1[0])
print("Tokens:", tokens)
filtered_tokens = remove_stop_words(tokens)
print("Tokens after removing stop words:", filtered_tokens)
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Tokens after lemmatization:", lemmatized_tokens)
preprocessed_text = preprocess_text(corpus1[0])
print("Preprocessed text:", preprocessed_text)
print()

# Analyze sentiment for corpus 1
print("Sentiment analysis for Corpus 1:")
for text in preprocessed_corpus1:
    sentiment = analyze_sentiment(text)
    if sentiment >= 0.05:
        print(f"Positive sentiment: {text}")
    elif sentiment <= -0.05:
        print(f"Negative sentiment: {text}")
    else:
        print(f"Neutral sentiment: {text}")

# Analyze sentiment for corpus 2
print("\nSentiment analysis for Corpus 2:")
for text in preprocessed_corpus2:
    sentiment = analyze_sentiment(text)
    if sentiment >= 0.05:
        print(f"Positive sentiment: {text}")
    elif sentiment <= -0.05:
        print(f"Negative sentiment: {text}")
    else:
        print(f"Neutral sentiment: {text}")


Tussenstappen:
Original text: I love this show.
Tokens: ['I', 'love', 'this', 'show', '.']
Tokens after removing stop words: ['love', 'show', '.']
Tokens after lemmatization: ['love', 'show', '.']
Preprocessed text: love show .

Sentiment analysis for Corpus 1:
Positive sentiment: love show .
Positive sentiment: love movie , hate one character .
Positive sentiment: hate character love season last one .

Sentiment analysis for Corpus 2:
Negative sentiment: worst movie ever watched .
Negative sentiment: suck as .
Negative sentiment: Everything movie suck except main character .


In [8]:
def average_sentiment(corpus):
    sentiments = [analyze_sentiment(text) for text in corpus]
    average_sentiment = sum(sentiments) / len(sentiments)
    if average_sentiment >= 0.05:
        average_sentiment = "Positive sentiment"
    elif average_sentiment <= -0.05:
        average_sentiment = "Negative sentiment"
    else:    
        average_sentiment = "Neutral sentiment"
    return average_sentiment



# average sentiment corpus 1
average_sentiment1 = average_sentiment(preprocessed_corpus1)
print("Average sentiment for Corpus 1:", average_sentiment1)


# average sentiment corpus 2
average_sentiment2 = average_sentiment(preprocessed_corpus2)
print("Average sentiment for Corpus 2:", average_sentiment2)

#multple corpus average sentiment at the same time plus adding the average sentiment to a dataframe
corpus = [preprocessed_corpus1, preprocessed_corpus2]
average_sentiments = [average_sentiment(text) for text in corpus]
print(average_sentiments)

df = pd.DataFrame({'corpus': corpus, 'average_sentiment': average_sentiments})
df

#make index number of corpus
df.index = ['corpus1', 'corpus2']
df

Average sentiment for Corpus 1: Positive sentiment
Average sentiment for Corpus 2: Negative sentiment
['Positive sentiment', 'Negative sentiment']


In [10]:
#delete corpus column
df

Unnamed: 0,average_sentiment
corpus1,Positive sentiment
corpus2,Negative sentiment


### Probleemstelling

Netflix maakt regelmatig beslissingen over de toekomst van series en films. Een productie kan soms meerdere seizoenen of vervolgfilms in de planning hebben staan, maar toch worden die dan geannuleerd. Dan kan de vraag ontstaan of het annuleren wel de juiste keuze was. 

Het annuleren van een vervolg op een film of serie wordt negatief ervaren door fans en kan de reputatie van Netflix verminderen, wat kan leiden tot minder abonnees en lagere kijkcijfers doordat niemand aan nieuwe shows of films begint.

Door middel van een onderzoek naar kijkcijfers, reviews en ratings van de eerdere delen, en reacties van het publiek wil Netflix erachter komen of het annuleren de juiste beslissing was. De taak van het machine learning team is om de reviews om te werken naar sentimenten om deze te kunnen gebruiken in een machine learning model. En een dashboard te maken waarmee de statistieken van een extra seizoen voorspeld kunnen worden.

#### Zakelijk inzicht  
Met behulp van dit onderzoek kan er worden gekeken naar de mogelijke performance van een volgend seizoen of vervolgfilm. Dit kan Netflix ondersteunen met onderbouwde keuzes maken, richting het annuleren van vervolgen om fans en abonnees tevreden te houden. Door te kijken naar de sentimenten, ratings en kijkcijfers kunnen zowel de bedrijfswinst en reputatie bij abonnees worden gewaarborgd. 

#### Literatuur onderzoek
Het onderzoek richt zich op sentiment analyse met behulp van Natural Language Processing (NLP), hiermee kunnen reviews van rotten tomatoes worden omgezet naar sentimenten. Na onderzoek is geen soort gelijk project waarmee het onderzoek vergeleken kan worden. 

Netflix is een online streaming service, via deze service kan eigen media en ook overgekochte media worden gestreamd. In het geval van dit Onderzoek zal het over de eigen media gaan, de Netflix Orginals. De Netflix Originals worden gemaakt door de Netflix studios, bij hen ligt dus ook de keuzes om deze te annuleren of vervolgen. 

#### vereisten informatie
- Een database met informatie en details van films en series van Netflix media.
- De belangrijke details zijn onder andere aantal seizoenen, aantal kijkers, release jaar, ratings, genre, regisseur, cast.
- De ratings moeten bruikbaar zijn bij machine learning.
- De tweets moeten omgezet worden naar een formaat dat bruikbaar is zodat een machine learning model er op kan trainen.
- De Rotten tomatoes website moet kunnen worden gescrapped 
- De API moet gebonden worden aan titels in de dataset

#### Databronnen
- Netflix series and movies Dataset: Netflix movies and TV shows. (2021, September 27). https://www.kaggle.com/datasets/shivamb/netflix-shows/data
- Rotten tomatoes: Rotten Tomatoes: movies | TV shows | Movie trailers | reviews. (n.d.). Rotten Tomatoes. https://www.rottentomatoes.com/
- API TMDB Movie database: Getting started. (n.d.). The Movie Database (TMDB). https://developer.themoviedb.org/reference/intro/getting-started

#### Data verwerken
- Dataset inladen naar DataFrame en klaar maken voor machine learning. Het verwijderen van de descriptions van de show/film en kolommen omzetten naar nummeriek bij bijvoorbeeld age rating een schaal van 1-5 maken.
- De rotten tomatoes site wordt gescrapped voor reviews en ratings per show/film. Bij shows wordt ook gekeken naar het meest recente seizoen
- Van TMDB wordt de data verzameld door middel van de API's

#### Soort data
- Dataset, gestructureerd: Er wordt gewerkt met een csv bestand waar elke rij een andere film/show betekent. 
- De rotten tomatoes, semi gestructureerd: De reviews kunnen worden gezien als ongestructureerd en de ratings als gestructureerd. Hierbij, dus de hele bron als semi gestructureerde data.
- TMDB, semi gestructureerd: De informatie wordt behaald door API's te gebruiken. Deze API's worden aangeboden in een gestandaardiseerde vorm. Toch, wordt er voor Semi gestructureerd gekozen vanwege de gestructureerde en ongestructureerde variabele van dit format.