# Analiza zmieniających się nastrojów i opinii dotyczących matury w latach 2021, 2022 i 2023 na podstawie danych z Twittera.

### Matura, będąca egzaminem końcowym w systemie edukacji, odgrywa kluczową rolę w życiu uczniów na całym świecie. Każdego roku tysiące uczniów poddaje się temu ważnemu testowi, który może mieć znaczący wpływ na ich przyszłość edukacyjną i zawodową.
### Celem tej pracy jest przeanalizowanie nastrojów i opinii użytkowników Twittera na temat matury w latach 2021, 2022 i 2023. Twitter jest popularną platformą społecznościową, na której ludzie publicznie wyrażają swoje myśli, emocje i opinie na różnorodne tematy. Wykorzystanie danych z Twittera umożliwi nam zrozumienie zmieniających się tendencji i trendów związanych z maturą na przestrzeni tych trzech lat.

    SCRAPPOWANIE DANYCH

W celu zbierania danych dotyczących matury, wybrałem hashtag #matura, #matura2021, itd. Hashtagi są popularnym narzędziem na Twitterze, które służą do kategoryzowania i oznaczania treści związanych z danym tematem. Wykorzystanie podanych hashtagów pozwoli nam zebrać tweety, które bezpośrednio odnoszą się do egzaminu maturalnego.

[program do pobierania tweetów (scraper)](Scraper.ipynb)

    PREPROCESSING

In [28]:
import pandas as pd
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import json 

In [29]:
m1 = json.load(open('matura21.json', 'r'))
m2 = json.load(open('matura22.json', 'r'))
m3 = json.load(open('matura23.json', 'r'))

#### tokenizacja
Tokenizacja:
Tokenizacja jest procesem podziału tekstu na mniejsze jednostki zwane tokenami. Tokeny mogą być pojedynczymi słowami, znakami interpunkcyjnymi, fragmentami zdania itp. Tokenizacja jest ważnym krokiem w analizie tekstu, ponieważ pozwala na dalsze przetwarzanie i analizę tekstu na poziomie jednostek. Na przykład zdanie "To jest przykład tokenizacji." może zostać podzielone na tokeny: ["To", "jest", "przykład", "tokenizacji", "."].


In [40]:
for tweet in m1:
    tweet['tokenized'] = word_tokenize(tweet['content'])
for tweet in m2:
    tweet['tokenized'] = word_tokenize(tweet['content'])
for tweet in m3:
    tweet['tokenized'] = word_tokenize(tweet['content'])
    

In [41]:
for tweet in m1:
    print(tweet['tokenized'])
for tweet in m2:
    print(tweet['tokenized'])
for tweet in m3:
    print(tweet['tokenized'])

['jakoś', 'tak', 'nie', 'stresuje', 'są', 'tą', 'jutrzejszą', 'próbną', 'maturą', 'bardziej', 'się', 'syntezuje', 'tymi', 'egzaminami', 'zawodowymi', 'w', 'czerwcu']
['Czy', 'ja', 'mogę', 'zaczać', 'wykłady', 'i', 'ogólnie', 'jakieś', 'teoretyczne', 'rzeczy', 'do', 'zaliczenia', 'w', 'szkole', 'jazdy', 'jeszcze', 'przed', 'lekarzem', 'i', 'wyrobieniem', 'pkk', '?', '#', 'matura2023', '#', 'matura', '#', 'studia2023', '#', 'rekrutacja2023']
['Matura', 'ustna', 'z', 'polskiego', 'rozjebana', 'na', '100', '%', '!', '!', '!', '!']
['Ktoś', 'pamięta', 'jak', 'się', 'nazywał', 'ten', 'obraz', 'związany', 'z', 'teatrem', 'Mundi', 'na', 'maturze', 'ustnej', 'dzisiaj', '?', 'W', 'puli', 'pytań', '13-15', 'do', 'tematu', 'z', '``', 'Innego', 'Świata', "''", '.', '#', 'matura2023', '#', 'matura', '#', 'maturapolski', '#', 'polski', '#', 'maturaustna', '#', 'maturaustnapolski']
['Polecam', 'przecieki', 'od', '@', 'helfuska', 'zdałam', 'e8', 'i', 'matura', 'na', '98', '%', '😲']
['Na', 'ile', 'kieru

#### stopwords
Stopwords to często występujące słowa, które nie niosą dużo znaczenia w analizie tekstu, takie jak "a", "i", "w", "na", "z". Zwykle są to powszechne słowa funkcyjne, które nie wniosą wiele informacji semantycznej. W celu usunięcia stopwords, możemy skorzystać z gotowych list takich słów lub wykorzystać biblioteki do analizy tekstu, które oferują taką funkcjonalność. Usunięcie stopwords pozwala skoncentrować się na bardziej znaczących słowach w analizowanym tekście.

In [42]:
stopwords = [line.replace("\n","") for line in open("stopwords.txt", "r").readlines()]
print(stopwords)

['a', 'aby', 'ach', 'acz', 'aczkolwiek', 'aj', 'albo', 'ale', 'alez', 'ależ', 'ani', 'az', 'aż', 'bardziej', 'bardzo', 'beda', 'bedzie', 'bez', 'deda', 'będą', 'bede', 'będę', 'będzie', 'bo', 'bowiem', 'by', 'byc', 'być', 'byl', 'byla', 'byli', 'bylo', 'byly', 'był', 'była', 'było', 'były', 'bynajmniej', 'cala', 'cali', 'caly', 'cała', 'cały', 'ci', 'cie', 'ciebie', 'cię', 'co', 'cokolwiek', 'cos', 'coś', 'czasami', 'czasem', 'czemu', 'czy', 'czyli', 'daleko', 'dla', 'dlaczego', 'dlatego', 'do', 'dobrze', 'dokad', 'dokąd', 'dosc', 'dość', 'duzo', 'dużo', 'dwa', 'dwaj', 'dwie', 'dwoje', 'dzis', 'dzisiaj', 'dziś', 'gdy', 'gdyby', 'gdyz', 'gdyż', 'gdzie', 'gdziekolwiek', 'gdzies', 'gdzieś', 'go', 'i', 'ich', 'ile', 'im', 'inna', 'inne', 'inny', 'innych', 'iz', 'iż', 'ja', 'jak', 'jakas', 'jakaś', 'jakby', 'jaki', 'jakichs', 'jakichś', 'jakie', 'jakis', 'jakiś', 'jakiz', 'jakiż', 'jakkolwiek', 'jako', 'jakos', 'jakoś', 'ją', 'je', 'jeden', 'jedna', 'jednak', 'jednakze', 'jednakże', 'jedno'

In [43]:
for tweet in m1:
    tweet['stopwords'] = [token for token in tweet['tokenized'] if token not in stopwords]
for tweet in m2:
    tweet['stopwords'] = [token for token in tweet['tokenized'] if token not in stopwords]
for tweet in m3:
    tweet['stopwords'] = [token for token in tweet['tokenized'] if token not in stopwords]

#### lematyzacja
Lematyzacja to proces redukcji słów do ich podstawowej formy, zwanej lematem. Lemat to forma słowa, która reprezentuje ogólną bazową formę słowa. Na przykład lematem słowa "biegał", "bieganie" i "biegałem" jest "biegać". Lematyzacja ma na celu sprowadzenie różnych form słowa do jednej kanonicznej formy, co ułatwia analizę tekstu, ponieważ słowa o podobnym znaczeniu są traktowane jako jednostki. Lematyzacja może być realizowana za pomocą reguł lingwistycznych lub za pomocą zaawansowanych narzędzi do przetwarzania języka naturalnego (NLP)