# Słowem wstępu

Pokazujemy EDA tych zbiorów, które mamy na obecnym etapie. Nie chcemy dopinać analiz jednak jeszcze na ostatni guzik, bo zarówno z tego co zaprezentujemy jak i po przekonsultowaniu tego, prawdopodobnie zbiorek będzie ewoluował.

Rozpoczęliśmy zbieranie danych z twittera, początkowe walki z ich API, ale i limity nałożone na dostęp do danych mocno by ograniczyły możliowści analiz Twittera pod kątem tematu naszego projektu.

Na szczęście z pomocą pojawia się narzędzie snscrape pod licencją GNU https://github.com/JustAnotherArchivist/snscrape.
Oferuje on sporą elastyczność i możliwości w scrapowaniu tweetów. Spośród wszystkich atrybutów jakie pojedyńczy tweet ma, decydujemy się na archiwizację: 'Datetime', 'Tweet Id','Text','Username','Replies Count','Retweets Count','Likes Count','Quotes Count', 'Language','Retweeted Tweet','Quoted Tweet','Mentioned Users', jako najbardziej przydatnych do dalszych analiz.

Obecnie najczęsciej filtrowaliśmy po keywordach, dacie, autorze oraz języku tweeta. 
Poniżej zestaw zbiór i jego query jako mały insight czego można się spodziewać:

DATA:
1. Bucha Genocide - 10k tweets - keyword "Bucha" - since 2022.04.03 - until 2022.04.05 - filename "bucha_10k.csv"                    DONE
2. First day of war - 100k tweets - keyword "Ukraine" - since 2022.02.24 - until 2022.02.25 - filename "russia_invades_ukraine_100k.csv"        DONE
3. FIFA suspends - 10k tweets - keyword "FIFA" - since 2022.02.28 - until 2022.02.29 - filename "fifa_suspends_10k.csv"                    DONE
4. UEFA suspends - 10k tweets - keyword "UEFA" - since 2022.02.28 - until 2022.02.29 - filename "uefa_suspends_10k.csv"                DONE
5. Apple bans Russia - 10k tweets - keyword "Apple" - since 2022.03.01 - until 2022.03.02 - filename "apple_ban_10k.csv"                DONE
6. Visa ban - 10k tweets - keyword "Visa" - since 2022.03.01 - until 2022.03.02 - filename "visa_ban_10k.csv"                        DONE
7. Mastercard ban - 10k tweets - keyword "Mastercard" - since 2022.03.01 - until 2022.03.02 - filename "mastercard_ban_10k.csv"                DONE
8. Ikea ban - 10k tweets - keyword "Ikea" - since 2022.03.03 - until 2022.03.04 - filename "ikea_ban_10k.csv"                        DONE
9. Nike ban - 10k tweets - keyword "Nike" - since 2022.03.03 - until 2022.03.04 - filename "nike_ban_10k.csv"                        DONE
10. Netflix ban - 10k tweets - keyword "Netflix" - since 2022.03.06 - until 2022.03.07 - filename "netflix_ban_10k.csv"                                DONE
11. Tiktok ban - 10k tweets - keyword "Tiktok" - since 2022.03.06 - until 2022.03.07 - filename "tiktok_ban_10k.csv"                                DONE
12. McDonald's ban - 10k tweets - keyword "McDonald's" - since 2022.03.08 - until 2022.03.09 - filename "mcdonalds_ban_10k.csv"                DONE
13. SWIFT ban - 50k tweets - keyword "SWIFT" - since 2022.03.02 - until 2022.03.03 - filename "swift_ban_50k.csv"                        DONE
14. MEPs - 2k per MEP - 'from:'+name+' since:2020-02-23 until:2022-04-12 lang:en' - filename ‘twitter_MEPs_2k_2y.csv’’                    DONE
15. Before_war - 100k tweets - keyword Ukraine - since 2022.02.22 - until 2022.02.22 - filename ‘twitter_Ukraine_02_22’                     DONE
16. Russian Twitter - 100k tweets (max) - keyword Ukraine - since 2022.02.24 - until 2022.02.25 - lang: ru - filename ‘russian_twitter_firstday_100k.csv’    DONE
17. Middle_of_2021 - 200k tweets - 'Ukraine since:2021-03-01 until:2021-09-01 lang:en' - filename ‘twitter_control_sample_200k_2021.csv’          DONE

Analiza będzie podzielona na 3 notebooki. Ten będzie poświęcony większym zbiorkom i danym w całości. Dwa odrębne do zbioru z rosyjskimi tweetami oraz jeden traktujący sankcje.

Zatem możemy zauważyć kilka większych zbiorów: 

Middle_of_2021 mający umożliwić dokonywanie porównań z czasami przed kompletnym zaostrzeniem się konfliktu.

Before_war jest jeszcze sprzed inwazji, jednakże pamiętajmy, że jest to już z intensywnego gromadzenia się wojsk na granicy.

Oraz 2 zbiory z pierwszego dnia inwazji jeden w języku angielskim, drugi po rosyjsku. 

Mamy także szereg zbiorków, który dotyczy najciekawszych naszym zdaniem sankcji nakładanych kolejno na państwo rosyjskie. Natomiast pierwszy Bucha Genocide ma zbierać tweety o masakrze dokonanej na ludności cywlinej na początku kwietnia w miejscowości Bucha.

# Imports

In [8]:
import spacy
import pandas as pd
from tqdm.auto import tqdm 
import swifter
import plotly.express as px
from wordcloud import WordCloud
from matplotlib import pyplot as plt
import textacy
from collections import Counter
import random
import os
import pickle

pd.options.plotting.backend = "plotly"
random.seed(123)

In [9]:
en = spacy.load("en_core_web_lg")

# EDA

In [10]:
#skipping russian twitter poki co, 

df_apple = pd.read_csv("./data/apple_ban_10k.csv")
df_bucha = pd.read_csv("./data/bucha_10k.csv")
df_fifa = pd.read_csv("./data/fifa_suspends_10k.csv")
df_mastercard = pd.read_csv("./data/mastercard_ban_10k.csv")
df_mcdonalds = pd.read_csv("./data/mcdonalds_ban_10k.csv")
df_netflix = pd.read_csv("./data/netflix_ban_10k.csv")
df_nike = pd.read_csv("./data/nike_ban_10k.csv")
df_russia_invades = pd.read_csv("./data/russia_invades_ukraine_100k.csv")
df_swift = pd.read_csv("./data/swift_ban_50k.csv")
df_tiktok = pd.read_csv("./data/tiktok_ban_10k.csv")
df_contol = pd.read_csv("./data/twitter_control_sample_200k_2021.csv")
df_MEPs = pd.read_csv("./data/twitter_MEPs_2k_2y.csv")
df_Ukraine_daysbefore = pd.read_csv("./data/twitter_Ukraine_02_22.csv")
df_visa =pd.read_csv("./data/visa_ban_10k.csv")

In [11]:
df_ikea = pd.read_csv("./data/ikea_ban_10k.csv", lineterminator='\n')

In [12]:
df_uefa =pd.read_csv("./data/uefa_suspends_10k.csv", lineterminator='\n')

## Dane calosciowo

# okazało sie ze jest problem z wczytaniem pickla i trzeba ponownie przepuscic df przez spacy, poki co wrzucamy taka wersje i postaramy sie dac w miare szybko update

In [13]:
df = pd.concat([
df_apple,
df_bucha,
df_fifa,
df_mastercard, 
df_mcdonalds, 
df_netflix, 
df_nike,
df_russia_invades,
df_swift,
df_tiktok,
df_contol ,
df_MEPs,
df_Ukraine_daysbefore, 
df_visa ], axis = 0)

In [14]:
df_en = df.loc[df['Language'] == 'en']

In [15]:
df_en

Unnamed: 0.1,Unnamed: 0,Datetime,Tweet Id,Text,Username,Replies Count,Retweets Count,Likes Count,Quotes Count,Language,Retweeted Tweet,Quoted Tweet,Mentioned Users
0,0,2022-03-01 23:59:59+00:00,1.498810e+18,Tech giants Apple and Google are pausing all p...,PublicSpectrum,0.0,0,1.0,0.0,en,,,
1,1,2022-03-01 23:59:54+00:00,1.498810e+18,"Apple’s 24-inch iMac, Mac mini, and other grea...",jt120651,0.0,0,0.0,0.0,en,,,
2,2,2022-03-01 23:59:54+00:00,1.498810e+18,Wow my Apple photo memories was just a montage...,brooklyn_nfts,5.0,0,15.0,0.0,en,,,
3,3,2022-03-01 23:59:52+00:00,1.498810e+18,"@hellosunnycore You and me both, seems Apple m...",ADrunkTiefling,0.0,0,1.0,0.0,en,,,['hellosunnycore']
4,4,2022-03-01 23:59:52+00:00,1.498810e+18,"@Hixmegistos Yeah, I see that. But that's more...",spicer,0.0,0,0.0,0.0,en,,,['Hixmegistos']
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9988,9988,2022-03-01 15:34:50+00:00,1.498683e+18,Visa and Mastercard block Russian banks from t...,RobertJMolnar,0.0,2,2.0,0.0,en,,,
9989,9989,2022-03-01 15:34:48+00:00,1.498683e+18,Enter to win a $25 Visa Gift card on @2kidsand...,notslim1,0.0,0,0.0,0.0,en,,,"['2kidsandacoupon', 'hallmarkchannel']"
9990,9990,2022-03-01 15:34:47+00:00,1.498683e+18,"@MonicaG37722007 @Manikipi All you ""un-spinele...",Mo25263,1.0,0,0.0,0.0,en,,https://twitter.com/News24/status/149855373606...,"['MonicaG37722007', 'Manikipi']"
9997,9997,2022-03-01 15:34:34+00:00,1.498683e+18,@NgwanaSkolo @rod_codes @maggsnaidu @bonglez @...,0Loosey,1.0,0,1.0,0.0,en,,,"['NgwanaSkolo', 'rod_codes', 'maggsnaidu', 'bo..."


In [16]:
df_en_i = df_en.reset_index()

In [18]:
#df_en_i["Text_en"] = df_en_i['Text'].swifter.apply(en)

In [19]:
from pathlib import Path
import ast
MEPs_dict = Path('meps_string.txt').read_text().replace('\n', '')
MEPs_dict = ast.literal_eval(MEPs_dict)
MEPs_dict

{'MEPsAustria': ['SCHIEDER',
  'AngelikaWinzig',
  'thalerbarbara',
  'VollathBettina',
  'dieGamon',
  'Evelyn_Regner',
  'georgmayermep',
  'HannesHeide',
  'vilimsky',
  'lukasmandl',
  'MonikaVana',
  'othmar_karas',
  'thomaswaitz'],
 'MEPsBelgium': ['Assita_Kanko',
  'BenoitLutgen',
  'FranssenCindy',
  'Frederiqueries',
  'GeertBourgeois',
  'gannemans',
  'guyverhofstadt',
  'hildevautmans',
  'jvanovertveldt',
  'kvanbrempt',
  'BotengaM',
  'marctarabella',
  'Mariearenaps',
  'OChastel',
  'pascal_arimont',
  'ph_lamberts',
  'msaraswati',
  'saskiabricmont',
  'TomVandendriese',
  'tomvdkendelaere'],
 'MEPsBulgaria': ['andreykovatchev',
  'AndreyNovakov',
  'AndreySlabakov',
  'djambazki',
  'AdemovAsim',
  'AtidzheV',
  'ElenaYoncheva',
  'Emil_Radev',
  'EvaMaydell',
  'ilhankyuchyuk',
  'Iskra_Mihaylova',
  'IvoHristovMEP',
  'PetarVitanovMEP',
  'rmkanev',
  'SergeiStanishev',
  'tsvetypenkova'],
 'MEPsCroatia': ['BiljanaBorzan',
  'IvanVilibor',
  'KarloRessler',
  'la

In [21]:
#with open('D:\Studia\Semestr 6\Pickle\df_en_merged.obj', 'wb') as file:
 
#    pickle.dump(df_en_i, file)

In [22]:
with open('D:\Studia\Semestr 6\Pickle\df_en_merged.obj', 'rb') as file:
    df_en_i = pickle.load(file)

KeyboardInterrupt: 