In [3]:
import numpy as np
import pandas as pd
import os
import spacy
import csv

In [4]:
os.listdir()  

['.git',
 '.ipynb_checkpoints',
 'emean_emo_cat.csv',
 'nawl-analysis.csv',
 'przesłanki-autorytet.csv',
 'przesłanki.csv',
 'README.md',
 'sentiment-analysis.ipynb']

# Przesłanki

In [5]:
plik = 'przesłanki.csv'
data = pd.read_csv(plik, encoding='windows-1250', header=[0])
data.head()

Unnamed: 0,Typ argumentu (szeregowy lub równoległy),Konkluzja,Przesłanka 1,Przesłanka 2,Przesłanka 3,Przesłanka 4,Przesłanka 5,Przesłanka 6,Przesłanka 7,Przesłanka 8
0,,Rzuć palenie,Każdy rok palenia skraca życie o prawie trzy m...,,,,,,,
1,szeregowy,Szczepmy się,Mamy teraz do czynienia z koronawirusem typu d...,[koronawirus typu delta] to wyjątkowo zakaźna ...,Teraz mamy w Polsce już sześć tysięcy zakażeń ...,W województwie lubelskim szpitale są już na gr...,,,,
2,szeregowy,"Unikaj dotykania oczu, nosa i ust","Dłonie dotykają wielu powierzchni, które mogą ...","Jeśli dotkniesz oczu, nosa lub ust zanieczyszc...",,,,,,
3,równoległy,Bądż aktywny fizycznie i zdrowo się odżywiaj,Regularna aktywność fizyczna jest kluczem do u...,"Nawet 3-godzinny spacer raz w tygodniu, zmniej...",Wysiłek fizyczny odgrywa istotną rolę w zapobi...,Brak aktywności fizycznej wiąże się z gorszą j...,Nieodpowiednia dieta oraz brak aktywności fizy...,,,
4,równoległy,Noś maskę.,Osłanianie twarzy chroni Ciebie i innych.,Maska zatrzymuje rozprzestrzenianie się wirusa,Maska zmniejsza ryzyko infekcji o 75%,,,,,


In [6]:
data.shape

(258, 10)

In [7]:
data = data.drop(labels=38, axis=0)

### Braki danych

In [8]:
braki_danych = pd.concat([data.isnull().sum()], axis = 1, keys = ["Brakujące dane:"])
print(braki_danych)

                                          Brakujące dane:
Typ argumentu (szeregowy lub równoległy)                3
Konkluzja                                               0
Przesłanka 1                                            1
Przesłanka 2                                           10
Przesłanka 3                                          102
Przesłanka 4                                          178
Przesłanka 5                                          224
Przesłanka 6                                          249
Przesłanka 7                                          253
Przesłanka 8                                          253


In [9]:
data["Przesłanka 3"][5]

'Dym tytoniowy ma negatywny wpływ na stan układu oddechowego'

In [10]:
data["Typ argumentu (szeregowy lub równoległy)"].value_counts()

równoległy    146
szeregowy     107
mieszany        1
Name: Typ argumentu (szeregowy lub równoległy), dtype: int64

### Spacy - pobranie pakietów

In [11]:
nlp = spacy.load("pl_core_news_lg")

In [12]:
print(spacy.__version__)  

3.2.1


### Przykład

In [13]:
s = str(data["Konkluzja"][5])
doc = nlp(s)

In [14]:
for token in doc:
    print(f"{token},{token.lemma_}")

Zrezygnuj,zrezygnować
z,z
używek,używka
.,.


### Tokenizacja, lematyzacja

In [15]:
with open('przesłanki.csv') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    next(csv_reader)
    new_list = []
    for row in csv_reader: 
        argument = []
        for column in range(1, 8):
            argument += [(x.lemma_) for x in nlp(row[column])]
        new_list.append(argument)

In [16]:
my_list = []
for i in new_list:
    argument = []
    for word in i:
        word_replaced = word.replace("żyto", "życie").replace('\xa0', '')
        argument.append(word_replaced)
    my_list.append(argument)

# Przesłanki - autorytet

In [17]:
plik = 'przesłanki-autorytet.csv'
data_autorytet = pd.read_csv(plik, encoding='windows-1250', header=[0])
data_autorytet.head()

Unnamed: 0,Typ argumentu (szeregowy lub równoległy),Konkluzja,Przesłanka 1,Przesłanka 2,Przesłanka 3,Przesłanka 4,Przesłanka 5,Przesłanka 6,Przesłanka 7,Przesłanka 8
0,szeregowy,Zrezygnuj z używek.,"Światowa Organizacja Zdrowia (WHO) alarmuje, ż...",Koronawirus atakuje drogi oddechowe i powoduj...,Dym tytoniowy ma negatywny wpływ na stan układ...,U palaczy mogą wystąpić cięższe dolegliwości ...,,,,
1,szeregowy,Zwiększ ilość ruchu,W redukcji wagi ważny jest także ruch.,Według szacunków organizacji World Cancer Rese...,,,,,,
2,szeregowy,Nie bój się szczepionki,"Naukowcy przekonują, że szczepionki są dużo ko...",Dzięki nim układ odpornościowy zwalcza infekcj...,,,,,,
3,równoległy,"Polaku, myj ręce!","Każde dotknięcie klamki, banknotu czy poręczy ...",Badania naukowców z Uniwersytetu Michigan udow...,"Światowa Organizacja Zdrowia szacuje, że 69 pr...",,,,,
4,szeregowy,Szczepienia są bezpieczne,Wśród Polaków szczepienie przeciwko koronawiru...,Wątpliwości budzi przede wszystkim bezpieczeńs...,"Przedstawiciele rządu przypominają jednak, że ...",,,,,


In [18]:
braki_danych = pd.concat([data_autorytet.isnull().sum()], axis = 1, keys = ["Brakujące dane:"])
print(braki_danych)

                                          Brakujące dane:
Typ argumentu (szeregowy lub równoległy)                0
Konkluzja                                               0
Przesłanka 1                                            0
Przesłanka 2                                            0
Przesłanka 3                                            6
Przesłanka 4                                           10
Przesłanka 5                                           16
Przesłanka 6                                           18
Przesłanka 7                                           18
Przesłanka 8                                           18


In [19]:
with open('przesłanki-autorytet.csv') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    next(csv_reader)
    list_auto = []
    for row in csv_reader: 
        argument = []
        for column in range(1, 8):
            argument += [(x.lemma_) for x in nlp(row[column])]
        list_auto.append(argument)

In [20]:
my_list_auto = []
for i in list_auto:
    argument = []
    for word in i:
        word_replaced = word.replace("żyto", "życie").replace('\xa0', '')
        argument.append(word_replaced)
    my_list_auto.append(argument)

# Emean_emo_cat

In [21]:
emo_data = pd.read_csv('emean_emo_cat.csv', encoding= 'windows-1250')
emo_data.head()

Unnamed: 0.1,Unnamed: 0,plWordNet ID,lemma,phrase,N,VAL M,ARO M,ANG M,DIS M,FEA M,...,ANG D,DIS D,FEA D,SAD D,ANT D,HAP D,SUR D,TRU D,NEU D,classification
0,0,100097,zajawka,zajawka filmu,52,923076923076923,151923076923077,423076923076923,346153846153846,442307692307692,...,518062088685894,523424953260128,516792928207377,519447972290816,387381376704755,435618354559508,471480632473062,491246631980535,335029246343814,ANT
1,1,10010,wonny,wonny olejek,52,115384615384615,151923076923077,326923076923077,288461538461538,269230769230769,...,516027836550318,518080508369055,51978231958997,518966036636857,432597340564473,39597100017469,463737256975455,456260902798746,310497520730022,HAP
2,2,10027,wprawny,wprawny ruch,56,108928571428571,130357142857143,267857142857143,267857142857143,303571428571429,...,497998250130335,497422378232077,494950472605383,499042414080326,414667180332257,418741346525989,458990338516643,420747262725181,273188113221548,TRU
3,3,100288,kopia,kopia zapasowa,48,916666666666667,102083333333333,291666666666667,3125,416666666666667,...,501651814639793,499984145680847,492998924720183,497342018159838,419659015903944,455603816763537,496609556515371,412506825767858,269677085956943,TRU
4,4,100381,wombat,wombat wombata,47,340425531914894,787234042553192,425531914893617,468085106382979,531914893617021,...,461035885742292,457995827809717,452522536716789,462461314530665,445369893924012,429751829402049,426713782450451,453147114301294,187573890903964,NEU


In [22]:
emo_data.drop('Unnamed: 0', axis=1, inplace=True)

In [23]:
import locale
from locale import atof

In [24]:
locale.setlocale(locale.LC_NUMERIC, '')
emo_data["VAL M"] = emo_data["VAL M"].map(atof)

In [25]:
locale.setlocale(locale.LC_NUMERIC, '')
emo_data["ARO M"] = emo_data["ARO M"].map(atof)

In [26]:
locale.setlocale(locale.LC_NUMERIC, '')
emo_data["TRU M"] = emo_data["TRU M"].map(atof)

In [27]:
locale.setlocale(locale.LC_NUMERIC, '')
emo_data["TRU D"] = emo_data["TRU D"].map(atof)

In [28]:
emean_emo_cat = emo_data.drop(['plWordNet ID', 'phrase', 'N', 'ANG M', 'DIS M', 'FEA M', 'SAD M', 'ANT M','HAP M','SUR M',
               'ANG SD', 'DIS SD', 'FEA SD', 'SAD SD', 'ANT SD','HAP SD','SUR SD', 'VAL SD', 'ARO SD', 'TRU SD',
               'ANG D', 'DIS D', 'FEA D', 'SAD D', 'ANT D','HAP D','SUR D', 'NEU D'], axis = 1)

## Trust - średnie wartości

In [29]:
emean_emo_cat["TRU M"].describe()

count    6000.000000
mean        0.648133
std         0.357791
min         0.039216
25%         0.407407
50%         0.551020
75%         0.781818
max         2.690909
Name: TRU M, dtype: float64

In [30]:
trust_data = emean_emo_cat.copy()

In [31]:
index_names = trust_data[trust_data['TRU M'] <= trust_data["TRU M"].mean()].index
trust_data.drop(index_names, inplace = True)

In [32]:
trust_data["classification"].value_counts()

TRU    625
HAP    567
ANT    488
NEU    213
SUR    133
FEA     48
SAD     42
DIS     32
ANG      9
Name: classification, dtype: int64

In [33]:
trust_data["VAL M"].describe()

count    2157.000000
mean        0.865079
std         0.478204
min        -1.000000
25%         0.560000
50%         0.830189
75%         1.176471
max         2.444444
Name: VAL M, dtype: float64

In [34]:
trust_data["ARO M"].describe()

count    2157.000000
mean        1.367427
std         0.374761
min         0.577778
25%         1.085106
50%         1.313725
75%         1.596154
max         2.660377
Name: ARO M, dtype: float64

In [42]:
trust_data

Unnamed: 0,lemma,VAL M,ARO M,TRU M,TRU D,classification
0,zajawka,0.923077,1.519231,0.788462,4.912466,ANT
1,wonny,1.153846,1.519231,1.076923,4.562609,HAP
2,wprawny,1.089286,1.303571,1.160714,4.207473,TRU
3,kopia,0.916667,1.020833,1.270833,4.125068,TRU
5,pułkownik,0.630435,1.130435,1.065217,3.915806,TRU
...,...,...,...,...,...,...
5992,wizyta,0.555556,2.222222,0.933333,5.485870,SUR
5993,historyk,0.541667,1.125000,1.062500,4.181876,TRU
5994,historyk,0.860000,1.160000,1.120000,4.201094,TRU
5997,politolog,-0.142857,0.836735,0.693878,4.459103,DIS


## Trust - według klasyfikacja

In [35]:
trust_data_category = emean_emo_cat.copy()

In [36]:
index_names = trust_data_category[trust_data_category["classification"] != "TRU"].index
trust_data_category.drop(index_names, inplace = True)

In [37]:
trust_data_category["classification"].value_counts()

TRU    625
Name: classification, dtype: int64

In [38]:
trust_data_category["VAL M"].describe()

count    625.000000
mean       0.856628
std        0.325395
min       -0.140000
25%        0.627451
50%        0.826923
75%        1.078431
max        1.884615
Name: VAL M, dtype: float64

In [39]:
trust_data_category["ARO M"].describe()

count    625.000000
mean       1.270278
std        0.282682
min        0.711538
25%        1.061224
50%        1.229167
75%        1.469388
max        2.384615
Name: ARO M, dtype: float64

In [40]:
trust_data_category

Unnamed: 0,lemma,VAL M,ARO M,TRU M,TRU D,classification
2,wprawny,1.089286,1.303571,1.160714,4.207473,TRU
3,kopia,0.916667,1.020833,1.270833,4.125068,TRU
5,pułkownik,0.630435,1.130435,1.065217,3.915806,TRU
10,wskazówka,0.800000,1.000000,1.288889,4.145632,TRU
13,ogumienie,0.888889,0.962963,1.333333,4.038419,TRU
...,...,...,...,...,...,...
5945,część,0.836364,1.236364,1.090909,4.146671,TRU
5957,uprawniony,0.673469,1.102041,1.040816,3.993114,TRU
5981,wieczysty,0.976744,1.139535,1.093023,4.159403,TRU
5993,historyk,0.541667,1.125000,1.062500,4.181876,TRU


In [73]:
emean_emo_cat

Unnamed: 0,lemma,VAL M,ARO M,TRU M,TRU D,classification
0,zajawka,0.923077,1.519231,0.788462,4.912466,ANT
1,wonny,1.153846,1.519231,1.076923,4.562609,HAP
2,wprawny,1.089286,1.303571,1.160714,4.207473,TRU
3,kopia,0.916667,1.020833,1.270833,4.125068,TRU
4,wombat,0.340426,0.787234,0.510638,4.531471,NEU
...,...,...,...,...,...,...
5995,biegacz,0.448980,1.244898,0.612245,4.534985,SUR
5996,zapierać,0.041667,1.020833,0.437500,4.664719,DIS
5997,politolog,-0.142857,0.836735,0.693878,4.459103,DIS
5998,wójt,0.521739,1.369565,0.869565,4.720533,ANT


# Matcher

In [163]:
def mean(my_list):
    if len(my_list) == 0:
        return ""
    return sum(my_list)/len(my_list)


def my_matcher(my_list):
    data = []
    for i in my_list:
        trust_list = []
        trust_list_category = []
        emo_list = []
        
        val_mean_list = []
        aro_mean_list = []
        trust_mean_list = []
        
        for word in i:
            trust_word_serie = trust_data.loc[trust_data["lemma"] == word]["lemma"]
            if not trust_word_serie.empty:
                trust_word = trust_word_serie.iat[0]
                trust_list.append(trust_word)
        
            trust_word_cat_serie = trust_data_category.loc[trust_data_category["lemma"] == word]["lemma"]
            if not trust_word_cat_serie.empty:
                trust_word_cat = trust_word_cat_serie.iat[0]
                trust_list_category.append(trust_word_cat)
                
            emo_word_serie = emean_emo_cat.loc[emean_emo_cat["lemma"] == word]["lemma"]
            if not emo_word_serie.empty:
                emo_word = emo_word_serie.iat[0]
                emo_list.append(emo_word) 
                
            val_mean_serie = emean_emo_cat.loc[emean_emo_cat["lemma"] == word]["VAL M"]
            if not val_mean_serie.empty:
                val_mean = val_mean_serie.iat[0]
                val_mean_list.append(val_mean)
                mean(val_mean_list)
            
            aro_mean_serie = emean_emo_cat.loc[emean_emo_cat["lemma"] == word]["ARO M"]
            if not aro_mean_serie.empty:
                aro_mean = aro_mean_serie.iat[0]
                aro_mean_list.append(aro_mean)
                mean(aro_mean_list)
            
            trust_mean_serie = emean_emo_cat.loc[emean_emo_cat["lemma"] == word]["TRU M"]
            if not trust_mean_serie.empty:
                trust_mean = trust_mean_serie.iat[0]
                trust_mean_list.append(trust_mean)
                mean(trust_mean_list)
                
        #dominanta kategorii?
        #print("Ilość słów emotywnych:",len(emo_list), "Zaufania:", len(trust_list), "Poza zaufaniem:", len(emo_list) - len(trust_list))

        data.append([i, emo_list, trust_list, trust_list_category, mean(val_mean_list), mean(aro_mean_list), mean(trust_mean_list)])
    return pd.DataFrame(data, columns = ["argument", "emo lista", "zaufanie lista", "kategoria zaufanie", 
                                             "Val mean", "Aro mean", "Trust Mean"])

my_matcher(my_list_auto)

Unnamed: 0,argument,emo lista,zaufanie lista,kategoria zaufanie,Val mean,Aro mean,Trust Mean
0,"[zrezygnować, z, używka, ., światowy, organiza...","[zrezygnować, organizacja, alarmować, palący, ...","[organizacja, alarmować, ciężki]",[],-0.252249,1.415903,0.606454
1,"[zwiększyć, ilość, rucho, w, redukcja, waga, w...","[organizacja, przypadek, niski, wysoki, masa, ...","[organizacja, wysoki, masa, stylo]",[],0.441736,1.166562,0.72136
2,"[nie, bać, się, szczepionka, naukowiec, przeko...","[niż, układ, sprawnie, niż]",[sprawnie],[],0.413152,1.150018,0.611728
3,"[Polak, ,, myć, ręka, !, każde, dotknięcie, kl...","[klamka, autobus, komórka, groźny, bakteria, o...","[klamka, autobus, komórka, organizacja]",[],0.043025,1.322282,0.665869
4,"[szczepienia, są, bezpieczny, wśród, Polaki, s...","[wątpliwość, inny, kalendarz, przedstawiciel]","[kalendarz, przedstawiciel]",[przedstawiciel],0.197196,1.159834,0.695214
5,"[dlatego, szczepić, się, ., ekspert, niejednok...","[wirus, wieko, wirus, szeregowy, mieszany, zre...","[wieko, prosty, dom]","[prosty, dom]",-0.169454,1.186884,0.596524
6,"[zaszczepić, się, ,, pomóc, wrócić, do, normal...","[wirus, zamknięty, usługa, zamknięty, chwila]","[usługa, chwila]",[],-0.030782,1.596412,0.744409
7,"[zaszczep, się, tak, szybko, jak, to, możliwy,...","[szybko, ciężki, szybko]",[ciężki],[],0.238562,1.354575,0.616013
8,"[szczepić, się, na, covid, -, 19, unikać, dług...","[unikać, niż, długoterminowy, raport, zmęczeni...","[długoterminowy, raport, sen]",[],-0.144901,1.356345,0.525003
9,"[zaszczep, się, !, lekarz, podkreślać, ,, że, ...",[ciężki],[ciężki],[],0.215686,1.313725,0.764706
