A kódsor a "Jővőbe látó lélektan - gépi tanulás a pszichológiai kutatásmódszertanban" című tudományos cikkben szereplő kutatáshoz tartozik, a kutatás lépéseit és a kapott eredményeket mutatja be.

Készítette: Damsa Andrei, PTE-BTK Pszichológia Intézet, Alkalmazott Pszichológia Doktori Program

Adatbázis eléretőség: 

- https://www.kaggle.com/miroslavsabo/young-people-survey

# Modulok importálása

In [1]:
# Python verzió

!python -V

Python 3.7.6


In [2]:
# Alap modulok

import pandas as pd
import numpy as np

# Vizualizáció

import matplotlib.pyplot as plt

# Normalitás vizsgálat

from scipy.stats import shapiro

# Mann-Whitney U

from scipy.stats import mannwhitneyu

# Gépi tanulás

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression


from sklearn.metrics import accuracy_score, confusion_matrix, matthews_corrcoef

# WARNING Off

import warnings
warnings.simplefilter("ignore")

# Adatok beolvasása

In [3]:
data = pd.read_csv('./data/responses.csv')

# Filmpreferencia nemi különbségei

## Adatok kiválasztása és előkészítése

In [22]:
# A filmpreferenciára és a nemre vonatkozó változók kiválasztása

data_mov = data.iloc[:, 20:31]
data_mov['Gender'] = data['Gender']

In [23]:
# Nemi változó átkódolása

for i in range(0, len(data_mov)):
    if data_mov['Gender'][i] == 'male':
        data_mov['Gender'][i] = 1       
    else:
        data_mov['Gender'][i] = 0

In [24]:
# Hiányzó értékekkel rendelkező sorok eltávolítása

data_mov = data_mov.dropna()

In [25]:
# Értéktípusok átkódolása

for i in range(0, len(data_mov.columns)):
    data_mov[data_mov.columns[i]] = data_mov[data_mov.columns[i]].astype('int')

In [26]:
# Nemi eloszlás kimutatása (1 - férfi, 0 - nő)

data_mov['Gender'].value_counts(normalize = True)

0    0.595918
1    0.404082
Name: Gender, dtype: float64

## Normalitás vizsgálat

In [27]:
# Adatbázis előkészítése

norm_test = pd.DataFrame()

norm_test['Var'] = data_mov.columns[0:11]
norm_test['Stat'] = range(0, 11)
norm_test['Stat'] = norm_test['Stat'].astype('float')
norm_test['p_value'] = range(0, 11)
norm_test['p_value'] = norm_test['p_value'].astype('float')

In [28]:
# Shapiro-Wilk teszt

for i in range(0, len(data_mov.columns)-1):
    stat, p = shapiro(data_mov.iloc[:, i])
    print('Statistics=%.3f, p=%.3f' % (stat, p))
    norm_test['Stat'][i] = stat
    norm_test['p_value'][i] = p

Statistics=0.883, p=0.000
Statistics=0.902, p=0.000
Statistics=0.672, p=0.000
Statistics=0.893, p=0.000
Statistics=0.904, p=0.000
Statistics=0.896, p=0.000
Statistics=0.860, p=0.000
Statistics=0.845, p=0.000
Statistics=0.885, p=0.000
Statistics=0.840, p=0.000
Statistics=0.886, p=0.000


## Mann-Whitney U teszt

In [29]:
# Adatbázis nemi csoportok szerinti bontása

data_mov_male = data_mov[data_mov['Gender'] == 1]
data_mov_female = data_mov[data_mov['Gender'] == 0]

In [30]:
# Adatbázis előkészítése

MW_test = pd.DataFrame()

MW_test['Var'] = data_mov.columns[0:11]
MW_test['Stat'] = range(0, 11)
MW_test['Stat'] = MW_test['Stat'].astype('float')
MW_test['p_value'] = range(0, 11)
MW_test['p_value'] = MW_test['p_value'].astype('float')
MW_test['Hyp'] = range(0, 11)

In [31]:
# Mann-Whitney teszt

for i in range(0, len(data_mov.columns)-1):
    stat, p = mannwhitneyu(data_mov_male.iloc[:, i], data_mov_female.iloc[:, i])

    print('U érték = %.3f, p = %.3f' % (stat, p))
    MW_test['Stat'][i] = stat
    MW_test['p_value'][i] = p

U érték = 93936.500, p = 0.000
U érték = 90484.000, p = 0.000
U érték = 113590.500, p = 0.290
U érték = 57688.000, p = 0.000
U érték = 73344.500, p = 0.000
U érték = 59857.500, p = 0.000
U érték = 77706.000, p = 0.000
U érték = 89806.500, p = 0.000
U érték = 99225.000, p = 0.000
U érték = 68718.500, p = 0.000
U érték = 60498.500, p = 0.000


In [32]:
# Csoportátlagok a filmkategóriák mentén

data_mov.iloc[:, 0:10].groupby(data_mov['Gender']).mean()

Unnamed: 0_level_0,Horror,Thriller,Comedy,Romantic,Sci-fi,War,Fantasy/Fairy tales,Animated,Documentary,Western
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,2.60274,3.183219,4.508562,3.929795,2.768836,2.678082,4.02911,3.97089,3.527397,1.785959
1,3.063131,3.656566,4.484848,2.848485,3.618687,3.830808,3.340909,3.502525,3.815657,2.626263


## Gépi tanulás alkalmazása

In [33]:
# Bemeneti és célváltozó leválasztása

model_vars = data_mov.drop(columns = 'Gender')
target = data_mov.iloc[:, -1]

In [34]:
# Tanuló és tesztelő adatbázis felosztása 70%-30%-os arányban

x_train, x_test, y_train, y_test = train_test_split(model_vars, target, test_size=0.3, random_state=1)

In [39]:
# Logisztikus regresszió algoritmus

predicted_var = y_train


model = LogisticRegression(max_iter = 1000, class_weight = 'balanced')
model.fit(x_train, predicted_var)

predictions = model.predict(x_test)

results = confusion_matrix(y_test, predictions)

print('Confusion Matrix :')
print(results) 
print('Accuracy Score :',accuracy_score(y_test, predictions))
print('Matthews corcoef :', matthews_corrcoef(y_test, predictions))

Confusion Matrix :
[[136  39]
 [ 18 101]]
Accuracy Score : 0.8061224489795918
Matthews corcoef : 0.6151213957836308


In [21]:
# Bemeneti változók súlyozása az algoritmus által megítélt fontosság szerint

feature_sel = pd.DataFrame(sorted(zip(model.coef_[0], x_train.columns), key=lambda x: abs(x[0]), reverse=True)[:])
feature_sel.columns = ['Súlyozási érték', 'Változó']
feature_sel

Unnamed: 0,Súlyozási érték,Változó
0,0.949503,Romantic
1,-0.577015,Action
2,-0.508307,War
3,-0.470438,Western
4,0.426077,Fantasy/Fairy tales
5,-0.398813,Comedy
6,-0.357736,Sci-fi
7,0.157893,Animated
8,0.101047,Thriller
9,0.062095,Documentary
