A kódsor a "Jővőbe látó lélektan - gépi tanulás a pszichológiai kutatásmódszertanban" című tudományos cikkben szereplő kutatáshoz tartozik, a kutatás lépéseit és a kapott eredményeket mutatja be.

Készítette: Damsa Andrei

Adatbázis eléretőség: 

- https://www.kaggle.com/miroslavsabo/young-people-survey

# Modulok importálása

In [2]:
# Python verzió

!python -V

Python 3.7.6


In [3]:
# Alap modulok

import pandas as pd
import numpy as np

# Vizualizáció

import matplotlib.pyplot as plt

# Normalitás vizsgálat

from scipy.stats import shapiro

# Mann-Whitney U

from scipy.stats import mannwhitneyu

# Gépi tanulás

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression


from sklearn.metrics import accuracy_score, confusion_matrix, matthews_corrcoef

# WARNING Off

import warnings
warnings.simplefilter("ignore")

# Adatok beolvasása

In [4]:
data = pd.read_csv('./data/responses.csv')

# Filmpreferencia nemi különbségei

## Adatok kiválasztása és előkészítése

In [5]:
# A filmpreferenciára és a nemre vonatkozó változók kiválasztása

data_mov = data.iloc[:, 20:31]
data_mov['Gender'] = data['Gender']

In [6]:
# Nemi változó átkódolása

for i in range(0, len(data_mov)):
    if data_mov['Gender'][i] == 'male':
        data_mov['Gender'][i] = 1       
    else:
        data_mov['Gender'][i] = 2

In [7]:
# Hiányzó értékekkel rendelkező sorok eltávolítása

data_mov = data_mov.dropna()

In [8]:
# Értéktípusok átkódolása

for i in range(0, len(data_mov.columns)):
    data_mov[data_mov.columns[i]] = data_mov[data_mov.columns[i]].astype('int')

In [9]:
# Nemi eloszlás kimutatása (1 - férfi, 2 - nő)

data_mov['Gender'].value_counts(normalize = True)

2    0.595918
1    0.404082
Name: Gender, dtype: float64

## Normalitás vizsgálat

In [10]:
# Adatbázis előkészítése

norm_test = pd.DataFrame()

norm_test['Var'] = data_mov.columns[0:11]
norm_test['Stat'] = range(0, 11)
norm_test['Stat'] = norm_test['Stat'].astype('float')
norm_test['p_value'] = range(0, 11)
norm_test['p_value'] = norm_test['p_value'].astype('float')

In [11]:
# Shapiro-Wilk teszt

for i in range(0, len(data_mov.columns)):
    stat, p = shapiro(data_mov.iloc[:, i])
    print('Statistics=%.3f, p=%.3f' % (stat, p))
    norm_test['Stat'][i] = stat
    norm_test['p_value'][i] = p

Statistics=0.883, p=0.000
Statistics=0.902, p=0.000
Statistics=0.672, p=0.000
Statistics=0.893, p=0.000
Statistics=0.904, p=0.000
Statistics=0.896, p=0.000
Statistics=0.860, p=0.000
Statistics=0.845, p=0.000
Statistics=0.885, p=0.000
Statistics=0.840, p=0.000
Statistics=0.886, p=0.000
Statistics=0.623, p=0.000


## Mann-Whitney U teszt

In [12]:
# Adatbázis nemi csoportok szerinti bontása

data_mov_male = data_mov[data_mov['Gender'] == 1]
data_mov_female = data_mov[data_mov['Gender'] == 2]

In [13]:
# Adatbázis előkészítése

MW_test = pd.DataFrame()

MW_test['Var'] = data_mov.columns[0:11]
MW_test['Stat'] = range(0, 11)
MW_test['Stat'] = MW_test['Stat'].astype('float')
MW_test['p_value'] = range(0, 11)
MW_test['p_value'] = MW_test['p_value'].astype('float')
MW_test['Hyp'] = range(0, 11)

In [15]:
# Mann-Whitney teszt

for i in range(0, len(data_mov.columns)):
    stat, p = mannwhitneyu(data_mov_male.iloc[:, i], data_mov_female.iloc[:, i])

    print('U érték = %.3f, p = %.3f' % (stat, p))
    MW_test['Stat'][i] = stat
    MW_test['p_value'][i] = p

U érték = 93936.500, p = 0.000
U érték = 90484.000, p = 0.000
U érték = 113590.500, p = 0.290
U érték = 57688.000, p = 0.000
U érték = 73344.500, p = 0.000
U érték = 59857.500, p = 0.000
U érték = 77706.000, p = 0.000
U érték = 89806.500, p = 0.000
U érték = 99225.000, p = 0.000
U érték = 68718.500, p = 0.000
U érték = 60498.500, p = 0.000
U érték = 0.000, p = 0.000


In [16]:
# Csoportátlagok a filmkategóriák mentén

data_mov.iloc[:, 0:10].groupby(data_mov['Gender']).mean()

Unnamed: 0_level_0,Horror,Thriller,Comedy,Romantic,Sci-fi,War,Fantasy/Fairy tales,Animated,Documentary,Western
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,3.063131,3.656566,4.484848,2.848485,3.618687,3.830808,3.340909,3.502525,3.815657,2.626263
2,2.60274,3.183219,4.508562,3.929795,2.768836,2.678082,4.02911,3.97089,3.527397,1.785959


## Gépi tanulás alkalmazása

In [17]:
# Bemeneti és célváltozók leválasztása

model_vars = data_mov.drop(columns = 'Gender')
target = data_mov.iloc[:, -1]

In [18]:
# Tanuló és tesztelő adatbázis felosztása 70%-30%-os arányban

x_train, x_test, y_train, y_test = train_test_split(model_vars, target, test_size=0.3, random_state=1)

In [19]:
# Logisztikus regresszió algoritmus

predicted_var = y_train


model = LogisticRegression(max_iter = 1000)
model.fit(x_train, predicted_var)

predictions = model.predict(x_test)

results = confusion_matrix(y_test, predictions)

print('Confusion Matrix :')
print(results) 
print('Accuracy Score :',accuracy_score(y_test, predictions))
print('Matthews corcoef :', matthews_corrcoef(y_test, predictions))

Confusion Matrix :
[[ 93  26]
 [ 34 141]]
Accuracy Score : 0.7959183673469388
Matthews corcoef : 0.5818865836085587


In [40]:
# Bemeneti változók súlyozása az algoritmus által megítélt fontosság szerint

sorted(zip(model.coef_[0], x_train.columns), key=lambda x: abs(x[0]), reverse=True)[:]

[(0.9495032601232561, 'Romantic'),
 (-0.5770147173515029, 'Action'),
 (-0.5083065567865432, 'War'),
 (-0.4704384508126307, 'Western'),
 (0.4260766063129754, 'Fantasy/Fairy tales'),
 (-0.39881315895683506, 'Comedy'),
 (-0.3577358216085411, 'Sci-fi'),
 (0.15789319889825384, 'Animated'),
 (0.10104705355234803, 'Thriller'),
 (0.06209479928814304, 'Documentary'),
 (-0.05854447966710079, 'Horror')]