# Correlatie tussen PRAAT kenmerken en NLP model
## Ophalen gegevens

In [112]:
import sqlite3
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
%matplotlib inline

db_file = 'elderspeak_detect.db'
con = sqlite3.connect(db_file)
df = pd.read_sql_query('''select 	pr.spraaksnelheid,
                                    pr.geluidsniveau,
                                    pr.toonhoogte,
                                    tr.textcat_elderspeak_score
                          from praat_resultaten pr
                          join tekst_resultaten tr on tr.audio_id = pr.audio_id
                          join teksten t on t.tekst_id = tr.tekst_id
                          where t.methode = 'GOOGLE_ENKEL_NL_BE'
                          and pr.spraaksnelheid > 0;''', con)
con.close()

print(f"Aantal kolommen: { len(df.columns) }")
print(f"Aantal rijen: { len(df.index) }")
df.tail()

Aantal kolommen: 4
Aantal rijen: 39


Unnamed: 0,spraaksnelheid,geluidsniveau,toonhoogte,textcat_elderspeak_score
34,3.730843,74.908909,200.939246,0.142113
35,2.952756,73.815941,103.066537,0.032702
36,3.581527,69.460416,255.741484,0.000798
37,3.959729,71.208296,297.522137,0.022516
38,3.41556,69.129282,195.178867,0.000624


In [113]:
textcat_elderspeak_score = df['textcat_elderspeak_score']
spraaksnelheid = df['spraaksnelheid']
geluidsniveau = df['geluidsniveau']
toonhoogte = df['toonhoogte']

o = '''
fig, ax = plt.subplots(1, 1)
ax.plot(textcat_elderspeak_score, spraaksnelheid, '.')
ax.set_xlabel('NLP model')
ax.set_ylabel('spraaksnelheid')

fig, ax = plt.subplots(1, 1)
ax.plot(textcat_elderspeak_score, geluidsniveau, '.')
ax.set_xlabel('NLP model')
ax.set_ylabel('geluidsniveau')

fig, ax = plt.subplots(1, 1)
ax.plot(textcat_elderspeak_score, toonhoogte, '.')
ax.set_xlabel('NLP model')
ax.set_ylabel('toonhoogte')

fig, ax = plt.subplots(1, 1)
ax.plot(spraaksnelheid, toonhoogte, '.')
ax.set_xlabel('spraaksnelheid')
ax.set_ylabel('toonhoogte')
'''

In [114]:
df.corr()

Unnamed: 0,spraaksnelheid,geluidsniveau,toonhoogte,textcat_elderspeak_score
spraaksnelheid,1.0,0.580838,0.109491,-0.156548
geluidsniveau,0.580838,1.0,-0.141699,0.151871
toonhoogte,0.109491,-0.141699,1.0,-0.285911
textcat_elderspeak_score,-0.156548,0.151871,-0.285911,1.0


In [115]:
df['textcat_res']           = (df['textcat_elderspeak_score']   > df['textcat_elderspeak_score'].median())
df['spraaksnelheid_res']    = (df['spraaksnelheid']             > df['spraaksnelheid'].median())
df['geluidsniveau_res']     = (df['geluidsniveau']              > df['geluidsniveau'].median())
df['toonhoogte_res']        = (df['toonhoogte']                 > df['toonhoogte'].median())

In [116]:
pd.crosstab(df['textcat_res'], df['spraaksnelheid_res'])

spraaksnelheid_res,False,True
textcat_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,9,11
True,11,8


In [117]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.6278117988430432
geen statistisch significante correlatie


In [118]:
pd.crosstab(df['textcat_res'], df['geluidsniveau_res'])

geluidsniveau_res,False,True
textcat_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,13,7
True,7,12


In [119]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.15043605160594425
geen statistisch significante correlatie


In [120]:
pd.crosstab(df['textcat_res'], df['toonhoogte_res'])

toonhoogte_res,False,True
textcat_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,10,10
True,10,9


In [121]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 1.0
geen statistisch significante correlatie


In [122]:
pd.crosstab(df['spraaksnelheid_res'], df['textcat_res'])

textcat_res,False,True
spraaksnelheid_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,9,11
True,11,8


In [123]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.6278117988430432
geen statistisch significante correlatie


In [124]:
pd.crosstab(df['spraaksnelheid_res'], df['geluidsniveau_res'])

geluidsniveau_res,False,True
spraaksnelheid_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,12,8
True,8,11


In [125]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.42541679263711385
geen statistisch significante correlatie


In [126]:
pd.crosstab(df['spraaksnelheid_res'], df['toonhoogte_res'])

toonhoogte_res,False,True
spraaksnelheid_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,11,9
True,9,10


In [127]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.8759345322834657
geen statistisch significante correlatie


In [128]:
pd.crosstab(df['geluidsniveau_res'], df['textcat_res'])

textcat_res,False,True
geluidsniveau_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,13,7
True,7,12


In [129]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.15043605160594425
geen statistisch significante correlatie


In [130]:
pd.crosstab(df['geluidsniveau_res'], df['spraaksnelheid_res'])

spraaksnelheid_res,False,True
geluidsniveau_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,12,8
True,8,11


In [131]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.42541679263711385
geen statistisch significante correlatie


In [132]:
pd.crosstab(df['geluidsniveau_res'], df['toonhoogte_res'])

toonhoogte_res,False,True
geluidsniveau_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,10,10
True,10,9


In [133]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 1.0
geen statistisch significante correlatie


In [134]:
pd.crosstab(df['toonhoogte_res'], df['textcat_res'])

textcat_res,False,True
toonhoogte_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,10,10
True,10,9


In [135]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 1.0
geen statistisch significante correlatie


In [136]:
pd.crosstab(df['toonhoogte_res'], df['spraaksnelheid_res'])

spraaksnelheid_res,False,True
toonhoogte_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,11,9
True,9,10


In [137]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 0.8759345322834657
geen statistisch significante correlatie


In [138]:
pd.crosstab(df['toonhoogte_res'], df['geluidsniveau_res'])

geluidsniveau_res,False,True
toonhoogte_res,Unnamed: 1_level_1,Unnamed: 2_level_1
False,10,10
True,10,9


In [139]:
p = st.chi2_contingency(_)[1]
print('p-waarde = ' + str(p))
if p < 0.05:
    print('statistisch significante correlatie')
else:
    print('geen statistisch significante correlatie')

p-waarde = 1.0
geen statistisch significante correlatie
