In [1]:
import pandas as pd
import numpy as np
import os
import librosa
%matplotlib inline
import matplotlib.pyplot as plt
import librosa.display
import IPython.display as ipd
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly
import plotly.graph_objs as go
import seaborn as sns
from scipy import signal
from scipy.io import wavfile
import soundfile as sf

from numpy.random import seed
from numpy.random import randn
from scipy.stats import mannwhitneyu
seed(1)


pd.set_option('display.max_rows', 200)
path = 'sounds'
sr = 22050
n_fft = 512

In [2]:
# считываем данные по диагнозам пациентов
df = pd.read_csv('patient_diagnosis.csv', sep=',', header=None)
df = df.rename(columns={0:'Patient',1:'Diagnosis'})

In [3]:
# создаём список негодных файлов, которые следует выкинуть из рассмотрения
with open('filename_differences.txt', 'r') as f:
    exclude_list = f.read()
exclude_list = exclude_list.replace('\'','')
exclude_list = exclude_list.split('\n')
exclude_list = [x+'.txt' for x in exclude_list if x != '']


In [4]:
# создаём список файлов по записям, которые будем исследовать
alle = [x for x in os.listdir(path) if (x.endswith('.txt') and (not(x in exclude_list)))]

In [5]:
# выкачиваем списками название соответствующего звукового файла и распарсенные сведения из имени самого текстового файла
temp_data = [[x.replace('txt','wav'),*x.replace('.txt','').split('_')] for x in alle]

In [6]:
#temp_data

In [7]:
#records = pd.DataFrame(columns=['Patient','Recording_index','Chest_location','Acwuisition_mode','Recording_equipment','Record_name'])
#records['Patient'] = 

In [8]:
# создаём датафрейм, записываем в него полученную из названия файла информацию
records = pd.DataFrame(temp_data, columns=['Record_name', 'Patient','Recording_index','Chest_location','Acquisition_mode','Recording_equipment'])
records['Patient'] = records['Patient'].astype('int64')

In [9]:
records.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 6 columns):
Record_name            920 non-null object
Patient                920 non-null int64
Recording_index        920 non-null object
Chest_location         920 non-null object
Acquisition_mode       920 non-null object
Recording_equipment    920 non-null object
dtypes: int64(1), object(5)
memory usage: 43.2+ KB


In [10]:
# добавляем эти данные к основному датафрейму
df = pd.merge(df, records, how='inner', on='Patient')
df

Unnamed: 0,Patient,Diagnosis,Record_name,Recording_index,Chest_location,Acquisition_mode,Recording_equipment
0,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron
1,101,URTI,101_1b1_Pr_sc_Meditron.wav,1b1,Pr,sc,Meditron
2,102,Healthy,102_1b1_Ar_sc_Meditron.wav,1b1,Ar,sc,Meditron
3,103,Asthma,103_2b2_Ar_mc_LittC2SE.wav,2b2,Ar,mc,LittC2SE
4,104,COPD,104_1b1_Al_sc_Litt3200.wav,1b1,Al,sc,Litt3200
...,...,...,...,...,...,...,...
915,224,Healthy,224_1b2_Al_sc_Meditron.wav,1b2,Al,sc,Meditron
916,225,Healthy,225_1b1_Pl_sc_Meditron.wav,1b1,Pl,sc,Meditron
917,226,Pneumonia,226_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron
918,226,Pneumonia,226_1b1_Ll_sc_Meditron.wav,1b1,Ll,sc,Meditron


In [11]:
# добавляем темп ударов
df['Tempo'] = np.nan
for i in range(len(df)):
    df.loc[i,'Tempo'] = librosa.beat.tempo(librosa.load((path+'\\'+str(df.loc[i,'Record_name'])))[0])[0]

In [12]:
# парсим данные по записям внутри текстовых файлов, записываем их в датафрейм
segments = pd.DataFrame(columns=['Start', 'End', 'Crackles', 'Wheezes', 'Record_name'])
for i in range(len(alle)):
    temp = pd.read_csv(path+'\\'+alle[i], sep='\t', header=None)
    temp = temp.rename(columns={0:'Start', 1:'End', 2:'Crackles', 3:'Wheezes'})
    temp['Record_name'] = alle[i].replace('txt','wav')
    segments = pd.concat([segments,temp])

In [13]:
segments.head()

Unnamed: 0,Start,End,Crackles,Wheezes,Record_name
0,0.036,0.579,0,0,101_1b1_Al_sc_Meditron.wav
1,0.579,2.45,0,0,101_1b1_Al_sc_Meditron.wav
2,2.45,3.893,0,0,101_1b1_Al_sc_Meditron.wav
3,3.893,5.793,0,0,101_1b1_Al_sc_Meditron.wav
4,5.793,7.521,0,0,101_1b1_Al_sc_Meditron.wav


In [14]:
# присоединяем полученную информацию к основному датафрейму
df = pd.merge(df, segments, how='inner', on='Record_name')
df.head()

Unnamed: 0,Patient,Diagnosis,Record_name,Recording_index,Chest_location,Acquisition_mode,Recording_equipment,Tempo,Start,End,Crackles,Wheezes
0,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,0.036,0.579,0,0
1,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,0.579,2.45,0,0
2,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,2.45,3.893,0,0
3,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,3.893,5.793,0,0
4,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,5.793,7.521,0,0


In [15]:
# считываем информацию по персональным физиологическим характеристикам пациентов
demo = pd.read_csv('demographic_info.txt', sep=' ', header=None)
demo = demo.rename(columns={0:'Patient', 1:'Age', 2:'Gender', 3:'BMI', 4:'Child_weight', 5:'Child_height'})
demo.head()

Unnamed: 0,Patient,Age,Gender,BMI,Child_weight,Child_height
0,101,3.0,F,,19.0,99.0
1,102,0.75,F,,9.8,73.0
2,103,70.0,F,33.0,,
3,104,70.0,F,28.47,,
4,105,7.0,F,,32.0,135.0


In [16]:
# добавляем информацию к основному датафрейму
df = pd.merge(df, demo, how='inner', on='Patient')
df['Start'] = df['Start'].astype('float64')
df['End'] = df['End'].astype('float64')

In [17]:
df.head()

Unnamed: 0,Patient,Diagnosis,Record_name,Recording_index,Chest_location,Acquisition_mode,Recording_equipment,Tempo,Start,End,Crackles,Wheezes,Age,Gender,BMI,Child_weight,Child_height
0,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,0.036,0.579,0,0,3.0,F,,19.0,99.0
1,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,0.579,2.45,0,0,3.0,F,,19.0,99.0
2,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,2.45,3.893,0,0,3.0,F,,19.0,99.0
3,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,3.893,5.793,0,0,3.0,F,,19.0,99.0
4,101,URTI,101_1b1_Al_sc_Meditron.wav,1b1,Al,sc,Meditron,123.046875,5.793,7.521,0,0,3.0,F,,19.0,99.0


In [18]:
# создаём столбцы под обогащение данных
df['Spectral_centroid'] = np.nan
df['Rolloff'] = np.nan
df['Bandwidth'] = np.nan
df['Zero_crossing'] = np.nan

In [19]:
# создаём список с массивами преобразованных звуковых фрагментов
loaded_data = []
# создаём список со спектрограммами
spectrum = []
for i in range(len(df)):
#    print(i)
    # выкачиваем и преобразуем звуковые фрагменты
    x, sr_out = librosa.load(path+'\\'+str(df.loc[i,'Record_name']), sr=sr, mono=True,
                                            offset=df.loc[i,'Start'], duration=df.loc[i,'End']-df.loc[i,'Start'])
    loaded_data.append(x)
    # получаем спектрограммы звуковых фрагментов и усредняем их по фреймам
    D = np.abs(librosa.stft(x, n_fft=n_fft))
    # усредняем
    D = D.mean(axis=1)
    # нормируем
    s = D.sum()
    D = D / s
    spectrum.append(D)
    # добавляем усреднённый спектральный центроид
    df.loc[i,'Spectral_centroid'] = librosa.feature.spectral_centroid(x, sr=sr, n_fft=n_fft)[0].mean()
    # добавляем усреднённую спектральную ширину
    df.loc[i,'Bandwidth'] = librosa.feature.spectral_bandwidth(x, sr=sr, n_fft=n_fft)[0].mean()
    # спектральный спад
    df.loc[i,'Rolloff'] = librosa.feature.spectral_rolloff(x, sr=sr, n_fft=n_fft)[0].mean()
    # Скорость пересечения нуля
    df.loc[i,'Zero_crossing'] = librosa.feature.zero_crossing_rate(x)[0].mean()
    

In [20]:
Reserved = df.copy()

In [None]:
# пример амплитудной визуализации дорожки
#plt.figure(figsize=(14, 5))
#librosa.display.waveplot(loaded_data[108], sr=sr)

In [None]:
# пример воспроизведения
#ipd.Audio(path+'\\'+str(df['Record_name'][0]))

In [None]:
#plt.plot(list(range(len(D))[:50]), D[:50])
#plt.xlabel('coefficients')
#plt.ylabel('value')
#plt.title('spectrum')

In [None]:
# для удобства создаём словарь болезней
voc = dict(zip(
    list(range(len(df['Diagnosis'].unique())))
    ,list(df['Diagnosis'].unique())))
voc

In [None]:
# список инструментов для измерения
equipment = list(df['Recording_equipment'].unique())
equipment

In [None]:
# функция отрисовки усреднённого распределения по частотам
def mean_spectrum_plotter (method, top = 256, bottom=50):
    # посмотрим на усреднённое распределение спектра у пациентов с различными диагнозами
    mean_spectrum = []
    # берём диагноз
    for x in sorted(list(voc.keys())):
        mean=[]
        # достаём данные по данному диагнозу, записанные на данном приборе
        ind = list(df[(df['Diagnosis']==voc[x]) & (df['Recording_equipment'].isin(method))].index)
        # вычисляем усреднённые спектральные коэффициенты
        for k in range(len(spectrum[0])):
            mean.append(0)
            for j in ind:
                mean[len(mean)-1] += spectrum[j][len(mean)-1]
            if mean[len(mean)-1] != 0:
                mean[len(mean)-1] = mean[len(mean)-1] / len(ind)
        #нормируем
        s = sum(mean)
        if s != 0:
            for l in range(len(mean)):
                  mean[l] = mean[l] / s
        mean_spectrum.append(mean)
#    top = 256
#    bottom = 50
    data = []
    # создаем линию для диагнозов
    for i in sorted(list(voc.keys())):
        trace = go.Scatter(
    #        x=list(range(len(mean_spectrum[i][bottom:top]))),
            x = list(librosa.core.fft_frequencies(sr=sr, n_fft=n_fft))[bottom:top],
            y = mean_spectrum[i][bottom:top],
            name = voc[i]
        )
        data.append(trace)

    # определяем массив данных и задаем title графика в layout
    tit = 'Spectra ('
    for v in method:
        tit += ' '+v
    tit += ')'
    layout = {'title': tit}

    # cоздаем объект Figure и визуализируем его
    fig = go.Figure(data=data, layout=layout)
    iplot(fig, show_link=False)

    #librosa.core.fft_frequencies(sr=sr, n_fft=n_fft)

In [None]:
# графики распределения характеристик будем строить отдельно по разным интсрментам измерения
for y in equipment:
    z=[]
    z.append(y)
    mean_spectrum_plotter(z, top = 30, bottom=10)

In [None]:
df.head()

In [None]:
# функция отрисовки распределения характеристик по диагнозам
def feature_plotter (df, method, feature):
    for x in method:
        tit = feature+'('
        for v in method:
            tit += ''+v
        tit += ')'
        data = df[df['Recording_equipment'].isin(method)]
#        sns.FacetGrid(data,hue='Diagnosis',size=15).map(sns.distplot, feature).add_legend()
        sns.FacetGrid(data,hue='Diagnosis',size=15).map(sns.kdeplot, feature).add_legend()

In [None]:
# спектральный центроид
feature = 'Spectral_centroid'
for y in equipment:
    z=[]
    z.append(y)
    feature_plotter (df, z, feature)

In [None]:
# Спектральный спад
feature = 'Rolloff'
for y in equipment:
    z=[]
    z.append(y)
    feature_plotter (df, z, feature)

In [None]:
# ширина спектра
feature = 'Bandwidth'
for y in equipment:
    z=[]
    z.append(y)
    feature_plotter (df, z, feature)

In [None]:
# Скорость пересечения нуля
feature = 'Zero_crossing'
for y in equipment:
    z=[]
    z.append(y)
    feature_plotter (df, z, feature)

In [None]:
# тест манна-уитни для сравнения распределений
test_data = []
for i in list(voc.values()):
    test_data.append(list(df[df['Recording_equipment'].isin(['Meditron']) & (df['Diagnosis']==i)]['Spectral_centroid']))

# compare samples
def mwtest(data1, data2):
    stat, p = mannwhitneyu(data1, data2)
    print('Statistics=%.3f, p=%.3f' % (stat, p))
    # interpret
    alpha = 0.05
    if p > alpha:
        print('Same distribution (fail to reject H0) '+voc[i]+' '+voc[j])
        r = 0
    else:
        print('Different distribution (reject H0) '+voc[i]+' '+voc[j])
        r = 1
    return r

res=[]
for i in range(len(test_data)):
    res.append([])
    for j in range(i+1,len(test_data)):
        res[i].append(mwtest(test_data[i], test_data[j]))

In [None]:
# перекодировка в 16-битный формат
for i in range(len(alle)):
    sound_data, sound_samplerate = sf.read(path+'\\'+temp_data[i][0])
    sf.write('D:\\sounds\\'+'16_'+temp_data[i][0], sound_data, sound_samplerate, subtype='PCM_16')

In [None]:
sample_rate, samples = wavfile.read('D:\\sounds\\'+'16_'+temp_data[0][0])
#samples=samples[:,0]
frequencies, times, spectrogram = signal.spectrogram(samples.astype('int'), sample_rate)

#plt.imshow(spectrogram)
#plt.pcolormesh(times, frequencies, spectrogram)

#plt.ylabel('Frequency [Hz]')
#plt.xlabel('Time [sec]')
#plt.show()

In [None]:
# пример куска спектра отдельной записи
spectrum1 = np.fft.rfft(samples.astype('int'))
FD = 44100
N = len (spectrum1)
plt.plot(np.abs(spectrum1[:500]))