In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
bgmedic_data = pd.read_csv('./data/bgmedic_diseases.csv', skiprows=1, header=None, names=['Title', 'Text'])
bgmedic_data.head()

Unnamed: 0,Title,Text
0,Афта,"Други имена: афтозна язва, устна афта. Англ: C..."
1,Аутизъм,Други имена: аутистично разстройство. Англ: Au...
2,Родилни петна,Други имена: Белег по рождение. Англ: Birthmar...
3,Дребна шарка,"Други имена: Морбили, брусница. Англ: Rubeola,..."
4,Кучешка тения,"Други имена: Ехинококоза Англ: Echinococcus, H..."


In [None]:
columns_to_use = [0, 3]
framar_data = pd.read_csv(
    './data/framar_diseases.csv',
    skiprows=1,
    header=None,
    usecols = [i for i in columns_to_use],
    names=['Title', 'Text']
)
framar_data.head()

Unnamed: 0,Title,Text
0,Инфекциозни и паразитни болести МКБ A00-B99,Изучаването на инфекциите води своето начало о...
1,Болести на нервната система МКБ G00-G99,В рубриката болести на нервната система се вкл...
2,Болести на окото и придатъците му МКБ H00-H59,Окото е зрителният орган на човека. Чрез него ...
3,"Вродени аномалии, деформации и хромозомни абер...","Вродените аномалии, деформации и хромозомни аб..."
4,"Болести на ендокринната система, разстройства ...","Болести на ендокринната система, разстройства ..."


In [None]:
pulse_data_as_json = pd.read_json('./data/pulse_data.json')
pulse_data_as_json.to_csv('./data/pulse_diseases.csv', sep=',', encoding='utf-8', header=True, index=False)

In [None]:
columns_to_use = [1, 3]
pulse_data = pd.read_csv(
    './data/pulse_diseases.csv',
    skiprows=1,
    header=None,
    usecols = [i for i in columns_to_use],
    names=['Text', 'Title']
)
pulse_data = pulse_data[pulse_data.columns[::-1]]

pulse_data['Text'] = pulse_data['Text'].str.replace(r'\\n', '')
pulse_data['Text'] = pulse_data['Text'].str.replace(r'\\t', ' ')
pulse_data['Text'] = pulse_data['Text'].str.replace(r'\\r', ' ')
pulse_data['Text'] = pulse_data['Text'].str[4:]
pulse_data['Text'] = pulse_data['Text'].str[:-3]
pulse_data['Text'] = pulse_data['Text'].str.replace('\', \'[0-9].', '', regex=True)
pulse_data.head()

Unnamed: 0,Title,Text
0,Височинна болест,Какво представлява височинната болест? Височ...
1,Васкулити,Можем ли да се предпазим от развитие на васку...
2,Базално-клетъчен карцином,Какво представлява базално-клетъчния карцином...
3,Варицела (лещенка),Може ли да се предпазим от варицела? Една о...
4,Вирусен гастроентерит,Кои са причнителите и какъв е механизмът на з...


In [None]:
bgmedic_data.shape

(236, 2)

In [None]:
framar_data.shape

(9519, 2)

In [None]:
pulse_data.shape

(473, 2)

In [None]:
combined_data = pd.concat([bgmedic_data, framar_data, pulse_data], axis=0)
combined_data.head()

Unnamed: 0,Title,Text
0,Афта,"Други имена: афтозна язва, устна афта. Англ: C..."
1,Аутизъм,Други имена: аутистично разстройство. Англ: Au...
2,Родилни петна,Други имена: Белег по рождение. Англ: Birthmar...
3,Дребна шарка,"Други имена: Морбили, брусница. Англ: Rubeola,..."
4,Кучешка тения,"Други имена: Ехинококоза Англ: Echinococcus, H..."


In [None]:
combined_data.shape

(10228, 2)

In [None]:
combined_data.to_csv('./data/diseases_data.csv', sep=',', encoding='utf-8', header=True, index=False)

In [None]:
diseases_train, diseases_test = train_test_split(combined_data, train_size=0.80, shuffle=False)

In [None]:
diseases_test.head()

Unnamed: 0,Title,Text
7946,"Открити рани, обхващащи няколко области от тя...",Раната представлява травмено увреждане на тъка...
7947,"Повърхностни травми, обхващащи няколко област...",Повърхностните травми представляват увреждане ...
7948,Травма с неуточнена локализация МКБ T14,Под понятието травма е прието да се разбират н...
7949,Счупване на долен крайник на неуточнено ниво ...,Под термина счупване или фрактура се разбира п...
7950,Други травми на горен крайник на неуточнено н...,Травмата представлява въздействието на външен ...


In [None]:
diseases_test.shape

(2046, 2)

In [None]:
diseases_train.head()

Unnamed: 0,Title,Text
0,Афта,"Други имена: афтозна язва, устна афта. Англ: C..."
1,Аутизъм,Други имена: аутистично разстройство. Англ: Au...
2,Родилни петна,Други имена: Белег по рождение. Англ: Birthmar...
3,Дребна шарка,"Други имена: Морбили, брусница. Англ: Rubeola,..."
4,Кучешка тения,"Други имена: Ехинококоза Англ: Echinococcus, H..."


In [None]:
diseases_train.shape

(8182, 2)

In [None]:
diseases_test, diseases_cross_validation = train_test_split(diseases_test, train_size=0.50, shuffle=False)

In [None]:
diseases_test.shape

(1023, 2)

In [None]:
diseases_test.head()

Unnamed: 0,Title,Text
7946,"Открити рани, обхващащи няколко области от тя...",Раната представлява травмено увреждане на тъка...
7947,"Повърхностни травми, обхващащи няколко област...",Повърхностните травми представляват увреждане ...
7948,Травма с неуточнена локализация МКБ T14,Под понятието травма е прието да се разбират н...
7949,Счупване на долен крайник на неуточнено ниво ...,Под термина счупване или фрактура се разбира п...
7950,Други травми на горен крайник на неуточнено н...,Травмата представлява въздействието на външен ...


In [None]:
diseases_cross_validation.shape

(1023, 2)

In [None]:
diseases_cross_validation.head()

Unnamed: 0,Title,Text
8969,"Други симптоми и признаци, отнасящи се до емоц...",Няма описание на заболяването.
8970,Съдържание на алкохол в кръвта 20-39 мг/100 мл...,При съдържание на алкохол в кръвта 20-39 мг/10...
8971,Съдържание на алкохол в кръвта по-малко от 20 ...,При съдържание на алкохол в кръвта по-малко от...
8972,"Състояние на емоционален шок и стрес, неуточне...",Няма описание на заболяването.
8973,Физическа агресивност МКБ R45.6,Няма описание на заболяването.


In [None]:
diseases_train.to_csv('./data/diseases_train.csv', sep=',', encoding='utf-8', header=True, index=False)
diseases_test.to_csv('./data/diseases_test.csv', sep=',', encoding='utf-8', header=True, index=False)
diseases_cross_validation.to_csv('./data/diseases_cross_validation.csv', sep=',', encoding='utf-8', header=True, index=False)