In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from os import path, getcwd

In [2]:
DBS_DIR = "databases"

In [3]:
DB_DIR = f"{DBS_DIR}/database.csv"
DB_PATH = path.normpath(path.join(path.split(getcwd())[0], DB_DIR))
df = pd.read_csv(DB_PATH)

In [4]:
df.columns

Index(['ID', 'Пол', 'Дата рождения', 'Субъект РФ', 'Населенный пункт',
       'Группа инвалидности', 'Причина инвалидности',
       'Этиология потери зрения', 'Возраст потери зрения', 'Состояние зрения',
       'Причины потери зрения', 'Этиология потери слуха',
       'Возраст потери слуха', 'Состояние слуха', 'Причины потери слуха',
       'Знает синдром', 'Название синдрома', 'Наличие других заболеваний',
       'Диагноз', 'Понимаемые языки', 'Восприятие информации',
       'Передача информации', 'Источники информации', 'Потребность в помощи',
       'Передвижение по улице', 'Необходимые ТСР', 'Использование переводчика',
       'Тип образования', 'Ученая степень', 'Специальность',
       'Работаю в данный момент', 'Желание работать', 'Условия проживания'],
      dtype='object')

In [5]:
new_columns = {
    'ID':"id",
    'Пол':"gender", 
    'Дата рождения':"birthdate", 
    'Субъект РФ':"subject", 
    'Населенный пункт':"locality", 
    'Группа инвалидности':"disability_group", 
    'Причина инвалидности':"disability_cause",
    'Этиология потери зрения':"sight_loss_etiology", 
    'Возраст потери зрения':"sight_loss_age",
    'Состояние зрения':"sight_condition",
    'Причины потери зрения':"sight_loss_cause",
    'Этиология потери слуха':"hearing_loss_etiology", 
    'Возраст потери слуха':"hearing_loss_age",
    'Состояние слуха':"hearing_condition",
    'Причины потери слуха':"hearing_loss_cause",
    'Знает синдром':"syndrome_awareness", 
    'Название синдрома':"syndrome",
    'Наличие других заболеваний':"other_diseases",
    'Диагноз':"diagnosis", 
    'Понимаемые языки':"recognizable_languages", 
    'Восприятие информации':"information_perception",
    'Передача информации':"communication_methods", 
    'Источники информации':"information_sources", 
    'Потребность в помощи':"assistance_necessity",
    'Передвижение по улице':"street_movement", 
    'Необходимые ТСР':"rehabilitation_technologies", 
    'Использование переводчика':"translator_assistance",
    'Тип образования':"education", 
    'Ученая степень':"academic_degree", 
    'Специальность':"specialization",
    'Работаю в данный момент':"working", 
    'Желание работать':"working_willingness", 
    'Условия проживания':"living_conditions"
}
df = df.rename(columns=new_columns)

In [6]:
df["syndrome_awareness"] = df["syndrome_awareness"].str.replace("Нет, синдром не установлен или неизвестен", "Нет")
df["syndrome_awareness"] = df["syndrome_awareness"].str.replace("Да, синдром известен", "Да")

In [7]:
df["birthdate"] = df["birthdate"].str.replace('.', "/", regex=False)
df["birthdate"] = df["birthdate"].str.replace('0000', "2000", regex=False)
df["birthdate"] = pd.to_datetime(df["birthdate"], dayfirst=True)

In [8]:
df.replace(r'^[Дд]а$', True, regex=True, inplace=True)
df.replace(r'^[Нн]ет$', False, regex=True, inplace=True)

In [9]:
boolean_variables = ["syndrome_awareness", "other_diseases", "working", "working_willingness"]
df[boolean_variables] = df[boolean_variables].astype("boolean")

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3524 entries, 0 to 3523
Data columns (total 33 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   id                           3524 non-null   int64         
 1   gender                       3524 non-null   object        
 2   birthdate                    3524 non-null   datetime64[ns]
 3   subject                      3524 non-null   object        
 4   locality                     3524 non-null   object        
 5   disability_group             3465 non-null   object        
 6   disability_cause             3436 non-null   object        
 7   sight_loss_etiology          3497 non-null   object        
 8   sight_loss_age               1931 non-null   float64       
 9   sight_condition              3485 non-null   object        
 10  sight_loss_cause             3354 non-null   object        
 11  hearing_loss_etiology        3464 non-null 