# Аккуратная загрузка текстовых данных

Представим ситуацию, что вам прислали файл с данными о результатах обследования группы пациентов. О формате файла известно, что он текстовый. Допустим, что Вам нужны лишь сведения о поле и возрасте пациентов, чтобы принять решение о дальнейших шагах.

In [None]:
ssylka = 'data.txt'

`Pandas` предоставляет методы для чтения не совсем идеальных файлов данных, с которыми приходится сталкиваться.

In [None]:
%pylab inline
import pandas as pd

Попробуем справиться с особенностями данного файла, которые могут помешать нам загрузить данные, если мы не будем задавать никаких дополнительных параметров к методу чтения текстовых файлов наиболее распространнего формата - `CSV` (comma-separated values).

In [None]:
D = pd.read_csv(ssylka)
D.head()

Содержимое файла загружено в таблицу, однако не так, как нам хотелось бы.

Первые строчки, начинающиеся со знака `#` похожи на комментарии. Остальные строчки содержат наклонную черту с буквой `t` - обозначение символа табуляции (длинного пробела фиксированной ширины для формирования таблиц).


In [None]:
D = pd.read_csv(ssylka, delimiter='\t', comment='#')
D.head()

С помощью дополнительных параметров мы указали команде чтения, что нужно пропускать комментарии и использовать специальный разделитель.

Однако, в таблице много колонок, а нам нужны только две.
При работе с большими наборами данных, где колонок могут быть сотни, может быть существенным ограничить количество загружаемых колонок.
Для этого воспользуемся соответствующим параметром.

In [None]:
D = pd.read_csv(ssylka, delimiter='\t', comment='#', usecols=['Age','Gender'])
D

Теперь можно легко оценить поло-возрастной состав выборки пациентов.

In [None]:
D.Gender.value_counts()

In [None]:
D.hist(by='Gender', sharey=True, figsize=(10,4));