In [1]:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as pp

# %matplotlib inline указывает, что график необходимо построить все в той же оболочке Jupyter, но теперь он выводится как обычная картинка.
%matplotlib inline

In [4]:
tb = pd.read_csv('туберкулез.xls').head()

In [5]:
# Отобразим названия столбцов
tb.columns

Index(['country', 'year', 'm04', 'm514', 'm014', 'm1524', 'm2534', 'm3544',
       'm4554', 'm5564', 'm65', 'mu', 'f04', 'f514', 'f014', 'f1524', 'f2534',
       'f3544', 'f4554', 'f5564', 'f65', 'fu'],
      dtype='object')

In [8]:
# Переназначим названия столбцов, чтобы идентифицировать год, страну и прочие параметры
melted = tb.melt(['country', 'year'], ['m04', 'm514', 'm014', 'm1524', 'm2534', 'm3544',
       'm4554', 'm5564', 'm65', 'mu', 'f04', 'f514', 'f014', 'f1524', 'f2534',
       'f3544', 'f4554', 'f5564', 'f65', 'fu'], 'sexage', 'cases')
melted.head()

Unnamed: 0,country,year,sexage,cases
0,AD,1989,m04,
1,AD,1990,m04,
2,AD,1991,m04,
3,AD,1992,m04,
4,AD,1993,m04,


In [9]:
# Разделим столбцы пол и возраст
melted['sex'] = melted['sexage'].str.slice(0, 1)
melted['age'] = melted['sexage'].str.slice(1)
melted.head()

Unnamed: 0,country,year,sexage,cases,sex,age
0,AD,1989,m04,,m,4
1,AD,1990,m04,,m,4
2,AD,1991,m04,,m,4
3,AD,1992,m04,,m,4
4,AD,1993,m04,,m,4


In [10]:
# Переименуем столбцы с возрастными группами, добавив дефис. U (unknown) станет NaN
melted['age'] = melted['age'].map({'04': '0-4', 's14': 's-14', '1524': '15-24', '2534': '25-34', '35-44': '35-44', '4554': '45-54', '5564': '55-64', '65': '65+', 'u': np.nan})
melted['age']

0     0-4
1     0-4
2     0-4
3     0-4
4     0-4
     ... 
95    NaN
96    NaN
97    NaN
98    NaN
99    NaN
Name: age, Length: 100, dtype: object

In [14]:
# Добавим сортировку
melted.sort_values(['country', 'year', 'age', 'sex'])
melted.head(10)

Unnamed: 0,country,year,sexage,cases,sex,age
0,AD,1989,m04,,m,0-4
1,AD,1990,m04,,m,0-4
2,AD,1991,m04,,m,0-4
3,AD,1992,m04,,m,0-4
4,AD,1993,m04,,m,0-4
5,AD,1989,m514,,m,
6,AD,1990,m514,,m,
7,AD,1991,m514,,m,
8,AD,1992,m514,,m,
9,AD,1993,m514,,m,


In [16]:
melted.to_csv('туберкулез-финал.csv', index = False)