«Опрятные» данные
=========

Три принципа опрятных данных, изложенных в [статье Hadley Wickham](http://vita.had.co.nz/papers/tidy-data.pdf):
- Каждая переменная находится в отдельном столбце таблицы, где содержит свои значения.
- Каждое наблюдение формирует отдельный ряд таблицы.
- Каждый тип наблюдаемого явления формирует отдельную таблицу.

In [1]:
import pandas as pd
import numpy as np

**Являются ли эти данные опрятными? Как выглядели бы опрятные данные?**

In [2]:
df = pd.DataFrame({
    "First": ["John", "Jane", "Mary"],
    "Last": ["Smith", "Doe", "Johnson"],
    "Treatment A": [np.nan, 16, 3],
    "Treatment B": [2, 11, 1]
})
df

Unnamed: 0,First,Last,Treatment A,Treatment B
0,John,Smith,,2
1,Jane,Doe,16.0,11
2,Mary,Johnson,3.0,1


Для перевода данных из широкого формата в длинных широко используется функция `melt`. Предполагается, что в Вашей таблице имеются переменны идентификаторы, которые Вы не хотите менять, и переменные, которые Вы хотите трансформировать.

In [3]:
tidy = pd.melt(
    df,
    id_vars=['First', 'Last'], # identifiers
    # аргумент var_name задаёт имя колонки, которая будет содержать переменную,
    # значения которой соответствую значению бывших столбцов
    var_name='treatment',
    value_name='result')
tidy

Unnamed: 0,First,Last,treatment,result
0,John,Smith,Treatment A,
1,Jane,Doe,Treatment A,16.0
2,Mary,Johnson,Treatment A,3.0
3,John,Smith,Treatment B,2.0
4,Jane,Doe,Treatment B,11.0
5,Mary,Johnson,Treatment B,1.0


Почему так лучше? Например, можно безопасно удалять пропущенные значения:

In [4]:
tidy.dropna()

Unnamed: 0,First,Last,treatment,result
1,Jane,Doe,Treatment A,16.0
2,Mary,Johnson,Treatment A,3.0
3,John,Smith,Treatment B,2.0
4,Jane,Doe,Treatment B,11.0
5,Mary,Johnson,Treatment B,1.0


Метод melt работает следующим образом:

In [5]:
messy = pd.DataFrame({'row' : ['A', 'B', 'C'], 
                      'a' : [1, 2, 3],
                      'b' : [4, 5, 6],
                      'c' : [7, 8, 9]})
messy

Unnamed: 0,a,b,c,row
0,1,4,7,A
1,2,5,8,B
2,3,6,9,C


In [6]:
pd.melt(messy, id_vars='row')

Unnamed: 0,row,variable,value
0,A,a,1
1,B,a,2
2,C,a,3
3,A,b,4
4,B,b,5
5,C,b,6
6,A,c,7
7,B,c,8
8,C,c,9


In [7]:
tidy = pd.melt(messy, id_vars='row', var_name='dimension', value_name='length')
tidy

Unnamed: 0,row,dimension,length
0,A,a,1
1,B,a,2
2,C,a,3
3,A,b,4
4,B,b,5
5,C,b,6
6,A,c,7
7,B,c,8
8,C,c,9


Сделайте из опрятных данные неопрятные, используя знакомые Вам функции

Unnamed: 0,row,a,b,c
0,A,1,4,7
1,B,2,5,8
2,C,3,6,9


## Основные проблемы неряшливых данных
1. Заголовки колонок обозначают значение переменных, а не сами переменные.
2. Разные переменные хранятся в одной колонке.
3. Переменные хранятся одновременно и в строках и в колонках.
4. Множество видов наблюдений хранятся в одной таблице.
5. Одна единица наблюдения хранится во множестве таблиц.

### Заголовки колонок обозначают значения переменных, а не сами переменные

This dataset explores the relationship between income and religion in the US. It comes from a report1 produced by the Pew Research
Center, an American think-tank that collects data on attitudes to topics ranging from religion to the internet, and produces many reports that contain datasets in this format.

Приведите эти данные в опрятный вид.

In [66]:
pew = pd.read_csv("pew.csv", sep=";")

In [67]:
pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don't know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah's Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76
50,Agnostic,$50-75k,137
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
41,Atheist,$40-50k,35
21,Atheist,$20-30k,37
11,Atheist,$10-20k,27
31,Atheist,$30-40k,52


### Разные переменные хранятся в одной колонке

After melting, the column variable names often becomes a combination of multiple underlying
variable names. This is illustrated by the tuberculosis (TB) dataset, a sample of which is
shown in Table 9. This dataset comes from the World Health Organisation, and records
the counts of confirmed tuberculosis cases by country, year, and demographic group. The
demographic groups are broken down by sex (m, f) and age (0–14, 15–25, 25–34, 35–44, 45–54, 55–64, unknown).

In [90]:
messy2 = pd.read_csv("tb_edited.csv")

Unnamed: 0,country,year,variable,cases
0,AD,2000,m014,0.0
201,AD,2000,m1524,0.0
402,AD,2000,m2534,1.0
603,AD,2000,m3544,0.0
804,AD,2000,m4554,0.0


Unnamed: 0,country,year,sex,age,cases
0,AD,2000,m,0-14,0.0
201,AD,2000,m,15-24,0.0
402,AD,2000,m,25-34,1.0
603,AD,2000,m,35-44,0.0
804,AD,2000,m,45-54,0.0


### Переменные хранятся одновременно и в строках и в колонках

The most complicated form of messy data occurs when variables are stored in both rows and
columns. Table 11 shows daily weather data from the Global Historical Climatology Network
for one weather station (MX17004) in Mexico for five months in 2010. It has variables in
individual columns (id, year, month), spread across columns (day, d1–d31) and across rows
(tmin, tmax) (minimum and maximum temperature). Months with less than 31 days have
structural missing values for the last day(s) of the month. The element column is not a
variable; it stores the names of variables.

In [126]:
weather = pd.read_csv("https://raw.githubusercontent.com/tidyverse/tidyr/master/vignettes/weather.csv")

In [127]:
weather.head()

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,


Задача: переделайте эту таблицу в такую, из которой будет понятно, какие максимальные и минимальные температуры наблюдались на метеостанции за исследуемый промежуток:

element,id,date,tmax,tmin
0,MX17004,2010-01-30,27.8,14.5
1,MX17004,2010-02-02,27.3,14.4
2,MX17004,2010-02-03,24.1,14.4
3,MX17004,2010-02-11,29.7,13.4
4,MX17004,2010-02-23,29.9,10.7
5,MX17004,2010-03-05,32.1,14.2
6,MX17004,2010-03-10,34.5,16.8
7,MX17004,2010-03-16,31.1,17.6
8,MX17004,2010-04-27,36.3,16.7
9,MX17004,2010-05-27,33.2,18.2


Шаг 1:

Unnamed: 0,id,year,month,element,day,value
20,MX17004,2010,12,tmax,d1,29.9
21,MX17004,2010,12,tmin,d1,13.8
24,MX17004,2010,2,tmax,d2,27.3
25,MX17004,2010,2,tmin,d2,14.4
40,MX17004,2010,11,tmax,d2,31.3
41,MX17004,2010,11,tmin,d2,16.3
46,MX17004,2010,2,tmax,d3,24.1
47,MX17004,2010,2,tmin,d3,14.4
56,MX17004,2010,7,tmax,d3,28.6
57,MX17004,2010,7,tmin,d3,17.5


Шаг 2:

Unnamed: 0,id,element,value,date
20,MX17004,tmax,29.9,2010-12-01
21,MX17004,tmin,13.8,2010-12-01
24,MX17004,tmax,27.3,2010-02-02
25,MX17004,tmin,14.4,2010-02-02
40,MX17004,tmax,31.3,2010-11-02
41,MX17004,tmin,16.3,2010-11-02
46,MX17004,tmax,24.1,2010-02-03
47,MX17004,tmin,14.4,2010-02-03
56,MX17004,tmax,28.6,2010-07-03
57,MX17004,tmin,17.5,2010-07-03


Шаг 4

element,tmax,tmin
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-30,27.8,14.5
2010-02-02,27.3,14.4
2010-02-03,24.1,14.4
2010-02-11,29.7,13.4
2010-02-23,29.9,10.7
2010-03-05,32.1,14.2
2010-03-10,34.5,16.8
2010-03-16,31.1,17.6
2010-04-27,36.3,16.7
2010-05-27,33.2,18.2


Шаг 5 не обязательный

In [135]:
weather3.groupby('id').apply(pd.DataFrame.pivot,
                                  index='date',
                                  columns='element',
                                  values='value').reset_index()

element,id,date,tmax,tmin
0,MX17004,2010-01-30,27.8,14.5
1,MX17004,2010-02-02,27.3,14.4
2,MX17004,2010-02-03,24.1,14.4
3,MX17004,2010-02-11,29.7,13.4
4,MX17004,2010-02-23,29.9,10.7
5,MX17004,2010-03-05,32.1,14.2
6,MX17004,2010-03-10,34.5,16.8
7,MX17004,2010-03-16,31.1,17.6
8,MX17004,2010-04-27,36.3,16.7
9,MX17004,2010-05-27,33.2,18.2


### Множество видов наблюдений хранятся в одной таблице

В нижележащей таблице хранятся два типа наблюдений — об песне и о рейтинге. Разделите эту таблицу на две.

In [17]:
columns = ['year','artist','track','time','date entered','wk1','wk2','wk3',]

data = [[2000,"2,Pac","Baby Don't Cry","4:22","2000-02-26",87,82,72,],
        [2000,"2Ge+her","The Hardest Part Of ...","3:15","2000-09-02",91,87,92,],
        [2000,"3 Doors Down","Kryptonite","3:53","2000-04-08",81,70,68,],
        [2000,"98^0","Give Me Just One Nig...","3:24","2000-08-19",51,39,34,],
        [2000,"A*Teens","Dancing Queen","3:44","2000-07-08",97,97,96,],
        [2000,"Aaliyah","I Don't Wanna","4:15","2000-01-29",84,62,51,],
        [2000,"Aaliyah","Try Again","4:03","2000-03-18",59,53,38,],
        [2000,"Adams,Yolanda","Open My Heart","5:30","2000-08-26",76,76,74]
        ]

messy = pd.DataFrame(data=data, columns=columns)
messy

Unnamed: 0,year,artist,track,time,date entered,wk1,wk2,wk3
0,2000,"2,Pac",Baby Don't Cry,4:22,2000-02-26,87,82,72
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87,92
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70,68
3,2000,98^0,Give Me Just One Nig...,3:24,2000-08-19,51,39,34
4,2000,A*Teens,Dancing Queen,3:44,2000-07-08,97,97,96
5,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,84,62,51
6,2000,Aaliyah,Try Again,4:03,2000-03-18,59,53,38
7,2000,"Adams,Yolanda",Open My Heart,5:30,2000-08-26,76,76,74


Шаг 1, помещаем рейтинг и неделю в отдельные колонки:

Unnamed: 0,year,artist,track,time,date entered,week,rank
5,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,wk1,84
13,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,wk2,62
21,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,wk3,51
0,2000,"2,Pac",Baby Don't Cry,4:22,2000-02-26,wk1,87
8,2000,"2,Pac",Baby Don't Cry,4:22,2000-02-26,wk2,82


Шаг 2. Переводим неделю в формат числа

Unnamed: 0,year,artist,track,time,date entered,week,rank
5,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,1,84
13,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,2,62
21,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,3,51
0,2000,"2,Pac",Baby Don't Cry,4:22,2000-02-26,1,87
8,2000,"2,Pac",Baby Don't Cry,4:22,2000-02-26,2,82


Создаём таблицу с треками.

*используйте методы groupby, first, reset_index*

Unnamed: 0,id,year,artist,track,time
0,0,2000,"2,Pac",Baby Don't Cry,4:22
1,1,2000,2Ge+her,The Hardest Part Of ...,3:15
2,2,2000,3 Doors Down,Kryptonite,3:53
3,3,2000,98^0,Give Me Just One Nig...,3:24
4,4,2000,A*Teens,Dancing Queen,3:44
5,5,2000,Aaliyah,I Don't Wanna,4:15
6,6,2000,Aaliyah,Try Again,4:03
7,7,2000,"Adams,Yolanda",Open My Heart,5:30


Unnamed: 0,id,date entered,rank
0,5,2000-01-29,84
1,5,2000-01-29,62
2,5,2000-01-29,51
3,0,2000-02-26,87
4,0,2000-02-26,82
