In [1]:
import io

import numpy as np
import pandas as pd
import plotly_express as px

In [2]:
# MASTER ONLY
import re
# imports %%solution, %%submission, %%template, %%inlinetest, %%studenttest, %autotest
%load_ext prog_edu_assistant_tools.magics
from prog_edu_assistant_tools.magics import report, autotest

**lang:en**
In this exercise, we will consider what is a data frame and how to represent
the data in a "tidy" way. We will use the `pandas` data frame library.

**lang:ja**
この講義では表のようなデータのためのデータフレームの保存方法を紹介し、**キレイな**データ表現を説明します。
`pandas`ライブラリーを使用します。

# Data frames 1. データフレームとは (What is a data frame)
```
# ASSIGNMENT METADATA
assignment_id: "DataFrame1"
```

**lang:en** A data frame is a table with the data. For examle, a standard spreadsheet with a data
can be thought of as a data frame. Let's look at an example.

**lang:ja** データは表の形すれば、データフレーム扱いが可能になります。たとえば、スプレッドシートのデータはデータフレームとして考えられます。
こちらの例を見ましょう。

In [3]:
df = pd.read_csv('data/tokyo-weather.csv')
df.head()

Unnamed: 0,Time_h,Temperature_C,Precipitation_mm,WindDirection,WindSpeed_ms,SunshineDuration_h,Humidity,Pressure_hPa
0,1,20.7,0,WNW,3.0,,55,1000.8
1,2,20.0,0,WNW,2.9,,58,1001.6
2,3,19.2,0,WNW,2.5,,60,1002.7
3,4,19.7,0,NNW,2.0,0.0,58,1003.8
4,5,17.8,0,WNW,3.0,0.0,69,1005.0


**lang:en** Here, the `read_csv` call reads the data from a CSV file into a data frame. 

```python
# Read the CSV file into a new data frame.
df = read_csv('data/tokyo-weather.csv')
```

And the `df.head()` call displays the first few lines of the data frame.

```python
# Display the first 5 rows of the data frame.
df.head()
```

**lang:ja** `read_csv`はCSV形式のファイルからデータを読み込んでいます。

```python
# CSV形式のファイルからデータを読み込みます。
df = read_csv('data/tokyo-weather.csv')
```

`df.head()`はデータの最初の５つの行を表示します。

```python
# 最初の５つの行を表示します。
df.head()
```

**lang:en** The data frame has columns, rows and the cells holding the values. The values in the cells can be numeric (including NaN to represent missing numbers), or they can be string values to represent text data or categorical data. 
The interpretation of the data frame comes from statistics.
Each column in the data frame corresponds to a variable, that is something that either
can be measured, or can be controlled by us. Each row corresponds to one observation, with
values in different columns logically being related. For example, in the table abouve,
one row coresonds to the weather data for 1 hour.

In Python Pandas library, the column types can be inspected using dtypes property. Note that numeric types
are further subdivided into integer (`int64`) and floating point (`float64`) types. The string data is represented with dtype `object`.

**lang:ja** データフレームは列や行があります。各列には数値または文字に保存できます。数値の列の場合は、値が不明や欠損値は`NaN`として表現できます。
文字や因子は文字列として保存できます。

データフルームの考え方は統計分析に従来しますが、統計分析以外にもその考え方が役に立ちます。
各行は観測値を表し、各列は変数を表します。変数とは、直接に設定できる、または観測して図るものとします。
一つの観測値は同時に図るものなので、一つの行に入っている値は一つのものを記述します。
以上の例の表では、一つの行は一時間の観測を表しています。

Pythonの`pandas`のライブラリーでは、列の型が分かるために`dtypes`というプロパティを使用できます。
数値型は更に整数（`int64`)や浮動小数点(`float64`)の型に分けています。文字の場合はオブジェクトの型（`object`)になります。

**TODO(salikh): Include an illustration of a data frame, like in the link below**.

データフレームについてもっと詳しくこちらにご覧ください： http://cse.naro.affrc.go.jp/takezawa/r-tips/r/39.html (外部リンク)

In [4]:
df.dtypes

Time_h                  int64
Temperature_C         float64
Precipitation_mm        int64
WindDirection          object
WindSpeed_ms          float64
SunshineDuration_h    float64
Humidity                int64
Pressure_hPa          float64
dtype: object

## What is a CSV format
**lang:en**

There are many ways to represent the tabular data, spreadsheets being the most popular one among general computer users. However, for the programmatic access, a simpler format may be even more useful.
It is easy to generate, even by typing manually, and relatively easy to parse. CSV stands for comma-separated values, so it uses a comma `,` to separate the values in a single row.

Here are the rules of the CSV data format:

* Every line has the same number of fields separated by commas. In CSV speak, each line is called "a record".
* The values of fields should not contain commas or newline characters. In the event that comma needs to be a part of the value, the field value should be enclosed in double quotes.
  * If the contents of the field needs to contain double quote character itself, it should be doubled inside.
* The first line in the file may be a header, i.e. contain the human-readable column names. This is not required, but having a header line makes the data more self-describing, and makes the code to handle them more robust.

Typically the CSV format is used in files with `.csv` suffix, but Python language makes it easy enough to parse CSV defined directly in the source code in string literals. This is one of the easiest way to define small data frames in Jupyter notebooks. Here is an example. 

## CVS形式とは (What is CSV format)
**lang:ja**

表のようなデータを表現できる方法複数がありますが、プログラムでデータを扱うのために特に使いやすいのはCSV形式です。
CSV形式はプログラムによって生成または手動の生成両方とも簡単で、読み込みも簡単にできます。
CSVはComma-separated valuesの略で、カンマ区切りという意味です。

CSV形式のルールは以下です。

* 各行はカンマで区切っているいくつかの値から成り立っています。一つの値はフィルドといいます。
* 各行はフィルドの数は同じです。　一行はレコードといいます。
* 値のなかではカンマ、開業、引用符が原則として入りません
* もしカンマ、開業を入れなければ行けない場合、引用符の中に入れます： `"a,b"`
  * 引用符を入れなければ行けない場合は、引用符の中に二重しなければなりません： `"a""b"`
* ファイルの最初の一行はヘッダ業を入れることができます。必須ではありませんが、できればあった方がいいです。

普段はCSV形式`.csv`のファイルとして保存しますが、Pythonでは直接のプログラムへの組み込みも可能です。
以下の例をご覧ください。

In [5]:
df2 = pd.read_csv(io.StringIO("""
x,y
1,2
3,4
"""))
df2

Unnamed: 0,x,y
0,1,2
1,3,4


**lang:en** In case you are curious, `pd.read_csv` accepts file-like objects to read the data from, and io.StringIO is way to create a file-like object from a string literal. Triple quotes `"""` are a Python syntax that allows to define multi-line string literal.

**lang:ja** 詳しく見ると、`pd.read_csv`はファイルのようなものを受け取ります、そして`io.StringIO`は文字からファイルのようなオブジェクトを作っています。

## Tidy data frames: How to think about data frame structure
**lang:en**

There are many possible ways how one can put the same data into the tabular format.

     TODO(salikh): Add examples
     
One particularly useful way to think of the data has been inspired by statistics and looks like an experiment report.
It is called _tidy_ data and satisfies the following conditions:

* Each kind of "experiment" is kept in a separate data frame.
* In a table, one row is "one observation", and one column is one variable.
* The values are in the fields only, i.e. the values should never occur in column headers. The variable names should be in column header only, i.e. variable names should never occur in field values.
* Variable (columns) can be subdivided into _controlled_ (how we set up an experiment), and _measured_ (the values that we are measuring). This way of thinking explains what do we mean by each row corresponding to one observation.

All other possible formats of data that are not tidy are called _messy_ by contrast.

There is some connection of tidy data frames to 3rd normal form in the database theory, but data frames tend to be more flexible and malleable. It is also worth noting, that depending on the purpose of data analysis and required computations, the definition of "one observation" may be different. For example, let's assume that we have the data about flight arrival and departure times. If we want to study flight durations, then it is convenient to have departure and arrival as independent variables in separate columns, which makes it really easy to compute flight duration. If on the other hand we want to study how the air stripe at an airport is used, then depatures and arrivals are just timestamps of events related to the airstripe use, and arrival/departure is better to be thought as an additional categorical variable.


There are two benefits to tidy data frames

* Bringing all data into tidy frame format makes your life easier as you do not need
  to remember and handle various data format pecularities. Data handing becomes
  uniform.
  
* There is an existing set of tools that work best when the data is in tidy format. The most
  important of those tools is a plotting library used for data visualiation.
  We will see some examples later in this unit.

See the paper https://vita.had.co.nz/papers/tidy-data.pdf for more details about tidy data frames.

## キレイなデータフレーム (Tidy data frames)
**lang:ja**

データフレームにデータを入れる方法はたくさんありますが、その中に一つは特に役に立ちます。それは「キレイなデータフレーム」といい、こちらの条件に当てはまるデータフレームです。

* 一つのデータフレームに入るデータは一つの観測値として考えられ、変数は全て関連します。
* 一つの列は変数になります。列のヘッダは変数名です。変数の値はヘッダに絶対に入りません。
* ーつの行は一つの観測として考えられます。つまり、関係しないデータは一つの行に入りません。

キレイなデータフレームの条件に当てはまらないデータフレームは**汚い**といいます。

データ解析の目的によって観測値の定義は異なる場合もあります。たとえば、飛行機の出発時間や到着時間は
別々の変数でしょうか。　飛行時間を解析のであれば、別々の変数の扱いは便利です。なぜかというと、観測値ごとに
簡単に飛行時間を計算できるからです。　もし空港の飛行場の使い方の解析の場合は、離陸も着陸も飛行場を使う
機会なので、同じデータであっても、一つの変数にした方が解析しやすいのです。

詳しくキレイなデータフレームについてこちらの論文ご参考ください： https://vita.had.co.nz/papers/tidy-data.pdf （英語）

# 予習課題: 記述からデータフレームを生成 (Create data frame from textual description)
```
# EXERCISE METADATA
exercise_id: "CreateDataFrameFromText"
```

**lang:en**

In this exercise, you task is to create a tidy data frame based on the textual description
provided below. An person (Aliсe) wants to do a data analysis on her coffee drinking habits.

Here is the Alices description of her week:

* Alice goes to office every weekday
* Alice drops by the coffee shop before work every day except Wednesdays
* In the morning, Alice buys an S-size coffee cup
* Alice goes to gym every Tuesday and Thursday.
* After gym Alice goes to the coffee shop and has a L-size coffee.
* When not going to gym, Alice goes straight home and goes to sleep without coffee.
* On weekends, Alice does not go to coffee shops, but brews coffee at home, once on Saturday and once on
  Sunday. Her coffee maker makes 500 ml of coffee.
* S-size cup is 200 ml. L-size cup is 300 ml.
  
Your task: create a data frame named `coffee` that would describe how much coffee Alice drinks on each day of the week, with the following columns describing the day:

* `day`: integer, describes the day (1: Monday, ... 7 = Sunday)
* `work`: boolean (True/False) describes whether the day is workday (true) or weekends (false).
* `gym`: boolean (True/False) describes whether Alice goes to the gym on that day (true - goes to gym, false - 
does not go to gym).
* `coffee_ml`: integer, describes how much coffee Alice drinks in the day.


**lang:ja**
    
アリスはコーヒーを大好きで、よく飲みます。コーヒーの消費量に気になってデータ解析を行いたいので、以下の記述を読んで、データフレームをCSV形式で作ってください。
アリスの一週間の説明こちらです：

* アリスは平日は毎日に会社に通います。
* アリスは会社に着く前に毎日にコーヒーを飲みます。ただし、水曜日は飲みません。
* 朝は、いつもSサイズのコップを買います。
* アリスは毎週火曜日と木曜日にジムに通います。
* ジムが終わったら、アリスはLサイズのコーヒーを飲んでいます。
* ジムがない日はコーヒー屋さんによらず直接に帰ります。
* 週末（土曜日と日曜日）は、アリスはコーヒーを家で一日一回作ります。一回の量は500mlです。
* Sサイズのコップは200ml, Lサイズのコップは300mlです。

課題として、データフレームを作って`coffee`という名前をつけてください。データフレームには以下の列を入れましょう。

* `day`: 整数、一週間の中の一日を記述します (1: 月曜日、　... ７：　日曜日)
* `work`: 真理値、その日に会社に行くかどうか。
* `gym`: 真理値、その日にジムに行くかどうか。
* `coffee_ml`: 整数、その日にコーヒーの消費量、ｍｌの単位。

In [6]:
%%solution
coffee = pd.read_csv(io.StringIO("""day,work,gym,coffee_ml
# BEGIN SOLUTION
1,true,false,200
2,true,true,500
3,true,false,0
4,true,true,500
5,true,false,200
6,false,false,500
7,false,false,500
# END SOLUTION
"""))

In [7]:
# Inspect the resulting data frame
coffee

Unnamed: 0,day,work,gym,coffee_ml
0,1,True,False,200
1,2,True,True,500
2,3,True,False,0
3,4,True,True,500
4,5,True,False,200
5,6,False,False,500
6,7,False,False,500


In [8]:
%%studenttest StudentTest
# Test the data frame. **lang:en**
# MASTER ONLY
assert len(coffee) == 7, "Your dataframe should have 7 rows for each day of the week"
assert 'day' in coffee, "Your dataframe should have a 'day' column"
assert 'coffee_ml' in coffee, "Your dataframe should have a 'coffee_ml' column"
assert 'work' in coffee, "Your dataframe should have a 'work' column"
assert 'gym' in coffee, "Your dataframe should have a 'gym' column"

In [9]:
%%studenttest StudentTest
# Test the data frame. **lang:ja**
assert len(coffee) == 7, "データフレームには７つの行が入らなければなりません"
assert 'day' in coffee, "データフレームには'day'の列が入らなければなりません"
assert 'coffee_ml' in coffee, "データフレームには'coffee_ml'の列が入らなければなりません"
assert 'work' in coffee, "データフレームには'work'の列が入らなければなりません"
assert 'gym' in coffee, "データフレームには'gym'の列が入らなければなりません"

In [10]:
%%inlinetest AutograderTest
# This test is not shown to student, but used by the autograder.
assert 'coffee' in globals(), "Did you define the data frame named 'coffee' in the solution cell?"
assert coffee.__class__ == pd.core.frame.DataFrame, "Did you define a data frame named 'coffee'? There was a %s instead" % coffee.__class__
assert len(coffee) == 7, "The data frame should have 7 rows, you have %d" % len(coffee)
assert len(np.unique(coffee['day']) == 7), "The data frame should have 7 unique values of the 'day', you have %d" % len(np.unique(coffee['day']))
assert str(np.sort(np.unique(coffee['coffee_ml'])).astype(list)) == '[0 200 500]', "The daily coffee_ml amount should have values of 0, 200, and 500, but you have got: %s" % (str(np.sort(np.unique(coffee['coffee_ml'])).astype(list)))
assert np.sum(coffee['coffee_ml']) == 2400, "The coffee amount is not correct, total should be 2400 ml per week, but you data frame has %d" % np.sum(coffee['coffee_ml']) 
assert np.sum(coffee['work'].astype(int)) == 5, "There should be 5 work days in a week"
assert np.sum(coffee['gym'].astype(int)) == 2, "There should be 2 gym days in a week"
assert np.all(coffee.loc[coffee['gym']]['coffee_ml'] == 500), "coffee_ml should be 500 ml on gym days"
assert np.all(coffee.loc[np.logical_not(coffee['work'])]['coffee_ml'] == 500), "coffee_ml should be 500 on weekends"
assert np.sum(coffee.loc[np.logical_and(coffee['work'], np.logical_not(coffee['gym']))]['coffee_ml']) == 400, "coffee_ml should be 200 on Monday and Friday, and 0 on Wednesday"

# MASTER ONLY. Try the AutograderTest with various inputs

In [11]:
%%submission
coffee = pd.read_csv(io.StringIO("""day,coffee_ml,work,gym
Monday,201,true,false
Tuesday,500,true,true
Wednesday,0,true,false
Thursday,500,true,true
Friday,200,true,false
Saturday,500,false,false
Sunday,500,false,false
"""))

In [12]:
result, logs = %autotest AutograderTest
assert re.search(r'should have values of 0, 200, and 500', str(result.results['error']))
report(AutograderTest, results=result.results)

In [13]:
%%submission
coffee = True

In [14]:
result, logs = %autotest AutograderTest
assert re.search(r'Did you define a data frame named .coffee.', str(result.results['error']))
report(AutograderTest, results=result.results, source=submission_source.source)

In [15]:
result, logs = %autotest StudentTest
report(StudentTest, results=result.results)