# Python Tutorial For beginners
## Pythonの基本的な操作方法について、手を動かしながら学んでいきましょう！

## 0. イントロダクション

## 0.1. 流れ
基本操作を学びつつ、顧客データを分析して、顧客の特徴を把握しましょう！
1. データの読み込み
2. データの抽出
3. 抽出したデータの集計
4. グループごとに集計

## 0.2. 使用するデータ
Tutorial_data.csvという名前のcsv形式のファイルを使用します。
- どんなお客さんが、どのくらいの回数購入をしているのかを表している顧客データになります。

## 0.3. notebookの操作について
- コードを書く部分をセルと呼びます。
- セルに書いてあるコードを実行する場合は、Shift＋Enterを押すと、実行されます。
- ＋を押すと、セルが追加されます。
- #をはじめに書くことで、セル内にメモをすることができます。この時、書いた内容に関しては反映されません。

## 1. データをnotebook上で取り扱う準備をする。
### 1.1. データを読み込む
 ```read_csv('ファイル名')```という操作でcsvファイルを読み込むことが出来ます。ただし、この操作は```pandas```というライブラリに入っているので、このnotebook上に読み込むことからスタートです。
 
#### 【 Point! 】ライブラリとは、コード（道具）が入っているお道具箱のようなものです。
- pandasというライブラリ（お道具箱）に、read_csv（csvファイルを読み込む道具）というコードが入っているイメージです。
- pandasというライブラリを読み込むと、データを抽出したり、集計したりとデータ分析に必要な操作が可能になります。

In [None]:
# pandasを読み込んでください。pandasを使う時は、pdと略して (as) 使います。
import pandas as pd

In [None]:
# ファイルを読み込んで、読みこんだデータに対して、dfという名前をつけます。dataframe→df
# この時、データがnotebookと同じディレクトリ（場所）にあるかどうかを確認
# =は代入を表しています。
# ''と""はどちらでもOKです。

df = pd.read_csv('Tutorial_data.csv')

### 1.2. データを見てみる

読み込んだデータを表示してみましょう！

In [None]:
# dfという名前のついたデータフレームを表示する。
df

＜データの意味＞
- ID: 顧客に付与されているID
- Age: 年齢
- Sex: 性別
- Address: 住所。地方レベル。
- Frequency: 購入回数

#### 【 Point! 】データフレームとは？
データフレームとは表形式のデータのことで、Pythonでよく使われるデータ構造です。
- index：行のラベルを表します。今回のデータだと、0, 1, 2, 3...に相当します。(注意) Pythonは、0から始まります。
- columns：列のラベルを表します。簡単にいうと列名のことです！

### 1.3. ちらっとデータを確認することも出来ます！
#### 【 Point! 】データを分析していく中で、もとのデータを適宜確認することが重要になります！データの全体像を常に頭の片隅においておきましょう。

In [None]:
# 最初の5行だけ表示する。デフォルトで5行表示されます。()に数字を入れると、その行分表示される。
df.head()

In [None]:
# 最後の5行だけ表示する。
df.tail()

## 2. データを抽出してみる。

この章では、indexやcolumns（つまり、行や列）を指定して、データを抜き取ってみましょう！
#### 【 Point! 】いつデータを抽出するのか？
- 分析に必要な列だけを扱いたい時
- グラフを作成する際には、x軸・y軸に必要なデータだけを取り出す必要がある。

### 2.1. 列を指定してデータを抽出する。

```データフレーム名.列名``` とすることで、抽出出来る。

In [None]:
# Ageという列のデータを抽出する。
df.Age

In [None]:
# IDという列のデータを抽出する。
df.ID

```データフレーム名 ['列名'] ```というやり方もある。

In [None]:
# Ageという列のデータを抽出する。
df['Age']

In [None]:
# IDという列のデータを抽出する。
df['ID']

#### 【 Try 】dfというデータフレームから、Addressという列を抽出してみよう！

### 2.2 複数の列を抽出してみる。

```データフレーム名 [ ['列名１', '列名２'] ]``` とすることで、抽出出来る。
AgeとSexという2列を抽出してみましょう！

In [None]:
# dfからAgeとSexの2列を抽出します
df[['Age', 'Sex']]

#### 【 Try 】dfというデータフレームから、AddressとFrequnecyという列を抽出してみよう！

## 3. 抽出したデータを集計してみる。

#### 【 Point! 】集計することで、データの特徴をイメージすることが出来る。

```集計したいデータ.集計方法``` とすることで、集計出来ます。

### 3.1. 平均を出してみる。

平均を出す時は、```.mean()```を使用する。```集計したいデータ.mean()```と書きます。

#### 【Example】お客さんの平均年齢を把握する

In [None]:
# 年齢の平均値を集計する。
df.Age.mean()

#### 【 Try 】購買回数（Frequency）の平均値を出してみましょう！

### 3.2. 値の個数をカウントしてみる

値の数を算出する時には、```.count()```を使用する。

#### 【Example】お客さんが何人いるのかを把握する。

In [None]:
# IDの値の個数をカウントする。
df.ID.count()

## 4. データをグループごとに集計する。

#### 【 Point! 】グループごとに集計することで、グループ間で比較することが出来る！
#### 【 Point! 】月ごとに集計することで、月ごとの値の変化が見れます。（詳しくは、ハンズオン2にて）

 #### 【Example】男性と女性のお客さんで差があるのだろうか？

性別ごとに集計してみましょう！
グループごとに同じ操作を加えたい時は、```groupby('グループごとに集計したい列名').操作名```というコードを使います。

##### 例えば、性別ごとの平均値を集計してみましょう！

In [None]:
# 数字が入っている列でのみ、平均値が算出されます。Addressという列には、文字が入っているので、平均値は算出されません。
df.groupby('Sex').mean()

データフレームになっています。なので、先程と同様に列名を指定出来ます。

年齢という列を抽出してみましょう！

In [None]:
df.groupby('Sex').mean().Age

#### 【 Try 】地域ごとでお客さんに差があるのだろうか？住所（Address）ごとに要素をカウントして、地域ごとに差があるかどうかを確認してみましょう！
ヒント：どんなグループごとに集計したいのだろうか？集計方法はなんだろうか？