# 100 pandas puzzles

[100 Numpy exerises](https://github.com/rougier/numpy-100) に感化され, [pandas'](http://pandas.pydata.org/) の知識をテストする 100 個の簡単なパズルを準備していrます。

pandas はたくさんの異なる専門的な特徴と機能を備えた大規模なライブラリで、パズルではデータの操作 (インデックス、グルーピング、集約、削除？(cleaning)) や DataFrame と Series の使用の基礎に焦点を置いています。

多くのパズルは簡単です。少しのコードで実装できるからです。正しい手法とベストプラクティスを選択することが基本的な目標です。

パズルはセクションに大雑把に別れています。各セクションは難易度が設定されています。これらの難易度は主観的なものです。解く際の参考程度に使ってください。

pandas に慣れ親しんでいない人・他の資源を探している人は、公式のドキュメントをみてください。特によくpandasの概要がわかるのは

- [10 minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [pandas basics](http://pandas.pydata.org/pandas-docs/stable/basics.html)
- [tutorials](http://pandas.pydata.org/pandas-docs/stable/tutorials.html)
- [cookbook and idioms](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)

パズルを楽しんで！

\* *問題はまだ完成していないので、プルリクエストなどお待ちしています*

## Importing pandas

### 開始とpandasのsetup

Difficulty: *easy* 

**1.** pandas を`pd`として import してください.

In [1]:
import pandas as pd

**2.** import している pandas の version を表示してください

In [5]:
pd.__version__

'0.24.2'

**3.** pandas ライブラリに必要となるライブラリの version 情報を全て表示してください

In [6]:
pd.show_versions()


INSTALLED VERSIONS
------------------
commit: None
python: 3.7.3.final.0
python-bits: 64
OS: Darwin
OS-release: 18.6.0
machine: x86_64
processor: i386
byteorder: little
LC_ALL: None
LANG: ja_JP.UTF-8
LOCALE: ja_JP.UTF-8

pandas: 0.24.2
pytest: None
pip: 19.0.3
setuptools: 40.8.0
Cython: None
numpy: 1.16.4
scipy: None
pyarrow: None
xarray: None
IPython: 7.5.0
sphinx: None
patsy: None
dateutil: 2.8.0
pytz: 2019.1
blosc: None
bottleneck: None
tables: None
numexpr: None
feather: None
matplotlib: None
openpyxl: None
xlrd: None
xlwt: None
xlsxwriter: None
lxml.etree: None
bs4: None
html5lib: None
sqlalchemy: None
pymysql: None
psycopg2: None
jinja2: 2.10.1
s3fs: None
fastparquet: None
pandas_gbq: None
pandas_datareader: None
gcsfs: None


## DataFrame の基礎

### DataFrame におけるデータの選択、ソート、追加、集約のいくつかの基本ルーティン

Difficulty: *easy*

注意: numpy をimport することを忘れないで
```python
import numpy as np
```

以下のpythonの辞書 `data` と list `labels` を考えます:
``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```
(これは意味のないデータです。)

**4.** DataFrame `df` を `labels` を index とした辞書 `data` から作成せよ。 

In [39]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

In [40]:
df = pd.DataFrame(data, index=labels)

**5.** Dataframe と そのデータについて基本的な情報のサマリーを表示せよ

In [7]:
df.describe()

Unnamed: 0,age,visits
count,8.0,10.0
mean,3.4375,1.9
std,2.007797,0.875595
min,0.5,1.0
25%,2.375,1.0
50%,3.0,2.0
75%,4.625,2.75
max,7.0,3.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
animal      10 non-null object
age         8 non-null float64
visits      10 non-null int64
priority    10 non-null object
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes


`df.describe()` は数値型のデータについてそのサマリーを表示する。

`df.info()` はインデックスやカラムについてその数などを表示する。

**6.** `df` の最初の3行を返せ。 

In [12]:
df[:3]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [10]:
df.head(3)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [11]:
df.iloc[:3]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


`df[]` と `df.iloc[]` は実質同じ挙動をする？

**7.** `df` から'animal'と'age'のカラムのみを選択してください

In [13]:
df[['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


**8.** `[3,4,8]`行目のカラムが`['animal','age']`のデータを選択してください。

In [21]:
df.iloc[[3,4,8]][['animal', 'age']]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


`df[[3,4,8]]`はエラーとなる。これが`df[]`と`df.iloc[]`の違い。

**9.** `visits`が3より大きい行のみを選択してください。

In [30]:
df[df['visits']>3]

Unnamed: 0,animal,age,visits,priority


**10.** `age`の値が欠損（Nan）している行を選択してください。

In [25]:
df[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


**11.** `animal`がcatで、`age`が3以下の行を選択してください。

In [27]:
df[ (df['animal']=='cat') & (df['age']<3)] 

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


**12.** `age`が2以上4以下のものを選択してください。

In [28]:
df[ (df['age']>=2) & (df['age']<=4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


In [29]:
df[df['age'].between(2,4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


**13.** 行`f`のageを1.5に変更してください。

In [44]:
df.loc['f', 'age']=1.5

In [45]:
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


In [46]:
df.loc['f', 'age']

1.5

In [48]:
# 非推奨
df.loc['f']['age']

1.5