## ライブラリの読み込み

### とりあえずこれを書いておく

In [8]:
##ライブラリの読み込み
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import *
from tqdm import tqdm

%matplotlib inline
sns.set_style('darkgrid')
plt.rcParams['font.family'] = 'IPAPGothic'
plt.rcParams['font.size'] = 18

## データの読み込み

### とりあえずこれを使う

In [None]:
data = pd.read_csv('hoge/hoge.csv')

data = {
    'hoge': pd.read_csv('hoge/hoge.csv'),
    'huga': pd.read_csv('huga/huga.csv')
}

In [10]:
iris = datasets.load_iris()

In [11]:
data = pd.DataFrame(iris.data, columns=iris.feature_names)

## 前処理

### NA周り

In [None]:
data.dropna() #欠測値がある行を取り除く
data.dropna(axis=1) #欠測値がある列を取り除く
data.dropna(subset=['hoge']) #hoge列に欠測値がある行を取り除く
data.dropna(subset=['hoge'], axis=1) #hoge行に欠測値がある列を取り除く

### データの結合

In [None]:
pd.concat([hoge, huga]) #行結合
pd.concat([hoge, huga], axis=1) #列結合

### 並び替え

In [None]:
data.sort_values(by='hoge', ascending=True) #昇順
data.sort_values(by='hoge', ascending=False) #降順

data.sort_index(ascending=True) #インデックスで昇順
data.sort_index(ascending=False) #インデックスで降順

### 列名の変更

In [None]:
data = data.rename(columns={"before" : "after"}, inplace=False) #代入したものを変更
data.rename(columns={"age" : "Age"}, inplace=True) #代入せずに直接変更

### 行に対して関数の実行

In [None]:
data['str_cd'] = data.apply(lambda x: str(x['str_cd']), axis=1) #applyの使い方,axis=1は行、axis=0は列？

### 値の格納

In [None]:
#listの場合
a_list = []
a_list.append() #オブジェクトをそのまま追加
a_list.extend() #オブジェクトを要素単位で追加

#dictionaryの場合
a_dict = {}
a_dict.update(辞書型) #辞書の追加、同じkeyで違うvalueが追加された場合はvalueを上書きする
a_dict.keys() #keyの参照
a_dict.values() #valueの参照

## 基礎集計


- データの行数  
- NAの数  
- NAの割合  
- 列の型  
    - 数値なら平均、四分位、min、max  
    - 非数値ならカテゴリ数、最頻値  
    - 日付型ならそれも明記
- keyがあればそれも明記

### 行の確認

### 列の確認

In [None]:
iris[''].nunique() #列のユニーク数を確認
iris['hoge'].unique() #列のユニークな値のリストを返す

In [15]:
data.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [None]:
hoge.groupby('hoge', as_index = True)['hoge'].count().rename(columns={'before':'after'}) #列に対して種類毎の出現数を数える

### NA周り

In [None]:
hoge.isnull().sum() #列毎にNAの数を合計

### 型の確認

In [None]:
hoge.dtypes #データフレームを列毎に型の確認

### 数値型周り

In [None]:
hoge.describe() #要約統計量

### 日付型

In [None]:
hoge['datetime'] = pd.to_datetime(hoge['datetime']) #日付型に変換

## 集計

### 列に対し値毎に出現数を数え上げた棒グラフ

In [None]:
fig = plt.figure(figsize=(16, 12))
ax = fig.add_subplot(111)
ax.barh(bottom=shelf_DF.index, width=shelf_DF['count'], tick_label=shelf_DF['shelf_name'], align='center')
ax.invert_yaxis()

## 文字列処理

### 文字と数値の出力

In [11]:
print('円周率は{:.2f}です'.format(3.1415)) #formatで代入、{}の中に装飾子入れて出力を調整

円周率は3.14です


## 小技

### np.array

In [6]:
#np.arrayはネストした特定の成分を複数のarrayから持ってこれる
#ただしintとstrなど型が違うと変換される(no.array自体がそういうもの)ので注意
test = np.array([[1, 'b'], [2, 'd']])
test[:, 0]

array(['1', '2'],
      dtype='<U21')

### ループの進捗

In [7]:
#tqdmを使う
from tqdm import tqdm

for i in tqdm(range(10)):
    print(i)

100%|██████████| 10/10 [00:00<00:00, 6570.03it/s]

0
1
2
3
4
5
6
7
8
9



