# データ前処理

- データの形式に対する処理
    - 空白文字
        - str.strip() : 両方の空白を除去
        - str.lstrip() : 左の空白を除去
        - str.ristip() : 右の空白を除去
    - データタイプ
        - 不規則な大小文字
        - 不規則な区分記号
        - 有効でない文字
        - 不規則な日付と時間の表記

In [1]:
import pandas as pd
import numpy as np

## 1.日付の形式

In [2]:
# 日付データ1:strのタイプ
str_date = ['2018/01/01', '2015.03.04', '2019-10-20']

In [3]:
pd.Series(str_date)

0    2018/01/01
1    2015.03.04
2    2019-10-20
dtype: object

In [4]:
# 1) strのタイプをdatetimeタイプへ変換後pandas保存
# pd.to_datetime()
pd.Series(pd.to_datetime(str_date))

0   2018-01-01
1   2015-03-04
2   2019-10-20
dtype: datetime64[ns]

In [6]:
#2) strのタイプを保存してデータのタイプの変更
#series.dtype:データのタイプ確認
#series.astype() : データのタイプ変更
pd.Series(str_date).astype('datetime64')

0   2018-01-01
1   2015-03-04
2   2019-10-20
dtype: datetime64[ns]

In [5]:
# 日付データ2:timestampタイプ
# timestamp:基準時刻(1970.1.1 00:00:00 UTC)から数秒が経過したのか表記
stamp_date = [1234000, 1234101, 1234202, 1234300, 1234500]

In [6]:
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234300
4    1234500
dtype: int64

In [7]:
# datetimeタイプに変換後保存
# timestampの基本unit = ns(nano seconds)
# unit = ns(default), D(days), s(seconds), ms(milli seconds), us(micro seconds)
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234300
4   1970-01-01 00:00:00.001234500
dtype: datetime64[ns]

In [8]:
# unit = s
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:51:40
4   1970-01-15 06:55:00
dtype: datetime64[ns]

In [9]:
# unit = D
pd.Series(pd.to_datetime([10000, 36500, 10382, 28457], unit='D'))

0   1997-05-19
1   2069-12-07
2   1998-06-05
3   2047-11-30
dtype: datetime64[ns]

In [10]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.300
4   1970-01-01 00:20:34.500
dtype: datetime64[ns]

In [11]:
# unit = us
pd.Series(pd.to_datetime(stamp_date, unit='us'))

0   1970-01-01 00:00:01.234000
1   1970-01-01 00:00:01.234101
2   1970-01-01 00:00:01.234202
3   1970-01-01 00:00:01.234300
4   1970-01-01 00:00:01.234500
dtype: datetime64[ns]

## 2.ラベルの形式を統一
- データのエンコードの作業に含む。

In [12]:
# map()
# dictionary タイプでencoding map を生成して適用する。
# gender=0(男)、1(女)
df = pd.DataFrame({'gender':[0, 0, 0, 1, 0, 1]})
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1


In [15]:
gender_map = {0:'M', 1:'F'}

In [18]:
df['gender'].map(gender_map)

0    M
1    M
2    M
3    F
4    M
5    F
Name: gender, dtype: object

In [19]:
# replace()
df['gender'] = df['gender'].replace(0, 'M')
df['gender'] = df['gender'].replace(1, 'F')

In [20]:
df

Unnamed: 0,gender
0,M
1,M
2,M
3,F
4,M
5,F


## 3.文字の形式(大文字・小文字、記号など)を統一する。

In [21]:
data = {'Name':['Jane', 'Jessie', 'Alex'],
       'Age':[18, 19, 20]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Jessie,19
2,Alex,20


In [23]:
df1.columns

Index(['Name', 'Age'], dtype='object')

In [24]:
# Column 名を全て小文字に変える:lower()
# 繰り返しを利用して内部要素を全部小文字に変える。
new_cols = []
for col in df1.columns:
    print(col.lower())
    new_cols.append(col.lower())
new_cols

name
age


['name', 'age']

In [25]:
df1.columns = new_cols
df1

Unnamed: 0,name,age
0,Jane,18
1,Jessie,19
2,Alex,20


In [28]:
# Column名を全部大文字に変更 : .upper()
# 繰り返しを利用してColumn名を全部大文字に変える。
new_cols = []
for col in df1.columns:
    print(col.upper())
    new_cols.append(col.upper())
new_cols

NAME
AGE


['NAME', 'AGE']

In [29]:
df1.columns = new_cols
df1

Unnamed: 0,NAME,AGE
0,Jane,18
1,Jessie,19
2,Alex,20


In [31]:
for i in df1:
    print(i)
    if i == 'NAME':
        df1[i] = df1[i].apply(lambda x: x.lower())
df1        

NAME
AGE


Unnamed: 0,NAME,AGE
0,jane,18
1,jessie,19
2,alex,20


In [34]:
for i in df1:
    print(i)
    if i == 'NAME':
        df1[i] = df1[i].apply(lambda x : x.upper())
df1

NAME
AGE


Unnamed: 0,NAME,AGE
0,JANE,18
1,JESSIE,19
2,ALEX,20
