# Pandas 조건 선택, 함수로 데이터 처리
- Query 와 조건 검색
- filter, apply 함수 

In [1]:
import pandas as pd
import numpy as np

### 조건 선택
- Pandas 도 Masking 연산이 가능하다
- Query 문을 이용하여 조건 선택 가능

In [2]:
df = pd.DataFrame(np.random.rand(5,2), columns=["A","B"])
df

Unnamed: 0,A,B
0,0.628631,0.195262
1,0.432796,0.866991
2,0.347283,0.782992
3,0.869605,0.039381
4,0.479073,0.739861


In [3]:
# A값이 0.5 보다 작고 B 값이 0.3 보다 큰 값
print(df[(df["A"] < 0.5)&(df["B"] > 0.3)])
print(df.query("A < 0.5 and B > 0.3"))

          A         B
1  0.432796  0.866991
2  0.347283  0.782992
4  0.479073  0.739861
          A         B
1  0.432796  0.866991
2  0.347283  0.782992
4  0.479073  0.739861


### Func로 데이터 처리
#### apply 함수를 이용
- def 함수와 lambda식 사용이 가능하다
- 지정한 col에 모든 값에 apply함수 적용

In [4]:
df = pd.DataFrame(np.arange(5), columns=['Num'])
df

Unnamed: 0,Num
0,0
1,1
2,2
3,3
4,4


In [5]:
# apply 와 lambda식을 이용하여 제곱식 col 만들기
df['Square'] = df['Num'].apply(lambda x : x**2)
df

Unnamed: 0,Num,Square
0,0,0
1,1,1
2,2,4
3,3,9
4,4,16


In [6]:
def square(x):
    return x ** 2

df['Square2'] = df["Num"].apply(square)
df

Unnamed: 0,Num,Square,Square2
0,0,0,0
1,1,1,1
2,2,4,4
3,3,9,9
4,4,16,16


#### replace 함수
- apply 기능에서 데이터 값만 대체하고 싶을 때
- 실습 : 전화번호 데이터를 preprocessing


In [9]:
df = pd.DataFrame(columns=["phone"])
df.loc[0] = "010-1234-1235"
df.loc[1] = "공일공-일이삼사-1235"
df.loc[2] = "010.1234.일이삼오"
df.loc[3] = "공1공-1234.1이3오"
df["preproc_phone"] = ''
df

Unnamed: 0,phone,preproc_phone
0,010-1234-1235,
1,공일공-일이삼사-1235,
2,010.1234.일이삼오,
3,공1공-1234.1이3오,


In [14]:
def get_preprocess_phone(phone):
    map_dict = {
        "공": "0",
        "일": "1",
        "이": "2",
        "삼": "3",
        "사": "4",
        "오": "5",
        "-": "",
        ".": "",
        }
    for key,val in map_dict.items():
        phone = phone.replace(key,val)
    return phone

df['preproc_phone'] = df['phone'].apply(get_preprocess_phone)
df

Unnamed: 0,phone,preproc_phone
0,010-1234-1235,1012341235
1,공일공-일이삼사-1235,1012341235
2,010.1234.일이삼오,1012341235
3,공1공-1234.1이3오,1012341235


In [15]:
df = pd.DataFrame(data=['Male','Male','Female','Female','Male'],columns=['Sex'])
df

Unnamed: 0,Sex
0,Male
1,Male
2,Female
3,Female
4,Male


In [16]:
df.Sex.replace({'Male':0,"Female":1},inplace=True)
df

Unnamed: 0,Sex
0,0
1,0
2,1
3,1
4,0
