## pandas09; cut, query, str

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
iris_df = sns.load_dataset('iris')
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
iris_grp = iris_df.groupby('species')
for key,group in iris_grp:
    print(key)
    print(group)

setosa
    sepal_length  sepal_width  petal_length  petal_width species
0            5.1          3.5           1.4          0.2  setosa
1            4.9          3.0           1.4          0.2  setosa
2            4.7          3.2           1.3          0.2  setosa
3            4.6          3.1           1.5          0.2  setosa
4            5.0          3.6           1.4          0.2  setosa
5            5.4          3.9           1.7          0.4  setosa
6            4.6          3.4           1.4          0.3  setosa
7            5.0          3.4           1.5          0.2  setosa
8            4.4          2.9           1.4          0.2  setosa
9            4.9          3.1           1.5          0.1  setosa
10           5.4          3.7           1.5          0.2  setosa
11           4.8          3.4           1.6          0.2  setosa
12           4.8          3.0           1.4          0.1  setosa
13           4.3          3.0           1.1          0.1  setosa
14           5.8  

### Cut
- 길이의 범주를 만든다
- pd.series에 적용해야된다
- bins 옵션
    - int일때 : range of x 를 equal하게 쪼깨서 카테고리의 범위를 만든다
    - list of scalrs : [1,4,6] => (1,4) (4,6) 의 범위
- right 옵션
    - True일때 오른쪽 포함 False일때 왼쪽 범위 포함
    
- 범위에 포함이 안되는 경우 NaN값으로 된다

In [17]:
pd.cut(np.array([1,2,3,2,15,1,6]),2)

[(0.986, 8.0], (0.986, 8.0], (0.986, 8.0], (0.986, 8.0], (8.0, 15.0], (0.986, 8.0], (0.986, 8.0]]
Categories (2, interval[float64, right]): [(0.986, 8.0] < (8.0, 15.0]]

In [18]:
pd.cut(np.array([1,2,3,2,15,1,6]),bins=[1,4,6],right=True) # default는 right=False

[NaN, (1.0, 4.0], (1.0, 4.0], (1.0, 4.0], NaN, NaN, (4.0, 6.0]]
Categories (2, interval[int64, right]): [(1, 4] < (4, 6]]

In [25]:
### petal_length를 각 species로 그룹을 나눈후 cut을 적용해서 ['대','중','소']로 label을 입혀보자
# 중요한건 series에 적용해야된다
iris_df.groupby('species').petal_length.transform(pd.cut,bins=3,labels=['대','중','소'])

0      중
1      중
2      대
3      중
4      중
      ..
145    대
146    대
147    대
148    중
149    대
Name: petal_length, Length: 150, dtype: category
Categories (3, object): ['대' < '중' < '소']

### qcut
- 동일한 갯수의 범주를 만든다

In [30]:
# 동일한 갯수의 4개의 범주를 만든다
pd.qcut(np.array([1,2,3,2,15,1,6]),4)

[(0.999, 1.5], (1.5, 2.0], (2.0, 4.5], (1.5, 2.0], (4.5, 15.0], (0.999, 1.5], (4.5, 15.0]]
Categories (4, interval[float64, right]): [(0.999, 1.5] < (1.5, 2.0] < (2.0, 4.5] < (4.5, 15.0]]

In [29]:
pd.qcut(np.array([1,2,3,2,15,1,6]),q=[0,0.25,0.5,0.75,1])

[(0.999, 1.5], (1.5, 2.0], (2.0, 4.5], (1.5, 2.0], (4.5, 15.0], (0.999, 1.5], (4.5, 15.0]]
Categories (4, interval[float64, right]): [(0.999, 1.5] < (1.5, 2.0] < (2.0, 4.5] < (4.5, 15.0]]

In [31]:
pd.qcut(np.array([1,2,3,2,15,1,6]),q=[0,0.25,0.5,0.75,1],labels=['a','b','c','d'])

['a', 'b', 'c', 'b', 'd', 'a', 'd']
Categories (4, object): ['a' < 'b' < 'c' < 'd']

### query

In [33]:
import seaborn as sns
iris_df = sns.load_dataset('titanic')
iris_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [36]:
iris_df.query('sex=="male"').head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False


In [37]:
# 외부 변수 사용하기 => @
sex = 'male'
iris_df.query('sex==@sex').head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False


In [47]:
# 논리연산자도 사용 가능
iris_df.query('sex=="male" and who=="child"').head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False


In [44]:
# 정수 비교하고싶을때
iris_df.query('sex=="male" and pclass==1').head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
23,1,1,male,28.0,0,0,35.5,S,First,man,True,A,Southampton,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
30,0,1,male,40.0,0,0,27.7208,C,First,man,True,,Cherbourg,no,True
34,0,1,male,28.0,1,0,82.1708,C,First,man,True,,Cherbourg,no,False


In [45]:
# series01은 선언되어잇지만
# series01['1']은 따로 변수로 되어있지 않다 이때는 어떡할까
series01 = pd.Series([1,2,3],index=['1','2','3'])
iris_df.query('sex=="male" and pclass=='+str(series01['1'])).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
23,1,1,male,28.0,0,0,35.5,S,First,man,True,A,Southampton,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
30,0,1,male,40.0,0,0,27.7208,C,First,man,True,,Cherbourg,no,True
34,0,1,male,28.0,1,0,82.1708,C,First,man,True,,Cherbourg,no,False


### str
- pd.Series.str 
- 데이터프레임에 사용 불가
- 파이썬 내장 문자열 메소드를 사용 가능하게 해준다
- str과 함께 정규표현식 함수들도 사용가능하다

In [48]:
court_df = pd.read_csv('/Users/iganghui/TIL/Python/Python_data_science/Data/court_code.txt',encoding='euc-kr',delimiter='\t')
display(court_df)

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [52]:
type(court_df['법정동명'].str)

pandas.core.strings.accessor.StringMethods

In [53]:
court_df['법정동명'].str.len()
# 반환값은 Series가 되고 StringMethods가 풀린다

0         5
1         9
2        13
3        13
4        13
         ..
46175    20
46176    20
46177    20
46178    20
46179    20
Name: 법정동명, Length: 46180, dtype: int64

In [87]:
court_df['법정동명'].str[0:8]

0           서울특별시
1        서울특별시 종로
2        서울특별시 종로
3        서울특별시 종로
4        서울특별시 종로
           ...   
46175    제주특별자치도 
46176    제주특별자치도 
46177    제주특별자치도 
46178    제주특별자치도 
46179    제주특별자치도 
Name: 법정동명, Length: 46180, dtype: object

In [84]:
court_df['법정동명'].str.split()

0                          [서울특별시]
1                     [서울특별시, 종로구]
2                [서울특별시, 종로구, 청운동]
3                [서울특별시, 종로구, 신교동]
4                [서울특별시, 종로구, 궁정동]
                   ...            
46175    [제주특별자치도, 서귀포시, 표선면, 하천리]
46176    [제주특별자치도, 서귀포시, 표선면, 성읍리]
46177    [제주특별자치도, 서귀포시, 표선면, 가시리]
46178    [제주특별자치도, 서귀포시, 표선면, 세화리]
46179    [제주특별자치도, 서귀포시, 표선면, 토산리]
Name: 법정동명, Length: 46180, dtype: object

In [86]:
#신기하게 list로 인식을 했네
court_df['법정동명'].str.split().str[0]

0          서울특별시
1          서울특별시
2          서울특별시
3          서울특별시
4          서울특별시
          ...   
46175    제주특별자치도
46176    제주특별자치도
46177    제주특별자치도
46178    제주특별자치도
46179    제주특별자치도
Name: 법정동명, Length: 46180, dtype: object