# pandas cheat code

## index
* 조건식
* str함수
* 결측치 처리
* 데이터 정렬
* Column 추가/수정
* 함수 적용
* Groupby

ref: https://www.youtube.com/watch?v=PjhlUzp_cU0

In [None]:
import pandas as pd

____

## Dataframe의 조건식

### 단순 조건

`df_filter = (df['A'] >= 200)`  
df의 'A' column에서 값이 200인것들만 추출하여 df_filter 변수에 선언함.

`df[df_filter]`  
위 조건에 맞는 데이터만 출력함.  

`df[~df_filter]`  
위 조건에 맞지 않는 데이터만 출력함.  


`df.loc[df['A'] >= 200, 'B']`  
'A' column의 값이 200 이상인 데이터들의 'B'을 출력  

### 여러개의 조건

`df.loc[(df['A'] >= 200) & (df['C'] == "Temp"), 'B']`  
위와 같이 여러가지의 조건을 적용시키는것도 가능하다.  

____

## str 함수

* startwith()
   * `df[df['A'].str.startwith('T')]`: 'A' column에서 "T"로 시작하는 데이터 찾기  
<br>
    
* contains()
   * `df[df['A'].str.contains('T')]`: 'A' column에서 "T"가 포함된 데이터 찾기  
<br>

* isin()
   * `filter = ["T", "S", "C"]`
   * `df[df['A'].str.isin(filter)]`: 'A' column에서 filter list 내 요소가 포함된 데이터 찾기  
<br>

* lower()/upper()
   * `df[df['A'].str.lower().isin(filter)]`: 'A' column 데이터 요소를 소문자로 변환시켰을때 filter list 내 요소가 포함된 데이터 찾기  
<br>

* na=True
   * `df[df['A'].str.contains('T', na=False)]`: Nan값이 있을 경우 False로 처리
<br>



____

## 결측치 처리

* 결측치 처리 파라미터
    * `df.dropna(axis='index', how='any')`
    * axis: index or column / row or column 기준 삭제
    * how: any or all / any: 1개라도 결측치가 있을 경우 삭제

____

## 데이터 정렬

* 데이터 정렬
    * `df.sort_values('column_name', ascending=True or False)`
    * column_name 파라미터에 여러개의 column을 넣을 경우 list로 선언하여 넣어주면 됨.
    * ascending Defalut 값은 True이며 False로 할 경우 내림차순 정렬  
<br>

* 여러개의 Column 정렬
    * `df.sort_values(['A','B','C'], ascending=[True, False])`

____

## Column 추가/수정

* column 내 데이터 수정
    * `df["A'].replace({'pre_word1':'new_word1', 'pre_word2':'new_word2'})`
    * inplace 옵션도 사용 가능하다.  
<br>

* column 내 데이터에 내용 추가하기
    * `df['A'] = df['A] + 'add_word'`
    * 기존 df['A']의 요소 뒤에 'add_word'가 추가됨.  
<br>

* column을 추가하고 데이터 입력하기
    * `df['add_column'] = 'False`
    * `df.loc[df['A'] > 200, 'add_column'] = 'True'`  
<br>  

* column 위치 변경하기
    * `df = df[['B', 'A', 'C']]`: 명시적 변경
    * `df = df.reindex(columns=['B', 'A', 'C'])`: reindex 메소드
    * 어떤것을 사용하던 상황에 맞게 사용하면 된다.



____

## 함수 적용

* apply 메소드를 활용한 함수 적용
    * `df['Sum'] = df.apply(some_function, axis=1)`
    * axis=1일 경우 row / 0일 경우 column

____

## Groupby

* 특정 칼럼에서 특정 데이터만 추출하기
    * `df.groupby("A").get_group("this")`
    * 'A'칼럼에 'this'데이터를 가진 rows 출력  
<br>

* groupby 기타 메서드
    * `df.groupby("A").mean()`: A칼럼 데이터의 평균치 출력
    * `df.groupby("A").size()`: A칼럼의 데이터 갯수(그룹의 크기) 출력
    * `df.groupby("A").size()['B']`: A칼럼의 B그룹 크기 출력
    * `df.groupby("A")[['one','two','three']].mean()`: A칼럼에 각각 데이터의 평균치 출력  
<br>    

* normalize 옵션
    * `df.groupby('A')['B'].value_counts().loc['temp']`  
    : df Dataframe에서 'A' column에 'temp'값을 가진 rows 중 'B' column의 데이터 갯수를 출력
    * `df.groupby('A')['B'].value_counts(normalize=True).loc['temp']`  
    : df Dataframe에서 'A' column에 'temp'값을 가진 rows 중 'B' column의 데이터 갯수를 **비율**로 출력
