# **Pandas**
-  ## 데이터 처리 및 분석
    - AI 모델링에서 데이터 처리와 분석 과정은 매우 중요, 많은 시간 할애
    - Pandas 활용하여 데이터 처리와 분석 수행

# DataFrame
- 행과 열로 구성된 데이터
- Index
- Index와 특정 Column의 조합 = Series
- 생성 방법
    - 딕셔너리로 생성
        ```python
         a1 = pd.DataFrame({"a":[1,2,3], "b":[4,5,6], "c":[7,8,9]})
         ```
    - 리스트로 생성
        ```python
        a2 = pd.DataFrame([[1,2,3],
                           [4,5,6],
                           [7,8,9]], columms=['a','b','c'])
        ```
    - 파일을 읽어서 생성
        ```python
        df = pd.read_csv('file1.csv') #read_excel, read_html, read_json도 있음
        df
        ```
    - 공통 문법
        ```python
        import pandas as pd
        ```
- 데이터 확인 방법
    - `DataFrame.head()`, `DataFrame.tail()` = df의 처음과 끝 5개를 보여줌
    - `shape` = row와 column의 개수를 튜플로 반환함
        - e.g. `df.shape` >> (9930, 15) == 9930개의 행, 15개의 열
    - `columns` = 컬럼명을 확인할 수 있음
        - e.g. `df.columns` >> Index(['base_ym', 'dpro_tgt_perd_val'], dtype='object') == 데이터프레임에 있는 컬럼 정보 확인
    - `info()` = 데이터 타입, 각 아이템의 개수 등을 출력함
        - e.g.
        ```
        <class 'pandas.core.frame.DataFrame'>
        RangeIndex: 9930 entries, 0 to 9929
        Data columns (total 15 columns):
         #  Column              Non-Null Count   Dtype
         0  base_ym             9930 non-null     int64
         1  dpro_tgt_perd_val   9930 non-null     int64
        ```
    - `describe` = 데이터 요약 통계량을 나타냄
        ```
        기술통계정보 볼 수 있음
        count, mean, std, min, 25%, 50%, 75%, max 등 통계량 보여줌
        ```
- 데이터 조회
    - 기본적으로 []를 활용하여 column 추출
    ```python
    # cust라는 df에서 컬럼 3개 읽어보기
    cust[['cust', 'age', 'r3m_avg_bill_amt]]
    ```
    - 슬라이싱하여 원하는 row 추출
    ```python
    cust[7:10]
    >> 7, 8, 9 행 출력
    주의@@ cust[7] 처럼 숫자 하나만 넣으면 에러: 7을 row가 아닌 column으로 판단하기 때문
    ```
        - 이런 문제 해결하기 위해 loc, iloc 함수가 있음
    - loc 함수
        - 인덱스 번호, 컬럼 이름을 기준으로 슬라이싱, 인덱싱 사용
        - location의 약자로 인간이 읽을 수 있는 label 값으로 데이터에 접근
        ```python
        cust.loc[ 102, 'age' ]
        >>> 102번 인덱스에서 'age' 컬럼에 해당하는 값 추출
        ```
    - iloc 함수
        - 절대 번호를 기준으로 슬라이싱, 인덱싱 사용
        - integer location의 약자로 컴퓨터가 읽을 수 있는 값으로 데이터에 접근

    - Booldean Indexing
        - 데이터프레임에서 원하는 행들만 추출
        e.g. df2 데이터프레임에서 '성별' 컬럼에서 '남자'만 뽑아내려면...
        ```python
        df2[ df2[ '성별' ] == 'M' ]

        #why?
        df2[ '성별' ] == 'M' # << 이건 성별이 M인지 아닌지 True/False 검증할 뿐임
        df2[ df2[ '성별' ] == 'M' ] # 이렇게 써줘야 성별이 M(True)인 값들만 출력
        ```
- 데이터 변경
    - DataFrane column 추가
    `cust['새로운 column명'] = '새로운 값'`
    - DataFrane column 삭제
    ```python
    cust.drop('컬럼명', axis=1)
    # axis=1 == 컬럼 방향으로 탐색하며 '컬럼명'을 찾아서 drop 수행
    # >>> 따라서 column 삭제하려면 항상 axis=1 고정이므로 외워야 함
    # axis=0 == 로우 방향으로 탐색
    ```

