# Pandas 기본 사용법 익히기

- Numpy 활용법은 알았으니, 더미 데이터(csv)를 Numpy 로 변형해보자
- Pandas 를 활용하여 데이터 분석 기초를 쌓아보자

## 목차

1. [Numpy 를 활용한 csv file open](#1.-Numpy-를-활용한-csv-file-open)


2. [Pandas DataFrame 생성](#2.-Pandas-DataFrame-생성)


3. [기본 함수](#3.-기본-함수)
    - 3.1. [처음 N개 행 표시](#3.1.-처음-N개-행-표시)
    - 3.2. [마지막 5개 행 표시](#3.2.-마지막-5개-행-표시)
    - 3.3. [헤더 이름 지정하기](#3.3.-헤더-이름-지정하기)
    - 3.4. [데이터 타입 반환](#3.4.-데이터-타입-반환)
    - 3.5. [DataFrame 의 정보 출력](#3.5.-DataFrame-의-정보-출력)
    - 3.6. [컬럼 별 요약 통계량 출력](#3.6.-컬럼-별-요약-통계량-출력)
    - 3.7. [특정 데이터 조회](#3.7.-특정-데이터-조회)
        - 3.7.1. [특정 행 조회하기](#3.7.1.-특정-행-조회하기)
        - 3.7.2. [여러 행 조회](#3.7.2.-여러-행-조회)
        - 3.7.3. [특정 구간 조회](#3.7.3.-특정-구간-조회)
        - 3.7.4. [특정 행을 제외하고 조회](#3.7.4.-특정-행을-제외하고-조회)
        - 3.7.5. [특정 행 다른 방법으로 가져오기](#3.7.5.-특정-행-다른-방법으로-가져오기)
        - 3.7.6. [특정 열 조회](#3.7.6.-특정-열-조회)
        - 3.7.7. [특정 열 제외하고 조회](#3.7.7.-특정-열-제외하고-조회)
        - 3.7.8. [특정 범위의 열 가져오기](#3.7.8.-특정-범위의-열-가져오기)
        - 3.7.9. [특정 열 다른 방법으로 가져오기](#3.7.9.-특정-열-다른-방법으로-가져오기)
        - 3.7.10. [행과 열 조회하기](#3.7.10.-행과-열-조회하기)
    - 3.8. [행 삽입하기](#3.8.-행-삽입하기)
        - 3.8.1. [마지막 위치에 하나의 행 추가](#3.8.1.-마지막-위치에-하나의-행-추가)
        - 3.8.2. [마지막 위치에 여러 행 추가](#3.8.2.-마지막-위치에-여러-행-추가)
        - 3.8.3. [두 개의 DataFrame 합치기](#3.8.3.-두-개의-DataFrame-합치기)
        - 3.8.4. [중간에 데이터 삽입](#3.8.4.-중간에-데이터-삽입)
    - 3.9. [열 삽입하기](#3.9.-열-삽입하기)
        - 3.9.1. [마지막 위치에 하나의 열 추가](#3.9.1.-마지막-위치에-하나의-열-추가)
        - 3.9.2. [중간 위치에 열 추가](#3.9.2.-중간-위치에-열-추가)
    - 3.10. [행 삭제](#3.10.-행-삭제)
        - 3.10.1. [중복된 행 제거](#3.10.1.-중복된-행-제거)
        - 3.10.2. [index명 or index 순서 를 이용한 행 삭제](#3.10.2.-index명-or-index-순서를-이용한-행-삭제)
        - 3.10.3. [열 조건에 따라 행 삭제](#3.10.3.-열-조건에-따라-행-삭제)
    - 3.11. [열 삭제](#3.11.-열-삭제)
    - 3.12. [DataFrame 복사](#3.12.-DataFrame-복사)

In [None]:
import csv
import numpy as np
import pandas as pd

csv 파일을 읽는 방법엔 2가지가 존재한다.

1. Python 기본 file open 함수 사용 -> numpy 로 변형
2. numpy 의 file read 함수 사용

이 중 2번 방법을 사용해보자

## 1. Numpy 를 활용한 csv file open

In [None]:
def file_open_by_numpy():
    # np.loadtxt(구분자 = ',', 데이터 타입: string)
    np_arr = np.loadtxt('data/test_data.CSV', delimiter=",", encoding='cp949', dtype=str)
    return np_arr

In [None]:
arr = file_open_by_numpy()
print(arr)

위와 같이 2차원 배열 형태로 read 된다.

Type 을 출력해보자

In [None]:
type(arr)

위의 데이터를 분석하기 위해 pandas 의 Dataframe 으로 변형시켜보자

## 2. Pandas DataFrame 생성

In [None]:
# 기본적인 데이터 프레임 생성
df = pd.DataFrame(arr)
df

In [None]:
# 컬럼명 지정하면서 생성하기
# 인덱스명도 지정하면서 할 수 있다.
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)
df

---

## 3. 기본 함수

### 3.1. 처음 N개 행 표시

In [None]:
df.head(5)

---

### 3.2. 마지막 5개 행 표시

In [None]:
df.tail(5)

---

### 3.3. 헤더 이름 지정하기

In [None]:
headers = ['임시', '헤더', '이름', '지정', '하기']
df.columns = headers
df.head(5)

In [None]:
headers = ['이름', '나이', '성별', '직업', '사는곳']
df.columns = headers
df.head(5)

---

### 3.4. 데이터 타입 반환

In [None]:
df.dtypes

---

### 3.5. DataFrame 의 정보 출력

In [None]:
df.info()

---

### 3.6. 컬럼 별 요약 통계량 출력
- __unique__: 열에있는 고유 한 개체의 수
- __top__: 가장 많이 사용된 데이터
- __freq__: 가장 많이 사용된 값의 빈도 수
- __NaN__: "숫자가 아님"을 나타낸다 - 통계에 대해 계산할 수 없다는 뜻

In [None]:
df.describe()

---

### 3.7. 특정 데이터 조회
- 참고 - [Pandas Docs - loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
- `iloc()` 함수 사용
    - `row 번호` 로 조회 가능
- `loc()` 함수 사용
    - `index명` 으로 조회 가능

현재는 `index명`이 `Default(row 번호)`로 설정되어 있으므로 두 함수가 동일한 방식으로 사용된다.

#### 3.7.1. 특정 행 조회하기

In [None]:
df.loc[2]

#### 3.7.2. 여러 행 조회

In [None]:
df.loc[[2, 3]]

#### 3.7.3. 특정 구간 조회

In [None]:
df.loc[1:4]

#### 3.7.4. 특정 행을 제외하고 조회

In [None]:
df.loc[df.index != 2]

#### 3.7.5. 특정 행 다른 방법으로 가져오기
- True/False 배열을 통해 True 인 행만 가져오기
- 이 방법은 인덱스 개수와 동일한 True/False 배열을 사용해서 에러가 발생하지 않는다.

In [None]:
df.head(5).loc[[True, True, False, False, True]]

#### 3.7.6. 특정 열 조회

In [None]:
df.loc[:, '이름']

In [None]:
# Column 이름을 배열 형태로 입력하면 DataFrame 형태(2차원)가 리턴된다.
df.loc[:, ['이름']]

#### 3.7.7. 특정 열 제외하고 조회

In [None]:
df.loc[:, df.columns != '나이']

#### 3.7.8. 특정 범위의 열 가져오기

In [None]:
df.loc[:, '나이':'직업']

#### 3.7.9. 특정 열 다른 방법으로 가져오기
- True/False 배열을 통해 True 인 행만 가져오기
- 이 방법은 Column 개수와 동일한 True/False 배열을 사용해서 에러가 발생하지 않는다.

In [None]:
df.loc[:, [True, True, False, False, True]]

#### 3.7.10. 행과 열 조회하기

In [None]:
df.loc[2, '나이']

In [None]:
df.loc[[2, 5], ['이름', '직업']]

---

### 3.8. 행 삽입하기

#### 3.8.1. 마지막 위치에 하나의 행 추가
- `loc()` 사용
- 하나의 리스트를 마지막에 추가하고 싶을 때 사용

In [None]:
# 컬럼명 지정하면서 생성하기
# 인덱스명도 지정하면서 할 수 있다.
arr = file_open_by_numpy()
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)
df

In [None]:
df.loc[len(df)] = ['마지막', '99', '남', '무직', '서울/경기']
df.tail(5)

#### 3.8.2. 마지막 위치에 여러 행 추가
- `append()` 활용
- 딕셔너리 형태를 DataFrame 에 추가하고 싶을 때 사용
- `ignore_index=True` 로 설정해야 인덱스가 기존 행의 뒷 번호로 잘 지정됨
- __주의사항__: Pandas 버전 업그레이드 시 사라질 수 있는 함수(concat 으로 대체)

In [None]:
df2 = pd.DataFrame({
    '이름': ['진짜마', '지막임'],
    '나이': ['98', '97'],
    '성별': ['여', '남'],
    '직업': ['개발자', '모델'],
    '사는곳': ['전라북도', '충청남도']
})
df2

- 오류문: 이제는 append 쓰지 말고 pandas 의 concat 을 쓰세요~
  - `deprecated`: 앞으로 없어질 예정이다.

In [None]:
df = df.append(df2, ignore_index=True)
df.tail(5)

#### 3.8.3. 두 개의 DataFrame 합치기
- `concat()` 사용

In [None]:
new_df = pd.concat([df, df2], ignore_index=True)
new_df

#### 3.8.4. 중간에 데이터 삽입
- `concat()` & `iloc` 사용
- `pd.concat([df.iloc[:N], 원하는 행, df.iloc[N:], ignore_index=True` 처럼 사용
    - N 번째에 새로운 DataFrame 을 넣고 싶을 때 위와 같이 사용

In [None]:
new_df = pd.concat([df.iloc[:3], df2, df.iloc[3:]], ignore_index=True)
new_df.head(10)

---

### 3.9. 열 삽입하기

#### 3.9.1. 마지막 위치에 하나의 열 추가
- `df[열이름] = 원소 리스트` 형태로 쉽게 사용 가능

In [None]:
df['연봉(만원)'] = [1000] * len(df)
df.head()

#### 3.9.2. 중간 위치에 열 추가
- `insert()` 활용

In [None]:
df.insert(2, '국적', ['한국'] * len(df))
df.head()

---

### 3.10. 행 삭제

Pandas 에서 자주 사용되는 데이터 삭제 기능들은 다음과 같다.
1. `dropna()` 를 이용한 결측 데이터 제거 ( `3.Pandas_Advanced` 에서 진행 )
    
2. `drop.duplicates` 를 이용한 중복 제거

3. `index명`, `index 순서` 를 이용한 행 삭제

4. 조건에 따른 행 삭제

#### 3.10.1. 중복된 행 제거

In [None]:
# 중복된 데이터를 강제로 추가
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.loc[len(df)] = ['마지막', '99', '미국', '남', '무직', '서울/경기', '0']
df.tail(5)

- 중복 데이터 조회

In [None]:
df.duplicated().sum()

In [None]:
df.drop_duplicates(inplace=True)
df

#### 3.10.2. index명 or index 순서를 이용한 행 삭제

- index명 으로 삭제

In [None]:
df.drop([1, 2], inplace=True)
df

- index 순서로 삭제

In [None]:
df.drop([df.index[0], df.index[1]], inplace=True)
df

#### 3.10.3. 열 조건에 따라 행 삭제

In [None]:
idxs = df[df['나이'] > "50"].index
df.drop(idxs, inplace=True)
df

---

### 3.11. 열 삭제

필요한 열만 `loc()` 을 사용하여 가져와서 삽입한다.

In [None]:
df = df.loc[:, ['이름', '나이', '성별', '직업', '사는곳']]
df

---

### 3.12. DataFrame 복사
- 대입 연산자 사용 시 마찬가지로 `얕은 복사` 가 발생한다. (원본 데이터가 변경된다)
- 원본 데이터 변경을 원치 않을 시 `copy()` 함수를 통해 `깊은 복사`를 해야한다.

In [None]:
# 데이터 새로 가져오기
arr = file_open_by_numpy()
columns=arr[0]
arr = np.delete(arr, 0, 0)
df = pd.DataFrame(arr, columns=columns)

In [None]:
df2 = df
df2['나이'] = 10
df.head()

In [None]:
df2 = df.copy()
df2['나이'] = 10
df.head()