# Chapter 1. DataFrame 살펴보기 

# __1. DataFrame이 뭔가요?__

>  - DataFrame은 2차원(col과 row을 가짐)테이블 데이터 구조를 가지는 자료형
>  - Data Analysis, Machine Learning에서 data 변형을 위해 가장 많이 사용
>  - **주의** : Series나 DataFrame은 대소문자가 구분되므로 Series, DataFrame으로 사용

In [1]:
# pandas import
import pandas as pd
import numpy as np

### <b>1-1. DataFrame 만들어 보기</b>

> Dictionary 형으로 생성 

In [2]:
a1 = pd.DataFrame({"a" : [1,2,3], "b" : [4,5,6], "c" : [7,8,9]})
a1

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


>  List 형태로 데이터 프레임 생성

In [3]:
a2 = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], ["a","b","c"])
a2

Unnamed: 0,0,1,2
a,1,2,3
b,4,5,6
c,7,8,9


### <b>1-2. 파일을 읽어서 DataFrame생성하기</b>
> - pandas.read_csv 함수 사용
>  - 대부분의 업무에서는 분석하고자 하는 Datat가 존재할 것
>  - 이를 읽어 들이는 것부터 데이터 분석의 시작!
>  - 이번 실습에서 읽을 파일 : sc_cust_info_txn_v1.5.csv

In [None]:
# kt 데이터 파일을 활용
# 파일을 수정하고 저장 자체를 MS Office에서 하여서 encoding을 cp949로 해주어야 함
cust = pd.read_csv('./sc_cust_info_txn_v1.5.csv', encoding = "cp949")
cust

- DataFrame 데이터 살펴보기
>DataFrame의 구조 (인덱스와 컬럼)
 - 인덱스(Index) : 행의 레이블에 대한 정보를 보유하고 있음
 - 컬럼(Columns) : 열의 레이블에 대한 정보를 보유하고 있음
 - 인덱스와 컬럼 자체는 중복값일 수 없음

### <b>1-3. 데이터 살펴보기</b>
- head, tail 함수사용하기
> - 데이터 전체가 아닌, 일부(처음부터, 혹은 마지막부터)를 간단히 보기 위한 함수 (default: 5줄)
 - **head, tail을 왜 사용할까?**
   - 광대한 데이터를 다룰 수 있는 Pandas의 특성상 특정변수에 제대로 데이터가 들어갔는지 간략히 확인
   - 데이터 자료형의 확인
   - 각 레이블에 맞는 데이터 매칭 확인

In [None]:
# 상위 3개
cust.head(n=3)

In [None]:
#하위 10개 
cust.tail(n=10)

- DataFrame 기본 함수로 살펴보기
> - **shape :** 속성 반환값은 튜플로 존재하며 row과 col의 개수를 튜플로 반환함(row,col순)
  - columns : 해당 DataFrame을 구성하는 컬럼명을 확인할 수 있음
  - **info**  : 데이터 타입, 각 아이템의 개수 등 출력
  - describe : 데이터 컬럼별 요약 통계량을 나타냄, 숫자형 데이터의 통계치 계산
            (count:데이터의 갯수 / mean:평균값 / std:표준편차 / min:최소값 / 4분위 수 / max:최대값) 
  - dtypes : 데이터 형태의 종류(Data Types)

In [None]:
# shape : 데이터를 파악하는데 중요함
cust.shape

In [None]:
# DataFrame의 columns들을 보여줌
cust.columns

In [None]:
# 데이터 타입 및 각 아이템등의 정보를 보여줌
cust.info()

In [None]:
# DataFrame의 기본적인 통계정보를 보여줌
cust.describe()

In [None]:
# DataFrame의 데이터 종류
cust.dtypes

### <b>1-4. read_csv 함수 파라미터 살펴보기</b>
> - 함수에 커서를 가져다 두고 shift+tab을 누르면 해당 함수의 parameter 볼 수 있음
> - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
> - index_col : index로 사용할 column 설정
> - usecols : 실제로 dataframe에 로딩할 columns만 설정
> - usecols은 index_col을 포함하여야 함

In [None]:
cust2 = pd.read_csv('./sc_cust_info_txn_v1.5.csv', index_col='cust_class', usecols=['cust_class', 'r3m_avg_bill_amt', 'r3m_B_avg_arpu_amt', 'r6m_B_avg_arpu_amt'])
cust2

# __2. Data 조회하기__
DataFrame에서 data를 __조회, 수정__해보고 이를 이해해본다. 

### <b>1-1. 데이터 추출하기</b>

#### <b>1) column 선택하기</b>

> - 기본적으로 [ ]는 column을 추출 : 특정한 col을기준으로 모델링을 하고자 하는 경우
> - 컬럼 인덱스일 경우 인덱스의 리스트 사용 가능
>   - 리스트를 전달할 경우 결과는 Dataframe
>   - 하나의 컬럼명을 전달할 경우 결과는 Series

#### <b>2) 하나의 컬럼 선택하기</b>

> - Series 형태로 가지고 올 수도, DataFrame형태로 가지고 올 수 있음

In [None]:
cust.cust_class = cust['cust_class']

In [None]:
cust.cust_class

In [None]:
# cf : series 형태로 가지고 오기(hcust.cust_class = cust['cust_class'])
cust['cust_class']

In [None]:
# cf : Dataframe형태로 가지고 오기
cust[['cust_class']]

#### <b>3) 복수의 컬럼 선택하기</b>

In [None]:
# 'cust_class' , 'age' 'r3m_avg_bill_amt'등 3개의 col 선택하기
cust[['cust_class', 'age', 'r3m_avg_bill_amt']]

#### <b>4) DataFrame slicing</b>

>- 특정 **행 범위**를 가지고 오고 싶다면 [ ]를 사용
>- DataFrame의 경우 기본적으로 [ ] 연산자가 **column 선택**에 사용되지만 **slicing은 row 레벨**로 지원

In [None]:
# 7,8,9행을 가지고 옴 (인덱스 기준)
cust[7:10]

#### <b>5) row 선택하기</b>

 - DataFrame에서는 기본적으로 **[ ]을 사용하여 column을 선택**
 > __row 선택(두가지 방법이 존재)__
 > - **loc** : Dataframe에 존재하는 **인덱스를 그대로 사용** (인덱스 기준으로 행 데이터 읽기)
 > - **iloc** : Datafrmae에 존재하는 인덱스 상관없이 **0 based index로 사용** (행 번호 기준으로 행 데이터 읽기)
 > - 이 두 함수는 ,를 사용하여 column 선택도 가능


In [None]:
cust.info()

In [None]:
# arange함수는 10부터 19에서 끝나도록 간격을 1로 반환한다.
cp=np.arange(10,20)
cp

In [None]:
#index를 100부터 달아주기 
cust.index = np.arange(100, 10030)
cust

In [None]:
cust.tail()

In [None]:
#한개의 row만 가지고 오기
cust.loc[[289]]

In [None]:
#여러개의 row 가지고 오기
cust.loc[[102, 202, 302]]

In [None]:
#iloc과비교(위와 같은 값을 가지고 오려면...)    (직접 타이핑 해보세요)
cust.iloc[[2, 102, 202]]

- row, column 동시에 선택하기
 > loc, iloc 속성을 이용할 때, 콤마를 이용하여 row와 col 다 명시 가능

In [None]:
# 100, 200, 300 대상으로 cust_class, sex_type, age, r3m_avg_bill_amt, r3m_A_avg_arpu_amt  col 가지고 오기(loc사용)
cust.loc[[100, 200, 300], ['cust_class', 'sex_type', 'age', 'r3m_avg_bill_amt', 'r3m_A_avg_arpu_amt']]   # row, col

In [None]:
# 같은 형태로 iloc사용하기 (index를 level로 가지고 오기)
# 100, 200, 300 대상으로 cust_class, sex_type, age, r3m_avg_bill_amt, r3m_A_avg_arpu_amt  col 가지고 오기(iloc사용)
cust.iloc[[0, 100, 200], [3, 4, 5, 9, 10]]

#### __6) boolean selection 연산으로 row 선택하기 (= 컬럼 조건문으로 행 추출하기)__

 - 해당 조건에 맞는 row만 선택
 - 조건을 명시하고 조건을 명시한 형태로 inedxing 하여 가지고 옴

 - ex: 남자이면서 3개월 평균 청구 금액이 50000 이상이면서 100000 미만인 사람만 가지고오기 

In [None]:
#조건을 전부다  [ ]안에 넣어 주면 됨
extract = cust[(cust['sex_type']=='M') & (cust['r3m_avg_bill_amt']>=50000) & (cust['r3m_avg_bill_amt']< 100000)]
extract.head()

In [None]:
# 조건문이 너무 길어지거나 복잡해지면...아래와 같은 방식으로 해도 무방함
# 남자이면서 
sex = cust['sex_type']=='M'
# 3개월 평균 청구 금액이 50000 이상이면서 100000 미만
bill = (cust['r3m_avg_bill_amt']>=50000) & (cust['r3m_avg_bill_amt']< 100000)

cust[sex & bill].head()

#### <b>7) 정리 </b>

- 기본적인 대괄호는 col을 가지고 오는 경우 사용, 하지만 slicing은 row를 가지고 온다.
- row를 가지고 오는 경우는 loc과 iloc을 사용하는데, loc과 iloc은 컬럼과 row를 동시에 가지고 올 수 있다.

In [5]:
import matplotlib.pyplot as plt      #matplotlib.pyplot import   

### <b>1-2. 데이터 추가하기</b>

#### <b>1) 새 column 추가하기</b>

>- insert 함수 사용하여 원하는 위치에 추가하기

In [None]:
# r3m_avg_bill_amt 두배로 새로운 col만들기
cust['r3m_avg_bill_amt2'] = cust['r3m_avg_bill_amt'] * 2
cust.head()

In [None]:
# 기존에 col을 연산하여 새로운 데이터 생성
cust['r3m_avg_bill_amt3'] = cust['r3m_avg_bill_amt2'] + cust['r3m_avg_bill_amt']
cust.head()

In [None]:
cust.drop('r3m_avg_bill_amt10', axis=1, inplace=True)

In [None]:
# 새로은 col들은 항상맨뒤에 존재 원하는 위치에 col을 추가하고자 하는 경우
# 위치를 조절 하고 싶다면(insert함수 사용)
cust.insert(10, 'r3m_avg_bill_amt10', cust['r3m_avg_bill_amt'] *10)  # 0부터 시작하여 10번째 col에 insert
cust.head()

#### __2) column 삭제하기__

>- drop 함수 사용하여 삭제
>- axis는 삭제를 가로(행)기준으로 할 것인지, 세로(열)기준으로 할 것인지 명시하는 'drop()'메소드의 파라미터임 
>- 리스트를 사용하면 멀티플 col 삭제 가능

In [None]:
# axis : dataframe은 차원이 존재 함으로 항상 0과 1이 존재 
# (0은 행레벨, 1을 열 레벨)
cust.drop('r3m_avg_bill_amt10', axis=1)

In [None]:
#원본 데이터를 열어 보면 원본 데이터는 안 지워진 상태
cust.head()

In [None]:
# 원본 데이터를 지우고자 한다면... 
# 방법1 : 데이터를 지우고 다른 데이터 프레임에 저장
cust1=cust.drop('r3m_avg_bill_amt10', axis=1)
cust1.head()

In [None]:
# 원본 자체를 지우고자 한다면...
# 방법 2 : inplace 파라미터를 할용 True인 경우 원본데이터에 수행
cust.drop('r3m_avg_bill_amt10', axis=1, inplace=True)

In [None]:
# 원본확인
cust

# Chapter 2. DataFrame 변형하기

# __1. DataFrame group by 이해하기__

### <b>1-1. 데이터 묶기</b>

In [6]:
import pandas as pd
import numpy as np

#### <b>1) 그룹화(groupby)</b>

  + 같은 값을 하나로 묶어 통계 또는 집계 결과를얻기위해 사용하는 것
  + 아래의 세 단계를 적용하여 데이터를 그룹화(groupping) / 특정한 col을 기준으로 데이터를 그룹핑 하여 통계에 활용하는 것
    - 데이터 분할(split) : 어떠한 기준을 바탕으로 데이터를 나누는 일
    - operation 적용(applying) : 각 그룹에 어떤 함수를 독립적으로 적용시키는 일
    - 데이터 병합(cobine) : 적용되어 나온 결과들을 통합하는 일
  + 데이터 분석에 있어 사용빈도가 높음
  + groupby의 결과는 dictionary형태임


![](https://t1.daumcdn.net/cfile/tistory/9978503F5B8264490F)

In [None]:
cust = pd.read_csv('./sc_cust_info_txn_v1.5.csv', encoding = "cp949")
cust