# Pandas
> - 데이터 과학자를 위해 **테이블형태**로 데이터를 다룰 수 있게 해주는 패키지(python용 엑셀)
> - 기존 데이터처리 라이브러리인 numpy 대신 주로 사용
> - 일반인이 데이터분석을 접하기 쉽게 만들어준 결정적인 라이브러리
> - pandas만으로도 충분히 데이터 분석이 가능할 정도로 고수준의 함수들을 내장
> - 앞으로 진행하는 데이터분석 과정에서 주로 사용하게 될 데이터구조

## pandas 설치 및 import
    
> 콘솔창에서 실행 시  
**`pip install pandas`**  
**`conda install pandas`**
    
> 주피터 노트북으로 실행 시  
**`!pip install pandas`**
    
아나콘다 환경으로 python 환경설정 시 기본적으로 설치가 되어있음

In [None]:
# pandas 설치
# !pip install pandas

In [None]:
# numpy import
import numpy as np

# pandas import
import pandas as pd
# pd라는 닉네임은 많은 파이썬 유저들이 사용하고 있는 닉네임, 분석을 위한 필수는 아니지만 되도록이면 위와 같이 사용을 해줍시다.

pd.options.display.max_columns = 200
# 불러들이는 데이터에 맞춰 모든 컬럼을 확인 가능하도록 옵션값을 주었습니다.
pd.options.display.max_info_columns =200
# 그냥 실행 시키시고 지금 이해 못하셔도 좋습니다.

## DataFrame
> - 엑셀에 익숙한 사용자를 위해 제작 된 **테이블형태의 데이터 구조**  
> - 다양한 형태의 데이터를 받아 사용할 수 있으며 다양한 **통계, 시각화 함수를 제공**한다.  

실제 데이터를 불러들이고 값을 확인 해 보며 기본적인 pandas 사용법을 익혀보도록 하겠습니다.

### 데이터 불러오기
pandas는 다양한 데이터 파일 형태를 지원하며 주로 csv, xlsx, sql, json을 사용합니다.
    
> **`read_csv()`**  
**`read_excel()`**  
**`read_sql()`**  
**`read_json()`**  
**`json_normalize()`**

In [None]:
# DataFrame 의 약자로서 형식적으로 df 변수명을 사용한다.
# pandas패키지의 read_csv() 함수를 사용하여 loan1.csv 파일을 불러들여 데이터프레임을 만들고 df 이름의 변수로 저장


In [None]:
# 만약 모듈을 찾을 수 없는 오류가 발생한다면 추가 모듈 설치
# 필요 모듈 import
!pip install xlrd, openpyxl, pyxlsb

In [None]:
# 엑셀파일에 시트에 따라 데이터 구분이 지어진 경우 시트별로 데이터프레임 제작 가능
# 다른 엑셀파일형식을 가져올 때 engine파라메터 추가해주시면 됩니다.
df1 = pd.read_excel('./data/loan1.xlsb', 
                    sheet_name='구매영수증상세+상품마스터포함', 
                    engine='pyxlsb',
                    encoding='utf-8') # 윈도우의 경우 cp949

In [None]:
# 데이터프레임 확인


In [None]:
# 참고! 실습은 하지 않습니다만 쿼리를 사용하여 데이터베이스로부터 데이터프레임을 만드는 것도 가능합니다.
# 데이터베이스로 부터 자료 읽기

# 필요한 모듈 추가 설치 - 각 데이터베이스 별로 다릅니다.
# !pip install pymysql

# sql 모듈 로드하기
# import pymysql
# mysql, mariadb, sqlite, postgresql, ms-sql, oracle, mongodb

# 접속하기
# 접속방법 또한 DB 종류에 따라 다릅니다.
# con = pymysql.connect(host='db서버주소', port=3306, user='id', passwd='pwd', db='dbname')

# query 만들기
# query = 'select * from samples'

# 자료 불러오기
# data = pd.read_sql(query, con=con)

### 데이터 저장하기
불러들인 혹은 작업을 마친 데이터프레임을 다양한 파일형태로 저장이 가능합니다.
    
> **`to_csv()`**  
**`to_excel()`**  
**`to_sql()`**

In [None]:
# index=False 파라메터는 기존 데이터프레임의 인덱스를 무시하고 저장


### 사용 데이터 간략 설명
> 미국 핀테크 회사인 lending club의 대출 데이터베이스  
클라우드펀딩과 대출을 결합한 핀테크의 시초라고 부를 수 있는 회사  
방대한 양의 대출정보를 공개하면서 금융정보분석에도 기여한 공이 큰 데이터  
2007 ~ 2015 년 대출정보 및 개인정보를 담고 있음  
226만건, 145항목 정보를 담고있음  
실습데이터는 이 중 4만건을 추출한 데이터를 사용합니다.  

데이터출처: https://www.kaggle.com/wordsforthewise/lending-club

### 데이터 살펴보기

In [None]:
# 데이터를 불러들인 후 가장 처음 하는 작업
# 데이터의 구조, 형태 파악하기
# 데이터의 첫 5개 데이터 하나(샘플, 인스턴스) 확인하기

# 10개를 확인하려면?

In [None]:
# 데이터의 마지막 5개 샘플 확인하기
# 데이터가 잘 가져왔는지 확인 할 때 보통 씁니다.


In [None]:
# 데이터의 갯수를 살펴봅니다


In [None]:
# 데이터의 전반적인 정보를 확인합니다.

# dtype 정보에서는 각 컬럼별 데이터 타입을 확인 할 수 있습니다.
# object == str 이라고 생각하셔도 무방합니다.
# verbose, null_counts

In [None]:
# 데이터의 기초통계량을 확인합니다.


In [None]:
# numpy 함수로 데이터 shape 확인


In [None]:
# 인덱스


In [None]:
# 컬럼


데이터셋을 살펴 본 결과 정체를 알 수 없는 많은 컬럼이 있는 걸 확인했고, 

50000개의 샘플이 불러들여진 것을 확인 할 수 있었습니다.

추가로 데이터 중간 중간 비어있는 값도 있는 것을 확인했습니다.

### 데이터접근 (인덱싱, 슬라이싱, 샘플링)

In [None]:
# 첫 샘플 혹은 레코드(대출건)에 대한 데이터를 살펴보겠습니다.
# 인덱스넘버로 데이터에 접근하는 .iloc[색인]
# 각 컬럼이나, 행단위 접근했을 때 출력되는 벡터 데이터를 Serise(시리즈) 라고 하는 자료구조
# index, values로 각각의 속성에 접근 가능


In [None]:
# 10번 인덱스 부터 20번 인덱스 샘플 접근
# start, end+1, step


In [None]:
# 컬럼 단위 샘플 접근

# df[텍스트형태의 컬럼명]
# 인덱싱이나 슬라이싱으로 데이터에 접근을 할 때 큰 단위를 선택하고 그 결과에서 인덱싱 혹은 슬라이싱을 하면
# 조금 더 편하게, 쉽게 데이터 접근이 가능하다.

In [None]:
# 여러 컬럼 동시 접근


In [None]:
# row와 columns을 동시에 슬라이싱 하는 속성
# df.loc[인덱스, 컬럼명]


In [None]:
# df의 컬럼명을 순환하면서 컬럼단위로 접근하고 각 컬럼의 고유값을 출력해주는 코드


In [None]:
# 고윳값 갯수 출력


### 팬시인덱싱
> **`bool`** 형태의 array를 조건을 전달하여 다차원 배열을 인덱싱하는 방법.  
조건식을 사용하여 분석에 필요한 데이터샘플을 추출하기 용이합니다.

In [None]:
# 신용등급이 A인 샘플의 emp_title 확인


In [None]:
# 대출금액평균


In [None]:
# 조건식 샘플링 emp_title 이 ceo인 샘플들


In [None]:
# 신용등급 A와 B인 샘플접근

# 조건식을 여러개 써야 한다면 조건마다 ()로 감싸주시는 것이 좋습니다.

In [None]:
# df loan_amnt 컬럼값이 10000이상인 채권샘플의 grade


In [None]:
# 신용등급 A와 B인 샘플접근


In [None]:
# df loan_amnt 컬럼값이 10000 이상인 채권샘플의 grade


In [None]:
# df grade C 와 D 인 채권샘플 annual_inc 최대값인 인덱스 빼오기 (idxmax)
# 최대값 인덱스 빼와서 샘플까지 출력


In [None]:
# 컬럼 내 문자열 내에 우리가 찾고싶은 문자열이 포함되어 있는지를 기준으로 샘플링


## 데이터프레임 병합
> 실제 분석업무를 진행하다보면 데이터가 여기저기 분산되어 있을 경우가 더 많습니다.  
조각난 데이터를 분석에 필요한 데이터셋으로 만들기 위해 데이터프레임 병합을 많이 사용합니다.  
한개 이상의 데이터프레임을 병합 할 때 주로 사용하는 함수 2가지를 알아보겠습니다.    

### 데이터 병합에 사용가능한 key(병합할 기준이 되는 행 or 열)값이 있는경우
**`pd.merge`**(베이스데이터프레임, 병합할데이터프레임)  
> 사용 가능 한 파라메터
- `how` : 'left', 'right', 'inner', 'outer'
- `left_on` : key값이 다를 경우 베이스데이터프레임의 key 설정
- `right_on` : key값이 다를 경우 병합데이터프레임의 key 설정
    
### 단순 데이터 연결
**`pd.concat`**([베이스데이터프레임, 병합할데이터프레임], axis=0 or 1)
> 사용 가능 한 파라메터  
- `axis` : 축 방향 설정

### merge 예시

In [None]:
merge_df1 = pd.DataFrame({
    '이름': ['원영', '사쿠라', '유리', '예나', '유진', '나코', '은비', '혜원', '히토미', '채원', '민주', '째욘'],
    '국어': [100, 70, 70, 70, 60, 90, 90, 70, 70, 80, 100, 100],
    '영어': [100, 90, 80, 50, 70, 100, 70, 90, 100, 100, 80, 100]
    }, columns=['이름', '국어', '영어']) 

merge_df2 = pd.DataFrame({
    '일어': [80, 100, 100, 90, 70, 50, 100],
    '수학': [90, 70, 100, 80, 70, 80, 90],
    'name': ['원영', '사쿠라', '나코', '히토미', '예나', '은비', '째욘'],
    }, columns=['일어', '수학', 'name'])

In [None]:
# 데이터프레임 확인


In [None]:
# 병합 테스트


### concat 예시
현재 df에 저장되어있는 데이터에 추가로 2만개의 데이터를 이어붙여보겠습니다. df1이라는 변수에 이어붙일 데이터를 불러들여 병합을 진행해보겠습니다.

In [None]:
# df1 변수에 loan2.csv 파일을 읽어들입니다.


In [None]:
# 데이터프레임 확인


In [None]:
# df 와 df1 shape 확인


In [None]:
# 데이터프레임 행단위 병합


In [None]:
# 병합 데이터프레임 shape 확인


In [None]:
# 병합 데이터프레임 index 확인


## 인덱스 편집
방금 전 concat으로 병합한 데이터프레임의 이상한 점을 찾으셨나요?  
데이터 자체는 잘 붙였지만 인덱스가 꼬여있습니다. 인덱스 편집은 데이터분석을 위해 필요한 인덱스를 설정하기 위해 필요합니다.

In [None]:
# 인덱스리셋


In [None]:
# 기존 컬럼값을 취해 index로 사용


## 컬럼편집
인덱스편집과 마찬가지로 데이터프레임의 컬럼을 변경해야 할 경우도 있습니다. 데이터프레임은 컬럼단위 샘플링 및 인덱싱, 이름변경이 가능합니다.

### 컬럼선택

In [None]:
# df 컬럼명 접근


In [None]:
# columns 속성도 인덱싱 및 슬라이싱이 가능합니다.


저는 개인정보에 관한 부분에 관심이 많습니다. 데이터셋 중 필요한 부분만을 컬럼단위로 추려보겠습니다.

In [None]:
# df의 개인정보에 관한 컬럼만을 색인으로 df를 슬라이싱하고 person_df 변수에 할당


### 컬럼삭제
현재 데이터셋에는 개인식별정보가 지워져서 데이터가 존재하지 않습니다. 불필요한 데이터 column을 지우도록 하겠습니다.

In [None]:
# 지울 column의 데이터값이 모두 NaN인지 확인


삭제할 컬럼 모두 데이터가 없는 것을 확인했습니다.

In [None]:
# 컬럼 삭제 (drop, del, pop)




### 컬럼명 변경
    경우에 따라서는 데이터셋 제작 중 컬럼명을 변경해야 할 경우도 있습니다.
    국내 수집 데이터 사용 시 컬럼이 한글일 경우 영어로 변경을 많이 합니다.

In [None]:
# home_ownership을 간략하게 home으로 변경
# 한글도 가능합니다만 권장하지는 않습니다.


## 데이터 샘플링 및 분석
> 데이터병합, 인덱스편집, 컬럼선택만으로도 불필요한 정보를 삭제하고 새롭게 데이터셋을 만들 수 있는것을 확인했습니다.  
위에 학습한 내용도 데이터 샘플링에 속한 내용이지만 지금부터는 데이터셋의 데이터를 살펴보면서 의미있는 데이터를 추려보도록 하겠습니다.  
    
**데이터프레임의 기본적인 인덱싱, 슬라이싱, 조건부 샘플링을 조합하면 데이터의 샘플을 확인 하는 과정만으로도 데이터분석이 가능해집니다.**

In [None]:
# 분석에 필요한 데이터프레임을 만들었으니 원본값을 사용하겠습니다. 기존 df에 person_df 값을 덮어 씌웁니다.


In [None]:
# 분석에 필요한 데이터셋을 생성했다면 파일로도 저장 해둡시다.


### 저는 채권자의 개인정보에 관심이 많습니다. 고객의 직업을 살펴보겠습니다.

In [None]:
# emp_title 접근


In [None]:
# 값을 카운트 하는 함수 value_counts()


### 데이터프레임 형변환

In [None]:
# Owner, owner 같은 직업이지만 대소문자 구분에 따라 다른 값으로 취급되는 문제가 있네요.
# 대소문자 구분을 없애기 위해 모두 소문자로 데이터값을 변경하겠습니다.
# 소문자 변환 전 혹시모를 int, float 데이터가 있을지 모를 상황에 대비해서 모두 문자열로 변경해주겠습니다.
# 형변환 함수 astype(데이터타입)


In [None]:
%%time
# 반복문을 사용한 데이터 변경도 가능
# 하지만 파이썬의 강점을 살리지 못한 코드


### 배운사람들의 코드, 고오급 python 스킬
numpy를 학습하면서 브로드캐스팅에 관하여 잠깐 언급했었습니다. 그렇다면 그 파워풀하다던 브로드캐스팅은 어떻게 사용해야할까요?
    
>기타 언어에서는 지원하지 않는 기능이니만큼 파이썬의 특징을 가장 잘 살리는 코드  
**`apply`** 함수를 사용하여 인자로 받는 모든 데이터에 함수를 적용

#### apply 함수로 컬럼에 적용시키는 코드 구조
    df['컬럼명'] = df['컬럼명'].apply(lambda x: func(x) if 조건문)
    df['컬럼명'] = df['컬럼명'].apply(func_nm)

In [None]:
# 대문자 만드는 함수


In [None]:
# apply() 함수사용 반복이 가능한 데이터구조의 모든 인자에 적용
# lambda 각 인자에 적용할 함수 혹은 연산


In [None]:
# 대소문자 구분을 처리한 값 확인

# 기존 value_count 값과 차이가 있음을 확인 할 수 있습니다.
# 제공 된 데이터셋이라도 이와 같은 작은 차이가 있을 수 있습니다.
# 데이터를 꼼꼼하게 살펴볼 수록 디테일한 차이를 만들 수 있습니다.

In [None]:
# owner인 사람들 샘플링


In [None]:
# 샘플링 된 데이터프레임의 단일 컬럼 접근


In [None]:
# 컬럼 평균값 계산


In [None]:
# 코드 하나 변경으로 간단한 분석 가능
# owner가 아닌 사람들의 평균


## 데이터 재구조화

In [None]:
# 각 직업별 평균연봉이 궁금하다 groupby
# 엑셀의 pivol table 과 비슷한 기능


In [None]:
# pivot_table


## 결측치 처리
> 데이터 분석을 위해서는 데이터셋 내에 빈 값이 있는 경우 분석에 방해가 될 수 있는 여지가 많습니다.  
모든 결측치를 없애야 하는 것은 아니지만 되도록이면 결측치를 채우는 방법, 혹은 없애는 방법등으로 결측치를 처리합니다.  
몇가지 예시를 살펴보면서 결측치 처리에 대해 알아봅시다.

In [None]:
# info() 함수는 결측치에 대한 정보도 보여줍니다.
# 컬럼별 isnull() 함수를 사용해도 무방합니다.


    확인결과 emp_title, emp_length, dti에 결측치가 존재합니다.
    해당 컬럼의 결측치 샘플들을 살펴보고 결측치를 처리해 보겠습니다.

In [None]:
# 컬럼별 결측치 확인을 위한 isnull()함수 리턴값이 bool 형태로 반환되어 조건부 샘플링이 가능합니다.


In [None]:
# dti 컬럼에 결측치가 존재하는 샘플 확인


    직업과 근속연수에 관한 부분은 데이터를 통한 유추나 계산값을 통해 채워넣을 수 있는 항목은 아닌 것 같습니다.
    다만 dti의 경우 실수로 채워져 있는 부분이니 수업을 위해 평균값 혹은 근사치를 계산하여 채워보도록 하겠습니다.

### 결측치 채우기

In [None]:
# dti 컬럼의 NaN값 index 확인


In [None]:
# fillna() 함수로 NaN 값을 dti 컬럼의 평균으로 채우기

# fillna() 함수의 다양한 채우기 방법 파라메터 확인해보기


### 결측치 제거

In [None]:
# emp_title 결측치가 있는 샘플 확인


In [None]:
# view값으로 dropna 결과값 확인


In [None]:
# 결측치 제거
