# pandas를 사용한 데이터 분석 
 
### 파일 읽기
 
대부분의 데이터셋은 열과 열을 구분하기 위한 구분자로 특정한 문자를 사용한다. 구분자는 보통 콤마 ','를 많이 쓰는데, 콤마를 구분자로 사용한 파일을 특별히 'CSV(comma-separated values) 파일'이라고 부른다.
  
 ** df = pd.read_csv("data/lending-club-loan-data/loan.csv", sep=",")** 

 
### Lending Club Loan dataset 분석하기
 
** Lending Club Loan dataset의 주요 컬럼 요약** 
 
 **• loan_amnt: 대출자의 대출 총액**
 
 • funded_amnt: 해당 대출을 위해 모금된 총액
 
 • issue_d: 대출을 위한 기금이 모금된 월
 
 **• loan_status: 대출의 현재 상태**
 
 • title: 대출자에 의해 제공된 대출 항목
 
 • purpose: 대출자에 의해 제공된 대출 목적
 
 • emp_length: 대출자의 재직 기간
 
 **• grade: LC assigned loan grade**
 
 **• int_rate: 대출 이자율**
 
 **• term: 대출 상품의 기간 (36-month vs. 60-month)**
  
* 불량 상태(bad status): "Charged Off", "Default", "Does not meet the credit policy. Status:Charged Off", "In Grace Period", "Default Receiver", "Late (16-30 days)", "Late (31-120 days)"
 
** LC loan grade 참고: https://www.lendingclub.com/public/rates-and-fees.action  **

In [25]:
import pandas as pd
import numpy as np

In [6]:
pd = pd.read_csv('data/loan.csv', sep = ',')

  interactivity=interactivity, compiler=compiler, result=result)


In [7]:
pd.head(10)

Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,total_bal_il,il_util,open_rv_12m,open_rv_24m,max_bal_bc,all_util,total_rev_hi_lim,inq_fi,total_cu_tl,inq_last_12m
0,1077501,1296599,5000.0,5000.0,4975.0,36 months,10.65,162.87,B,B2,...,,,,,,,,,,
1,1077430,1314167,2500.0,2500.0,2500.0,60 months,15.27,59.83,C,C4,...,,,,,,,,,,
2,1077175,1313524,2400.0,2400.0,2400.0,36 months,15.96,84.33,C,C5,...,,,,,,,,,,
3,1076863,1277178,10000.0,10000.0,10000.0,36 months,13.49,339.31,C,C1,...,,,,,,,,,,
4,1075358,1311748,3000.0,3000.0,3000.0,60 months,12.69,67.79,B,B5,...,,,,,,,,,,
5,1075269,1311441,5000.0,5000.0,5000.0,36 months,7.9,156.46,A,A4,...,,,,,,,,,,
6,1069639,1304742,7000.0,7000.0,7000.0,60 months,15.96,170.08,C,C5,...,,,,,,,,,,
7,1072053,1288686,3000.0,3000.0,3000.0,36 months,18.64,109.43,E,E1,...,,,,,,,,,,
8,1071795,1306957,5600.0,5600.0,5600.0,60 months,21.28,152.39,F,F2,...,,,,,,,,,,
9,1071570,1306721,5375.0,5375.0,5350.0,60 months,12.69,121.45,B,B5,...,,,,,,,,,,


In [8]:
pd.shape

(887379, 74)

In [9]:
pd.columns

Index(['id', 'member_id', 'loan_amnt', 'funded_amnt', 'funded_amnt_inv',
       'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'emp_title',
       'emp_length', 'home_ownership', 'annual_inc', 'verification_status',
       'issue_d', 'loan_status', 'pymnt_plan', 'url', 'desc', 'purpose',
       'title', 'zip_code', 'addr_state', 'dti', 'delinq_2yrs',
       'earliest_cr_line', 'inq_last_6mths', 'mths_since_last_delinq',
       'mths_since_last_record', 'open_acc', 'pub_rec', 'revol_bal',
       'revol_util', 'total_acc', 'initial_list_status', 'out_prncp',
       'out_prncp_inv', 'total_pymnt', 'total_pymnt_inv', 'total_rec_prncp',
       'total_rec_int', 'total_rec_late_fee', 'recoveries',
       'collection_recovery_fee', 'last_pymnt_d', 'last_pymnt_amnt',
       'next_pymnt_d', 'last_credit_pull_d', 'collections_12_mths_ex_med',
       'mths_since_last_major_derog', 'policy_code', 'application_type',
       'annual_inc_joint', 'dti_joint', 'verification_status_joint',
    

In [10]:
# 필요한 컬럼만 가져오기
df2 = pd[['loan_amnt', 'loan_status', 'grade', 'int_rate', 'term']]

In [11]:
df2.head(10)

Unnamed: 0,loan_amnt,loan_status,grade,int_rate,term
0,5000.0,Fully Paid,B,10.65,36 months
1,2500.0,Charged Off,C,15.27,60 months
2,2400.0,Fully Paid,C,15.96,36 months
3,10000.0,Fully Paid,C,13.49,36 months
4,3000.0,Current,B,12.69,60 months
5,5000.0,Fully Paid,A,7.9,36 months
6,7000.0,Current,C,15.96,60 months
7,3000.0,Fully Paid,E,18.64,36 months
8,5600.0,Charged Off,F,21.28,60 months
9,5375.0,Charged Off,B,12.69,60 months


In [12]:
df2.tail()

Unnamed: 0,loan_amnt,loan_status,grade,int_rate,term
887374,10000.0,Current,B,11.99,36 months
887375,24000.0,Current,B,11.99,36 months
887376,13000.0,Current,D,15.99,60 months
887377,12000.0,Current,E,19.99,60 months
887378,20000.0,Current,B,11.99,36 months


In [13]:
df2['loan_status'].unique()

array(['Fully Paid', 'Charged Off', 'Current', 'Default',
       'Late (31-120 days)', 'In Grace Period', 'Late (16-30 days)',
       'Does not meet the credit policy. Status:Fully Paid',
       'Does not meet the credit policy. Status:Charged Off', 'Issued'], dtype=object)

In [14]:
df2['grade'].unique()

array(['B', 'C', 'A', 'E', 'F', 'D', 'G'], dtype=object)

In [15]:
df2['term'].unique()

array([' 36 months', ' 60 months'], dtype=object)

In [16]:
df2.shape

(887379, 5)

In [17]:
#nan 제거하기   * how = 'any' 는 nan이 있는 행은 모두 삭제 / how ='all' 은 행 전체에 nan이 있는 경우에만 행 삭제. 그렇지 않으면 삭제 안함
df2 = df2.dropna(how = 'any')

In [18]:
df2.shape

(887379, 5)

# 30개월 / 60개월 두 가지 대출 상품을 운영
# 문제) '36개월 대출'과 '60개월 대출'의 대출 총액 파악

# 문제) 각 대출 상태(불량/우량)에 따른 대출 등급 분포 파악

# 대출 총액과 대출 이자율 간의 상관관계 파악

# 파일쓰기