# 7. 데이터 분석 라이브러리

- 라이브러리 : 특정 프로그래밍의 목적을 달성하기 위한 함수들의 집합체
- 데이터 분석을 위한 라이브러리 종류
    - Numpy (Numeric + Python) : 연속형 자료에 대한 과학 / 통계 / 수학 연산 관련 함수들의 집합
    - Pandas (Panel + Dataset) : 정형데이터(Excel, csv, SQL ...)등을 처리 / 분석 / 통계 연산 함수들의 집합
    - Matplotlib (Matlab + Plot + Library) : 연속형 자료들의 그래프를 시각화하는 함수들의 집합
    - Seaborn : 정형데이터의 통계적 연산 및 시각화
    - Plotly : 정형데이터의 시각화 (동적 시각화)
    - Scipy (Science + Python) : 응용통계 (가설 검정 / 회귀 분석 / 시계열 분석) 함수들의 집합
    - Scikit-learn (Science + Python + Learning + Toolkit) : 정형데이터에서 기계 학습(데이터마이닝) 함수들의 집합
    - Tensorflow(Tensor + flow) : 비정형데이터 처리 / 신경망 알고리즘 (딥러닝) 함수들 집합
    - Keras : 신경망 알고리즘 함수들의 집합
    - Pytorch : 비정형 데이터 처리 / 딥러닝 / ...
    - Request : 웹으로부터 정보를 주고받거나 추출할 때 사용
    - bs4 : 웹기반(HTML)형식의 자료를 분해하여 정보를 추출할 때 사용
    - selenium : 프로그램이나 어플리케이션의 진단 및 자동화 / 크롤링 사용

In [2]:
#라이브러리를 해당 스크립트로 호출
import pandas as pd
#import : 특정 라이브러리를 스크립트로 호출 
#as : 해당라이브러리 이름을 줄여 사용

In [4]:
#데이터 불러오기 (read_csv : csv파일을 불러옴)
df1 = pd.read_csv('01_Data.csv') #01_Data.csv파일을 불러와 df1 변수로 선언

In [7]:
#  데이터의 순서 Index
df1.index
#함수에서 소괄호를 안쓰는 경우-> 데이터의 구조를 확인한 경우

RangeIndex(start=0, stop=51301, step=1)

In [8]:
#데이터의 항목 Column
df1.columns

Index(['Index', 'Member_ID', 'Sales_Type', 'Contract_Type', 'Channel',
       'Datetime', 'Term', 'Payment_Type', 'Product_Type', 'Amount_Month',
       'Customer_Type', 'Age', 'Address1', 'Address2', 'State',
       'Overdue_count', 'Overdue_Type', 'Gender', 'Credit_Rank', 'Bank'],
      dtype='object')

In [9]:
#데이터의 구조와타입을 모두 확인
df1.info()
#결측값 (Missing Value) : 데이터의 공백 / Null,None, NaN (Not A Number), ...

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51301 entries, 0 to 51300
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Index          51301 non-null  int64  
 1   Member_ID      51301 non-null  int64  
 2   Sales_Type     51301 non-null  object 
 3   Contract_Type  51301 non-null  object 
 4   Channel        51301 non-null  object 
 5   Datetime       51301 non-null  object 
 6   Term           51301 non-null  int64  
 7   Payment_Type   51301 non-null  object 
 8   Product_Type   51301 non-null  object 
 9   Amount_Month   51301 non-null  int64  
 10  Customer_Type  51299 non-null  object 
 11  Age            44329 non-null  float64
 12  Address1       51299 non-null  object 
 13  Address2       51299 non-null  object 
 14  State          51301 non-null  object 
 15  Overdue_count  51301 non-null  int64  
 16  Overdue_Type   51301 non-null  object 
 17  Gender         51301 non-null  object 
 18  Credit

# 데이터 전처리

- 데이터 핸들링 기법
    - 데이터 추출 (행단위 / 열단위)
    - 데이터 정렬
    - 데이터 필터
    - 데이터 요약(Pivot)
    - 날짜 데이터 처리
    - 파생변수 : 기존에 있는 데이터 항목을 이용해 새로운 항목을 만드는 것
    - 데이터 재구조화 / 병합

In [14]:
#데이터 추출(행단위)
df1.head() #head() : 상위 n개의 데이터를 추출할 때 사용 (공백->5개)

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
3,4,66423450,멤버십,멤버십3유형,재계약,2019-05-13,12,CMS,DES-1,66900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,5.0,농협회원조합
4,5,66423204,멤버십,멤버십3유형,재계약,2019-05-10,12,CMS,DES-1,66900,개인,60.0,경기도,경기도,기간만료,12,있음,남자,8.0,농협회원조합


In [15]:
df1.tail(3) #하위 n개의 데이터를 추출

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드
51300,51302,66799607,렌탈,일반계약,홈쇼핑/방송,2019-04-24,60,CMS,DES-1,96900,개인,53.0,서울특별시,서울특별시,계약확정,0,없음,여자,8.0,신한은행


In [16]:
#특정범위의 데이터를 확인할 때
#iloc[n:m] : n번째부터 m번 이전까지 데이터를 추출 (index location)
df1.iloc[50:100]

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
50,51,66758548,렌탈,일반계약,영업방판,2019-03-31,60,CMS,DES-1,96900,개인,57.0,서울특별시,서울특별시,계약확정,0,없음,남자,4.0,국민은행
51,52,66758162,렌탈,패키지계약,홈쇼핑/방송,2019-10-03,60,카드이체,DES-1,98400,개인,50.0,서울특별시,서울특별시,계약확정,0,없음,남자,5.0,국민카드
52,53,66758162,렌탈,패키지계약,홈쇼핑/방송,2019-05-04,60,카드이체,DES-2,80400,개인,50.0,서울특별시,서울특별시,계약확정,0,없음,남자,5.0,국민카드
53,54,66590304,렌탈,프로모션계약,영업방판,2019-01-01,60,CMS,DES-2,90900,개인,43.0,서울특별시,서울특별시,계약확정,0,없음,남자,4.0,신한은행
54,55,66670488,렌탈,프로모션계약,영업방판,2019-04-03,60,CMS,DES-1,96900,개인,34.0,서울특별시,서울특별시,계약확정,0,없음,여자,4.0,우리은행
55,56,25856039,렌탈,교체계약,영업방판,2019-05-01,60,CMS,DES-1,96900,사업자,,경상도,부산광역시,계약확정,0,없음,여자,,농협중앙회
56,57,25869517,렌탈,프로모션계약,영업방판,2019-07-22,60,가상계좌,DES-1,96900,사업자,,경상도,부산광역시,계약확정,0,없음,여자,,
57,58,66757967,렌탈,프로모션계약,영업방판,2019-08-21,60,카드이체,DES-1,105900,개인,37.0,경상도,경상도,계약확정,0,없음,여자,5.0,롯데카드
58,59,66260467,렌탈,교체계약,영업방판,2019-02-16,60,CMS,DES-1,96900,개인,42.0,경상도,경상도,계약확정,0,없음,여자,1.0,우리은행
59,60,66758899,렌탈,패키지계약,전문매장H,2019-07-30,60,CMS,DES-1,81900,개인,67.0,경상도,경상도,계약확정,0,없음,남자,2.0,대구은행


In [18]:
#상위 150개의 데이터를 뽑아서 result1.csv파일로 지정
df1.head(150).to_csv('result1.csv', encoding='cp949')
# df1 데이터에서 먼저 150개 데이터를 추출한뒤, result1.csv파일로저장됨
# encoding='cp949' : 한글이나 특수기호 깨짐현상을 방지하기위한인코더 

- CSV(Comma Separated Values): 콤마로 구분된 데이터를 정리한파일
    - 정형데이터의 구조를 가지고 있지 않음
- Excel :
    -정형데이터의 구조(index - column - value)를 가진 상태에서 파일을 저장

In [19]:
df1.head(150).to_excel('result.xlsx')

In [21]:
#열단위 추출
df1['Amount_Month'] #하나의 열데이터를 추출
#Series 구조 : index - value(순서 - 값 / 순열)

0         96900
1        102900
2         96900
3         66900
4         66900
          ...  
51296     96900
51297     96900
51298    120900
51299     96900
51300     96900
Name: Amount_Month, Length: 51301, dtype: int64

In [24]:
df1['Amount_Month'].mean() #하나의 열의 평균값을 계산

np.float64(93994.97428900021)

In [26]:
# Python Pandas 데이터구조
# Series 구조 : index - value(순서 - 값 / 순열)
# Data Frame 구조 : index - column - value
# Series가 여러 줄 모이면 하나의 Data Frame이 구성된다
#여러 열을 추출할 때는 대괄호 두개
df1[['Amount_Month', 'Channel','Sales_Type']]

Unnamed: 0,Amount_Month,Channel,Sales_Type
0,96900,영업방판,렌탈
1,102900,영업방판,렌탈
2,96900,홈쇼핑/방송,렌탈
3,66900,재계약,멤버십
4,66900,재계약,멤버십
...,...,...,...
51296,96900,대형마트A,렌탈
51297,96900,대형마트A,렌탈
51298,120900,영업방판,렌탈
51299,96900,홈쇼핑/방송,렌탈


In [27]:
df1[['Amount_Month', 'Channel']].head(10)

Unnamed: 0,Amount_Month,Channel
0,96900,영업방판
1,102900,영업방판
2,96900,홈쇼핑/방송
3,66900,재계약
4,66900,재계약
5,90900,영업방판
6,98400,홈쇼핑/방송
7,80400,홈쇼핑/방송
8,102900,영업방판
9,105900,영업방판


In [33]:
#데이터 정렬
df1.sort_values(by='Amount_Month') #오름차순 정렬

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
41962,41964,66791993,멤버십,멤버십2유형,전문매장H,2019-07-15,36,무통장,DES-1,54603,개인,,경상도,대구광역시,계약확정,0,없음,여자,,
49855,49857,66797877,멤버십,멤버십2유형,전문매장H,2019-02-23,36,무통장,DES-1,54603,개인,,경상도,경상도,계약확정,0,없음,여자,,
39280,39282,66788217,멤버십,멤버십2유형,전문매장H,2019-06-25,36,무통장,DES-1,54603,개인,,충청도,충청도,계약확정,0,없음,여자,,
39095,39097,66788838,멤버십,멤버십2유형,전문매장H,2019-03-26,36,무통장,DES-1,54603,개인,,충청도,대전광역시,계약확정,0,없음,여자,,
43978,43980,66793345,멤버십,멤버십2유형,전문매장H,2019-08-24,36,무통장,DES-1,54603,개인,,강원도,강원도,계약확정,0,없음,여자,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35085,35087,25867372,렌탈,프로모션계약,영업방판,2019-02-07,39,가상계좌,MMC,215700,사업자,,강원도,강원도,계약확정,0,없음,여자,,
38497,38499,25734005,렌탈,프로모션계약,영업방판,2019-06-05,39,CMS,MMC,215700,사업자,58.0,전라도,전라도,계약확정,0,없음,남자,1.0,농협중앙회
35084,35086,25867372,렌탈,프로모션계약,영업방판,2019-05-01,39,가상계좌,MMC,215700,사업자,,강원도,강원도,계약확정,0,없음,여자,,
19774,19776,25740247,렌탈,프로모션계약,전단홍보,2020-01-17,39,가상계좌,MMC,215700,사업자,,경상도,경상도,계약확정,0,없음,여자,,


In [37]:
df1.sort_values(by='Amount_Month' , ascending=False) #내림차순(descending) 정렬

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
38497,38499,25734005,렌탈,프로모션계약,영업방판,2019-06-05,39,CMS,MMC,215700,사업자,58.0,전라도,전라도,계약확정,0,없음,남자,1.0,농협중앙회
5399,5400,25742182,렌탈,프로모션계약,영업방판,2019-05-18,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,1,있음,여자,,신한은행
44840,44842,25732681,렌탈,프로모션계약,영업방판,2020-06-01,39,CMS,MMC,215700,사업자,51.0,경상도,경상도,계약확정,2,있음,여자,,우체국
37522,37524,25733781,렌탈,프로모션계약,영업방판,2020-07-02,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,기업은행
35085,35087,25867372,렌탈,프로모션계약,영업방판,2019-02-07,39,가상계좌,MMC,215700,사업자,,강원도,강원도,계약확정,0,없음,여자,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
47467,47469,66796319,멤버십,멤버십2유형,전문매장H,2019-07-28,36,무통장,DES-1,54603,개인,,경기도,경기도,계약확정,0,없음,여자,,
33844,33846,66783744,멤버십,멤버십2유형,전문매장H,2019-03-22,36,무통장,DES-1,54603,개인,,서울특별시,서울특별시,계약확정,0,없음,여자,,
46007,46009,66793313,멤버십,멤버십2유형,전문매장H,2020-07-04,36,무통장,DES-1,54603,개인,,경기도,경기도,계약확정,0,없음,여자,,
46016,46018,66794814,멤버십,멤버십2유형,전문매장H,2019-09-15,36,무통장,DES-1,54603,개인,,경기도,경기도,계약확정,0,없음,여자,,


In [38]:
# 월 랜탈 비용('Amount_Month')이 높으면서 연령('Age')이 높은 순서대로 정렬
df1.sort_values(by=['Amount_Month','Age'] , ascending=False)

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
38497,38499,25734005,렌탈,프로모션계약,영업방판,2019-06-05,39,CMS,MMC,215700,사업자,58.0,전라도,전라도,계약확정,0,없음,남자,1.0,농협중앙회
44838,44840,25732681,렌탈,프로모션계약,영업방판,2020-04-12,39,CMS,MMC,215700,사업자,51.0,경상도,경상도,계약확정,2,있음,여자,,우체국
44839,44841,25732681,렌탈,프로모션계약,영업방판,2020-04-18,39,CMS,MMC,215700,사업자,51.0,경상도,경상도,계약확정,2,있음,여자,,우체국
44840,44842,25732681,렌탈,프로모션계약,영업방판,2020-06-01,39,CMS,MMC,215700,사업자,51.0,경상도,경상도,계약확정,2,있음,여자,,우체국
5399,5400,25742182,렌탈,프로모션계약,영업방판,2019-05-18,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,1,있음,여자,,신한은행
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51210,51212,66799109,멤버십,멤버십2유형,전문매장H,2019-09-04,36,무통장,DES-1,54603,개인,,경상도,부산광역시,계약확정,0,없음,여자,,
51277,51279,66799700,멤버십,멤버십2유형,전문매장H,2019-02-24,36,무통장,DES-1,54603,개인,,경기도,인천광역시,계약확정,0,없음,여자,,
51280,51282,66799156,멤버십,멤버십2유형,전문매장H,2019-03-10,36,무통장,DES-1,54603,개인,,전라도,광주광역시,계약확정,0,없음,여자,,
51284,51286,66799094,멤버십,멤버십2유형,전문매장H,2019-02-24,36,무통장,DES-1,54603,개인,,서울특별시,서울특별시,계약확정,0,없음,여자,,


In [39]:
# 월 랜탈 비용('Amount_Month')이 낮으면서 연령('Age')이 높은 순서대로 정렬
df1.sort_values(by=['Amount_Month','Age'], ascending=[True,False])

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
33107,33109,66783626,멤버십,멤버십2유형,전문매장H,2019-12-19,36,무통장,DES-1,54603,개인,,경상도,경상도,계약확정,0,없음,여자,,
33803,33805,66783630,멤버십,멤버십2유형,전문매장H,2020-07-28,36,무통장,DES-1,54603,개인,,경기도,인천광역시,계약확정,0,없음,여자,,
33844,33846,66783744,멤버십,멤버십2유형,전문매장H,2019-03-22,36,무통장,DES-1,54603,개인,,서울특별시,서울특별시,계약확정,0,없음,여자,,
34129,34131,66783985,멤버십,멤버십2유형,전문매장H,2020-01-22,36,무통장,DES-1,54603,개인,,서울특별시,서울특별시,계약확정,0,없음,여자,,
34311,34313,66783750,멤버십,멤버십2유형,전문매장H,2019-02-21,36,무통장,DES-1,54603,개인,,경상도,대구광역시,계약확정,0,없음,여자,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35084,35086,25867372,렌탈,프로모션계약,영업방판,2019-05-01,39,가상계좌,MMC,215700,사업자,,강원도,강원도,계약확정,0,없음,여자,,
35085,35087,25867372,렌탈,프로모션계약,영업방판,2019-02-07,39,가상계좌,MMC,215700,사업자,,강원도,강원도,계약확정,0,없음,여자,,
37522,37524,25733781,렌탈,프로모션계약,영업방판,2020-07-02,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,기업은행
49896,49898,25731710,렌탈,프로모션계약,영업방판,2019-09-30,39,가상계좌,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,


In [43]:
# 월랜탈비용('Amount_Month')이 높고, 연체건수('Overdue_count')는 낮은 상위 50명의
#고객 계약 명단을 추출해서, result2.xlsx
df1.sort_values(by=['Amount_Month','Overdue_count'], ascending=[False,True]).head(50).to_excel('result2.xlsx')

In [47]:
#데이터 필터(Filter) / loc[(조건식)] : 특정 조건(True)에 해당하는 데이터를 추출
#층별화 : 범주형 데이터 항목의 특성에 따라 다른 데이터의 통계적 특성이 달라질 수 있다.

#월랜탈비용('Amount_Month')이 10만원 이상인 고객들
cond1 = (df1['Amount_Month'] >= 100000)# 월랜탈비용이 10만원 이상인 조건
df1.loc[cond1] #해당 조건에 대한 데이터를 추출

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
8,9,66758007,렌탈,일반계약,영업방판,2019-06-30,60,카드이체,DES-3A,102900,개인,62.0,경상도,경상도,계약확정,0,없음,여자,2.0,롯데카드
9,10,66756702,렌탈,프로모션계약,영업방판,2019-06-30,60,CMS,DES-1,105900,개인,51.0,경상도,경상도,계약확정,0,없음,여자,1.0,신한은행
19,20,66755490,렌탈,프로모션계약,영업방판,2020-01-17,60,카드이체,DES-1,105900,개인,58.0,경상도,부산광역시,계약확정,0,없음,여자,1.0,롯데카드
21,22,66758336,렌탈,프로모션계약,전문매장Z,2020-04-25,60,CMS,DES-1,111900,개인,72.0,경상도,부산광역시,계약확정,0,없음,남자,9.0,농협회원조합
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51286,51288,66799302,렌탈,프로모션계약,영업방판,2019-05-21,60,카드이체,DES-1,105900,개인,39.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51287,51289,66444051,렌탈,교체계약,대형마트A,2019-09-29,60,CMS,DES-1,102900,개인,90.0,서울특별시,서울특별시,계약확정,0,없음,남자,,신한은행
51288,51290,66799492,렌탈,프로모션계약,영업방판,2019-02-24,60,카드이체,DES-1,105900,개인,52.0,경기도,경기도,계약확정,0,없음,남자,,삼성카드
51291,51293,25731743,렌탈,일반계약,영업방판,2020-02-12,60,CMS,DES-3A,102900,사업자,,경기도,경기도,계약확정,10,있음,여자,,농협중앙회


In [50]:
#월랜탈비용('Amount_Month')이 10만원 이상이면서, 연체건수('Overdue_count')가 5회 이하인 고객명단추출
cond1=(df1['Amount_Month'] >= 100000)
cond2=(df1['Overdue_count'] <= 5)
df1.loc[cond1&cond2] #두조건을 모두 만족하는경우 (And &)

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
8,9,66758007,렌탈,일반계약,영업방판,2019-06-30,60,카드이체,DES-3A,102900,개인,62.0,경상도,경상도,계약확정,0,없음,여자,2.0,롯데카드
9,10,66756702,렌탈,프로모션계약,영업방판,2019-06-30,60,CMS,DES-1,105900,개인,51.0,경상도,경상도,계약확정,0,없음,여자,1.0,신한은행
19,20,66755490,렌탈,프로모션계약,영업방판,2020-01-17,60,카드이체,DES-1,105900,개인,58.0,경상도,부산광역시,계약확정,0,없음,여자,1.0,롯데카드
21,22,66758336,렌탈,프로모션계약,전문매장Z,2020-04-25,60,CMS,DES-1,111900,개인,72.0,경상도,부산광역시,계약확정,0,없음,남자,9.0,농협회원조합
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51279,51281,66798237,렌탈,패키지계약,직영계열사A,2019-03-09,60,CMS,DES-3A,101400,개인,,경기도,인천광역시,계약확정,0,없음,여자,4.0,국민은행
51286,51288,66799302,렌탈,프로모션계약,영업방판,2019-05-21,60,카드이체,DES-1,105900,개인,39.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51287,51289,66444051,렌탈,교체계약,대형마트A,2019-09-29,60,CMS,DES-1,102900,개인,90.0,서울특별시,서울특별시,계약확정,0,없음,남자,,신한은행
51288,51290,66799492,렌탈,프로모션계약,영업방판,2019-02-24,60,카드이체,DES-1,105900,개인,52.0,경기도,경기도,계약확정,0,없음,남자,,삼성카드


In [51]:
df1.loc[cond1 | cond2] ##두 조건 중 하나의 조건만 만족해도 데이터를 불러옴(OR |)

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
3,4,66423450,멤버십,멤버십3유형,재계약,2019-05-13,12,CMS,DES-1,66900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,5.0,농협회원조합
5,6,66165241,렌탈,프로모션계약,영업방판,2019-07-29,60,CMS,DES-3A,90900,개인,53.0,경상도,경상도,계약확정,0,없음,여자,5.0,농협중앙회
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2019-03-01,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2019-04-01,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드


In [52]:
#팜내유형(Sales_Type)이 '렌탈'에 해당하는 데이터만 추출
cond1 = (df1['Sales_Type']=='렌탈')
df1.loc[cond1]

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
5,6,66165241,렌탈,프로모션계약,영업방판,2019-07-29,60,CMS,DES-3A,90900,개인,53.0,경상도,경상도,계약확정,0,없음,여자,5.0,농협중앙회
6,7,66751017,렌탈,패키지계약,홈쇼핑/방송,2019-01-30,60,카드이체,DES-1,98400,개인,66.0,경상도,경상도,계약확정,0,없음,남자,1.0,롯데카드
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2019-03-01,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2019-04-01,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드


In [54]:
#유입경로(Channel)이 '영업방판', '홈쇼핑/방송', '대형마트A'
# 여러항목에 대해 데이터를 추출
cond1=(df1['Channel'] == '영업방판')
cond2=(df1['Channel'] == '홈쇼핑/방송')
cond3=(df1['Channel'] == '대형마트A')
df1.loc[cond1|cond2|cond3]

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
5,6,66165241,렌탈,프로모션계약,영업방판,2019-07-29,60,CMS,DES-3A,90900,개인,53.0,경상도,경상도,계약확정,0,없음,여자,5.0,농협중앙회
6,7,66751017,렌탈,패키지계약,홈쇼핑/방송,2019-01-30,60,카드이체,DES-1,98400,개인,66.0,경상도,경상도,계약확정,0,없음,남자,1.0,롯데카드
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2019-03-01,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2019-04-01,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드


In [58]:
#isin() : 특정리스트내의 데이터가 있다면 True, 없다면 False
cond1 = (df1['Channel'].isin(['영업방판','홈쇼핑/방송','대형마트A']))
df1.loc[cond1]

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
5,6,66165241,렌탈,프로모션계약,영업방판,2019-07-29,60,CMS,DES-3A,90900,개인,53.0,경상도,경상도,계약확정,0,없음,여자,5.0,농협중앙회
6,7,66751017,렌탈,패키지계약,홈쇼핑/방송,2019-01-30,60,카드이체,DES-1,98400,개인,66.0,경상도,경상도,계약확정,0,없음,남자,1.0,롯데카드
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2019-03-01,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2019-04-01,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드


In [68]:
# 결제은행('Bank')이 현대카드에 해당하는 계약 명단중,
#월랜탈비용('Amount_Month')이 150,000원 이상인 상위 50명의 계약명단을 추출하여
#result3.xlsx저장
cond1=(df1['Bank']=='현대카드')
cond2=(df1['Amount_Month']>=150000)
df1.loc[cond1&cond2].head(50).to_excel('result3.xlsx')

In [70]:
#데이터요약(pivot)
#판매유형(Sales_Type)별 월랜탈비용(Amount_Month)의 평균(mean)을 계산
df1.pivot_table(index='Sales_Type', values='Amount_Month',aggfunc='mean')
#index= : 구분하고자 하는 값
#values= : 계산하고자 하는 값
#aggfunc= : 계산하려는 통계량

Unnamed: 0_level_0,Amount_Month
Sales_Type,Unnamed: 1_level_1
렌탈,97199.625024
멤버십,63077.211706


In [71]:
#함수 내 인자 및 함수 설명
help(pd.pivot_table)

Help on function pivot_table in module pandas.core.reshape.pivot:

pivot_table(
    data: 'DataFrame',
    values=None,
    index=None,
    columns=None,
    aggfunc: 'AggFuncType' = 'mean',
    fill_value=None,
    margins: 'bool' = False,
    dropna: 'bool' = True,
    margins_name: 'Hashable' = 'All',
    observed: 'bool | lib.NoDefault' = <no_default>,
    sort: 'bool' = True
) -> 'DataFrame'
    Create a spreadsheet-style pivot table as a DataFrame.

    The levels in the pivot table will be stored in MultiIndex objects
    (hierarchical indexes) on the index and columns of the result DataFrame.

    Parameters
    ----------
    data : DataFrame
    values : list-like or scalar, optional
        Column or columns to aggregate.
    index : column, Grouper, array, or list of the previous
        Keys to group by on the pivot table index. If a list is passed,
        it can contain any of the other types (except list). If an array is
        passed, it must be the same length as the

# 데이터 기술 통계량 확인

- 연속형 : 대표값 (평균/중앙값) / 산포(표준편차)
- 범주형 : 항목 빈도수

In [3]:
import pandas as pd

In [4]:
df1 = pd.read_csv('01_Data.csv')

In [7]:
df1['Amount_Month'].mean()#평균

np.float64(93994.97428900021)

In [8]:
df1['Amount_Month'].median()#중앙값

96900.0

In [9]:
df1['Amount_Month'].std()#표준편차

15304.263988475595

In [11]:
df1['Amount_Month'].max()

215700

In [12]:
df1['Amount_Month'].min()

54603

In [13]:
df1.describe() #해당 데이터 모든 숫자 데이터의 요약통계량 확인

Unnamed: 0,Index,Member_ID,Term,Amount_Month,Age,Overdue_count,Credit_Rank
count,51301.0,51301.0,51301.0,51301.0,44329.0,51301.0,42520.0
mean,25651.703612,62664320.0,55.639149,93994.974289,50.024093,0.161381,3.42881
std,14809.828628,12161460.0,12.009915,15304.263988,10.983877,1.122193,2.213453
min,1.0,25687980.0,12.0,54603.0,25.0,0.0,0.0
25%,12826.0,66431480.0,60.0,81900.0,42.0,0.0,1.0
50%,25652.0,66765780.0,60.0,96900.0,49.0,0.0,3.0
75%,38477.0,66781600.0,60.0,98400.0,57.0,0.0,5.0
max,51302.0,66969860.0,60.0,215700.0,102.0,15.0,10.0


In [14]:
#요약통계량 표를 엑셀로 저장
df1.describe().to_excel('describe_result.xlsx')

In [17]:
#문자 데이터 항목확인
df1['Channel'].unique()

array(['영업방판', '홈쇼핑/방송', '재계약', '전문매장H', '전문매장Z', '대형마트H', '대형마트E',
       '홈쇼핑/인터넷', '전단홍보', '직영유통사', '대형마트A', '대형마트N', '대형마트C', '직영계열사B',
       '자체홈페이지', '직영계열사A'], dtype=object)

In [18]:
#문자 데이터 빈도수 확인
df1['Channel'].value_counts()

Channel
영업방판       23767
홈쇼핑/방송     12977
대형마트A       4725
전문매장H       3227
재계약         2193
대형마트E       1497
전문매장Z       1206
전단홍보         560
홈쇼핑/인터넷      375
대형마트H        225
직영유통사        188
자체홈페이지       120
대형마트C        119
대형마트N         83
직영계열사A        20
직영계열사B        19
Name: count, dtype: int64

In [21]:
#문자 데이터('object')의 요약통계량 확인
df1.describe(include='object')
#unique : 항목수
#top : 최빈값, 가장 빈도수가 높은 항목
#freq : 최빈값의 개수

Unnamed: 0,Sales_Type,Contract_Type,Channel,Datetime,Payment_Type,Product_Type,Customer_Type,Address1,Address2,State,Overdue_Type,Gender,Bank
count,51301,51301,51301,51301,51301,51301,51299,51299,51299,51301,51301,51301,48542
unique,2,9,16,577,5,6,2,8,14,4,2,2,47
top,렌탈,프로모션계약,영업방판,2019-01-31,CMS,DES-1,개인,경기도,경기도,계약확정,없음,여자,롯데카드
freq,46483,15811,23767,1167,32825,39133,46263,18353,14883,50620,49110,35602,9516


In [23]:
#문자/숫자 요약통계량 확인
df1.describe(include='all').to_excel('describe_all.xlsx')

- 데이터 층별화

In [24]:
df1['Amount_Month'].mean()

np.float64(93994.97428900021)

In [25]:
#제품군('Product_Type')별 월랜탈비용의 평균 확인
df1.pivot_table(index='Product_Type',values='Amount_Month',aggfunc='mean')

Unnamed: 0_level_0,Amount_Month
Product_Type,Unnamed: 1_level_1
DES-1,94424.545166
DES-2,87556.390618
DES-3A,94706.900529
DES-R4,129444.954128
ERA,119744.720497
MMC,189450.0


In [27]:
#제품군별 월랜탈비용의 평균과 합을 확인
df1.pivot_table(index='Product_Type',values='Amount_Month',aggfunc=['mean','sum'])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,Amount_Month,Amount_Month
Product_Type,Unnamed: 1_level_2,Unnamed: 2_level_2
DES-1,94424.545166,3695115726
DES-2,87556.390618,787657290
DES-3A,94706.900529,197085060
DES-R4,129444.954128,42328500
ERA,119744.720497,77115600
MMC,189450.0,22734000


In [28]:
# 제품군 별 월랜탈 비용과 계약기간(Term)의 평균을확인
df1.pivot_table(index='Product_Type',values=['Amount_Month','Term'], aggfunc='mean')

Unnamed: 0_level_0,Amount_Month,Term
Product_Type,Unnamed: 1_level_1,Unnamed: 2_level_1
DES-1,94424.545166,55.408274
DES-2,87556.390618,57.014673
DES-3A,94706.900529,59.619414
DES-R4,129444.954128,58.972477
ERA,119744.720497,39.0
MMC,189450.0,39.0


In [32]:
df1.pivot_table(index='Product_Type',values='Amount_Month',aggfunc='sum',columns='Sales_Type',fill_value=0)
#fill_value : 결측값에 값을 넣어주는 함수

Sales_Type,렌탈,멤버십
Product_Type,Unnamed: 1_level_1,Unnamed: 2_level_1
DES-1,3398066220,297049506
DES-2,781711590,5945700
DES-3A,196705560,379500
DES-R4,41797200,531300
ERA,77115600,0
MMC,22734000,0
