In [1]:
import pandas as pd

## DDA
- 데이터의 구조와 타입을 확인 (정형 데이터의 구조 확인 Index - Columns - Values)
    - Index : 데이터의 순서 / 데이터의 개수를 확인 (데이터의 개수에 따라 분석 기법이 달라짐)
    - Columns : 데이터의 항목 / 각 데이터 항목의 타입 확인 (데이터 타입에 따라 분석 기법이 달라짐)
        - 연속형 : int / float
        - 범주형 : str / object
        - 날짜형/순서형 : datetime --> 실무에서 중요. 주차별 판매량, 평일 판매량 등
    - Value : 데이터 값 / 데이터의 형식 확인
        - EX. 날짜 데이터를 2024-05-09 VS 2024년 5월 9일 등 형식이 다를 수 있음 -> Python에서 데이터 전처리/분석 할 때 오류 발생의 원인
        - 결측값 (Missing Value) : 데이터 수집이나 처리과정에서 누락이나 오류로 인해 발생한 비어있는 값 (None, NaN, Null, Na 등으로 표현) 

In [2]:
df1 = pd.read_csv('data/01_Data.csv')
print(df1.shape)
df1.head()

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2019-05-06,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2019-02-28,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
3,4,66423450,멤버십,멤버십3유형,재계약,2019-05-13,12,CMS,DES-1,66900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,5.0,농협회원조합
4,5,66423204,멤버십,멤버십3유형,재계약,2019-05-10,12,CMS,DES-1,66900,개인,60.0,경기도,경기도,기간만료,12,있음,남자,8.0,농협회원조합


In [None]:
df1.info

In [4]:
# 기술통계량확인
df1.describe()

Unnamed: 0,Index,Member_ID,Term,Amount_Month,Age,Overdue_count,Credit_Rank
count,51301.0,51301.0,51301.0,51301.0,44329.0,51301.0,42520.0
mean,25651.703612,62664320.0,55.639149,93994.974289,50.024093,0.161381,3.42881
std,14809.828628,12161460.0,12.009915,15304.263988,10.983877,1.122193,2.213453
min,1.0,25687980.0,12.0,54603.0,25.0,0.0,0.0
25%,12826.0,66431480.0,60.0,81900.0,42.0,0.0,1.0
50%,25652.0,66765780.0,60.0,96900.0,49.0,0.0,3.0
75%,38477.0,66781600.0,60.0,98400.0,57.0,0.0,5.0
max,51302.0,66969860.0,60.0,215700.0,102.0,15.0,10.0


In [5]:
df1['State'].unique()

array(['계약확정', '기간만료', '해약확정', '해약진행중'], dtype=object)

In [6]:
df1['State'].value_counts()

State
계약확정     50620
해약확정       622
기간만료        45
해약진행중       14
Name: count, dtype: int64

In [7]:
# 범주형데이터 기술통계
df1.describe(include=object)

# top : 최빈값 , freq : 최빈값 개수

Unnamed: 0,Sales_Type,Contract_Type,Channel,Datetime,Payment_Type,Product_Type,Customer_Type,Address1,Address2,State,Overdue_Type,Gender,Bank
count,51301,51301,51301,51301,51301,51301,51299,51299,51299,51301,51301,51301,48542
unique,2,9,16,577,5,6,2,8,14,4,2,2,47
top,렌탈,프로모션계약,영업방판,2019-01-31,CMS,DES-1,개인,경기도,경기도,계약확정,없음,여자,롯데카드
freq,46483,15811,23767,1167,32825,39133,46263,18353,14883,50620,49110,35602,9516


## 데이터전처리
    - 데이터 추출
    - 데이터 정렬
    - 데이터 요약
    - 데이터 필터
    - 날짜 데이터 처리
    - 데이터 병합 / 재구조화
    - 결측값

In [8]:
# 데이터 추출 (행 단위 추출 / 열 단위 추출)

df1.head() # 상위 n개의 데이터 추출
df1.tail() # 하위 n개의 데이터 추출

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2019-03-01,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2019-04-01,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2019-04-01,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2020-02-06,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드
51300,51302,66799607,렌탈,일반계약,홈쇼핑/방송,2019-04-24,60,CMS,DES-1,96900,개인,53.0,서울특별시,서울특별시,계약확정,0,없음,여자,8.0,신한은행


In [9]:
# 행 단위 추출
df1.iloc[100:110] # iloc (index location)

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
100,101,66758264,렌탈,패키지계약,홈쇼핑/방송,2019-01-01,60,CMS,DES-1,81900,개인,38.0,전라도,광주광역시,계약확정,0,없음,남자,2.0,광주은행
101,102,66758264,렌탈,패키지계약,홈쇼핑/방송,2019-02-09,60,CMS,DES-2,81900,개인,38.0,전라도,광주광역시,계약확정,0,없음,남자,2.0,광주은행
102,103,66758918,렌탈,일반계약,전문매장H,2019-01-31,60,CMS,DES-1,96900,개인,36.0,전라도,광주광역시,계약확정,0,없음,여자,1.0,국민은행
103,104,66437196,렌탈,프로모션계약,영업방판,2019-01-31,60,CMS,DES-3A,90900,개인,44.0,전라도,광주광역시,계약확정,0,없음,여자,2.0,농협회원조합
104,105,66420849,렌탈,프로모션계약,영업방판,2019-02-21,60,CMS,DES-2,90900,개인,50.0,전라도,광주광역시,계약확정,0,없음,남자,3.0,외환은행
105,106,66758580,렌탈,패키지계약,영업방판,2019-06-11,60,CMS,DES-1,134700,개인,53.0,전라도,광주광역시,해약확정,0,없음,남자,2.0,농협중앙회
106,107,66282355,렌탈,교체계약,영업방판,2019-07-14,60,CMS,DES-1,96900,개인,63.0,경기도,경기도,계약확정,0,없음,여자,1.0,우리은행
107,108,66758599,렌탈,패키지계약,홈쇼핑/방송,2019-01-01,60,CMS,DES-1,81900,개인,46.0,경기도,경기도,계약확정,0,없음,남자,3.0,신한은행
108,109,66758599,렌탈,패키지계약,홈쇼핑/방송,2019-06-22,60,CMS,DES-2,81900,개인,46.0,경기도,경기도,계약확정,0,없음,남자,3.0,신한은행
109,110,25742697,렌탈,일반계약,영업방판,2019-08-16,60,CMS,DES-1,96900,사업자,42.0,경기도,경기도,계약확정,0,없음,여자,,국민은행


함수 기능을 사용할 때 : 소괄호()

데이터 구조 자체에서 접근할 때 : 대괄호[] df1.iloc[n:n] or 소괄호 사용X df1.columus

In [None]:
# 열 단위 추출
df1['Amount_Month'] # 하나의 열을 확인할 때 --> 시리즈형태로 추출

In [None]:
df1[['Amount_Monte','State']] # 하나 이상 열 확인할 때 --> DataFrame으로 추출

In [11]:
df1[['Amount_Month','State']].head(10)

Unnamed: 0,Amount_Month,State
0,96900,계약확정
1,102900,계약확정
2,96900,계약확정
3,66900,계약확정
4,66900,기간만료
5,90900,계약확정
6,98400,계약확정
7,80400,계약확정
8,102900,계약확정
9,105900,계약확정


In [12]:
# 정렬
df1.sort_values(by='Amount_Month') # 오름차순, default
df1.sort_values(by='Amount_Month', ascending=False) # 내림차순

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
19773,19775,25740247,렌탈,프로모션계약,전단홍보,2019-11-14,39,가상계좌,MMC,215700,사업자,,경상도,경상도,계약확정,0,없음,여자,,
28147,28149,25704137,렌탈,프로모션계약,전단홍보,2019-07-25,39,CMS,MMC,215700,사업자,,경상도,경상도,계약확정,0,없음,여자,,국민은행
19413,19415,25710320,렌탈,프로모션계약,영업방판,2020-01-29,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,기업은행
19412,19414,25710321,렌탈,프로모션계약,영업방판,2019-09-15,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,기업은행
37522,37524,25733781,렌탈,프로모션계약,영업방판,2020-07-02,39,CMS,MMC,215700,사업자,,경기도,경기도,계약확정,0,없음,여자,,기업은행
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45304,45306,66793756,멤버십,멤버십2유형,전문매장H,2019-10-07,36,무통장,DES-1,54603,개인,,충청도,충청도,계약확정,0,없음,여자,,
50428,50430,66797402,멤버십,멤버십2유형,전문매장H,2019-12-27,36,무통장,DES-1,54603,개인,,경기도,경기도,계약확정,0,없음,여자,,
45302,45304,66793342,멤버십,멤버십2유형,전문매장H,2019-04-03,36,무통장,DES-1,54603,개인,,강원도,강원도,계약확정,0,없음,여자,,
41153,41155,66790864,멤버십,멤버십2유형,전문매장H,2019-02-16,36,무통장,DES-1,54603,개인,,경기도,경기도,계약확정,0,없음,여자,,


In [None]:
# 월렌탈 비용이 높은 상위 100명의 계약명단을 뽑아 엑셀로 저장
df1.sort_values(by='Amount_Month',ascending=False).head(100).to_excel('result.xlsx')

In [16]:
# 데이터 필터(특정 조건에 해당하는 데이터를 추출)
# 층별화 : 범주화 데이터 또는 연속형 데이터의 특정 구간에 따라 테이터의 통계적 특성이 달라질 수 있음

# 월렌탈 비용이 10만원 이상인 명단을 추출
cond1 = df1['Amount_Month']>=100000
df1.loc[cond1]

# df1[df1['Amount_Month']>=100000] 도 가능하지만 조건이 많아질 때 코드 더럽


Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
8,9,66758007,렌탈,일반계약,영업방판,2019-06-30,60,카드이체,DES-3A,102900,개인,62.0,경상도,경상도,계약확정,0,없음,여자,2.0,롯데카드
9,10,66756702,렌탈,프로모션계약,영업방판,2019-06-30,60,CMS,DES-1,105900,개인,51.0,경상도,경상도,계약확정,0,없음,여자,1.0,신한은행
19,20,66755490,렌탈,프로모션계약,영업방판,2020-01-17,60,카드이체,DES-1,105900,개인,58.0,경상도,부산광역시,계약확정,0,없음,여자,1.0,롯데카드
21,22,66758336,렌탈,프로모션계약,전문매장Z,2020-04-25,60,CMS,DES-1,111900,개인,72.0,경상도,부산광역시,계약확정,0,없음,남자,9.0,농협회원조합
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51286,51288,66799302,렌탈,프로모션계약,영업방판,2019-05-21,60,카드이체,DES-1,105900,개인,39.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51287,51289,66444051,렌탈,교체계약,대형마트A,2019-09-29,60,CMS,DES-1,102900,개인,90.0,서울특별시,서울특별시,계약확정,0,없음,남자,,신한은행
51288,51290,66799492,렌탈,프로모션계약,영업방판,2019-02-24,60,카드이체,DES-1,105900,개인,52.0,경기도,경기도,계약확정,0,없음,남자,,삼성카드
51291,51293,25731743,렌탈,일반계약,영업방판,2020-02-12,60,CMS,DES-3A,102900,사업자,,경기도,경기도,계약확정,10,있음,여자,,농협중앙회


In [17]:
# 월렌탈 비용이 10만원 이상이면서 계약기간이 60개월 이상인 고객 명단 추출

cond1 = df1['Amount_Month']>=100000
cond2 = df1['Term'] >= 60 
df1[cond1&cond2] # 두 조건 모두 만족하는 경우
df1[cond1|cond2] # 두 조건 중 하나이상 

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
1,2,66755948,렌탈,교체계약,영업방판,2020-02-20,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
8,9,66758007,렌탈,일반계약,영업방판,2019-06-30,60,카드이체,DES-3A,102900,개인,62.0,경상도,경상도,계약확정,0,없음,여자,2.0,롯데카드
9,10,66756702,렌탈,프로모션계약,영업방판,2019-06-30,60,CMS,DES-1,105900,개인,51.0,경상도,경상도,계약확정,0,없음,여자,1.0,신한은행
19,20,66755490,렌탈,프로모션계약,영업방판,2020-01-17,60,카드이체,DES-1,105900,개인,58.0,경상도,부산광역시,계약확정,0,없음,여자,1.0,롯데카드
21,22,66758336,렌탈,프로모션계약,전문매장Z,2020-04-25,60,CMS,DES-1,111900,개인,72.0,경상도,부산광역시,계약확정,0,없음,남자,9.0,농협회원조합
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51279,51281,66798237,렌탈,패키지계약,직영계열사A,2019-03-09,60,CMS,DES-3A,101400,개인,,경기도,인천광역시,계약확정,0,없음,여자,4.0,국민은행
51286,51288,66799302,렌탈,프로모션계약,영업방판,2019-05-21,60,카드이체,DES-1,105900,개인,39.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51287,51289,66444051,렌탈,교체계약,대형마트A,2019-09-29,60,CMS,DES-1,102900,개인,90.0,서울특별시,서울특별시,계약확정,0,없음,남자,,신한은행
51288,51290,66799492,렌탈,프로모션계약,영업방판,2019-02-24,60,카드이체,DES-1,105900,개인,52.0,경기도,경기도,계약확정,0,없음,남자,,삼성카드


#점심미션

1. 해당 데이터 고객 명단에서 우수 고객을 찾고자 한다. df1 데이터의 월렌탈비용 ('Amount_Month')이 높고 연체건수 ('Overdue_count')가 낮은 상위 50명의 계약명단을 추출하여 result2.xlsx 로 저장
2. 젋은 고객을 대상으로 마케팅을 하기위해, 데이터를 추출하고자 한다. 연령이 낮은 100명의 고객 명단을 추출하여 기술통계량을 확인해 해당 기술통계량을 result3.xlsx로 저장
3. 월렌탈비용이 100000원 미만인 고객을 df_normal로 선언하여, 해당 변수의 월렌탈비용('Amount_Month') 평균을 계산한뒤 전체 데이터의 월렌탈비용 평균과의 차이를 계산하시오.
4. 본사에서 매출 관리를 위해 연체가 높은 고객을 따로 관리하고자 한다. 연체건수가 높은 순서대로 정렬하고, 상위 1000명의 고객 연령의 최소값, 최대값을 확인하시오.
5. 매출 관리 부서의 A씨는 매주 해당 데이터를 이용해 보고서를 본사에 제출하는 업무를 수행중이다. 해당 업무를 보조하기위한 함수를 생성하시오.
- 월렌탈비용을 입력했을 때, 해당 비용보다 작은 (월렌탈비용이 높은 순서대로 정렬) 50개의 계약 명단을 추출하여 result4.xlsx를 저장하는 함수

In [22]:
df1.sort_values(by='Amount_Month',ascending=False).sort_values(by='Overdue_count').head(50).to_excel('result2.xlsx')

In [24]:
df1.sort_values(by='Age').head(100).describe().to_excel('result3.xlsx')

In [28]:
df_normal = df1[df1['Amount_Month']<100000]
answer = abs(df1['Amount_Month'].mean() - df_normal['Amount_Month'].mean())

5593.958248705749

In [30]:
df_sorted = df1.sort_values(by='Overdue_count',ascending=False).head(1000)
answer_min = df_sorted['Age'].min()
answer_max = df_sorted['Age'].max()
print(answer_min,answer_max)

26.0 102.0


In [37]:
def solution(data) :
    n = int(input('월렌탈비용을 입력하시오 : '))
    df2 = data.sort_values(by='Amount_Month',ascending=False)
    df2[df2['Amount_Month'] < n].head(50).to_excel('result4.xlsx')
    return

solution(df1)