# 개요

- pandas
  - https://pandas.pydata.org/
- 파이썬 진영에서 데이터 분석 분야에 R에 대응하기 위한 **분석**용 라이브러리
  - pandas + 머신러닝 vs R
- 자료구조
  - **Series. DataFrame** 
- 차주까지 내용
  - 데이터 수집 : OK
  - 데이터 전처리/정제 => 클리닝화 : 차주진행
  - 시각화 : 금일 ~ => 차트 
    - 기본차트는 기본 라이브러리 사용
    - 써드파트 라이브러리 사용 : 인터렉티브한 차트, 웹에 빌트인되는 차트 혹은 보고서용
  - 데이터 분석 => 결과도출
    - 탐색분석, EDA, 
    - 인과분석등등 => 통계를 활용하는 내용 추가

# 모듈 가져오기

In [160]:
# 데이터 분석이라는 주제를 가진다면 아래 2개 표현을 기본으로 넣고 시작한다
import numpy as np
import pandas as pd

# 기본 자료구조

- Series
  - 1차원 데이터 => numpy의 1차원 배열(Vector) 구조를 가지고 있다
- DataFrame
  - 2차원 데이터 => numpy의 2차원 배열(Matrix, 행렬)구조를 가지고 있다
- 특징
  - **하나의 컬럼(세로)안에서 데이터들의 타입은 동일, 여러 컬럼 끼리는(별로) 타입은 다를수 있다**
    - ex) age:int, name:str 

# Series

- 1차원 데이터
- (인덱스 + 데이터) + 메타데이터

In [161]:
# nan => not a number => 결측치에 대표적인 표식
vec = pd.Series( [1,3,5,np.nan,6,8] )

# 시리즈 출력값 형태 확인
# 왼쪽 : 인덱스(순서, 0 ~ )
# 오른쪽 : 데이터(값, value)
# 기본적으로 지정하지 않으면 float 처리가 된다
# 타입 : dtype, 1차원 이므로 -> 세로줄이 한개 -> 단일 타입임 -> dtype
vec

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [162]:
# 시리즈의 메타데이터 -> 속성 정보 확인
vec.shape, vec.ndim, vec.dtype

((6,), 1, dtype('float64'))

In [163]:
# describe() 는 기초통계값 계산해서 제공
# 데이터 개수, 평균, 표준편차(std), 최소, 최대, 분위수(25%, 50%, 75%)
# 통계적인 의미는 나중에 체크
print(vec.describe())

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64


# DataFrame

- 동일 크기(shape)를 가진 Series가 n개 모이면, 데이터프레임으로 구성할수 있다 
  - 예, Seires의 데이터의 개수가 6이였다
  - Seires가 n개가 모였다
  - 이를 합친 DF의 shape은 ? 
    - (6, n) or ( n, 6 )
- 구성원
  - (인덱스 + 컬럼 + **데이터(value)**) + 메타데이터

In [164]:
# 1. 컬럼 데이터 임의 생성
cols = list('ABCD')
cols

['A', 'B', 'C', 'D']

In [165]:
# 2. 인덱스 데이터 임의 생성
indexs = pd.date_range('20230104', periods=7)
indexs

DatetimeIndex(['2023-01-04', '2023-01-05', '2023-01-06', '2023-01-07',
               '2023-01-08', '2023-01-09', '2023-01-10'],
              dtype='datetime64[ns]', freq='D')

In [166]:
# 크기 확인
len(cols), len( indexs )

(4, 7)

In [167]:
# DF의 구성원들의 포지션
# 왼쪽:인덱스, 상단:컬럼, 가운데:값
# 왼쪽:7, 상단:4, 가운데:(7,4)
# 데이터의 shape은?
values = np.random.randn( len( indexs ), len(cols) )
values

array([[-0.19394278, -0.3519796 ,  1.85785274, -0.74721188],
       [-0.04891889, -0.23670575, -1.15087903, -1.09820323],
       [-0.16330718, -1.10981332, -0.14151266,  0.76819859],
       [ 1.35246829,  1.83669757, -0.30595699,  1.78306855],
       [ 0.07731847, -0.22538099, -0.60193642,  0.03448098],
       [-0.77136734,  0.12660716,  0.14654955,  0.72559701],
       [ 0.79636718, -0.6606103 ,  0.91851516,  0.76912147]])

In [168]:
# df 생성
df = pd.DataFrame( values, indexs, cols )
df
# 데이터는 총 7개가 있다 -> 인덱스 개수, 
# 1개의 데이터는 총 4개의 속성(컬럼, 특성)으로 표현된다 혹은 4개의 정보를 가지고 있다, 4개의 독립변수를 가지고 있다...
# 데이터는 볼륨은 (7, 4)

Unnamed: 0,A,B,C,D
2023-01-04,-0.193943,-0.35198,1.857853,-0.747212
2023-01-05,-0.048919,-0.236706,-1.150879,-1.098203
2023-01-06,-0.163307,-1.109813,-0.141513,0.768199
2023-01-07,1.352468,1.836698,-0.305957,1.783069
2023-01-08,0.077318,-0.225381,-0.601936,0.034481
2023-01-09,-0.771367,0.126607,0.14655,0.725597
2023-01-10,0.796367,-0.66061,0.918515,0.769121


- df는 3개 요소로 구성된다
  - 데이터의 개수: 인덱스, 대부분은 중요하지 않는 순서로(0, 1,2,..) 구성되는 경우가 많다
  - 데이터 1개를 설명하고 있는 여러개의 컬럼(변수, 특성, 피처)등으로 표현되며, 이런 컬럼은 여러개가 존재할수 있다
  - 데이터 볼륨은 ( 인덱스수, 컬럼수 )로 표현되는 2차원 데이터이다

In [169]:
df.shape

(7, 4)

## 외부리소스로부터 DF 구성( csv 활용 )

In [170]:
# csv 경로
csv_path = '/content/drive/MyDrive/cloud_ai/share/2.데이터분석/res/customer_master.csv'
# df 구성
customer_master = pd.read_csv( csv_path )
customer_master

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
4,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시
...,...,...,...,...,...,...,...,...
4995,AS677229,정우석,2019-07-31 16:52,hirayama_risa@example.com,F,77,1941-10-17,대전광역시
4996,HD758694,정영훈,2019-07-31 19:09,nakahara_mahiru@example.com,F,27,1991-11-13,광주광역시
4997,PL538517,정준기,2019-07-31 19:30,tabata_yuu1@example.com,F,73,1945-12-28,대전광역시
4998,OA955088,정도형,2019-07-31 22:32,setouchi_hikaru@example.com,F,75,1944-04-09,부산광역시


## 기초 점검

- 간단하게 데이터를 이해하기 위해서 점검 진행

In [171]:
# 데이터의 전체 모양, 볼륨, 사이즈
customer_master.shape
# 고객 마스터 데이터는 총 5천건, 고객별로 8개의 정보를 가지고 있다

(5000, 8)

In [172]:
# 데이터 샘플 확인 (상위값, 하위값에서 각각 확인)
customer_master.head() # 기본 5개가 나온다

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
4,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시


In [173]:
# 상위 2개만 확인
customer_master.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [174]:
# 하위 2개값 확인
customer_master.tail(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
4998,OA955088,정도형,2019-07-31 22:32,setouchi_hikaru@example.com,F,75,1944-04-09,부산광역시
4999,HI349563,정지석,2019-07-31 22:49,horii_kanji@example.com,M,21,1998-02-06,서울특별시


In [175]:
# 타입 체크 -> 컬럼별로 다를수 있다 -> 타입이 여러개가 나올수 있다 -> dtypes
customer_master.dtypes
# object 일단 문자열로 해석
# 이 df는 문자열, 정수로 구성되어 있다

customer_id          object
customer_name        object
registration_date    object
email                object
gender               object
age                   int64
birth                object
pref                 object
dtype: object

In [176]:
# 1개의 데이터는 8개의 특성으로 구성되어있다(설명되고 있다)
# 특성들 체크
customer_master.columns
# 대부분 특성은 이해가 되는데 pref경우는 데이터를 보고 이해했다(주소대체)-> 컬러명이 애매모호하다면 -> 명확하게 변경->뒤에서체크

Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref'],
      dtype='object')

In [177]:
customer_master.head(1)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시


In [178]:
# 결측치 있는지 체크 => 고객 데이터가 결측이 잇다면 => 보충 할것인지 삭제할것인지? => 데이터 클리닝(정제) 과정 체크포인트
customer_master.info()
# Non-Null Count => null이 아닌 개수 -> 정상데이터 개수
# 이 데이터는 clean 하다!!

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   customer_id        5000 non-null   object
 1   customer_name      5000 non-null   object
 2   registration_date  5000 non-null   object
 3   email              5000 non-null   object
 4   gender             5000 non-null   object
 5   age                5000 non-null   int64 
 6   birth              5000 non-null   object
 7   pref               5000 non-null   object
dtypes: int64(1), object(7)
memory usage: 312.6+ KB


In [179]:
# 기초 통계량 확인
customer_master.describe()
# describe() 은 타입이 수치인 경우만 기초 통계를 낼수 있다
# 평균 50세 이상 사용자들로, 최소 연령은 20세 이상으로 보여진다(미성년 가입자는 없다)
# 데이터 제공 업체에 대한 인사이트가 정확하게 있다면 보다 정확한 분석이 가능할것이다

Unnamed: 0,age
count,5000.0
mean,50.0532
std,17.338607
min,20.0
25%,35.0
50%,50.0
75%,65.0
max,80.0


In [180]:
# 특정 컬럼 기준으로 정렬 => 시각화까지 연결되는 경우가 많다
# age 컬럼을 기준으로 정렬하여 데이터를 재배치
# 리턴값이 df의 형태를 갖춘다면 다 사본이 리턴된다
customer_master.sort_values(by='age', ascending=False)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
4582,OA999412,최아경,2019-07-13 20:30,yasunaga_shinichi@example.com,M,80,1938-10-18,대전광역시
4571,TS064860,최애림,2019-07-13 10:56,kawasaki_shunji@example.com,M,80,1938-08-12,서울특별시
3643,IK733404,최영원,2019-06-04 15:24,mita_shouta@example.com,M,80,1938-12-11,인천광역시
2887,HI311281,박원빈,2019-05-03 22:50,okita_yuuji@example.com,M,80,1939-07-31,서울특별시
1803,TS554434,이루비,2019-03-19 7:30,maekawa_yousuke@example.com,M,80,1939-01-03,서울특별시
...,...,...,...,...,...,...,...,...
3317,HD710658,최민용,2019-05-21 16:56,tahara_asahi@example.com,F,20,1999-03-04,대전광역시
4819,HI183239,정승재,2019-07-23 17:09,yoshimoto_miri@example.com,F,20,1998-09-17,서울특별시
3251,TS544093,최리오,2019-05-18 23:54,nagahama_yuuki@example.com,M,20,1999-02-06,부산광역시
762,AS288237,김서훈,2019-02-05 2:38,ookouchi_ittoku@example.com,M,20,1998-11-01,대구광역시


## 데이터 추출

- 넘파이 기준 
  - 인덱싱, 슬라이싱, 블리언 인덱싱, 펜시 인덱싱

### 기본 인덱싱

In [181]:
# df에서 인덱스 추출
customer_master.index, customer_master.index[0]

(RangeIndex(start=0, stop=5000, step=1), 0)

In [182]:
# 에러
try:
  customer_master[ 0 ]
  customer_master[ customer_master.index[0] ]
except Exception as e:
  print( e, '키에러, 기존에 사용하던 인덱싱 스타일은 부적합하다' )

0 키에러, 기존에 사용하던 인덱싱 스타일은 부적합하다


In [183]:
# DF는 3개의 요소로 데이터가 구성된다 => 3개의 요소를 각각 추출할수 있다
# customer_master.values => ndarray
customer_master.columns, customer_master.values, customer_master.index

(Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
        'age', 'birth', 'pref'],
       dtype='object'),
 array([['IK152942', '김서준', '2019-01-01 0:25', ..., 29, '1990-06-10',
         '대전광역시'],
        ['TS808488', '김예준', '2019-01-01 1:13', ..., 33, '1986-05-20',
         '인천광역시'],
        ['AS834628', '김도윤', '2019-01-01 2:00', ..., 63, '1956-01-02',
         '광주광역시'],
        ...,
        ['PL538517', '정준기', '2019-07-31 19:30', ..., 73, '1945-12-28',
         '대전광역시'],
        ['OA955088', '정도형', '2019-07-31 22:32', ..., 75, '1944-04-09',
         '부산광역시'],
        ['HI349563', '정지석', '2019-07-31 22:49', ..., 21, '1998-02-06',
         '서울특별시']], dtype=object),
 RangeIndex(start=0, stop=5000, step=1))

In [184]:
# df에서 기본 인덱싱은 컬럼값을 넣는다!!

# 아이디만 추출 => 특정 컬럼값만 추출 => Seires => 차원축소가 되었다 => 컬럼이 사라진다
#customer_master[ customer_master.columns[0] ]
#customer_master[ 'customer_id' ]
# 컬럼은 자동으로 df의 속성이 된다(단 컬럼명에 공백이 없다면)
customer_master.customer_id

0       IK152942
1       TS808488
2       AS834628
3       AS345469
4       GD892565
          ...   
4995    AS677229
4996    HD758694
4997    PL538517
4998    OA955088
4999    HI349563
Name: customer_id, Length: 5000, dtype: object

In [185]:
# 특정 컬럼만 추출하는데, 차원은 유지하고 싶다 => df 에서 추출 => df로 유지
# 인덱싱했는데 여전히 df 유지
# 컬럼명을 리스트로 감싸서 나열하는 방식으로 인덱싱
customer_master[ ['customer_id'] ]

Unnamed: 0,customer_id
0,IK152942
1,TS808488
2,AS834628
3,AS345469
4,GD892565
...,...
4995,AS677229
4996,HD758694
4997,PL538517
4998,OA955088


In [186]:
# 여러 컬럼을 추출하기
customer_master[ ['customer_id', 'customer_name'] ].head(2)

Unnamed: 0,customer_id,customer_name
0,IK152942,김서준
1,TS808488,김예준


### 기본 슬라이싱

- 차원유지

In [187]:
# 원본 카피
customer_master[ : ].shape

(5000, 8)

In [188]:
# 영역 자르기
# 1 <= index < 3
# 1, 3이라는 값은 인덱스(순번값), 인덱스 값은 아니다
customer_master[ 1 : 3 ]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시


In [189]:
# 간격 추가, 동일하게 작동한다 => 인덱스 기준 계산
customer_master[ 1 : 10 : 2 ]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
5,AS265381,김하준,2019-01-01 5:51,kasai_yousuke@example.com,M,69,1949-08-09,서울특별시
7,HI791416,김지후,2019-01-01 7:03,hosoi_mayuko@example.com,F,30,1989-07-25,대구광역시
9,OA239766,김준우,2019-01-01 8:59,tamaki_yukiya@example.com,M,22,1997-01-12,인천광역시


In [190]:
# 데이터의 개수를 추출
data_size, _ = customer_master.shape

In [191]:
# 인덱스값을 실습상 혼동을 주지 않기 위해 대체 => 날짜로 대체
cus_indexs = pd.date_range('20100101', periods=data_size)
cus_indexs

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2023-08-31', '2023-09-01', '2023-09-02', '2023-09-03',
               '2023-09-04', '2023-09-05', '2023-09-06', '2023-09-07',
               '2023-09-08', '2023-09-09'],
              dtype='datetime64[ns]', length=5000, freq='D')

In [192]:
# 사본 
df = customer_master[:]
# 인덱스 교체
df.index = cus_indexs
# 상위값 2개 확인
df.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


### loc


- location
  - 인덱스값, 컬럼값을 활용하여 데이터 추출

In [193]:
# df.loc[ 인덱스값 ] => 컬럼명이 인덱스, 데이터는 값그대로 위치 => Series
df.loc[ '2023-01-04' ], type( df.loc[ '2023-01-04' ] )

(customer_id                         HI324110
 customer_name                            정태준
 registration_date           2019-07-20 22:11
 email                doi_yousuke@example.com
 gender                                     M
 age                                       72
 birth                             1946-11-16
 pref                                   인천광역시
 Name: 2023-01-04 00:00:00, dtype: object, pandas.core.series.Series)

In [194]:
# x<= n <= y
df.loc[ '2023-01-04':'2023-01-06' ]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2023-01-04,HI324110,정태준,2019-07-20 22:11,doi_yousuke@example.com,M,72,1946-11-16,인천광역시
2023-01-05,IK970822,정승호,2019-07-20 22:26,sakashita_shunsuke@example.com,M,68,1951-06-08,광주광역시
2023-01-06,IK891983,정성빈,2019-07-20 23:42,kawagoe_mina@example.com,F,68,1951-01-08,광주광역시


In [195]:
# 1차원은 순서를 고려해셔 추출 > 데이터들이 서로 이웃해 있다 -> 연속적
# 2차원 조건을 추가, 특정 컬럼을 특정 순서대로 배치, []로 표현했다 -> 비연속적
df.loc[ '2023-01-04':'2023-01-06' , ['age','customer_name']  ]

Unnamed: 0,age,customer_name
2023-01-04,72,정태준
2023-01-05,68,정승호
2023-01-06,68,정성빈


In [196]:
# 2차원 부분 기술할때 컬럼이 1개뿐이라도, 최종 결과물을 df로 구성하고 싶다면(차원유지) []로 표현
df.loc[ '2023-01-04':'2023-01-06' , ['age']  ]

Unnamed: 0,age
2023-01-04,72
2023-01-05,68
2023-01-06,68


In [197]:
# []를 제외 => 인덱싱 => 차원축소
df.loc[ '2023-01-04':'2023-01-06' , 'age'  ]

2023-01-04    72
2023-01-05    68
2023-01-06    68
Freq: D, Name: age, dtype: int64

In [198]:
# 1차원 인덱싱, 2차원 인덱싱 => scalar 가 된다
df.loc[ '2023-01-04' , 'age'  ]

72

In [199]:
df.loc[ ['2023-01-04'] , ['age']  ]

Unnamed: 0,age
2023-01-04,72


In [200]:
# 1차원을 기술할때 찍어서 추춢할수 있다 => 활용성이 떨어질수 있다 => 값을 다 알고 있어야 한다
df.loc[ ['2023-01-04', '2023-01-06'] , ['age']  ]

Unnamed: 0,age
2023-01-04,72
2023-01-06,68


In [201]:
# 인덱스는 특정 데이터만 찍었고(비연속적), 컬럼은 순서에 맞춰서 배치(연속적)
df.loc[ ['2023-01-04', '2023-01-06'] , 'customer_name':'age'  ]

# 결론
# 연속적인 구간을 추출하고 싶다면 시작값:종료값 => 시작값<= x <= 종료값
# 비연속 구간을 내맘대로 배치 및 추출 => [ 값, 값,... ]
# 인덱스나 컬럼이나 암묵적인 순번이 존재한다 (0, 1, 2, ...)

Unnamed: 0,customer_name,registration_date,email,gender,age
2023-01-04,정태준,2019-07-20 22:11,doi_yousuke@example.com,M,72
2023-01-06,정성빈,2019-07-20 23:42,kawagoe_mina@example.com,F,68


### iloc

- index location
  - 특정 인덱스값의 순번, 특정 컬럼값의 순번으로 데이터 추출
- 좌표찍기, **펜시인덱싱**와 유사

In [202]:
df.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [203]:
# 1 => 인덱스(순번값)이 1인 데이터를 추출하라 => 순번으로는 2번째 데이터
df.iloc[ 1 ]

customer_id                           TS808488
customer_name                              김예준
registration_date              2019-01-01 1:13
email                tamura_shiori@example.com
gender                                       F
age                                         33
birth                               1986-05-20
pref                                     인천광역시
Name: 2010-01-02 00:00:00, dtype: object

In [204]:
# 인덱스, 컬럼 모두 처음부터 끝까지 자르시오 => 원본카피
df.iloc[ : , : ]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2010-01-03,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
2010-01-04,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
2010-01-05,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시
...,...,...,...,...,...,...,...,...
2023-09-05,AS677229,정우석,2019-07-31 16:52,hirayama_risa@example.com,F,77,1941-10-17,대전광역시
2023-09-06,HD758694,정영훈,2019-07-31 19:09,nakahara_mahiru@example.com,F,27,1991-11-13,광주광역시
2023-09-07,PL538517,정준기,2019-07-31 19:30,tabata_yuu1@example.com,F,73,1945-12-28,대전광역시
2023-09-08,OA955088,정도형,2019-07-31 22:32,setouchi_hikaru@example.com,F,75,1944-04-09,부산광역시


In [205]:
# 인덱스 1<= i < 3
# 컬럼 1<= c < 3  =>   customer_name<= c < email
df.iloc[ 1:3 , 1:3 ]

Unnamed: 0,customer_name,registration_date
2010-01-02,김예준,2019-01-01 1:13
2010-01-03,김도윤,2019-01-01 2:00


In [206]:
# 비연속으로 데이터를 선정해서 내가 정한 순서대로 추출
df.iloc[ [1,3,5,6] , [5,2, 4, 0] ]

Unnamed: 0,age,registration_date,gender,customer_id
2010-01-02,33,2019-01-01 1:13,F,TS808488
2010-01-04,74,2019-01-01 4:48,M,AS345469
2010-01-06,69,2019-01-01 5:51,M,AS265381
2010-01-07,45,2019-01-01 5:51,M,HD739338


In [207]:
# 컬럼(혹은 인덱스)값을 활용하는가? 컬럼(혹은 인덱스)의 인덱스를 활용하는가?
df.iloc[ : , [5,2, 4, 0] ]

Unnamed: 0,age,registration_date,gender,customer_id
2010-01-01,29,2019-01-01 0:25,M,IK152942
2010-01-02,33,2019-01-01 1:13,F,TS808488
2010-01-03,63,2019-01-01 2:00,F,AS834628
2010-01-04,74,2019-01-01 4:48,M,AS345469
2010-01-05,54,2019-01-01 4:54,M,GD892565
...,...,...,...,...
2023-09-05,77,2019-07-31 16:52,F,AS677229
2023-09-06,27,2019-07-31 19:09,F,HD758694
2023-09-07,73,2019-07-31 19:30,F,PL538517
2023-09-08,75,2019-07-31 22:32,F,OA955088


### 블리언 인덱싱

- 조건식 사용

In [208]:
# /content/drive/MyDrive/cloud_ai/share/2.데이터분석/res/customer_newer.csv
path = '/content/drive/MyDrive/cloud_ai/share/2.데이터분석/res/customer_newer.csv'
df2 = pd.read_csv( path )
# 상위값 2개 출력
df2.head(2)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,5.083333,5.0,7,3,1,2019-04-30,47


In [209]:
# is_deleted 주목, 예상되는 의미는 회원 탈퇴 여부를 체크하는 값으로 예측됨
# 이 값들의 중복되지 않는 값들의 집합 확인, 이 컬럼은 어떤값들로 구성되었는가?
# 0, 1(혹시) 이것은 연속적인 의미를 가지는가? 아니면 단순 구분용?(범주형->구분용) -> 중복되지 않는값 추출

# 실습 is_deleted 컬럼만 출력
df2.is_deleted.unique()
# 이 결과를 보고, 여러 정황(인사이트를 안다면 참고)을 고려해볼때, 범주형 변수이다
# 0 : 아직 회원, 1: 회원 탈퇴 => end_date 값을 참고 => 검증 => 아래 체크
# 범주형 데이터 -> 피벗의 대상의 된다

array([0, 1])

In [210]:
df2.is_deleted == 0

0       True
1       True
2       True
3       True
4       True
        ... 
2948    True
2949    True
2950    True
2951    True
2952    True
Name: is_deleted, Length: 2953, dtype: bool

In [211]:
# 실습 1; is_deleted가 0인 데이터만 추출하시오
#df2[ 조건식 ]
tmp = df2[ df2.is_deleted == 0 ]
tmp.info()
# end_date 컬럼에 null이 아닌 카운트가 0개이다 => 모두 결측 => 이 데이터는 is_deleted가 모두 0인 데이터

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2842 entries, 0 to 2952
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   customer_id        2842 non-null   object 
 1   name               2842 non-null   object 
 2   class              2842 non-null   object 
 3   gender             2842 non-null   object 
 4   start_date         2842 non-null   object 
 5   end_date           0 non-null      object 
 6   campaign_id        2842 non-null   object 
 7   is_deleted         2842 non-null   int64  
 8   class_name         2842 non-null   object 
 9   price              2842 non-null   int64  
 10  campaign_name      2842 non-null   object 
 11  mean               2842 non-null   float64
 12  median             2842 non-null   float64
 13  max                2842 non-null   int64  
 14  min                2842 non-null   int64  
 15  routine_flg        2842 non-null   int64  
 16  calc_date          2842 

## 삭제

- del : 완전삭제, 파이썬레벨에서 삭제
- drop : 특정 컬럼이 삭제된 df를 리턴, pandas에서 해결
  - 추출의 한가지 기법
  - 완전 삭제를 원한다면 -> 원본 반영 설정
    - pandas 공통, inplace = True
- 원본 수정 맥락

In [212]:
df2.columns

Index(['customer_id', 'name', 'class', 'gender', 'start_date', 'end_date',
       'campaign_id', 'is_deleted', 'class_name', 'price', 'campaign_name',
       'mean', 'median', 'max', 'min', 'routine_flg', 'calc_date',
       'membership_period'],
      dtype='object')

In [213]:
# df2에서 end_date 컬럼 삭제 해보기
# axis=1 드랍하는 축의 방향을 세로축, 축번호는 2번째에 해당된다 -> 컬럼
# axis=0 => 가로, 데이터 드롭
df2.drop( ['end_date'], axis=1 ).head(1)
# end_date가 삭제된 버전의 df2 사본 리턴

Unnamed: 0,customer_id,name,class,gender,start_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47


In [214]:
# inplace=True 하면 사본 리턴 없음
df2.drop( ['end_date'], axis=1, inplace=True )

In [215]:
# 원본 삭제 되었다
df2.head(1)

Unnamed: 0,customer_id,name,class,gender,start_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47


In [216]:
# 파이썬 레벨에서 삭제 
# del df2.name 이 표현은 에러
del df2['name']
df2.head(1)

Unnamed: 0,customer_id,class,gender,start_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,C01,F,2015-05-01,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47


## 컬럼 추가(파생변수 생성) / 업데이트

In [217]:
df.head(1)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시


In [218]:
# df에 컬럼하나 추가 한다
# M 1985~1994
# Z 1995~2004
# 컬럼명 is_mz 컬럼, 1985이전세대는 0, 1985이후세대 1 세팅되는 컬럼을 추가하시오
# 데이터를 생성한다
# 1990 -> 29, 
# 1985년 -> 34
data = df.age <= 34
print( data.shape )

# df에서 파생변수 생성 -> 컬럼추가, 특성 추가,..
# df['컬럼명'] = 데이터(단, df의 데이터수와 일치해야한다)
df['is_mz'] = data
df.head(1)

(5000,)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['is_mz'] = data


Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시,True


#### 기존 컬럼값 업데이트

In [219]:
# is_mz 값을 하나씩 꺼내서, 뭔가 연산처리(True->1, False->0), 다시 원래자리에 돌려 놓는다
# 데이터들을 일괄적으로 조작한다
# DataFrame에서 apply() 컬럼 단위 작업
# Series에서 apply() 전체 데이터 단위 작업

# 시리즈 어플라이
def myFunc(x):
  if x:return 1
  return 0
a = df.is_mz.apply(myFunc)

In [220]:
# 삼항연산자
# (참일때값) if (조건식) else (거짓일때값)
b = df.is_mz.apply( lambda x: 1 if x else 0 )

In [221]:
a == b
# 일단 동일한 결과로 보인다, 다만 진짜 동일한지는 체크해야한다
# 총합으로 체크, 집계함수를 통한 카운트로 체크 -> 나중체크

2010-01-01    True
2010-01-02    True
2010-01-03    True
2010-01-04    True
2010-01-05    True
              ... 
2023-09-05    True
2023-09-06    True
2023-09-07    True
2023-09-08    True
2023-09-09    True
Freq: D, Name: is_mz, Length: 5000, dtype: bool

In [222]:
# 업데이트는 결론적으로 파생변수 추가와 문법적으로는 동일함
df['is_mz'] = b
df.head(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['is_mz'] = b


Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시,1


## 고급 (내제되어 있는 정보를 추출)

### 집계

- groupby
- 카운트세기, 같은 조건에 해당되는 데이터를 묶어서 통계계산 처리
- 집계 기준이 되는 컬럼의 데이터는 **범주형 데이터**일 경우 사용가능하다

In [223]:
# df에서 현재 회원 데이터에서 mz세대는 전체 회원대비 ? % 인가?(비중)
# 공식 = (mz세대 / 전체회원수) * 100 
# is_mz 컬럼 카운트(범주형 데이터별 카운트수 집계), 1이 몇개, 0이 몇개

# 컬럼에 상관없이 기준 컬럼 기반으로 카운트하여 집계된다
df.groupby(['is_mz']).count()

Unnamed: 0_level_0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
is_mz,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,3819,3819,3819,3819,3819,3819,3819,3819
1,1181,1181,1181,1181,1181,1181,1181,1181


In [224]:
# 집계 => 특정 데이터가 일치하는 값들끼리 묶어라(집계, 그룹화) => 내제된 데이터가 보일것이다
df.groupby(['is_mz','gender']).count()
# 대분류가 is_mz, 중분류가 gender => 분류기준이 2 level

Unnamed: 0_level_0,Unnamed: 1_level_0,customer_id,customer_name,registration_date,email,age,birth,pref
is_mz,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,F,1897,1897,1897,1897,1897,1897,1897
0,M,1922,1922,1922,1922,1922,1922,1922
1,F,588,588,588,588,588,588,588
1,M,593,593,593,593,593,593,593


In [225]:
tmp = df.groupby(['is_mz']).count()[ 'age' ]
# 전체 회원대비 mz의 비중은? 
print( tmp )

# 시리즈객체[ 인덱스번호 ]
tmp[0], tmp[1]

is_mz
0    3819
1    1181
Name: age, dtype: int64


(3819, 1181)

In [226]:
# 공식 = (mz세대 / 전체회원수) * 100 
mz_cnt = tmp[1]
total_mb_cnt = tmp[0] + tmp[1]
mz_cnt / total_mb_cnt * 100

23.62

### 피벗, 피벗테이블

- pivot, pivot_table
- 범주형 데이터를 가진 컬럼이 집중 타겟이 된다
- DataFrame을 구성하는 3요소
  - 인덱스, 컬럼, 데이터를 지정함으로써 새로운 DF가 완성 => 내제된 데이터나 의미를 도출함
  - 3개 요소를 다 지정하지 말고, 1개만 지정해서 원하는 모습으로 점진적으로 수정해서 맞춘다
    - 인덱스를 1순위로 맞추면 대부분 완성된다


In [227]:
path = '/content/drive/MyDrive/cloud_ai/share/2.데이터분석/res/sales.xlsx'
df = pd.read_excel( path )
df.tail(2)
# 데이터를 대략 살펴보니, 대부분 데이터는 범주형으로 보인다, 영업 데이터로 보인다
# 수량및 가격정도만 계산된 수치값으로 예측
# 범주형 => unique 하면 소수로 나온다

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
15,729833,Koepp Ltd,Wendy Yule,Fred Anderson,CPU,2,65000,declined
16,729833,Koepp Ltd,Wendy Yule,Fred Anderson,Monitor,2,5000,presented


In [228]:
df.shape # 피벗 연습용 데이터

(17, 8)

In [229]:
# Name 컬럼 확인
# Name 컬럼에 중복되지 않은 이름이 몇개 나온가?
df.Name.unique(), df.Name.unique().shape, len(df.Name.unique())
# 총데이터는 17개, 고유한 값은 12개, 최소 5개 데이터는 같은 사람의 데이터이다
# 영업자의 이름은 고유하다 => 범주형 데이터 판단 가능(구분용)

(array(['Trantow-Barrows', 'Fritsch, Russel and Anderson', 'Kiehn-Spinka',
        'Kulas Inc', 'Jerde-Hilpert', 'Barton LLC', 'Herman LLC',
        'Purdy-Kunde', 'Stokes LLC', 'Kassulke, Ondricka and Metz',
        'Keeling LLC', 'Koepp Ltd'], dtype=object), (12,), 12)

In [230]:
# Name이 Kulas Inc 인 데이터를 추출하시오
df[ df.Name == 'Kulas Inc' ]

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
5,218895,Kulas Inc,Daniel Hilton,Debra Henley,CPU,2,40000,pending
6,218895,Kulas Inc,Daniel Hilton,Debra Henley,Software,1,10000,presented


In [231]:
# 피벗 -> 범주형 데이터로 구성된 컬럼을 기준으로 피벗
# DF 구성상 인덱스 칸에 이름을 넣고 싶다 -> 나머지는 알아서 구성하세요
tmp = pd.pivot_table( df, index=['Name'],  )
tmp
# 영업자별 영업실적 데이터 (숫자만있는). 
# Keeling LLC 데이터 기준 => Price	Quantity 값은 총합인가? 평균인가?... => 평균
# 기본적으로 집계되는 데이터는 평균으로 계산된다
# aggfunc: AggFuncType = "mean" 이 항목을 근거로 평균이 기본연산이다

Unnamed: 0_level_0,Account,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,740150,35000,1.0
"Fritsch, Russel and Anderson",737550,35000,1.0
Herman LLC,141962,65000,2.0
Jerde-Hilpert,412290,5000,2.0
"Kassulke, Ondricka and Metz",307599,7000,3.0
Keeling LLC,688981,100000,5.0
Kiehn-Spinka,146832,65000,2.0
Koepp Ltd,729833,35000,2.0
Kulas Inc,218895,25000,1.5
Purdy-Kunde,163416,30000,1.0


In [232]:
df.head(1)

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented


In [233]:
# 인덱스를 여러개 배치한다면 -> 
tmp = pd.pivot_table( df, index=['Name','Rep','Manager'] )
tmp
# Name은 고유한데,  Rep, Manager는 반복적으로 값이 등장한다 -> 서열관계가 잘못되었다(->재배치)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Name,Rep,Manager,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barton LLC,John Smith,Debra Henley,740150,35000,1.0
"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,737550,35000,1.0
Herman LLC,Cedric Moss,Fred Anderson,141962,65000,2.0
Jerde-Hilpert,John Smith,Debra Henley,412290,5000,2.0
"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,307599,7000,3.0
Keeling LLC,Wendy Yule,Fred Anderson,688981,100000,5.0
Kiehn-Spinka,Daniel Hilton,Debra Henley,146832,65000,2.0
Koepp Ltd,Wendy Yule,Fred Anderson,729833,35000,2.0
Kulas Inc,Daniel Hilton,Debra Henley,218895,25000,1.5
Purdy-Kunde,Cedric Moss,Fred Anderson,163416,30000,1.0


In [234]:
tmp = pd.pivot_table( df, index=['Manager', 'Rep', 'Name',] )
tmp
# 영업 조직도가 보인다
# Manager 2명, Rep(중간관리자) 2~3명, 영업자는 중간관리자 단위로 2명식,
# 단 한부터는 3명씩 => 중간관리자가 1명부족 => 충원의 게획이 있나?
# Name과 Account은 1대1  대응, 데이터 분석시 한개는 제거해도 문제 없다

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Manager,Rep,Name,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Debra Henley,Craig Booker,"Fritsch, Russel and Anderson",737550,35000,1.0
Debra Henley,Craig Booker,Trantow-Barrows,714466,15000,1.333333
Debra Henley,Daniel Hilton,Kiehn-Spinka,146832,65000,2.0
Debra Henley,Daniel Hilton,Kulas Inc,218895,25000,1.5
Debra Henley,John Smith,Barton LLC,740150,35000,1.0
Debra Henley,John Smith,Jerde-Hilpert,412290,5000,2.0
Fred Anderson,Cedric Moss,Herman LLC,141962,65000,2.0
Fred Anderson,Cedric Moss,Purdy-Kunde,163416,30000,1.0
Fred Anderson,Cedric Moss,Stokes LLC,239344,7500,1.0
Fred Anderson,Wendy Yule,"Kassulke, Ondricka and Metz",307599,7000,3.0


In [235]:
# 중간관리자급 이상 회의라면
tmp = pd.pivot_table( df, index=['Manager', 'Rep'] )
tmp
# 기본 피벗을 진행하면 수치위주로 표현된다 => 기본연산이 mean이여서

Unnamed: 0_level_0,Unnamed: 1_level_0,Account,Price,Quantity
Manager,Rep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,Craig Booker,720237.0,20000.0,1.25
Debra Henley,Daniel Hilton,194874.0,38333.333333,1.666667
Debra Henley,John Smith,576220.0,20000.0,1.5
Fred Anderson,Cedric Moss,196016.5,27500.0,1.25
Fred Anderson,Wendy Yule,614061.5,44250.0,3.0


In [236]:
# 중간관리자급 이상 회의에서, 판매금액만 체크한다면 -> 컬럼기준이 아닌 value 기준
tmp = pd.pivot_table( df, index=['Manager', 'Rep'], values=['Price'] )
tmp

# 인덱스에 depth를 부여할수 있다 => 종속관계를 표현할수 있다

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,20000.0
Debra Henley,Daniel Hilton,38333.333333
Debra Henley,John Smith,20000.0
Fred Anderson,Cedric Moss,27500.0
Fred Anderson,Wendy Yule,44250.0


In [237]:
tmp.index, tmp.index.levels

(MultiIndex([( 'Debra Henley',  'Craig Booker'),
             ( 'Debra Henley', 'Daniel Hilton'),
             ( 'Debra Henley',    'John Smith'),
             ('Fred Anderson',   'Cedric Moss'),
             ('Fred Anderson',    'Wendy Yule')],
            names=['Manager', 'Rep']),
 FrozenList([['Debra Henley', 'Fred Anderson'], ['Cedric Moss', 'Craig Booker', 'Daniel Hilton', 'John Smith', 'Wendy Yule']]))

In [238]:
tmp.index.levels[0]

Index(['Debra Henley', 'Fred Anderson'], dtype='object', name='Manager')

In [239]:
tmp.index.levels[1]

Index(['Cedric Moss', 'Craig Booker', 'Daniel Hilton', 'John Smith',
       'Wendy Yule'],
      dtype='object', name='Rep')

In [240]:
tmp = pd.pivot_table( df, index=['Manager', 'Rep'], values=['Price']
                      # 연산 추가 혹은 변경 -> 기본값 mean -> sum 교체 -> 합산
                      ,aggfunc=np.sum
                     )
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,80000
Debra Henley,Daniel Hilton,115000
Debra Henley,John Smith,40000
Fred Anderson,Cedric Moss,110000
Fred Anderson,Wendy Yule,177000


In [241]:
# 연산을 2개 이상 넣는다면
tmp = pd.pivot_table( df, index=['Manager', 'Rep'], values=['Price']
                      # 합계, 평균, 건수 표현
                      ,aggfunc=[np.sum, np.mean, len]
                     )
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,len
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price
Manager,Rep,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Debra Henley,Craig Booker,80000,20000.0,4
Debra Henley,Daniel Hilton,115000,38333.333333,3
Debra Henley,John Smith,40000,20000.0,2
Fred Anderson,Cedric Moss,110000,27500.0,4
Fred Anderson,Wendy Yule,177000,44250.0,4


In [242]:
pd.pivot_table( df, 
               index=['Manager', 'Rep'], 
               values=['Price'],
               columns=['Product'],
               aggfunc=[np.sum]
             )
# 판매 실적의 질(성분)을 체크할수 있다
# 해석 : 중간관리자 기준 특정 제품을 판매한 기록이 없다 => 주력 제품이 존재한다/특정 제품을 잘 못판다
# 매출 증대를 위해서 , 부서별 약점을 보완하기 위해서 어떤 제품 판매를 주력/증대시킬것인지 집계

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Debra Henley,Craig Booker,65000.0,5000.0,,10000.0
Debra Henley,Daniel Hilton,105000.0,,,10000.0
Debra Henley,John Smith,35000.0,5000.0,,
Fred Anderson,Cedric Moss,95000.0,5000.0,,10000.0
Fred Anderson,Wendy Yule,165000.0,7000.0,5000.0,


In [244]:
# NaN -> Not a Number -> 결측치 -> 0으로 치환
tmp = pd.pivot_table( df, 
               index=['Manager', 'Rep'], 
               values=['Price'],
               columns=['Product'],
               aggfunc=[np.sum]
             )
tmp.fillna(0) # 결측치를 특정값으로 채운다(초기화한다) => 부동소수

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Debra Henley,Craig Booker,65000.0,5000.0,0.0,10000.0
Debra Henley,Daniel Hilton,105000.0,0.0,0.0,10000.0
Debra Henley,John Smith,35000.0,5000.0,0.0,0.0
Fred Anderson,Cedric Moss,95000.0,5000.0,0.0,10000.0
Fred Anderson,Wendy Yule,165000.0,7000.0,5000.0,0.0


In [247]:
# 만들때 결측을 0으로 처리 -> 파생적으로 발생됨 -> 정수로 나오게 처리
pd.pivot_table( df, 
               index=['Manager', 'Rep'], 
               values=['Price'],
               columns=['Product'],
               aggfunc=[np.sum],
               fill_value=0  # 피벗이 준비되면 일단 0으로 채우고, 값을 치환한다, 결측을 skip
             )

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Debra Henley,Craig Booker,65000,5000,0,10000
Debra Henley,Daniel Hilton,105000,0,0,10000
Debra Henley,John Smith,35000,5000,0,0
Fred Anderson,Cedric Moss,95000,5000,0,10000
Fred Anderson,Wendy Yule,165000,7000,5000,0


### 병합(단순합치기, 조인)

- 종류
  - merge : 특정 컬럼을 기준으로 합치기
  - concat : 단순 합치기
- 용도
  - 산발적인 데이터를 통합할때 사용
  - 동일한 구조의 데이터가 나눠서 제공될때 사용

#### merge

In [252]:
# 더미 데이터 준비
left_df  = pd.DataFrame({
    'key':list('1234'),
    'A':list('ABCD'),
    'B':list('EFGH'),
})
right_df = pd.DataFrame({
    'key':list('0123'),  # 키값에 있는 데이터를 서로 다르게 구성했다
    'C':list('가나다라'),
    'D':list('WXYZ'),
})

# display(객체) -> 실제 내용을 출력해준다 내장함수
display(left_df), display(right_df)

Unnamed: 0,key,A,B
0,1,A,E
1,2,B,F
2,3,C,G
3,4,D,H


Unnamed: 0,key,C,D
0,0,가,W
1,1,나,X
2,2,다,Y
3,3,라,Z


(None, None)

In [253]:
# 두개의 df를 합병하고자 한다 => 공통된 컬럼이 존재하는가?
# key라는 컬럼이 존재한다!!
# how : {'left', 'right', 'outer', 'inner', 'cross'}, default 'inner' 합병방식
# 이 방식은 DATABASE의 sql의 join문과 동일한 습성을 가진다
# on='key' 2개의 df에서 공통으로 존재하는 컬럼들중 하나를 지정하여, 이를 기준으로 병합
pd.merge( left_df, right_df, on='key' )
# inner => 교집합(key 컬럼만)

Unnamed: 0,key,A,B,C,D
0,1,A,E,나,X
1,2,B,F,다,Y
2,3,C,G,라,Z


In [254]:
pd.merge( left_df, right_df, on='key', how='left' )
# left 조인 개념, 왼쪽 df는 원본그대로 살리고, 일치되는것만 오른쪽에서 가져와서 붙인다 -> 결측발생

Unnamed: 0,key,A,B,C,D
0,1,A,E,나,X
1,2,B,F,다,Y
2,3,C,G,라,Z
3,4,D,H,,


In [255]:
pd.merge( left_df, right_df, on='key', how='right' )
# 왼쪽 df에서 결측이 발생

Unnamed: 0,key,A,B,C,D
0,0,,,가,W
1,1,A,E,나,X
2,2,B,F,다,Y
3,3,C,G,라,Z


In [256]:
pd.merge( left_df, right_df, on='key', how='outer' )
# 결측이 양쪽에서 발생된다

Unnamed: 0,key,A,B,C,D
0,1,A,E,나,X
1,2,B,F,다,Y
2,3,C,G,라,Z
3,4,D,H,,
4,0,,,가,W


In [257]:
# 크기가 다르다면
left_df  = pd.DataFrame({
    'key':list('12345'),
    'A':list('ABCDT'),
    'B':list('EFGHS'),
})
right_df = pd.DataFrame({
    'key':list('0123'),  # 키값에 있는 데이터를 서로 다르게 구성했다
    'C':list('가나다라'),
    'D':list('WXYZ'),
})
left_df.shape, right_df.shape

((5, 3), (4, 3))

In [258]:
# 재료들의 shape이 달라도 성립
pd.merge( left_df, right_df, on='key' )

Unnamed: 0,key,A,B,C,D
0,1,A,E,나,X
1,2,B,F,다,Y
2,3,C,G,라,Z


In [259]:
# 공통된 컬럼을 알아서 찾아준다. 명시적인 표현이 없다면
pd.merge( left_df, right_df )

Unnamed: 0,key,A,B,C,D
0,1,A,E,나,X
1,2,B,F,다,Y
2,3,C,G,라,Z


In [260]:
# 동일한 컬럼 2개, 크기 다르다
left_df  = pd.DataFrame({
    'key':list('12345'),
    'A':list('ABCDT'),
    'B':list('EFGHS'),
})
right_df = pd.DataFrame({
    'key':list('0123'),  # 키값에 있는 데이터를 서로 다르게 구성했다
    'A':list('ABC라'),
    'D':list('WXYZ'),
})
left_df.shape, right_df.shape

((5, 3), (4, 3))

In [262]:
tmp = pd.merge( left_df, right_df, on='key' )
# 기준 컬럼 이외에 중복되는 컬럼명은 _x, _y등 프리픽스를 붙쳐서 컬럼명을 변경했다 
tmp

Unnamed: 0,key,A_x,B,A_y,D
0,1,A,E,B,X
1,2,B,F,C,Y
2,3,C,G,라,Z


In [263]:
# 컬럼명 전체 변경
tmp.columns = ['key', 'A', 'B', 'C', 'D']
tmp

Unnamed: 0,key,A,B,C,D
0,1,A,E,B,X
1,2,B,F,C,Y
2,3,C,G,라,Z


#### concat

- 완전 동일한 구조(컬럼구조)의 df를 하나로 합칠때
  - df들은 최소 2개 이상 ~ n개까지 가능  
- 서로 다른 구조의 df를 하나로 합칠때
  - 단순합치기
  - 결측치가 다수 등장할수 있다

In [264]:
pd.concat( [left_df, right_df] )
# axis =0, 기본값, 붙는 방향, 춗의 방향이 0번, 밑으로 붙는다 => 데이터가 늘어난다
# 합병이 되는 df의 shape이 달라고 ok => 결측치 다수 발생

Unnamed: 0,key,A,B,D
0,1,A,E,
1,2,B,F,
2,3,C,G,
3,4,D,H,
4,5,T,S,
0,0,A,,W
1,1,B,,X
2,2,C,,Y
3,3,라,,Z


In [265]:
pd.concat( [left_df, right_df, left_df] )
# 이미 포함시킨 df를 재사용 가능

Unnamed: 0,key,A,B,D
0,1,A,E,
1,2,B,F,
2,3,C,G,
3,4,D,H,
4,5,T,S,
0,0,A,,W
1,1,B,,X
2,2,C,,Y
3,3,라,,Z
0,1,A,E,


In [266]:
pd.concat( [left_df, right_df], axis=1 )
# 중복된 컬럼이 있다면 중복해서 등장 -> 문제가 야기됨(서로 컬럼이겹치지 않는 df를 합병할때 유리)
# 특정 데이터의 컬럼을 늘리는 전략에서는 유리, 단 데이터수가 동일해야함

Unnamed: 0,key,A,B,key.1,A.1,D
0,1,A,E,0.0,A,W
1,2,B,F,1.0,B,X
2,3,C,G,2.0,C,Y
3,4,D,H,3.0,라,Z
4,5,T,S,,,
