# 0. About Pandas
- pandas
    - https://pandas.pydata.org/docs/user_guide/index.html#user-guide
- 파이썬 진영에서 데이터 분석 분야에 R에 대응하기 위한 분석용 라이브러리
    - API 기능 볼륨(양)
        - pandas + 머신러닝 vs R

- 자료구조
    - Series(1차원), DataFrame(2차원)

In [None]:
# 모듈 가져오기
import numpy as np
import pandas as pd

#1 자료구조

- Series(1차원)
    - numpy의 차원 구조 (벡터)의 데이터를 가지고 있다
    - ndarray + 인덱스 정보 = Series
- DataFrame(2차원)
    - numpy의 차원적 구조 (매트릭스, 행렬)의 데이터를 가지고 있다
    - ndarray(데이터) + 인덱스정보 + 칼럼 = DataFrame


## 1-1. Series

- 1차원 데이터
- (인덱스 + 데이터) + 메타데이터


In [None]:
# 데이터를 넣어서 Series를 생성 => 동일 타입으로 데이터를 넣어줘야 한다!

vec = pd.Series( [-1, 3, 5, np.nan, 7, 8] )
vec

# 좌측에 있는 값이 index(지정 안하면 0부터), 우측은 data
# 타입 지정하지 않으면 float64, 기본 타입은 별도 지정없고, 정수이더라도 float으로 우선 설정됨
# 타입명이 dtype으로 생성됨 => 단수 타입 => Series는 구성원의 타입이 모두 동일하다!


0   -1.0
1    3.0
2    5.0
3    NaN
4    7.0
5    8.0
dtype: float64

In [None]:
# 시리즈 만들면 바로 체크
vec.shape, vec.ndim, vec.dtype

((6,), 1, dtype('float64'))

In [None]:
# 기초 통계 -> 데이터가 수치인 경우에만 활용 가능함 ㅇㅇ
vec.describe()

count    5.000000
mean     4.400000
std      3.577709
min     -1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      8.000000
dtype: float64

## 1-2. DataFrame
- 동일 크기(m)를 가진 Series가 n개 모이면 데이터프레임을 구성할 수 있다. (m,n)

- 구성원
    - (인덱스 + 칼럼 + 데이터) + 메타데이터

- 대부분의 분석용 데이터는 2차원 구조를 가짐
    - DF로 매핑 가능

- 인덱스는 생략 가능함, 생략시 (0,1 .... 과 같이 생성된다)
- 칼럼 : 칼럼별 타입은 상이할 수 있다. 단, 칼럼 내에서는 동일 타입


In [None]:
#1. 칼럼 데이터
cols = list('ABCD')
cols

['A', 'B', 'C', 'D']

In [None]:
#2. 인덱스
indexs = pd.date_range('20230821', periods = 7)
indexs

DatetimeIndex(['2023-08-21', '2023-08-22', '2023-08-23', '2023-08-24',
               '2023-08-25', '2023-08-26', '2023-08-27'],
              dtype='datetime64[ns]', freq='D')

In [None]:
#3. 크기 확인
len(indexs), len(cols)

(7, 4)

In [None]:
# 3. 데이터 생성
values = np.random.rand(len(indexs), len(cols))
values

array([[0.63798641, 0.4093865 , 0.87052439, 0.43011798],
       [0.00402414, 0.09682855, 0.46001975, 0.59906493],
       [0.51340655, 0.12236305, 0.45873256, 0.20036215],
       [0.13756222, 0.16331924, 0.6826459 , 0.52434427],
       [0.46414703, 0.51532017, 0.51102628, 0.23055737],
       [0.65582796, 0.57612027, 0.57815726, 0.29439357],
       [0.1500512 , 0.95411645, 0.63883577, 0.42740336]])

In [None]:
# 데이터 프레임 생성
pd.DataFrame(data = values, index = indexs, columns = cols)

Unnamed: 0,A,B,C,D
2023-08-21,0.11805,0.143505,0.275324,0.653055
2023-08-22,0.349637,0.334546,0.943149,0.69222
2023-08-23,0.42731,0.213462,0.689437,0.874074
2023-08-24,0.562929,0.599417,0.813017,0.113371
2023-08-25,0.103303,0.301112,0.0126,0.705888
2023-08-26,0.748884,0.071592,0.20624,0.431485
2023-08-27,0.623925,0.839345,0.112503,0.581888


In [None]:
csv_path = ('/content/drive/MyDrive/ASAC/Python 데이터분석/EDA/customer_master.csv')
# df로 구성
customer_master = pd.read_csv(csv_path)
customer_master.head(5)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
4,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시


## 1-3 기초 점검
- 데이터 이해, 통찰 얻기 위해 수행

In [None]:
# 데이터 전체 모양, 볼륨
customer_master.shape

(5000, 8)

In [None]:
# 상위, 하위값 확인 가능
customer_master.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [None]:
# 타입 확인 (n개 가능 => 복수형)
customer_master.dtypes
# object 객체는 문자열로 보면 된다.

customer_id          object
customer_name        object
registration_date    object
email                object
gender               object
age                   int64
birth                object
pref                 object
dtype: object

In [None]:
customer_master.columns


Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref'],
      dtype='object')

In [None]:
customer_master.index

RangeIndex(start=0, stop=5000, step=1)

In [None]:
customer_master.values

array([['IK152942', '김서준', '2019-01-01 0:25', ..., 29, '1990-06-10',
        '대전광역시'],
       ['TS808488', '김예준', '2019-01-01 1:13', ..., 33, '1986-05-20',
        '인천광역시'],
       ['AS834628', '김도윤', '2019-01-01 2:00', ..., 63, '1956-01-02',
        '광주광역시'],
       ...,
       ['PL538517', '정준기', '2019-07-31 19:30', ..., 73, '1945-12-28',
        '대전광역시'],
       ['OA955088', '정도형', '2019-07-31 22:32', ..., 75, '1944-04-09',
        '부산광역시'],
       ['HI349563', '정지석', '2019-07-31 22:49', ..., 21, '1998-02-06',
        '서울특별시']], dtype=object)

In [None]:
# 결측 검사
customer_master.info

<bound method DataFrame.info of      customer_id customer_name registration_date                        email  \
0       IK152942           김서준   2019-01-01 0:25  hirata_yuujirou@example.com   
1       TS808488           김예준   2019-01-01 1:13    tamura_shiori@example.com   
2       AS834628           김도윤   2019-01-01 2:00      hisano_yuki@example.com   
3       AS345469           김시우   2019-01-01 4:48   tsuruoka_kaoru@example.com   
4       GD892565           김주원   2019-01-01 4:54   oouchi_takashi@example.com   
...          ...           ...               ...                          ...   
4995    AS677229           정우석  2019-07-31 16:52    hirayama_risa@example.com   
4996    HD758694           정영훈  2019-07-31 19:09  nakahara_mahiru@example.com   
4997    PL538517           정준기  2019-07-31 19:30      tabata_yuu1@example.com   
4998    OA955088           정도형  2019-07-31 22:32  setouchi_hikaru@example.com   
4999    HI349563           정지석  2019-07-31 22:49      horii_kanji@example.com

In [None]:
# 기초통계량 -> 수치형 칼럼만 대상
customer_master.describe()

Unnamed: 0,age
count,5000.0
mean,50.0532
std,17.338607
min,20.0
25%,35.0
50%,50.0
75%,65.0
max,80.0


In [None]:
# 특정 칼럼 기준으로 정렬
customer_master.sort_values(by = 'age', ascending = False)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
4582,OA999412,최아경,2019-07-13 20:30,yasunaga_shinichi@example.com,M,80,1938-10-18,대전광역시
4571,TS064860,최애림,2019-07-13 10:56,kawasaki_shunji@example.com,M,80,1938-08-12,서울특별시
3643,IK733404,최영원,2019-06-04 15:24,mita_shouta@example.com,M,80,1938-12-11,인천광역시
2887,HI311281,박원빈,2019-05-03 22:50,okita_yuuji@example.com,M,80,1939-07-31,서울특별시
1803,TS554434,이루비,2019-03-19 7:30,maekawa_yousuke@example.com,M,80,1939-01-03,서울특별시
...,...,...,...,...,...,...,...,...
3317,HD710658,최민용,2019-05-21 16:56,tahara_asahi@example.com,F,20,1999-03-04,대전광역시
4819,HI183239,정승재,2019-07-23 17:09,yoshimoto_miri@example.com,F,20,1998-09-17,서울특별시
3251,TS544093,최리오,2019-05-18 23:54,nagahama_yuuki@example.com,M,20,1999-02-06,부산광역시
762,AS288237,김서훈,2019-02-05 2:38,ookouchi_ittoku@example.com,M,20,1998-11-01,대구광역시


#2 데이터 추출

## 2-1. 기본 인덱싱

In [None]:
# 기본 칼럼 추출 형태 => 차원 축소되어 Series
# 상황에 따라 자유롭게 사용 가능
customer_master[ 'age' ], customer_master.age

(0       29
 1       33
 2       63
 3       74
 4       54
         ..
 4995    77
 4996    27
 4997    73
 4998    75
 4999    21
 Name: age, Length: 5000, dtype: int64,
 0       29
 1       33
 2       63
 3       74
 4       54
         ..
 4995    77
 4996    27
 4997    73
 4998    75
 4999    21
 Name: age, Length: 5000, dtype: int64)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 추출하면서 차원 유지 : 인위적으로 차원 []을 쌓아준다.
customer_master[ ['customer_name', 'age'] ]

Unnamed: 0,customer_name,age
0,김서준,29
1,김예준,33
2,김도윤,63
3,김시우,74
4,김주원,54
...,...,...
4995,정우석,77
4996,정영훈,27
4997,정준기,73
4998,정도형,75


## 2-2. 기본 슬라이싱
- 차원 유지

In [None]:
customer_master[:].shape, customer_master.shape

((5000, 8), (5000, 8))

In [None]:
# 1<=x<3
customer_master[1:3]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시


In [None]:
# 1<=x<10, step 2
customer_master[1:10:2]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
5,AS265381,김하준,2019-01-01 5:51,kasai_yousuke@example.com,M,69,1949-08-09,서울특별시
7,HI791416,김지후,2019-01-01 7:03,hosoi_mayuko@example.com,F,30,1989-07-25,대구광역시
9,OA239766,김준우,2019-01-01 8:59,tamaki_yukiya@example.com,M,22,1997-01-12,인천광역시


In [None]:
# 데이터 개수
data_size,_ = customer_master.shape
data_size

5000

In [None]:
# 인덱스값 더미값으로 대체(수정)
# 임의의 날짜 정보로 세팅 => 뒤에 loc, iloc에서 값 참조시 의미를 명확하게 이해할 수 있도록 조치
# 연속적인 날짜 정보 세팅
date_indexs = pd.date_range('20100101', periods = data_size)
date_indexs

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2023-08-31', '2023-09-01', '2023-09-02', '2023-09-03',
               '2023-09-04', '2023-09-05', '2023-09-06', '2023-09-07',
               '2023-09-08', '2023-09-09'],
              dtype='datetime64[ns]', length=5000, freq='D')

In [None]:
# 인덱스 수정
df = customer_master[:] # 사본 생성
df.index = date_indexs
df.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [None]:
# 사본 (변수[:])을 조작해도 원본은 유지된다.
customer_master.head(2)

## 2-3. loc

- location
    - 인덱스 값, 칼럼값 직접 지정
    - 이 2개 요소를 사용하여(생략 가능) 데이터를 추출한다

In [None]:
# df.loc[ 인덱스값 ]
df.loc['20100101'], type(df.loc['20100101']) # df를 인덱싱 -> 차원축소 -> Series 반환

(customer_id                             IK152942
 customer_name                                김서준
 registration_date                2019-01-01 0:25
 email                hirata_yuujirou@example.com
 gender                                         M
 age                                           29
 birth                                 1990-06-10
 pref                                       대전광역시
 Name: 2010-01-01 00:00:00, dtype: object,
 pandas.core.series.Series)

In [None]:
# a <= x <= b => 경계값도 들어온다
df.loc['20100101':'20100105']

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2010-01-03,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
2010-01-04,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
2010-01-05,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시


In [None]:
# 2차원까지 묘사, 칼럼값 까지 지정 -> 차원축소 (1차원 반환)
df.loc['20100101':'20100105', 'age']

2010-01-01    29
2010-01-02    33
2010-01-03    63
2010-01-04    74
2010-01-05    54
Freq: D, Name: age, dtype: int64

In [None]:
# 2차원까지 묘사, 칼럼값 까지 지정 -> 차원 유지 방법
df.loc['20100101':'20100105', ['age']]

Unnamed: 0,age
2010-01-01,29
2010-01-02,33
2010-01-03,63
2010-01-04,74
2010-01-05,54


In [None]:
# 인덱스, 칼럼 지정 => 2회 차원축소 => scalar
df.loc[['20100101', '20100105'], 'customer_name':'age']

# 결론
# 비연속적인(이웃하지 않는) 데이터 추출 => [인덱스(칼럼)값, ...]'
# 연속적 데이터 추출 => 값1 : 값2

Unnamed: 0,customer_name,registration_date,email,gender,age
2010-01-01,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29
2010-01-05,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54


##2-4.  iloc

- index location
    - 인덱스나 칼럼에는 암묵적으로 순서가 존재하고, 0,1,2, ... 값이 내제되어 있다.
    - 좌표값(0,1,2...)을 이용하여 추출

In [None]:
# 인덱스 값 중 순서 두번째
df.iloc[1]

customer_id                           TS808488
customer_name                              김예준
registration_date              2019-01-01 1:13
email                tamura_shiori@example.com
gender                                       F
age                                         33
birth                               1986-05-20
pref                                     인천광역시
Name: 2010-01-02 00:00:00, dtype: object

In [None]:
# 원본 카피
df.iloc[ : , : ].shape

(5000, 8)

In [None]:
# a <= index < b, a <= col < b
# 끝 경계값은 들어가지 않음
df.iloc[1:3, 1:3]

Unnamed: 0,customer_name,registration_date
2010-01-02,김예준,2019-01-01 1:13
2010-01-03,김도윤,2019-01-01 2:00


In [None]:
# 원하는 데이터만 추출할 때(비연속적, 이웃하지 않는 => 나열)
df.iloc[[0,4,2],[1,5,3]]

Unnamed: 0,customer_name,age,email
2010-01-01,김서준,29,hirata_yuujirou@example.com
2010-01-05,김주원,54,oouchi_takashi@example.com
2010-01-03,김도윤,63,hisano_yuki@example.com


## 2-5. T/F 인덱싱

- 조건식을 이용하여 데이터 추출
- 데이터는 교체 사용(실습)
    - customer_newer.csv
    - cus라는 변수명으로 df를 생성하시오

In [None]:
cus = pd.read_csv('/content/drive/MyDrive/ASAC/Python 데이터분석/EDA/customer_newer.csv')
cus.head(5)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,5.083333,5.0,7,3,1,2019-04-30,47
2,OA974876,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.583333,5.0,6,3,1,2019-04-30,47
3,HD024127,XXXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,4.5,7,2,1,2019-04-30,47
4,HD661448,XXXXX,C03,F,2015-05-01,,CA1,0,2_야간,6000,2_일반,3.916667,4.0,6,1,1,2019-04-30,47


In [None]:
# 하나의 열을 추출하는 방법
cus.is_deleted
cus.loc[:,'is_deleted']
cus['is_deleted']

0       0
1       0
2       0
3       0
4       0
       ..
2948    0
2949    0
2950    0
2951    0
2952    0
Name: is_deleted, Length: 2953, dtype: int64

In [None]:
# 회원 탈퇴 여부를 체크하는 칼럼, 사용된 총 데이터 확인
cus.is_deleted.unique() # 0과 1로 구성된 이진 데이터

array([0, 1])

In [None]:
# 현재 회원인가? (0 : 현재 이용중 회원, 1:탈퇴 회원)
cus.is_deleted == 0

0       True
1       True
2       True
3       True
4       True
        ... 
2948    True
2949    True
2950    True
2951    True
2952    True
Name: is_deleted, Length: 2953, dtype: bool

In [None]:
# 요구사항 : is_deleted 값이 0인 회원들만 추출하시오(현재 이용중인 고객 정보만 추출하시오)
# 조건식 사용 방식은 numpy와 동일
tmp = cus[cus.is_deleted == 0]
tmp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2842 entries, 0 to 2952
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   customer_id        2842 non-null   object 
 1   name               2842 non-null   object 
 2   class              2842 non-null   object 
 3   gender             2842 non-null   object 
 4   start_date         2842 non-null   object 
 5   end_date           0 non-null      object 
 6   campaign_id        2842 non-null   object 
 7   is_deleted         2842 non-null   int64  
 8   class_name         2842 non-null   object 
 9   price              2842 non-null   int64  
 10  campaign_name      2842 non-null   object 
 11  mean               2842 non-null   float64
 12  median             2842 non-null   float64
 13  max                2842 non-null   int64  
 14  min                2842 non-null   int64  
 15  routine_flg        2842 non-null   int64  
 16  calc_date          2842 

#3 데이터 삭제

- del
    - 파이썬 레벨에서 완전 삭제
- drop
    - 특정 부분을 삭제한 df를 반환
    - 추출 기법 (필요 없는것을 제거)
        - 원본은 유지
    - 원본 반영
        - 공통 인자

In [None]:
cus.columns

Index(['customer_id', 'name', 'class', 'gender', 'start_date', 'end_date',
       'campaign_id', 'is_deleted', 'class_name', 'price', 'campaign_name',
       'mean', 'median', 'max', 'min', 'routine_flg', 'calc_date',
       'membership_period'],
      dtype='object')

In [None]:
# axis = 1 : 세로방향 드랍 => 열 삭제
cus.drop(['end_date'], axis = 1).head(1) # 0은 행, 1은 열

In [None]:
cus.drop(['end_date'], axis = 1).shape, cus.shape # 0은 행, 1은 열

((2953, 17), (2953, 18))

In [None]:
# 원본에서까지 삭제하려면?
cus.drop(['end_date'], axis = 1, inplace = True) # 0은 행, 1은 열

In [None]:
cus.shape

(2953, 17)

In [None]:
# del 사용

del cus['name']
cus.shape

(2953, 16)

#4 파생변수 생성

## 4-1 일반적인 생성 방식

In [None]:
df.columns

Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref', 'is_mz'],
      dtype='object')

In [None]:
# df에 MZ 플레그값을 생성해보자
# M : 1985 ~ 1994
# Z : 1995 ~ 2004'
# 칼럼명 is_mz, 0:85년 이전 세대, 1:이후세대(mz)
# df[칼럼명] = 데이터(df의 데이터수와 일치) list, Series 다 가능
df['is_mz'] = (df['age'] <= 34) * 1
# or
df.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['is_mz'] = (df['age'] < 35) * 1


Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시,1
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시,1
2010-01-03,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시,0
2010-01-04,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시,0
2010-01-05,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시,0


## 4-2. apply
- 칼럼 혹은 인덱스의 맴버들 하나씩 접근해서 데이터를 전처리, 조작 후 다시 돌려 놓는 함수
- 파생 변수 생성(칼럼 추가), 칼럼값 전처리(수정, 추가)

In [None]:
df['is_mz2'] = (df['age'] <= 34)
df.is_mz2.apply(lambda x:1 if x else 0)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['is_mz2'] = (df['age'] <= 34)


2010-01-01    1
2010-01-02    1
2010-01-03    0
2010-01-04    0
2010-01-05    0
             ..
2023-09-05    0
2023-09-06    1
2023-09-07    0
2023-09-08    0
2023-09-09    1
Freq: D, Name: is_mz2, Length: 5000, dtype: int64

# 5. 추가 고급 기능

- 데이터 종류

|범주형|--|예시|특징|
|--|--|--|--|
|명목형|--|성별, 음식종류, 나라 등|서열X, 순위X|
|순서형|--|학점, 평점 등|순위 O|


|수치형|--|예시|특징|
|--|--|--|--|
|이산형|--|카운트, |정수로 떨어지는 셀 수 있는 데이터, 소수점 X|
|연속형|--|키 몸무게, 집값 등|값이 끊기지 않게 연속적, 딱 떨어지지 않는다. 소수점 O|




## 5-1. 집계 (데이터 추출)

### 5-1-1. groupby
- 집계 기준의 데이터가 명목형일 경우 대부분, 이산형도 가능하다.

In [None]:
display(df.head(2)), df.shape

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz,is_mz2
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시,1,True
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시,1,True


(None, (5000, 10))

In [None]:
df.groupby(['is_mz']).count() # mz기반 집계 -> not mz 와 mz의 값을 비교할 수 있음

Unnamed: 0_level_0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz2
is_mz,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,3819,3819,3819,3819,3819,3819,3819,3819,3819
1,1181,1181,1181,1181,1181,1181,1181,1181,1181


In [None]:
df.groupby(['is_mz']).count()['age']

is_mz
0    3819
1    1181
Name: age, dtype: int64

In [None]:
# 확장 고려
df.groupby(['is_mz']).count()[['age']]

Unnamed: 0_level_0,age
is_mz,Unnamed: 1_level_1
0,3819
1,1181


In [None]:
df.groupby(['is_mz']).count()[['age']].reset_index()

Unnamed: 0,is_mz,age
0,0,3819
1,1,1181


In [None]:
# 칼럼 2개 사용
tmp = df.groupby(['is_mz', 'gender']).count()[['age']]
print(tmp)

               age
is_mz gender      
0     F       1897
      M       1922
1     F        588
      M        593 MultiIndex([(0, 'F'),
            (0, 'M'),
            (1, 'F'),
            (1, 'M')],
           names=['is_mz', 'gender'])


In [None]:
tmp.index

MultiIndex([(0, 'F'),
            (0, 'M'),
            (1, 'F'),
            (1, 'M')],
           names=['is_mz', 'gender'])

In [None]:
tmp.index.levels, tmp.index.levels[0]

(FrozenList([[0, 1], ['F', 'M']]),
 Int64Index([0, 1], dtype='int64', name='is_mz'))

## 5-2. 피벗, 피벗 테이블
- 칼럼 데이터가 명목형(주로) 이산형 유형이면 대상
- 피벗 -> df의 3요소를 설정하면서 구성
    - 확실한 요소 1개를 먼저 설정 => 모양을 맞춰간다

In [None]:
df = pd.read_excel('/content/drive/MyDrive/ASAC/Python 데이터분석/EDA/sales.xlsx')
df.tail()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
12,239344,Stokes LLC,Cedric Moss,Fred Anderson,Software,1,10000,presented
13,307599,"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,Maintenance,3,7000,won
14,688981,Keeling LLC,Wendy Yule,Fred Anderson,CPU,5,100000,won
15,729833,Koepp Ltd,Wendy Yule,Fred Anderson,CPU,2,65000,declined
16,729833,Koepp Ltd,Wendy Yule,Fred Anderson,Monitor,2,5000,presented


### [참고] sample 함수의 사용법

In [None]:
# 무작위 데이터 확인 (샘플링)
# 모집합에서 무작위로 표본을 추출
# n개를 지정 => 해당 개수만큼 추출
# random_state => 난수의 seed, 이를 통해서 무작위로 추출할 때 난수 생성의 재료값 -> 지정 -> 재현
df.sample(n = 10, random_state = 1)

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
13,307599,"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,Maintenance,3,7000,won
7,412290,Jerde-Hilpert,John Smith,Debra Henley,Maintenance,2,5000,pending
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
6,218895,Kulas Inc,Daniel Hilton,Debra Henley,Software,1,10000,presented
10,163416,Purdy-Kunde,Cedric Moss,Fred Anderson,CPU,1,30000,presented
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
14,688981,Keeling LLC,Wendy Yule,Fred Anderson,CPU,5,100000,won
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented


In [None]:
# 비율로 추출
df.sample(frac = 0.5, random_state = 1).shape

(8, 8)

In [None]:
# 특정 칼럼의 데이터
df.Name.unique(), len(df.Name.unique()) # -> 중복이 존재한다.

(array(['Trantow-Barrows', 'Fritsch, Russel and Anderson', 'Kiehn-Spinka',
        'Kulas Inc', 'Jerde-Hilpert', 'Barton LLC', 'Herman LLC',
        'Purdy-Kunde', 'Stokes LLC', 'Kassulke, Ondricka and Metz',
        'Keeling LLC', 'Koepp Ltd'], dtype=object),
 12)

In [None]:
# 피벗을 통해서 서열 관계(내제된 데이터) 추출
df_pv = df.pivot_table(index = ['Name'])
df_pv

  df_pv = df.pivot_table(index = ['Name'])


Unnamed: 0_level_0,Account,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,740150,35000,1.0
"Fritsch, Russel and Anderson",737550,35000,1.0
Herman LLC,141962,65000,2.0
Jerde-Hilpert,412290,5000,2.0
"Kassulke, Ondricka and Metz",307599,7000,3.0
Keeling LLC,688981,100000,5.0
Kiehn-Spinka,146832,65000,2.0
Koepp Ltd,729833,35000,2.0
Kulas Inc,218895,25000,1.5
Purdy-Kunde,163416,30000,1.0


In [None]:
df_pv = df.pivot_table(index = ['Rep', 'Manager', 'Name'])
df_pv

  df_pv = df.pivot_table(index = ['Rep', 'Manager', 'Name'])


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Rep,Manager,Name,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Cedric Moss,Fred Anderson,Herman LLC,141962,65000,2.0
Cedric Moss,Fred Anderson,Purdy-Kunde,163416,30000,1.0
Cedric Moss,Fred Anderson,Stokes LLC,239344,7500,1.0
Craig Booker,Debra Henley,"Fritsch, Russel and Anderson",737550,35000,1.0
Craig Booker,Debra Henley,Trantow-Barrows,714466,15000,1.333333
Daniel Hilton,Debra Henley,Kiehn-Spinka,146832,65000,2.0
Daniel Hilton,Debra Henley,Kulas Inc,218895,25000,1.5
John Smith,Debra Henley,Barton LLC,740150,35000,1.0
John Smith,Debra Henley,Jerde-Hilpert,412290,5000,2.0
Wendy Yule,Fred Anderson,"Kassulke, Ondricka and Metz",307599,7000,3.0


In [None]:
# 여기서부터는 데이터 : values 측면을 주제에 맞게 조정 => 카운트, 합계, 평균, 기타 수학 함수, 평가 함수(커스텀) 이용하여 집계
df_pv = df.pivot_table(index = ['Rep', 'Manager', 'Name'], values = ['Price']
                       #aggfunc : str = "mean" 기본은 평균, aggfunc 옵션에 원하는 함수 추가를 통해 칼럼 생성 가능
                       ,aggfunc=[np.sum, np.mean,len], columns = ['Product'])
df_pv

# 칼럼수 * aggfunc 함수갯수 * value의 갯수 => 최종 칼럼수 => 12개 => 결측 발생 => 조치(0으로 채워보자)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_2,Unnamed: 1_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Rep,Manager,Name,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
Cedric Moss,Fred Anderson,Herman LLC,65000.0,,,,65000.0,,,
Cedric Moss,Fred Anderson,Purdy-Kunde,30000.0,,,,30000.0,,,
Cedric Moss,Fred Anderson,Stokes LLC,,5000.0,,10000.0,,5000.0,,10000.0
Craig Booker,Debra Henley,"Fritsch, Russel and Anderson",35000.0,,,,35000.0,,,
Craig Booker,Debra Henley,Trantow-Barrows,30000.0,5000.0,,10000.0,30000.0,5000.0,,10000.0
Daniel Hilton,Debra Henley,Kiehn-Spinka,65000.0,,,,65000.0,,,
Daniel Hilton,Debra Henley,Kulas Inc,40000.0,,,10000.0,40000.0,,,10000.0
John Smith,Debra Henley,Barton LLC,35000.0,,,,35000.0,,,
John Smith,Debra Henley,Jerde-Hilpert,,5000.0,,,,5000.0,,
Wendy Yule,Fred Anderson,"Kassulke, Ondricka and Metz",,7000.0,,,,7000.0,,


In [None]:
# df에서 결측값을 특정값으로 대체(채운다), df를 생성한 이후 후처리
df_pv.fillna(0) # 원데이터를 따라감

In [None]:
df_pv = df.pivot_table(index = ['Rep', 'Manager', 'Name']
                       ,values = ['Price']
                       ,aggfunc=[np.sum, np.mean]
                       ,columns = ['Product']
                       ,fill_value = 0 ) # 피벗시 초기값을 0으로 채우고, 나머지 계산값들을 치환한다.
df_pv

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_2,Unnamed: 1_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Rep,Manager,Name,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
Cedric Moss,Fred Anderson,Herman LLC,65000,0,0,0,65000,0,0,0
Cedric Moss,Fred Anderson,Purdy-Kunde,30000,0,0,0,30000,0,0,0
Cedric Moss,Fred Anderson,Stokes LLC,0,5000,0,10000,0,5000,0,10000
Craig Booker,Debra Henley,"Fritsch, Russel and Anderson",35000,0,0,0,35000,0,0,0
Craig Booker,Debra Henley,Trantow-Barrows,30000,5000,0,10000,30000,5000,0,10000
Daniel Hilton,Debra Henley,Kiehn-Spinka,65000,0,0,0,65000,0,0,0
Daniel Hilton,Debra Henley,Kulas Inc,40000,0,0,10000,40000,0,0,10000
John Smith,Debra Henley,Barton LLC,35000,0,0,0,35000,0,0,0
John Smith,Debra Henley,Jerde-Hilpert,0,5000,0,0,0,5000,0,0
Wendy Yule,Fred Anderson,"Kassulke, Ondricka and Metz",0,7000,0,0,0,7000,0,0


## 5-3. 병합 (단순합치기, 조인)

- 함수
    - merge : 조인
    - concat : 단순 합치기

- 목적 : 산발적으로 제공되는 데이터를 하나의 DF로 구성하는 함수
- 동일한 데이터를 sql 특성상(성능상) 나눠서 제공할 경우 => 하나로 합치는데 사용

In [None]:
# 샘플 데이터
left_df = pd.DataFrame({
    'key':list('1234'),
    'A' : list('abcd'),
    'B' : list('DEFG')
})

right_df = pd.DataFrame({
    'key':list('0123'),
    'C' : list('가나다라'),
    'D' : list('WXYZ')
})
display(left_df), display(right_df)

Unnamed: 0,key,A,B
0,1,a,D
1,2,b,E
2,3,c,F
3,4,d,G


Unnamed: 0,key,C,D
0,0,가,W
1,1,나,X
2,2,다,Y
3,3,라,Z


(None, None)

### 5-3-1. merge
- SQL의 join과 유사

In [None]:
# merge는 2개의 데이터만 가능해!
pd.merge(left_df, right_df, how = 'inner', on = 'key') # 교집합

Unnamed: 0,key,A,B,C,D
0,1,a,D,나,X
1,2,b,E,다,Y
2,3,c,F,라,Z


In [None]:
pd.merge(left_df, right_df, how = 'left', on = 'key') # left 조인 안겹치는 부분은 NaN값 생성

Unnamed: 0,key,A,B,C,D
0,1,a,D,나,X
1,2,b,E,다,Y
2,3,c,F,라,Z
3,4,d,G,,


In [None]:
pd.merge(left_df, right_df, how = 'right', on = 'key')

Unnamed: 0,key,A,B,C,D
0,0,,,가,W
1,1,a,D,나,X
2,2,b,E,다,Y
3,3,c,F,라,Z


In [None]:
pd.merge(left_df, right_df, how = 'outer', on = 'key') # outer

Unnamed: 0,key,A,B,C,D
0,1,a,D,나,X
1,2,b,E,다,Y
2,3,c,F,라,Z
3,4,d,G,,
4,0,,,가,W


In [None]:
# df의 크기가 다르다면?
# 샘플 데이터
left_df = pd.DataFrame({
    'key':list('12345'),
    'A' : list('abcdT'),
    'B' : list('DEFGS')
})

right_df = pd.DataFrame({
    'key':list('0123'),
    'C' : list('가나다라'),
    'D' : list('WXYZ')
})
display(left_df), display(right_df)

Unnamed: 0,key,A,B
0,1,a,D
1,2,b,E
2,3,c,F
3,4,d,G
4,5,T,S


Unnamed: 0,key,C,D
0,0,가,W
1,1,나,X
2,2,다,Y
3,3,라,Z


(None, None)

In [None]:
pd.merge(left_df, right_df)

Unnamed: 0,key,A,B,C,D
0,1,a,D,나,X
1,2,b,E,다,Y
2,3,c,F,라,Z


### 5-3-2.concat
- 단순 합치기
    - 동일 구조 df를 합칠때
        - 2개 이상 ~n개까지 한번에 진행 가능
        - axis = 0(기본값)으로 합치는게 일반적
    - 다른 구조 df를 합칠 때
        - 결측치가 발생할 소지가 있다.
        - 초기 데이터 병합시 사용
        - 중간에 필요에 의해서 병합 시도

In [None]:
pd.concat([left_df, right_df], axis = 1) # 옆으로 합침

Unnamed: 0,key,A,B,key.1,C,D
0,1,a,D,0.0,가,W
1,2,b,E,1.0,나,X
2,3,c,F,2.0,다,Y
3,4,d,G,3.0,라,Z
4,5,T,S,,,


In [None]:
pd.concat([left_df, right_df], axis = 0) # 아래 위로 합침

Unnamed: 0,key,A,B,C,D
0,1,a,D,,
1,2,b,E,,
2,3,c,F,,
3,4,d,G,,
4,5,T,S,,
0,0,,,가,W
1,1,,,나,X
2,2,,,다,Y
3,3,,,라,Z
