# 개요

- pandas (팬더스,판다스)
  - pandas is a **fast**, powerful, flexible and **easy** to use open source **data analysis** and manipulation tool,
built on top of the **Python programming language**.

- 파이썬 진영에서 R에 대응하는 라이브러리
  - pandas(분석) + sklearn(머신러닝) + statsmodels(통계) <-> R

- 자료구조
  - **Series** : 1차원
    - 배열(데이터) + 인덱스
  - **DataFrame** : 2차원
    - 배열(데이터) + 인덱스 + 컬럼

- 작업
  - 1단계 raw데이터 획득
    - 파일, 디비, ... (리소스로부터)
    - DataFrame 생성
  - 2단계 (아래 내용은 우선순위 없음)
    - 데이터 전처리
      - 정제, 클리닝 => 피처 엔지니어링
    - 데이터 추출
      - 원하는 데이터만 추출
    - 데이터 병합(통합, 합치기)
    - 집계, 피벗 => 기준이 범주형 데이터 => 인사이트 발견됨(숨겨진 의미를 찾을수 있음)
    - .....
  - 3단계 eda 시각화
    - 2단계에서 필요시 도입 할 수 있음
    - 파이썬 -> 정적, 일부동작
      - matplotlib, seaborn, ...
    - JS -> 인터렉티브
      - d3, js, ...
    - eda
      - 데이터 분석
      - 머신러닝/딥러닝 모델 학습시 데이터 적절한지 검토 활용

# 모듈 가져오기

In [None]:
import numpy as np
import pandas as pd

# 2.2.2
pd.__version__

'2.2.2'

# 자료구조

- Series
  - 1차원
  - 구성
    - Series = ndarray(데이터,1차원) + 인덱스

- DataFrame
  - 2차원
  - 구성
    - DataFrame = ndarray(데이터,1차원) + 인덱스 + 컬럼

## Series

In [None]:
# 더미 데이터
# np.nan : Not a Number, 결측치
data = [-1, 3, 5, np.nan, 7, 8]
data

[-1, 3, 5, nan, 7, 8]

In [None]:
# 기본 생성
vec = pd.Series(data)
'''
- 왼쪽 : 0~5, 자동부여(별도 지정 없으면) => 인덱스
- 오른쪽 : 데이터
- 위쪽 : 0 -> 이름, 지정한게 없어서 0으로 표기
- 타입 : float64. 단일타입
'''
vec

Unnamed: 0,0
0,-1.0
1,3.0
2,5.0
3,
4,7.0
5,8.0


In [None]:
# numpy를 생각하고 기능 사용 => 대부분 존재함
vec.dtype

vec.name = '더미데이터'
vec

Unnamed: 0,더미데이터
0,-1.0
1,3.0
2,5.0
3,
4,7.0
5,8.0


In [None]:
# 기본 체크
vec, vec.dtype, vec.shape, vec.size, vec.name

(0   -1.0
 1    3.0
 2    5.0
 3    NaN
 4    7.0
 5    8.0
 Name: 더미데이터, dtype: float64,
 dtype('float64'),
 (6,),
 6,
 '더미데이터')

In [None]:
# 기초 통계량 확인 -> 수치 데이터만 해당됨
# 문자열 데이터는 누락시킴
vec.describe()

Unnamed: 0,더미데이터
count,5.0
mean,4.4
std,3.577709
min,-1.0
25%,3.0
50%,5.0
75%,7.0
max,8.0


In [None]:
# 분리
# 데이터만 추출 -> 배열
type(vec.values), vec.values

(numpy.ndarray, array([-1.,  3.,  5., nan,  7.,  8.]))

In [None]:
# 인덱스
vec.index

RangeIndex(start=0, stop=6, step=1)

## DataFrame

- 특징
  - 동일한 크기(m)을 가진 Series n개를 모으면, 데이터프레임 구성 가능
    - (m, n) : shape
  - 데이터만 있어도 구성 가능

In [None]:
# 컬럼 데이터 구성
cols = list('ABCD')
cols

['A', 'B', 'C', 'D']

In [None]:
# 인덱스 데이터 구성
indexs = pd.date_range(start='20250410', periods=7)
indexs

DatetimeIndex(['2025-04-10', '2025-04-11', '2025-04-12', '2025-04-13',
               '2025-04-14', '2025-04-15', '2025-04-16'],
              dtype='datetime64[ns]', freq='D')

In [None]:
len(indexs), len(cols)

(7, 4)

In [None]:
# 더미데이터 구성
values = np.random.randn(len(indexs), len(cols)) # (7,4)
values

array([[ 0.27292125, -1.56510652, -1.39967363, -0.35989097],
       [ 0.81106363,  1.72815103,  0.56867028,  0.86237712],
       [ 0.94767552, -0.57410468,  0.47739868, -1.08372784],
       [-0.89101922, -0.16801599, -0.99324755, -1.31511747],
       [-1.97579791, -0.20163865,  0.07784691,  0.98327   ],
       [ 0.35570641, -1.52711546, -0.78685068,  0.1861155 ],
       [ 0.33042753,  1.00613291, -0.86121823,  2.52659115]])

In [None]:
# DataFrame 생성
df=pd.DataFrame(data=values,index=indexs,columns=cols)
df

Unnamed: 0,A,B,C,D
2025-04-10,0.272921,-1.565107,-1.399674,-0.359891
2025-04-11,0.811064,1.728151,0.56867,0.862377
2025-04-12,0.947676,-0.574105,0.477399,-1.083728
2025-04-13,-0.891019,-0.168016,-0.993248,-1.315117
2025-04-14,-1.975798,-0.201639,0.077847,0.98327
2025-04-15,0.355706,-1.527115,-0.786851,0.186115
2025-04-16,0.330428,1.006133,-0.861218,2.526591


In [None]:
# 데이터 경로
# '/content/drive/MyDrive/2. 데이터분석/res/customer_master.csv'

# csv(raw data, 이커머스에서 고객 마스터 데이터) -> df
source_path = '/content/drive/MyDrive/2. 데이터분석/data/customer_master.csv'
customer_master = pd.read_csv(source_path)

# 상위값 5개 출력 : head(), head(커스텀개수 지정가능)
customer_master.head()

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
4,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시


# 기초 점검

- 데이터 이해 -> 통찰(데이터 분석 목적)을 얻는 행위
  - 데이터는 무엇을 설명하는 것인가?

In [None]:
# df 로드되면 1순위 체크
# 데이터는 5천개, 컬럼 8개(데이터 1개는 8개의 특징으로 묘사된다)
customer_master.shape

'''
- 컬럼
  - 머신러닝에서는 특성, feature. label/정답/class
  - 통계에서는       독립변수,     종속변수
'''

'\n- 컬럼\n  - 머신러닝에서는 특성, feature. label/정답/class\n  - 통계에서는       독립변수,     종속변수\n'

In [None]:
# 상위값 체크 1개
customer_master.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [None]:
# 하위값 체크 1개
customer_master.tail(1)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
4999,HI349563,정지석,2019-07-31 22:49,horii_kanji@example.com,M,21,1998-02-06,서울특별시


In [None]:
# 무작위 샘플링값 체크 5개
customer_master.sample(5)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
3452,GD885447,최승율,2019-05-26 21:42,takeuchi_shidou@example.com,M,39,1980-06-21,대전광역시
2665,GD296025,박성찬,2019-04-23 19:56,yaguchi_meibi@example.com,F,72,1946-09-26,울산광역시
743,PL983619,김강산,2019-02-04 4:44,sawa_hikaru@example.com,F,24,1995-07-08,대전광역시
1475,PL229628,이혜린,2019-03-05 4:34,nagatomo_chinatsu@example.com,F,38,1980-08-15,서울특별시
543,HI737185,김시혁,2019-01-26 21:47,arita_yuuko@example.com,F,24,1994-12-27,대전광역시


In [None]:
# 타입 확인(컬럼별로 상이, 컬럼내에서는 동일)
customer_master.dtypes

# 나이를 제외하고는 모두 객체 => 문자열로 예상된다
# 나이 => 세대 구성 => 고객 분류 => 고객별 마케팅 재료

Unnamed: 0,0
customer_id,object
customer_name,object
registration_date,object
email,object
gender,object
age,int64
birth,object
pref,object


In [None]:
# 컬럼이 많은 경우 => 표현이 다 안됨 => T 검토 (피처 요약표본)
customer_master.dtypes # Series

Unnamed: 0,0
customer_id,object
customer_name,object
registration_date,object
email,object
gender,object
age,int64
birth,object
pref,object


In [None]:
# 성분 추출
# 컬럼 정보 추출
customer_master.columns

Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref'],
      dtype='object')

In [None]:
# 인덱스, 값 각각 출력 (생략)
customer_master.index, customer_master.values

(RangeIndex(start=0, stop=5000, step=1),
 array([['IK152942', '김서준', '2019-01-01 0:25', ..., 29, '1990-06-10',
         '대전광역시'],
        ['TS808488', '김예준', '2019-01-01 1:13', ..., 33, '1986-05-20',
         '인천광역시'],
        ['AS834628', '김도윤', '2019-01-01 2:00', ..., 63, '1956-01-02',
         '광주광역시'],
        ...,
        ['PL538517', '정준기', '2019-07-31 19:30', ..., 73, '1945-12-28',
         '대전광역시'],
        ['OA955088', '정도형', '2019-07-31 22:32', ..., 75, '1944-04-09',
         '부산광역시'],
        ['HI349563', '정지석', '2019-07-31 22:49', ..., 21, '1998-02-06',
         '서울특별시']], dtype=object))

In [None]:
# 결측검사
customer_master.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   customer_id        5000 non-null   object
 1   customer_name      5000 non-null   object
 2   registration_date  5000 non-null   object
 3   email              5000 non-null   object
 4   gender             5000 non-null   object
 5   age                5000 non-null   int64 
 6   birth              5000 non-null   object
 7   pref               5000 non-null   object
dtypes: int64(1), object(7)
memory usage: 312.6+ KB


In [None]:
# db.컬럼명 => 해당데이터만 추출 가능함
# 컬럼명은 자동으로 db의 속성으로 추가 -> 단, 컬럼명에 공백이 존재하면 생성 x
customer_master.age

Unnamed: 0,age
0,29
1,33
2,63
3,74
4,54
...,...
4995,77
4996,27
4997,73
4998,75


In [None]:
# 기초 통계 확인 -> 수치만 정리가 됨
customer_master.describe()

Unnamed: 0,age
count,5000.0
mean,50.0532
std,17.338607
min,20.0
25%,35.0
50%,50.0
75%,65.0
max,80.0


In [None]:
# age 컬럼 데이터를 가진 정렬(sort)해서 확인
# 고객은 20~80 분포
# 20대, 30대, 40대, ...  연령대별 군집 => 분석
customer_master.sort_values(by='age', ascending=True)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
3509,AS347661,최승균,2019-05-29 16:29,inui_masatoshi@example.com,M,20,1999-05-19,부산광역시
1432,OA912932,이예빈,2019-03-03 8:37,kanaya_satomi@example.com,F,20,1998-09-05,울산광역시
3597,HI652401,최민창,2019-06-02 14:14,hisano_sachie@example.com,F,20,1998-11-30,서울특별시
3531,PL248170,최의성,2019-05-30 15:31,sakurai_yuu@example.com,F,20,1999-01-14,부산광역시
3483,HI181798,최주승,2019-05-28 17:39,miyagi_yoshino@example.com,F,20,1999-07-20,대전광역시
...,...,...,...,...,...,...,...,...
926,GD595676,김은상,2019-02-12 0:13,hamano_stmaria@example.com,F,80,1938-10-16,서울특별시
3384,HD117235,최소율,2019-05-23 23:04,kuroiwa_kouji@example.com,M,80,1939-05-08,서울특별시
3323,HD771279,최온,2019-05-22 2:34,kitayama_kazuhisa@example.com,M,80,1939-04-25,인천광역시
3536,GD748823,최한민,2019-05-30 21:15,shiozawa_keiji@example.com,M,80,1938-10-16,인천광역시


# 데이터 추출

- df에서 원하는대로 데이터를 추출할 수 있어야 한다

### 기본 인덱싱

- 차원축소
  - DataFrame -> 인덱싱 -> Series -> 인덱싱 -> value
  - 매트릭스 -> 인덱싱 -> 백터 -> 인덱싱 -> 스칼라\
  - 2차원 -> 인덱싱 -> 1차원 -> 인덱싱 -> 0차원

- 특징
  - 데이터를 특정하는 요소 인덱스, 컬럼중 **기본인덱싱**은 **컬럼**을 기반

#### 차원축소

In [None]:
# 컬럼명 적용
data = customer_master['age']

# DF -> Series
type(data), data

(pandas.core.series.Series,
 0       29
 1       33
 2       63
 3       74
 4       54
         ..
 4995    77
 4996    27
 4997    73
 4998    75
 4999    21
 Name: age, Length: 5000, dtype: int64)

In [None]:
# 컬럼명에 공백이 내부나 등등 존재하면 아래처럼 표현 x
# 변수 ['컬럼 명] <= 이렇게만 사용 or 컬럼명 변경후 사용
customer_master.age

Unnamed: 0,age
0,29
1,33
2,63
3,74
4,54
...,...
4995,77
4996,27
4997,73
4998,75


#### 차원유지

In [None]:
# age 컬럼만 보고 싶은데, 차원은 유지하고 싶다(df로 보고 싶다)
# df[['컬럼명']]
age_df = customer_master[['age']]
age_df.shape, type(age_df)

((5000, 1), pandas.core.frame.DataFrame)

#### 특정 컬럼만 추출

In [None]:
# 모든 컬럼 확인
# 데이터를 잘 설명하는 문구인지 확인, 컬럼명에 공백이 있는지 확인
# 필요시 조정, 개별 수정, 전체 일괄 수정 가능함 > 함수사용
customer_master.columns

Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref'],
      dtype='object')

In [None]:
# 원본 데이터에서 특정 컬럼만 배치하여 데이터 추출 가능
customer_master[['customer_name','gender','age','registration_date']]

Unnamed: 0,customer_name,gender,age,registration_date
0,김서준,M,29,2019-01-01 0:25
1,김예준,F,33,2019-01-01 1:13
2,김도윤,F,63,2019-01-01 2:00
3,김시우,M,74,2019-01-01 4:48
4,김주원,M,54,2019-01-01 4:54
...,...,...,...,...
4995,정우석,F,77,2019-07-31 16:52
4996,정영훈,F,27,2019-07-31 19:09
4997,정준기,F,73,2019-07-31 19:30
4998,정도형,F,75,2019-07-31 22:32


#### 인덱스 데이터로 인덱싱을 한다면?

In [None]:
# 해당 되는 키가 없다 => 그런 컬럼은 없다
# 에러 발생
# customer_master[1]

### 기본 슬라이싱

- 차원 유지
- df[시작인덱스:끝인덱스:step]

In [None]:
customer_master.head()

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
0,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
4,GD892565,김주원,2019-01-01 4:54,oouchi_takashi@example.com,M,54,1965-08-05,울산광역시


In [None]:
# 기본 슬라이스 적용
# 1,3 이라는 표현 순번을 말하는것인지? 인덱스 값?
# 인덱스, 컬럼은 잠재적으로 0,1,2, 순서를 가지고 있다
customer_master[1:3]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시


In [None]:
# step 적용
customer_master[1:10:2]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
1,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
3,AS345469,김시우,2019-01-01 4:48,tsuruoka_kaoru@example.com,M,74,1945-03-25,인천광역시
5,AS265381,김하준,2019-01-01 5:51,kasai_yousuke@example.com,M,69,1949-08-09,서울특별시
7,HI791416,김지후,2019-01-01 7:03,hosoi_mayuko@example.com,F,30,1989-07-25,대구광역시
9,OA239766,김준우,2019-01-01 8:59,tamaki_yukiya@example.com,M,22,1997-01-12,인천광역시


### 인덱스 수정

In [None]:
index_count = len(customer_master.index)
index_count

5000

In [None]:
date_index = pd.date_range(start='20100101', periods=index_count)
date_index

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2023-08-31', '2023-09-01', '2023-09-02', '2023-09-03',
               '2023-09-04', '2023-09-05', '2023-09-06', '2023-09-07',
               '2023-09-08', '2023-09-09'],
              dtype='datetime64[ns]', length=5000, freq='D')

In [None]:
# 복사본
df = customer_master.copy(deep=True) # [:] # 처음부터 끝까지
df.index = date_index # 인덱스 교체
df.head(2)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시


In [None]:
# 1,3은 암묵적으로 적용되는 순번(인덱스, 0, 1, 2, ...)
# 인덱스, 값을 사용하는 것x
# 명시적 인덱스 값(2012-01-02) 사용하는것 => loc[]
# 암묵적 인덱스 값(0,1,2,..) 사용하는것 => iloc[]
df[1:3]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-02,TS808488,김예준,2019-01-01 1:13,tamura_shiori@example.com,F,33,1986-05-20,인천광역시
2010-01-03,AS834628,김도윤,2019-01-01 2:00,hisano_yuki@example.com,F,63,1956-01-02,광주광역시


### loc

- location 위치 정보를 이용하여 특정, 추출
  - 컬럼 값, 인덱스 값 사용
- 데이터 2차원
  - 2차원 좌표계로 표현(인덱스값,컬럼값)

#### 인덱스값 중심 표현

In [None]:
# df.loc['인덱스값']
res = df.loc[ '20100410' ] # 인덱싱 -> 차원축소 -> 시리즈

type(res), res

(pandas.core.series.Series,
 customer_id                         PL683089
 customer_name                            김태준
 registration_date           2019-01-05 14:06
 email                kagawa_miki@example.com
 gender                                     F
 age                                       28
 birth                             1991-06-14
 pref                                   광주광역시
 Name: 2010-04-10 00:00:00, dtype: object)

In [None]:
# 슬라이싱 -> 차원유지
# 시작값 <= 데이터 <= 끝값(포함됨)
df.loc[ '20100410':'20250413' ]

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-04-10,PL683089,김태준,2019-01-05 14:06,kagawa_miki@example.com,F,28,1991-06-14,광주광역시
2010-04-11,HI024535,김승호,2019-01-05 15:10,kaneko_mayuko1@example.com,F,45,1974-05-28,부산광역시
2010-04-12,HI026312,김성빈,2019-01-05 16:30,matsushima_kanji@example.com,M,60,1959-08-04,서울특별시
2010-04-13,OA510950,김주호,2019-01-05 18:40,momose_tamaki@example.com,F,59,1960-02-01,대구광역시
2010-04-14,PL924048,김민서,2019-01-05 18:47,kozaka_sachie@example.com,F,64,1955-04-23,울산광역시
...,...,...,...,...,...,...,...,...
2023-09-05,AS677229,정우석,2019-07-31 16:52,hirayama_risa@example.com,F,77,1941-10-17,대전광역시
2023-09-06,HD758694,정영훈,2019-07-31 19:09,nakahara_mahiru@example.com,F,27,1991-11-13,광주광역시
2023-09-07,PL538517,정준기,2019-07-31 19:30,tabata_yuu1@example.com,F,73,1945-12-28,대전광역시
2023-09-08,OA955088,정도형,2019-07-31 22:32,setouchi_hikaru@example.com,F,75,1944-04-09,부산광역시


In [None]:
res = df.loc[ ['20100410'] ] # 차원유지

#### 인덱스, 컬럼 조합 표현(좌표)

In [None]:
# 인덱스 -> 인덱싱, 컬럼 -> 인덱싱 => 차원축소 2회 => 스칼라
df.loc['20100410','customer_name']

'김태준'

In [None]:
# 차원축소 1회
df.loc['20100410',['customer_name']]

Unnamed: 0,2010-04-10
customer_name,김태준


In [None]:
# 차원축소 1회
df.loc[['20100410'],'customer_name']

Unnamed: 0,customer_name
2010-04-10,김태준


In [None]:
# 차원유지
df.loc[['20100410'],['customer_name']]

Unnamed: 0,customer_name
2010-04-10,김태준


#### 인덱스, 컬럼 조합 2

In [None]:
# 슬라이싱, 인덱싱 조함
# 해당 날짜에 해당되는 데이터중에서 고객명만 추출하시오
tmp = df.loc['20100410':'20100415',['customer_name']]
tmp

Unnamed: 0,customer_name
2010-04-10,김태준
2010-04-11,김승호
2010-04-12,김성빈
2010-04-13,김주호
2010-04-14,김민서
2010-04-15,김도영


In [None]:
# 실습 : 위와 같은 날짜에서 이름, 나이를 추출하시오 : (6:2)
# 1차원 슬라이싱, 2차원은 열고(순서를 변경)
df.loc['20100410':'20100415',['customer_name','age']]

Unnamed: 0,customer_name,age
2010-04-10,김태준,28
2010-04-11,김승호,45
2010-04-12,김성빈,60
2010-04-13,김주호,59
2010-04-14,김민서,64
2010-04-15,김도영,33


In [None]:
# 1차원 슬라이싱, 2차원 슬라이싱
df.loc['20100410':'20100415','customer_name':'age']

Unnamed: 0,customer_name,registration_date,email,gender,age
2010-04-10,김태준,2019-01-05 14:06,kagawa_miki@example.com,F,28
2010-04-11,김승호,2019-01-05 15:10,kaneko_mayuko1@example.com,F,45
2010-04-12,김성빈,2019-01-05 16:30,matsushima_kanji@example.com,M,60
2010-04-13,김주호,2019-01-05 18:40,momose_tamaki@example.com,F,59
2010-04-14,김민서,2019-01-05 18:47,kozaka_sachie@example.com,F,64
2010-04-15,김도영,2019-01-05 20:17,miyamoto_stmaria@example.com,F,33


#### 조건식 결합

- 백터(혹은 1차원, 혹은 Series)등 형태로 True or False가 세팅된 배열/시리즈등이 조건자리로 위치
- 포함되는 데이터와, 배제되는 데이터로 나뉘게 된다
- 포함되는 데이터만 추출

In [None]:
# 5천명의 고객중 4152명이 연령 30세 초과(>)
df[df.age > 30].shape, df.loc[df.age > 30].shape

((4152, 8), (4152, 8))

In [None]:
# df에서 email 데이터를 제외한 나머지 데이터만 추출 -> shape 확인
# 실습, drop 함수도 별도로 존재함
df.loc[ : , df.columns != 'email'].shape

(5000, 7)

In [None]:
# 람다 함수 활용 -> 블린을 반환하는 함수
df.loc[lambda df:df['age']==29].shape

(76, 8)

### iloc

- index location
  - 암묵적으로 존재하는 인덱스 값 활용
  - 순번(순서)등을 이용하여 추출 -> 실제적 좌표

In [None]:
# df.iloc[인덱스위치의 암묵적인 순번]
df.iloc[0] # 0 : 첫번째 데이터

Unnamed: 0,2010-01-01
customer_id,IK152942
customer_name,김서준
registration_date,2019-01-01 0:25
email,hirata_yuujirou@example.com
gender,M
age,29
birth,1990-06-10
pref,대전광역시


In [None]:
df.iloc[:,:].shape

(5000, 8)

In [None]:
# 인덱스이므로, 우측 경계 포함x
df.iloc[1:3,1:3].shape

(2, 2)

In [None]:
# 팬시 인덱싱 유사
# 원하는 데이터, 원하는 컬럼을 원하는 순서대로 배치
df.iloc[[1,10,4],[4,2,6]]

Unnamed: 0,gender,registration_date,birth
2010-01-02,F,2019-01-01 1:13,1986-05-20
2010-01-11,M,2019-01-01 15:13,1967-11-08
2010-01-05,M,2019-01-01 4:54,1965-08-05


In [None]:
df.columns

Index(['customer_id', 'customer_name', 'registration_date', 'email', 'gender',
       'age', 'birth', 'pref'],
      dtype='object')

- 기타 대부분 표현 방식은 loc와 유

### 블리언인덱싱

- customer_newer.csv 로드
- cus라는 변수명의 df를 구성

In [None]:
# 데이터 로드

cus = pd.read_csv('/content/drive/MyDrive/2. 데이터분석/data/customer_newer.csv')

cus.head(4)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,5.083333,5.0,7,3,1,2019-04-30,47
2,OA974876,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.583333,5.0,6,3,1,2019-04-30,47
3,HD024127,XXXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,4.5,7,2,1,2019-04-30,47


In [None]:
# 데이터 2953, 컬럼 18개
cus.shape

(2953, 18)

In [None]:
# 기본 분석
# is_deleted => 탈퇴여부
cus.is_deleted.value_counts() #값의 개수를 카운트 함수
# (특정 컬럼의 집계후 카운트 처리)

# 111명이 탈퇴, 현재 실 고객수는 2842명

Unnamed: 0_level_0,count
is_deleted,Unnamed: 1_level_1
0,2842
1,111


In [None]:
# 탈퇴하지 않는(현재 이용 고객) 고객들 정보만 tmp 변수로 모으시오
tmp = cus[cus.is_deleted == 0]

tmp.info()

# end_date 컬럼만 결측 => 실제 이용고객만 획듯

<class 'pandas.core.frame.DataFrame'>
Index: 2842 entries, 0 to 2952
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   customer_id        2842 non-null   object 
 1   name               2842 non-null   object 
 2   class              2842 non-null   object 
 3   gender             2842 non-null   object 
 4   start_date         2842 non-null   object 
 5   end_date           0 non-null      object 
 6   campaign_id        2842 non-null   object 
 7   is_deleted         2842 non-null   int64  
 8   class_name         2842 non-null   object 
 9   price              2842 non-null   int64  
 10  campaign_name      2842 non-null   object 
 11  mean               2842 non-null   float64
 12  median             2842 non-null   float64
 13  max                2842 non-null   int64  
 14  min                2842 non-null   int64  
 15  routine_flg        2842 non-null   int64  
 16  calc_date          2842 non-n

In [None]:
# 조건 1개
# 회원들중에 남성 혹은 여성 회원만 추출하시오 : 실습
cus.gender.value_counts()

Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
M,1553
F,1400


In [None]:
# 해당 컬럼을 구성하는 모든데이터 보여줌
cus.gender.unique()
# 이 컬럼 데이터는 범주형 데이터로 간주 -> 집계, 피벅의 대상이됨

array(['F', 'M'], dtype=object)

In [None]:
# 회원들중에 남성 혹은 여성 회원만 추출하시오
cus[cus.gender == 'F']

display(res.head(2)), res.shape

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-04-10,PL683089,김태준,2019-01-05 14:06,kagawa_miki@example.com,F,28,1991-06-14,광주광역시


(None, (1, 8))

In [None]:
# 조건 2개
# 회원들중 남성|여성, 가입기간이 40일 이상(>=)된 고객 회원만 추출하시오 : 실습
temp = cus[(cus.gender == 'M')&(cus.membership_period >= 40)]

display(temp.sample(2)), temp.shape

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
224,TS085215,XXXXX,C03,M,2015-08-01,,CA1,0,2_야간,6000,2_일반,5.25,5.0,7,2,1,2019-04-30,44
196,GD687485,XXXXX,C01,M,2015-08-01,,CA1,0,0_종일,10500,2_일반,4.916667,5.0,7,2,1,2019-04-30,44


(None, (265, 18))

# 데이터 삭제

- del
  - 파이썬 지원, 메모리 제거, 완전 삭제

- df의 drop
  - 원본 유지(**inplace** 매개변수가 False인 경우)
    - DataFrame에서 많은 함수 => 원본 조작하는 느낌 함수들 다수 존재 => 반환값이 DF이면 사본, 반환값이 없으면 원본조작
    - 명시적으로 설정 옵션 inplace
      - True : 원본수정, 반환값 x
      - False : 원본유지, 반환값 o
  - drop() : 옵셥 여부에 따라 반환값 다름
    - inplace 상황에 따라 다름
      - False : 특정 조건에 일치하는 데이터만 추출(특정 컬럼, 데이터를 삭제하고 추출)
      - True : 원본 수정하고 df 반환

In [None]:
# cus에서 'end_date'컬럼을 제외(배제)하고 나머지 전체 df 반환
# axis=0 => 1차원 대상 => 가로방향 드롭
# axis=1 => 2차원 대상 => 세로방향 드롭

# ((2953, 18) => (2953, 17))
cus.drop(['end_date'], axis=1).shape, cus.shape

((2953, 17), (2953, 18))

In [None]:
# 원본 조작, 위의 요구사항 동일하게 구성
cus.drop(['end_date'], axis=1, inplace=True)

In [None]:
# 원본 수정됨
cus.shape

(2953, 17)

In [None]:
# del 사용
del cus['name']

cus.shape

(2953, 16)

# (*)파생변수

- 컬럼 추가
  - dict에서 데이터 추가하는 방식과 유사
  ```
    # 사전에 원본에 대해 사본 작업 후, loc계열 사용 이후 적용해야 경고 메세지가 없음
    df['컬럼명'] = 데이터(df 데이터수와 동일)
  ```

In [None]:
df.head(1)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,29,1990-06-10,대전광역시


- 요구사항 mz세대 체크하는 용도
  - 컬럼명 : is_mz ( mz : 1985~2009)
    - o(old) : ~ 1969 <- 가정
    - x : 1970 ~ 1984
    - m : 1985 ~ 1994
    - z : 1995 ~ 2009
    - 알파('a'lpha) : 2010 ~
  
- 작업
  - 데이터 업데이트
    - 나이 컬럼 사용 언데이트 -> 확인(현재낧짜 - 생년월일:계산)
  - 파생변수 생성
    - is_mz

In [None]:
df.dtypes

Unnamed: 0,0
customer_id,object
customer_name,object
registration_date,object
email,object
gender,object
age,int64
birth,object
pref,object


In [None]:
day = '1990-06-10'
# 위의 문자열에서 1990을 추출하시오
day[:4]

# iz_mz : 참이면 1, 거짓이면 0
# df.birth의 데이터들을 '하나씩 접근'해서, day[:4] 잘라서, 정수 변환, 2025 - 1990 연산->나이
# 1985년 이후는 mz, 아니면 not mz => 추출한 년도값 < 1985

# 파이썬 => map()
# pandas => apply(), str, ...

'1990'

In [None]:
# age 컬럼을 2025년 기준으로 업데이트 수행
# 2025를 알아서 계산해서 세팅(업그레이드)

# Series
# x : '1990-06-10', '1990-01-01', '1995-06-10', ...
# 연나이 : 2025 - yyyy
# df['컬럼명'] = 데이터(df 데이터수와 동일)
df['age'] = df.birth.apply(lambda x:2025-int(x[:4]))

# is_mz, 알파세대 데이터는 없다는 전제하에 진행
# is_ma, 참이면 1, 거짓이면 0 <= 처리(실습), 이분법, 값세팅 => 상항연산자
df['is_mz'] = df['age'] <= 40 # True or False

# apply() 사용
df['is_mz'] = df.is_mz.apply(lambda x:1 if x else 0)

display(df.is_mz), df.shape

Unnamed: 0,is_mz
2010-01-01,1
2010-01-02,1
2010-01-03,0
2010-01-04,0
2010-01-05,0
...,...
2023-09-05,0
2023-09-06,1
2023-09-07,0
2023-09-08,0


(None, (5000, 9))

# 고급기능

## 집계(groupby)

- '범주형'(명목형, 순서형), 수치형(이산형) 대상이 됨

In [None]:
df.head(1)

Unnamed: 0,customer_id,customer_name,registration_date,email,gender,age,birth,pref,is_mz
2010-01-01,IK152942,김서준,2019-01-01 0:25,hirata_yuujirou@example.com,M,35,1990-06-10,대전광역시,1


- 기준 컬럼 1개 이용
  - 해당 컬럼이 인덱스로 배치
    - 고유한값 배치
  - 나머진 데이터를 이를 기준을 그룹화

In [None]:
# is_mz 기준 집계 -> 고객을 특정 기준으로 세분화 -> .... -> 마케팅, 전략 수립
df.groupby(['is_mz']).count()

Unnamed: 0_level_0,customer_id,customer_name,registration_date,email,gender,age,birth,pref
is_mz,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,3850,3850,3850,3850,3850,3850,3850,3850
1,1150,1150,1150,1150,1150,1150,1150,1150


In [None]:
# 모든 컬럼의 값이 동일(카운트로 계산) -> 특정 컬럼 선택 표현
temp = df.groupby(['is_mz']).count()[['age']]
temp.columns = ['고객수']
temp

Unnamed: 0_level_0,고객수
is_mz,Unnamed: 1_level_1
0,3850
1,1150


In [None]:
# 실습 gender 컬럼을 이용하여 집계하시오 (카운트)
temp = df.groupby(['gender']).count()[['age']]
temp.columns = ['성별']
temp

Unnamed: 0_level_0,성별
gender,Unnamed: 1_level_1
F,2485
M,2515


- 기준 컬럼 2개 사용(2개이상 포함)
  - 결과물에 레벨이 발생함
    - 인덱스 내에 단계가 발생
    - is_mz가 1일때 gender F or M 구분

In [None]:
temp = df.groupby(['is_mz','gender']).count()[['age']]
temp.columns = ['고객수']
temp
# 해석
# mz 여부에 상관없이 남여 비율이 거의 일정하다 (5:5)
# 머신러닝 등 에서 데이터를 나눠서 학습진행시, 남녀비율을 동일하게, mz비율을 동일하게 구성 -> '층화'

# 데이터가 천만개, 1회 학습할때 100개 사용 -> 무작위로 구성한 100개의 데이터내에
# 남녀비율, mz비율이 전체 데이터에 비율과 동일하게 구성되어야 한다

Unnamed: 0_level_0,Unnamed: 1_level_0,고객수
is_mz,gender,Unnamed: 2_level_1
0,F,1910
0,M,1940
1,F,575
1,M,575


- 집계시 적용할 함수
  - 집계를 통해서 데이터가 모였다
  - 이 데이터들을 어떻게 계산(합계, 평균, 표준편차, 분산, 정규화 처리,....)
  - agg()

In [None]:
cus.head(1)

Unnamed: 0,customer_id,class,gender,start_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,C01,F,2015-05-01,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47


In [None]:
# 데이터 2953개
cus.shape

(2953, 16)

In [None]:
# 공유한 고객 아이디 개수도 고객별로 1개
len(cus.customer_id.unique()) # 고객별로 1개

2953

In [None]:
cus.groupby('gender').agg({
    # 특정 컬럼을 집계 결과로 보고 싶고, 그 집계 내용도 상이하게 표현
    'is_deleted':'count',      # 탈퇴여부는 카운트로만 표기, 탈퇴자 비율 x
    # 변수 2개 집계를 통해서 탈퇴자 비율, 수를 표현 적절할듯 => 학습 정리때 시
    'price':'sum',             # 그룹의 총 구매액
    'membership_period':'mean' # 그룹별 평균 맴버쉽 기간
})

Unnamed: 0_level_0,is_deleted,price,membership_period
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,1400,11904000,23.372857
M,1553,13356000,23.373471


## 피벗(데이터내 숨겨진 의미 추출,파악)

- '범주형'(명목형, 순서형), 수치형(이산형) 대상이 됨

In [None]:
df = pd.read_excel('/content/drive/MyDrive/2. 데이터분석/data/sales.xlsx')

# 영업 데이터(소량, 영업부-)
df

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won
5,218895,Kulas Inc,Daniel Hilton,Debra Henley,CPU,2,40000,pending
6,218895,Kulas Inc,Daniel Hilton,Debra Henley,Software,1,10000,presented
7,412290,Jerde-Hilpert,John Smith,Debra Henley,Maintenance,2,5000,pending
8,740150,Barton LLC,John Smith,Debra Henley,CPU,1,35000,declined
9,141962,Herman LLC,Cedric Moss,Fred Anderson,CPU,2,65000,won


In [None]:
# random_state : 난수의 씨드를 설정하는 매개변수, 특정값 고정 -> 항상 같은 난수 발생 -> 재현성
df.sample(2, random_state=1)

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
13,307599,"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,Maintenance,3,7000,won


In [None]:
# frac=0.5 : 전체 모집합의 50%를 샘플링 하시오(표본추출), 샘플링 개수를 비율로 표현
tmp = df.sample(frac=0.5, random_state=1)

tmp.shape, df.shape, display(tmp)

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
13,307599,"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,Maintenance,3,7000,won
7,412290,Jerde-Hilpert,John Smith,Debra Henley,Maintenance,2,5000,pending
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
6,218895,Kulas Inc,Daniel Hilton,Debra Henley,Software,1,10000,presented
10,163416,Purdy-Kunde,Cedric Moss,Fred Anderson,CPU,1,30000,presented
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented


((8, 8), (17, 8), None)

In [None]:
# 실습 : Rep의 데이터중 고유한 데이터만 출력 -> 5명 확인
df.Rep.unique()

# 피벗의 대상 가능함

array(['Craig Booker', 'Daniel Hilton', 'John Smith', 'Cedric Moss',
       'Wendy Yule'], dtype=object)

In [None]:
# 매니저 2명
df.Manager.unique()

# 피벗의 대상 가능함

array(['Debra Henley', 'Fred Anderson'], dtype=object)

In [None]:
df.info() # Quantity, Price =>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Account   17 non-null     int64 
 1   Name      17 non-null     object
 2   Rep       17 non-null     object
 3   Manager   17 non-null     object
 4   Product   17 non-null     object
 5   Quantity  17 non-null     int64 
 6   Price     17 non-null     int64 
 7   Status    17 non-null     object
dtypes: int64(3), object(5)
memory usage: 1.2+ KB


In [None]:
# 인덱스 항목에 'Name' 컬럼 적용 -> 나머지는 알아서 세팅되게 시도(과거에는 문제 x)
# 데이터에 대해 어떤 설정도 없으면 무조건 평균(기본값) 처리로 시도함
# 과거에는 자동처리, 현재는 직접 지정(값에대한 컬럼을)
df_pv = pd.pivot_table(df, index=['Name'], values=['Quantity','Price'])
df_pv

# 사원별로 매출평균, 수량평균 표현

Unnamed: 0_level_0,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Barton LLC,35000.0,1.0
"Fritsch, Russel and Anderson",35000.0,1.0
Herman LLC,65000.0,2.0
Jerde-Hilpert,5000.0,2.0
"Kassulke, Ondricka and Metz",7000.0,3.0
Keeling LLC,100000.0,5.0
Kiehn-Spinka,65000.0,2.0
Koepp Ltd,35000.0,2.0
Kulas Inc,25000.0,1.5
Purdy-Kunde,30000.0,1.0


In [None]:
# 인덱스 레벨 구현
df_pv = df.pivot_table( index=['Manager', 'Rep', 'Name'],
                        values=['Quantity','Price'])
df_pv

# 해석
# Debra Henley가 관리하는 영업1(?)부의 부장 1명, 팀장 3명, 하위에 팀원 각각 2명
# 직원 관리 및 조직 내 서열관계 확인

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Price,Quantity
Manager,Rep,Name,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,Craig Booker,"Fritsch, Russel and Anderson",35000.0,1.0
Debra Henley,Craig Booker,Trantow-Barrows,15000.0,1.333333
Debra Henley,Daniel Hilton,Kiehn-Spinka,65000.0,2.0
Debra Henley,Daniel Hilton,Kulas Inc,25000.0,1.5
Debra Henley,John Smith,Barton LLC,35000.0,1.0
Debra Henley,John Smith,Jerde-Hilpert,5000.0,2.0
Fred Anderson,Cedric Moss,Herman LLC,65000.0,2.0
Fred Anderson,Cedric Moss,Purdy-Kunde,30000.0,1.0
Fred Anderson,Cedric Moss,Stokes LLC,7500.0,1.0
Fred Anderson,Wendy Yule,"Kassulke, Ondricka and Metz",7000.0,3.0


In [None]:
# 조직 기반에서 영업실적 확인
# 수치 처리시 값 Price로 축소
# 해당 그룹의 수치 데이터 평균, 개수, 합산 => groipby:agg, pv => aggfunc:매개변수
df_pv = df.pivot_table( index=['Manager', 'Rep', 'Name'],
                        values=['Price'],
                        aggfunc=['mean',len, 'sum']
                        )
'''
  - Keeling LLC	사원은 한번에 크게 팔았음, 매출 1위
  - Trantow-Barrows	거래 개수가 가장 높다 1위, 총 매출액은 적다 (저가 제품 판매 예측)
  - Jerde-Hilpert	매출 최하위 거래 1번, 5000(단가 하위)
  - ... -> 결과 도달
'''
df_pv
# 해석 추가 : 어떤 사원이 매출이 높은지, 낮은지, ...

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,mean,len,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Price,Price
Manager,Rep,Name,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Debra Henley,Craig Booker,"Fritsch, Russel and Anderson",35000.0,1,35000
Debra Henley,Craig Booker,Trantow-Barrows,15000.0,3,45000
Debra Henley,Daniel Hilton,Kiehn-Spinka,65000.0,1,65000
Debra Henley,Daniel Hilton,Kulas Inc,25000.0,2,50000
Debra Henley,John Smith,Barton LLC,35000.0,1,35000
Debra Henley,John Smith,Jerde-Hilpert,5000.0,1,5000
Fred Anderson,Cedric Moss,Herman LLC,65000.0,1,65000
Fred Anderson,Cedric Moss,Purdy-Kunde,30000.0,1,30000
Fred Anderson,Cedric Moss,Stokes LLC,7500.0,2,15000
Fred Anderson,Wendy Yule,"Kassulke, Ondricka and Metz",7000.0,1,7000


In [None]:
# 컬럼지정 -> 판매 제품 노출 -> 결측 관찰됨(팔지 못한 제품 확인)
# 어떤 제품을 어떤 영업인이 잘 파는지?
df_pv = df.pivot_table( index  =['Manager', 'Rep', 'Name'],
                        values =['Price'],
                        aggfunc=['mean', len, 'sum' ],
                        columns=['Product']
                        )

'''
  - Trantow-Barrows 다양한 품목 판매
'''
df_pv

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,mean,mean,mean,mean,len,len,len,len,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_2,Unnamed: 1_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Rep,Name,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3
Debra Henley,Craig Booker,"Fritsch, Russel and Anderson",35000.0,,,,1.0,,,,35000.0,,,
Debra Henley,Craig Booker,Trantow-Barrows,30000.0,5000.0,,10000.0,1.0,1.0,,1.0,30000.0,5000.0,,10000.0
Debra Henley,Daniel Hilton,Kiehn-Spinka,65000.0,,,,1.0,,,,65000.0,,,
Debra Henley,Daniel Hilton,Kulas Inc,40000.0,,,10000.0,1.0,,,1.0,40000.0,,,10000.0
Debra Henley,John Smith,Barton LLC,35000.0,,,,1.0,,,,35000.0,,,
Debra Henley,John Smith,Jerde-Hilpert,,5000.0,,,,1.0,,,,5000.0,,
Fred Anderson,Cedric Moss,Herman LLC,65000.0,,,,1.0,,,,65000.0,,,
Fred Anderson,Cedric Moss,Purdy-Kunde,30000.0,,,,1.0,,,,30000.0,,,
Fred Anderson,Cedric Moss,Stokes LLC,,5000.0,,10000.0,,1.0,,1.0,,5000.0,,10000.0
Fred Anderson,Wendy Yule,"Kassulke, Ondricka and Metz",,7000.0,,,,1.0,,,,7000.0,,


In [None]:
# pv를 만들때 적용
df_pv = df.pivot_table( index  =['Manager', 'Rep', 'Name'],
                        values =['Price'],
                        aggfunc=['mean', len, 'sum' ],
                        columns=['Product'],
                        fill_value=0 # 기본값으로 정수타입으로 설정
                        )
df_pv

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,mean,mean,mean,mean,len,len,len,len,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_2,Unnamed: 1_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Rep,Name,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3
Debra Henley,Craig Booker,"Fritsch, Russel and Anderson",35000.0,0.0,0.0,0.0,1,0,0,0,35000,0,0,0
Debra Henley,Craig Booker,Trantow-Barrows,30000.0,5000.0,0.0,10000.0,1,1,0,1,30000,5000,0,10000
Debra Henley,Daniel Hilton,Kiehn-Spinka,65000.0,0.0,0.0,0.0,1,0,0,0,65000,0,0,0
Debra Henley,Daniel Hilton,Kulas Inc,40000.0,0.0,0.0,10000.0,1,0,0,1,40000,0,0,10000
Debra Henley,John Smith,Barton LLC,35000.0,0.0,0.0,0.0,1,0,0,0,35000,0,0,0
Debra Henley,John Smith,Jerde-Hilpert,0.0,5000.0,0.0,0.0,0,1,0,0,0,5000,0,0
Fred Anderson,Cedric Moss,Herman LLC,65000.0,0.0,0.0,0.0,1,0,0,0,65000,0,0,0
Fred Anderson,Cedric Moss,Purdy-Kunde,30000.0,0.0,0.0,0.0,1,0,0,0,30000,0,0,0
Fred Anderson,Cedric Moss,Stokes LLC,0.0,5000.0,0.0,10000.0,0,1,0,1,0,5000,0,10000
Fred Anderson,Wendy Yule,"Kassulke, Ondricka and Metz",0.0,7000.0,0.0,0.0,0,1,0,0,0,7000,0,0


## 병합 (단순 합치기, 조인)

- 종류
  - concat()
    - 단순합치기
    - 결측 발생 확률이 높음
    - n개의 df를 합칠때 사용
    - 데이터의 컬럼이 동일할 경우 유용
    - 축의 방향성(axis)
  - merge()
    - sql의 join과 유사
    - 2개의 df을 합칠때
    - 통상 공통의 컬럼이 존재함

  - 특징
    - 데이터 획득 후 초기에 발생(데이터가 쪼개져서 전달받은 경우)
    - 분석 과정에 파생 변수 생성 -> 필요시 합쳐서 처리 : 필요시

### 더미데이터

In [None]:
left_df = pd.DataFrame({
    'key':list("1234"),
    'A'  :list("abcd"),
    'B'  :list("ABCD")
})

right_df = pd.DataFrame({
    'key':list("0123"),
    'C'  :list("wxyz"),
    'D'  :list("WXYZ")
})

display(left_df), display(right_df)

Unnamed: 0,key,A,B
0,1,a,A
1,2,b,B
2,3,c,C
3,4,d,D


Unnamed: 0,key,C,D
0,0,w,W
1,1,x,X
2,2,y,Y
3,3,z,Z


(None, None)

### merge

In [None]:
# 2개의 df 대상, 2개의 df에 중복된 컬럼 지정
pd.merge(left_df, right_df, on='key')
# on 값으로 지정된 컬럼 대상, 쌍방이 일치하는 데이터가 존재하는 경우, 해당 데이터만 모은다
# sql inner join
# 결측치가 임의로 발생

Unnamed: 0,key,A,B,C,D
0,1,a,A,x,X
1,2,b,B,y,Y
2,3,c,C,z,Z


In [None]:
# 같은 결론
pd.merge(left_df, right_df, on='key', how='inner')

Unnamed: 0,key,A,B,C,D
0,1,a,A,x,X
1,2,b,B,y,Y
2,3,c,C,z,Z


In [None]:
# left join
# 왼쪽 df는 유지, 이를 기준으로 오른쪽 병함, 일치되는 key값이 없으면 결측
pd.merge(left_df, right_df, on='key', how='left')

# 왼쪽 df는 변형x, 유지됨

Unnamed: 0,key,A,B,C,D
0,1,a,A,x,X
1,2,b,B,y,Y
2,3,c,C,z,Z
3,4,d,D,,


In [None]:
# right join : left join의 정반대 작용
pd.merge(left_df, right_df, on='key', how='right')

Unnamed: 0,key,A,B,C,D
0,0,,,w,W
1,1,a,A,x,X
2,2,b,B,y,Y
3,3,c,C,z,Z


In [None]:
# outer join : 양쪽을 모두 살림 -> 양쪽에서 결측 발생 가능성 있
pd.merge(left_df, right_df, on='key', how='outer')

Unnamed: 0,key,A,B,C,D
0,0,,,w,W
1,1,a,A,x,X
2,2,b,B,y,Y
3,3,c,C,z,Z
4,4,d,D,,


### concat

- 단순 합치기
  - 공통의 컬럼 -> 신경안씀
  - axis 축의 방향
  - n개를 합침
- 용도
  - 동일한 데이터가 n개로 쪼개져 있을때 유용

In [None]:
# 연속형 자료구조(통상 리스트에 df 모아두고 합치기)
# axis : 동일한 컬럼의 데이터라면 수직으로 늘리는게 유용 -> 데이터가 늘어남, axis=0, 기본값
# axis : 동일한 컬럼이 없다면 수평방향이 유용 -> 피처가 늘어남, axis=1
pd.concat([left_df, right_df], axis=0)

Unnamed: 0,key,A,B,C,D
0,1,a,A,,
1,2,b,B,,
2,3,c,C,,
3,4,d,D,,
0,0,,,w,W
1,1,,,x,X
2,2,,,y,Y
3,3,,,z,Z


In [None]:
pd.concat([left_df, right_df], axis=1)

Unnamed: 0,key,A,B,key.1,C,D
0,1,a,A,0,w,W
1,2,b,B,1,x,X
2,3,c,C,2,y,Y
3,4,d,D,3,z,Z


In [None]:
# 중복 등장 가능
pd.concat([left_df, right_df, left_df])

Unnamed: 0,key,A,B,C,D
0,1,a,A,,
1,2,b,B,,
2,3,c,C,,
3,4,d,D,,
0,0,,,w,W
1,1,,,x,X
2,2,,,y,Y
3,3,,,z,Z
0,1,a,A,,
1,2,b,B,,


# 기타(전처리)

In [None]:
# 더미데이터
tmp = pd.DataFrame({
    'A':[1, 2, np.nan, np.nan],
    'B':[4, 5, 3, 3],
    'C':[3, 1, np.nan, np.nan]
})
tmp

# 인덱스 2, 3번 데이터는 동일함(중복데이터)

Unnamed: 0,A,B,C
0,1.0,4,3.0
1,2.0,5,1.0
2,,3,
3,,3,


## 중복제거

In [None]:
tmp.drop_duplicates(inplace=True) # 원본반영
# tmp.drop_duplicates() # 중복 제거 = 사본 반환

tmp

Unnamed: 0,A,B,C
0,1.0,4,3.0
1,2.0,5,1.0
2,,3,


## 결측처리

- 삭제
  - 해당 데이터가 없어도 전체 데이터에 영향x (판단이 작용)
  - 대량의 로그 데이터

- 결측치 그대로 데이터로 인정, 사용

- 특정값 초기화 -> 보정
  - 0과 같은 특정값 부여
  - 이전 데이터의 값 적용
    - 시계열 데이터에 줄 많이 등장
      - 시간의 흐름에 따라 설정되는 데이터(주식/주가/코인/환율:금융데이터, IOT:센서데이터, 스마트팩토리, ...)
  - 이전/다음 데이터의 평균값 적용

In [None]:
tmp.info()
# 결측치 포함한 컬럼 A,C 컬럼, 카운트 수가 전체 엔트리 수와 다름

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       2 non-null      float64
 1   B       3 non-null      int64  
 2   C       2 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 96.0 bytes


In [None]:
# 결측 여부 판단 -> 데이터건건 확인
tmp.isna() # True => 결측

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,True,False,True


In [None]:
tmp.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,True,False,True


In [None]:
tmp.isnull().sum()
# 특정 컬럼에서 결측이 몇개 발생했는지 체크
# True:1, Fales:0

Unnamed: 0,0
A,1
B,0
C,1


## 컬럼명변경

In [None]:

# 서울시산업체현황.txt => df로 로드 처리, 구분자 sep='/t', header=2
data_path = '/content/drive/MyDrive/2. 데이터분석/data/서울시산업체현황.txt'
df = pd.read_csv(data_path, sep='\t', header=2)
df

Unnamed: 0,기간,자치구,동,사업체수,여성대표자,계,남,여,사업체수.1,종사자수,...,사업체수.15,종사자수.14,사업체수.16,종사자수.15,사업체수.17,종사자수.16,사업체수.18,종사자수.17,사업체수.19,종사자수.18
0,2018,합계,합계,823385,279711,5210936,2878227,2332709,30,462,...,1282,140121,35377,346219,28824,378366,23025,91104,69694,191423
1,2018,종로구,소계,39952,13442,265017,152717,112300,3,17,...,89,15658,850,13504,744,15888,909,6227,2448,7672
2,2018,종로구,사직동,3541,1191,49536,28658,20878,1,14,...,19,6312,86,967,103,870,95,1544,252,843
3,2018,종로구,삼청동,712,324,4577,2193,2384,-,-,...,4,1204,14,260,7,30,17,175,24,209
4,2018,종로구,부암동,565,240,3609,1706,1903,-,-,...,3,59,40,1424,15,148,16,40,83,362
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
445,2018,강동구,둔촌1동,19,4,341,230,111,-,-,...,2,8,2,158,-,-,-,-,3,5
446,2018,강동구,둔촌2동,1601,567,9718,4800,4918,-,-,...,2,69,84,575,60,3122,55,124,219,342
447,2018,강동구,암사1동,1916,677,5756,2957,2799,-,-,...,2,31,68,271,68,962,61,149,236,404
448,2018,강동구,천호2동,3736,1500,14933,7104,7829,-,-,...,3,102,98,604,159,1626,116,487,345,877


In [None]:
# 컬럼이 너무 많으면 T로 축 변경하여 수직으로 확인
# df.head(2).T
df.head(2)

Unnamed: 0,기간,자치구,동,사업체수,여성대표자,계,남,여,사업체수.1,종사자수,...,사업체수.15,종사자수.14,사업체수.16,종사자수.15,사업체수.17,종사자수.16,사업체수.18,종사자수.17,사업체수.19,종사자수.18
0,2018,합계,합계,823385,279711,5210936,2878227,2332709,30,462,...,1282,140121,35377,346219,28824,378366,23025,91104,69694,191423
1,2018,종로구,소계,39952,13442,265017,152717,112300,3,17,...,89,15658,850,13504,744,15888,909,6227,2448,7672


- 컬럼 변경 전략
  - df 구성 후 초반에 수행
    - 전체 변경
      - df.columns = ['','',...]
    - 부분적, 개별변경
      - dict로 매칭하여 변경
        {
          '원본이름':'신규이름'
        }
- 적용
  - 컬럼명이 데이터를 온전하게 대변하지 못할때
  - 공백이 있거나, 구성이 적절하지 못하다고 판단할때

In [None]:
# 부분 변경
df.rename(columns={
    # 매칭정보
    '계':'총계',
    '남':"총계-남",
    '여':"총계-여"
},inplace=True) # 원본반영

df.head(1)

Unnamed: 0,기간,자치구,동,사업체수,여성대표자,총계,총계-남,총계-여,사업체수.1,종사자수,...,사업체수.15,종사자수.14,사업체수.16,종사자수.15,사업체수.17,종사자수.16,사업체수.18,종사자수.17,사업체수.19,종사자수.18
0,2018,합계,합계,823385,279711,5210936,2878227,2332709,30,462,...,1282,140121,35377,346219,28824,378366,23025,91104,69694,191423


In [None]:
df.columns

Index(['기간', '자치구', '동', '사업체수', '여성대표자', '계', '남', '여', '사업체수.1', '종사자수',
       '사업체수.2', '종사자수.1', '사업체수.3', '종사자수.2', '사업체수.4', '종사자수.3', '사업체수.5',
       '종사자수.4', '사업체수.6', '종사자수.5', '사업체수.7', '종사자수.6', '사업체수.8', '종사자수.7',
       '사업체수.9', '종사자수.8', '사업체수.10', '종사자수.9', '사업체수.11', '종사자수.10',
       '사업체수.12', '종사자수.11', '사업체수.13', '종사자수.12', '사업체수.14', '종사자수.13',
       '사업체수.15', '종사자수.14', '사업체수.16', '종사자수.15', '사업체수.17', '종사자수.16',
       '사업체수.18', '종사자수.17', '사업체수.19', '종사자수.18'],
      dtype='object')

## apply(), str

- 데이터를 하나씩 접근해서, 전처리 수행 -> 다시 데이터로 세팅(수정), 파생변수 생성

In [None]:
# 총계 추출
temp = df['총계'].copy(deep=True)
temp.info()

<class 'pandas.core.series.Series'>
RangeIndex: 450 entries, 0 to 449
Series name: 총계
Non-Null Count  Dtype 
--------------  ----- 
450 non-null    object
dtypes: object(1)
memory usage: 3.6+ KB


In [None]:
# 데이터는 수치이지만, ',' 때문에 문자열로 처리되었음
temp.sample(5)

Unnamed: 0,총계
373,15578
27,3830
337,9011
441,7397
318,11110


In [None]:
%%time
# 데이터에 ,를 제거하여 정수로 처리하시오
# apply() 사용, 람다함수 가급적 사용
temp.apply(lambda x: int(x.replace(',','')))

CPU times: user 505 µs, sys: 67 µs, total: 572 µs
Wall time: 564 µs


Unnamed: 0,총계
0,5210936
1,265017
2,49536
3,4577
4,3609
...,...
445,341
446,9718
447,5756
448,14933


In [None]:
%%time
# str 사용, 문자열 데이터에 한해서 처리가능
temp.str.replace(',','').astype(int)

CPU times: user 1.7 ms, sys: 85 µs, total: 1.79 ms
Wall time: 1.8 ms


Unnamed: 0,총계
0,5210936
1,265017
2,49536
3,4577
4,3609
...,...
445,341
446,9718
447,5756
448,14933
