# 개요

- 데이터 분석에 앞서, 데이터 준비 과정 수행
- 준비, 분석에 핵심 라이브러리는 pandas


# pandas

- R의 핵심 데이터 타입인 데이터 프레임을 파이썬에 추가한 형태
- *R*에 대응하는 파이썬 진영의 핵심 모듈
- **Python Data Analysis Library**
- 공식사이트  
https://pandas.pydata.org/
- API 참고  
https://pandas.pydata.org/docs/reference/index.html

In [1]:
# 1. 모듈 가져오기
import numpy as np
import pandas as pd

In [None]:
# 2. 버전 확인
np.__version__, pd.__version__

('1.18.5', '1.0.5')

##  Series

- 1-dimension, 1차원
- index와 value를 가짐

In [None]:
# 데이터는 임의로 부여해 생성
# np.nan : 결측치, None 정도로 생각
# 타입이 자동으로 float로 설정(기본타입)
# index를 별도로 부여하지 않으면 0부터 자동 부여(암묵적/묵시적인 인덱스값)
# Series가 가지고 있는 데이터들의 타입은 모두 동일 = 단일 타입
a = pd.Series([1, 3, 5, np.nan, 6, 8]) 
a

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [None]:
# 데이터를 살펴본다
# 데이터를 준비, 분석하는 것의 결론 = 통찰을 얻는 것

# 1. 타입
# dtype은 Series(1차원), dtypes는 DataFrame(2차원)
a.dtype

dtype('float64')

In [None]:
# 2. 데이터의 shape, 모양, 크기, volume
# a는 1차원 데이터로서 6개 데이터 존재
# shape의 결과물이 tuple (1차원, 2차원, 3차원, ...)
# 차원은 shape의 멤버수와 동일
a.shape, len(a.shape)

((6,), 1)

In [None]:
# 3. 차원
len(a.shape), a.ndim

(1, 1)

## DataFrame

- 데이터 분석 시 가장 많이 사용되는 자료구조
- 2-Dimension
- Series에서 차원이 하나 올라가거나, Series가 2개 이상 모이면 DataFrame이라고 할 수 있음
- DataFrame → 추출 → Series : 차원 축소

---

- 구성원
  - index(인덱스) : 왼쪽에 위치, 데이터의 개수와 크기를 같이 함, 생략 가능
  - column(컬럼) : 데이터의 특성(feature)을 설명, 상단에 위치, 생략 가능
  - value(값) : 실제 데이터를 의미, 중앙에 위치

In [None]:
# DataFrame 생성
cols = list('ABCD')

In [None]:
# indexs = pd.date_range( '20200519', periods=60)
indexs = pd.date_range( '20200519', periods=7)
indexs, indexs.shape[0], len(indexs)

(DatetimeIndex(['2020-05-19', '2020-05-20', '2020-05-21', '2020-05-22',
                '2020-05-23', '2020-05-24', '2020-05-25'],
               dtype='datetime64[ns]', freq='D'), 7, 7)

In [None]:
# 데이터는 임의로 만들겠음(난수)
# df의 shape : (7, 4)
# datas  = np.random.randn(7, 4)
# 수치를 직접 쓰지 않고, 입력 데이터의 크기에 맞춰서 생성
datas = np.random.randn(indexs.shape[0], len(cols))
datas, datas.shape

(array([[ 0.48003743,  1.43834589, -0.5667081 , -1.32281486],
        [-1.07911679, -0.59035555,  0.65940679, -1.14458972],
        [-1.42800008, -0.75032253,  1.71902715, -1.53340605],
        [ 1.79682931, -0.50611966, -2.04313102, -0.65726177],
        [-1.34063376, -0.03063939, -1.16293432,  0.7369991 ],
        [ 2.49002356,  1.29469129,  0.3306114 , -1.41391746],
        [ 0.42712572, -0.20803391, -0.15863651, -0.13052354]]), (7, 4))

In [None]:
df =  pd.DataFrame( datas, indexs, cols)
df

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


## Viewing
- DF를 얻고 나서 수행하는 기본 검토 사항
- 통찰

In [None]:
# 1. 데이터 값 확인
# 상위값 확인, 기본 5개
df.head()

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999


In [None]:
df.head(2)

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459


In [None]:
# 하위값 확인
df.tail

<bound method NDFrame.tail of                    A         B         C         D
2020-05-19  0.480037  1.438346 -0.566708 -1.322815
2020-05-20 -1.079117 -0.590356  0.659407 -1.144590
2020-05-21 -1.428000 -0.750323  1.719027 -1.533406
2020-05-22  1.796829 -0.506120 -2.043131 -0.657262
2020-05-23 -1.340634 -0.030639 -1.162934  0.736999
2020-05-24  2.490024  1.294691  0.330611 -1.413917
2020-05-25  0.427126 -0.208034 -0.158637 -0.130524>

In [None]:
df.tail(1)

Unnamed: 0,A,B,C,D
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


In [None]:
# 개별 요소 확인
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
df.index

DatetimeIndex(['2020-05-19', '2020-05-20', '2020-05-21', '2020-05-22',
               '2020-05-23', '2020-05-24', '2020-05-25'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.values, type(df.values)

(array([[ 0.48003743,  1.43834589, -0.5667081 , -1.32281486],
        [-1.07911679, -0.59035555,  0.65940679, -1.14458972],
        [-1.42800008, -0.75032253,  1.71902715, -1.53340605],
        [ 1.79682931, -0.50611966, -2.04313102, -0.65726177],
        [-1.34063376, -0.03063939, -1.16293432,  0.7369991 ],
        [ 2.49002356,  1.29469129,  0.3306114 , -1.41391746],
        [ 0.42712572, -0.20803391, -0.15863651, -0.13052354]]), numpy.ndarray)

In [None]:
# df가 주어지면 가장 먼저 할 일
df.shape

(7, 4)

In [None]:
# 데이터 타입
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [None]:
# 기본정보
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 7 entries, 2020-05-19 to 2020-05-25
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       7 non-null      float64
 1   B       7 non-null      float64
 2   C       7 non-null      float64
 3   D       7 non-null      float64
dtypes: float64(4)
memory usage: 280.0 bytes


In [None]:
# 통계 요약 : 개수, 산술평균, 표준편차, 최소값, 25%, 50%, 75%, 최대값
df.describe()

Unnamed: 0,A,B,C,D
count,7.0,7.0,7.0,7.0
mean,0.192324,0.092509,-0.174624,-0.780788
std,1.559046,0.903423,1.235506,0.830182
min,-1.428,-0.750323,-2.043131,-1.533406
25%,-1.209875,-0.548238,-0.864821,-1.368366
50%,0.427126,-0.208034,-0.158637,-1.14459
75%,1.138433,0.632026,0.495009,-0.393893
max,2.490024,1.438346,1.719027,0.736999


In [None]:
# B열 데이터 기준으로 데이터를 정렬하시오. 내림차순.
df.sort_values(by = 'B', ascending = False)

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406


In [None]:
# 정렬의 기준 방향과 정렬되는 축의 방향이 부적합 → 오류
try :
  df.sort_values(by = 'B', axis = 1, ascending = False)
except Exception as e :
  print("정렬 기준과 축의 방향이 불일치")

정렬 기준과 축의 방향이 불일치


## 기본 조작(데이터 추출)

- 데이터를 분석하기 위해 raw 데이터를 수단과 방법을 가리지 않고 DataFrame으로 만든다면, 그 다음 주제는 데이터 조작(다루기)
- 데이터 추출, 파생변수(신규column) 생성, 통계적 정보 추출, ...

### indexing

- 값을 추출
- 차원 축소 발생
  - DataFrame에서 인덱싱 → Series
  - Series에서 인덱싱 → value(스칼라)
- 문법
  - 변수명 [ 키 ]
  - pandas에서는?

In [None]:
df

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
df.columns[0]

'A'

In [None]:
# column은 사라지고, index만 살아남음
# column명의 타입 및 값을 명확하게 알고 있을 때만, 직접 기입
df['A'], type(df['A']), df[df.columns[0]]

(2020-05-19    0.480037
 2020-05-20   -1.079117
 2020-05-21   -1.428000
 2020-05-22    1.796829
 2020-05-23   -1.340634
 2020-05-24    2.490024
 2020-05-25    0.427126
 Freq: D, Name: A, dtype: float64,
 pandas.core.series.Series,
 2020-05-19    0.480037
 2020-05-20   -1.079117
 2020-05-21   -1.428000
 2020-05-22    1.796829
 2020-05-23   -1.340634
 2020-05-24    2.490024
 2020-05-25    0.427126
 Freq: D, Name: A, dtype: float64)

In [None]:
# 데이터 프레임의 인덱싱 수행 시 값으로 인덱스 값을 넣음
try :
  df['2020-05-19']
except Exception as e :
  print(e, "인덱스 값은 df의 인덱싱 수행 시 사용할 수 없음")

'2020-05-19' 인덱스 값은 df의 인덱싱 수행 시 사용할 수 없음


In [None]:
# column명은 자동으로 df의 멤버 변수로 생성됨
df.A

2020-05-19    0.480037
2020-05-20   -1.079117
2020-05-21   -1.428000
2020-05-22    1.796829
2020-05-23   -1.340634
2020-05-24    2.490024
2020-05-25    0.427126
Freq: D, Name: A, dtype: float64

### slicing

- 데이터를 자름
- 차원 유지
  - df 슬라이싱 → df
  - Series 슬라이싱 → Series
- 문법
  - 변수 [ 시작인덱스 : 끝인덱스 : step(통상생략, 기본값 1) ]

In [None]:
# 원본 작업인가 사본작업인가?
# 카피(처음부터 끝까지) → 사본 출력
df[:]

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


In [None]:
# 1, 2번째 데이터만 추가(순서는 0부터 카운트)
df[1:3]

Unnamed: 0,A,B,C,D
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406


In [None]:
# 데이터가 하나씩 건너뜀. 여기서는 홀수날만.
# 3번 인자 step도 정상적으로 적용됨
df[::2]

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


In [None]:
# slicing 자리에 column값을 부여하면 안 됨
try :
  df['A' : 'C']
except Exception as e :
  pass

In [None]:
# x <= rkqtm <= y, 끝 경계값을 포함
df['2020-05-21' : '2020-05-25']

Unnamed: 0,A,B,C,D
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


- 전통적인 인덱싱, 슬라이싱 기법을 적용할 경우
  - 각 방향 별로 한계점이 존재(사용못하는 케이스가 존재)
  - 데이터가 연속적이여만 추출이 가능

In [None]:
# 인덱싱, 슬라이싱 응용
df[df.columns[:2]][:2]

Unnamed: 0,A,B
2020-05-19,0.480037,1.438346
2020-05-20,-1.079117,-0.590356


In [None]:
# A만 구할 건데, 차원은 유지하고 싶음
df[df.columns[:1]]

Unnamed: 0,A
2020-05-19,0.480037
2020-05-20,-1.079117
2020-05-21,-1.428
2020-05-22,1.796829
2020-05-23,-1.340634
2020-05-24,2.490024
2020-05-25,0.427126


In [None]:
df[['A']]

Unnamed: 0,A
2020-05-19,0.480037
2020-05-20,-1.079117
2020-05-21,-1.428
2020-05-22,1.796829
2020-05-23,-1.340634
2020-05-24,2.490024
2020-05-25,0.427126


### loc

- location 정보를 이용하여 데이터를 추출
- 실제 인덱스값 혹은 column명을 사용
- df.loc[ 표현 ]

In [None]:
# 2020-05-25 데이터를 추출하시오.
# DataFrame에서 차원 축소가 1회 진헹 → 산출물 : Series
df.loc['2020-05-25']

A    0.427126
B   -0.208034
C   -0.158637
D   -0.130524
Name: 2020-05-25 00:00:00, dtype: float64

In [None]:
# 2020-05-25 데이터를 추출하시오. 단, C컬럼만.
# DataFrame에서 차원 축소가 2회(인덱스에서 1회, 컬럼에서 1회) 진헹 → 산출물 : Scalar
df.loc['2020-05-25', 'C']

-0.15863650570267

- df.loc[ 인덱스값 혹은 슬라이싱값, 컬럼값 혹은 컬럼값 슬라이싱 ]
- df.loc[ 1-D표현, 2-D표현 ]

In [None]:
# 위와 동일한 결과인데 2-D를 유지하고 싶다.
df.loc[ '2020-05-25':'2020-05-25', ['C'] ]

Unnamed: 0,C
2020-05-25,-0.158637


In [None]:
# Column쪽에서 차원축소가 진행되었으므로 Series로 결과 나옴
df.loc[ '2020-05-25':'2020-05-25', 'C' ]

2020-05-25   -0.158637
Freq: D, Name: C, dtype: float64

In [None]:
# 인덱스 쪽에서 차원축소가 진행되었으므로 Series로 결과 나옴
df.loc[ '2020-05-25', ['C'] ]

C   -0.158637
Name: 2020-05-25 00:00:00, dtype: float64

In [None]:
# column은 비연속적으로 자유롭게 배치 가능
# index는 비연속적으로 배치된 데이터 구할 수 있음 (단, 특정 가격 단위로만)
df.loc[ '2020-05-21':'2020-05-25':2, ['C', 'A'] ]

Unnamed: 0,C,A
2020-05-21,1.719027,-1.428
2020-05-23,-1.162934,-1.340634
2020-05-25,-0.158637,0.427126


### iloc

- numpy의 펜시인덱싱 기법과 거의 동일
- index locaion 정보(행과 열의 번호)를 이용해 데이터를 추출
- 인덱스 값만 사용해 처리(숫자만 써야함)
- df.iloc[ 표현 ]

In [None]:
df

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


In [None]:
# 1 → 차원축소 → Series
# index 중 2번째 data 추출
df.iloc[1]

A   -1.079117
B   -0.590356
C    0.659407
D   -1.144590
Name: 2020-05-20 00:00:00, dtype: float64

In [None]:
# 1차원, 2차원을 각각 표현해서 추출
# 차원유지
df.iloc[1:3, 1:3]

Unnamed: 0,B,C
2020-05-20,-0.590356,0.659407
2020-05-21,-0.750323,1.719027


In [None]:
# 펜시 인덱싱 기법 적용
# 원하는 행과 열을 마음대로 배치해서 나열
# 비연속적인 데이터를 원하는 순서대로 추출 可
df.iloc[ [3, 5, 1, 2], [3, 1] ]

Unnamed: 0,D,B
2020-05-22,-0.657262,-0.50612
2020-05-24,-1.413917,1.294691
2020-05-20,-1.14459,-0.590356
2020-05-21,-1.533406,-0.750323


### 블리언 인덱싱

In [None]:
# 특정 조건을 만족하는 데이터만 추출
# iloc + 조건식(T/F) → boolean indexing

# df에서 B컬럼의 값들 중 양수인 데이터만 추출해라
# 블리언 인덱싱의 결과로 블리언 데이터만 나오면 그 중에 참인 데이터만 추출됨
df[ df.B > 0 ]

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-24,2.490024,1.294691,0.330611,-1.413917


In [None]:
df.C > 0

2020-05-19    False
2020-05-20     True
2020-05-21     True
2020-05-22    False
2020-05-23    False
2020-05-24     True
2020-05-25    False
Freq: D, Name: C, dtype: bool

In [None]:
df > 0 

Unnamed: 0,A,B,C,D
2020-05-19,True,True,False,False
2020-05-20,False,False,True,False
2020-05-21,False,False,True,False
2020-05-22,True,False,False,False
2020-05-23,False,False,False,True
2020-05-24,True,True,True,False
2020-05-25,True,False,False,False


In [None]:
# 데이터 전체(df 단위)를 조건식을 부여하면, 해당되지 않는 데이터는 NaN으로 대체됨
df[ df > 0 ]

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,,
2020-05-20,,,0.659407,
2020-05-21,,,1.719027,
2020-05-22,1.796829,,,
2020-05-23,,,,0.736999
2020-05-24,2.490024,1.294691,0.330611,
2020-05-25,0.427126,,,


In [None]:
df

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999
2020-05-24,2.490024,1.294691,0.330611,-1.413917
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524


### 기타 기본 표현

In [None]:
# 데이터 추가
new_data = [ '월', '월', '화', '목', '토', '수', '금']
new_data

['월', '월', '화', '목', '토', '수', '금']

In [None]:
# column 추가/수정 → 파생 변수를 생성
# 변수[ '키' ] = 값
df['E'] = new_data
df

Unnamed: 0,A,B,C,D,E
2020-05-19,0.480037,1.438346,-0.566708,-1.322815,월
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459,월
2020-05-21,-1.428,-0.750323,1.719027,-1.533406,화
2020-05-22,1.796829,-0.50612,-2.043131,-0.657262,목
2020-05-23,-1.340634,-0.030639,-1.162934,0.736999,토
2020-05-24,2.490024,1.294691,0.330611,-1.413917,수
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524,금


In [None]:
# 데이터 조사 → 그런 값을 가지고 있는가?
df.E.isin( ['화', '금'] )

2020-05-19    False
2020-05-20    False
2020-05-21     True
2020-05-22    False
2020-05-23    False
2020-05-24    False
2020-05-25     True
Freq: D, Name: E, dtype: bool

In [None]:
# E항 데이터 중에 화, 금 값이 존재하면 해당 데이터만 추출
df[ df.E.isin( ['화', '금'] ) ]

Unnamed: 0,A,B,C,D,E
2020-05-21,-1.428,-0.750323,1.719027,-1.533406,화
2020-05-25,0.427126,-0.208034,-0.158637,-0.130524,금


In [None]:
# apply (중요, pandas) ↔ map(python)
# apply는 모든 구성원을 돌면서 일괄적인 처리를 수행
# dataframe, series에서도 모두 적용 可
# cumsum : 누적합
df.apply( np.cumsum )

Unnamed: 0,A,B,C,D,E
2020-05-19,0.480037,1.438346,-0.566708,-1.322815,월
2020-05-20,-0.599079,0.84799,0.092699,-2.467405,월월
2020-05-21,-2.027079,0.097668,1.811726,-4.000811,월월화
2020-05-22,-0.23025,-0.408452,-0.231405,-4.658072,월월화목
2020-05-23,-1.570884,-0.439091,-1.39434,-3.921073,월월화목토
2020-05-24,0.91914,0.8556,-1.063728,-5.334991,월월화목토수
2020-05-25,1.346265,0.647566,-1.222365,-5.465514,월월화목토수금


In [None]:
# E항이 문자열이라 처리가 안 됨, 가로 방향 불가
try :
  df.apply( np.cumsum, 1 )
except Exception as e :
  print("Error")

Error


In [None]:
# column 제거
# del : 해당 객체의 레퍼런스를 감소시킴 → 해제
# 파이썬으로 수행
del df['E']
df.head(3)

Unnamed: 0,A,B,C,D
2020-05-19,0.480037,1.438346,-0.566708,-1.322815
2020-05-20,-1.079117,-0.590356,0.659407,-1.14459
2020-05-21,-1.428,-0.750323,1.719027,-1.533406


In [None]:
# axis = 0일 때는 index, axis = 1일 때는 column
# inplace : 원본에 반영할 것인가
# pandas에서 수행
df.drop( ['E'], 1, inplace = True )
df

KeyError: ignored

In [None]:
# 기타 통계 함수
# x : column들이 들어온다 ← df에서 apply 적용 시
# Series에서는 값 하나하나가 x가 됨
df.apply( lambda x:x.max()-x.min() )

In [None]:
df.max()

## pandas 고급


### 피벗 테이블
- https://colab.research.google.com/drive/1sWgXAv7uP1fAQER_m0akc9KK_dgIlIsF?usp=sharing

### groupby

### 병합(merge, concat)

- DataFrame n개를 1개의 DataFrame으로 합치는 기능


In [None]:
# 기본 재료 만들기
left = pd.DataFrame( {
    'key' : list('1234'), 
    'A' : list('ABCD'), 
    'B' : list('abcd')
} )
left

Unnamed: 0,key,A,B
0,1,A,a
1,2,B,b
2,3,C,c
3,4,D,d


In [None]:
left.shape

(4, 3)

In [None]:
right = pd.DataFrame( {
    'key' : list('0123'), 
    'C' : list('가나다라'), 
    'D' : list('WXYZ')
} )
right

Unnamed: 0,key,C,D
0,0,가,W
1,1,나,X
2,2,다,Y
3,3,라,Z


- 데이터 프레임 2개에는 각각 공통된 column key가 존재
- key값은 부분만 일치

#### merge

- 2개의 데이터프레임을 1개로 묶는 역할
- 병합되는 데이터프레임 간 공통된 컬럼이 존재해야됨
- database의 sql 내용 중 join과 유사

In [None]:
# 별도로 표시하지 않아도 공통된 컬럼을 찾아서 상호 일치되는 데이터만 묶어서 df를 새로 생성 : 교집합
# 공통된 키는 명확하게 지정해주는 것이 좋음
# left -> right, 나열한 순서
pd.merge( left, right )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z


In [None]:
pd.merge( right, left, on = 'key' )

Unnamed: 0,key,C,D,A,B
0,1,나,X,A,a
1,2,다,Y,B,b
2,3,라,Z,C,c


In [None]:
# 합집합, 데이터를 다 붙이고 맞지 않는(비어있는) 부분은 모두 결측 처리
pd.merge( left, right, on = "key", how = 'outer' )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z
3,4,D,d,,
4,0,,,가,W


In [None]:
# inner가 기본 방식
pd.merge( left, right, on = "key", how = 'inner' )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z


#### concat

- 단순 합치기
- 개수는 관계 없음
- 방향성 : 수직, 수형 -> axis = 0 or 1

In [None]:
# 수직 방향으로 붙임, 없는 부분은 결측치 처리, key도 공통값들이 등장
pd.concat( [ left, right ] )

Unnamed: 0,key,A,B,C,D
0,1,A,a,,
1,2,B,b,,
2,3,C,c,,
3,4,D,d,,
0,0,,,가,W
1,1,,,나,X
2,2,,,다,Y
3,3,,,라,Z


In [None]:
pd.concat( [ left, right ], sort = True )

Unnamed: 0,A,B,C,D,key
0,A,a,,,1
1,B,b,,,2
2,C,c,,,3
3,D,d,,,4
0,,,가,W,0
1,,,나,X,1
2,,,다,Y,2
3,,,라,Z,3


In [None]:
# 수평 합치기
pd.concat( [ left, right ], sort = True, axis = 1 )

Unnamed: 0,key,A,B,key.1,C,D
0,1,A,a,0,가,W
1,2,B,b,1,나,X
2,3,C,c,2,다,Y
3,4,D,d,3,라,Z
