# 개요

- 데이터 분석에 앞서, 데이터 준비 과정 수행
- 준비, 분석에 핵심 라이브러리는 pandas


# pandas

- R의 핵심 데이터 타입인 데이터 프레임을 파이썬에 추가한 형태
- *R*에 대응하는 파이썬 진영의 핵심 모듈
- **Python Data Analysis Library**
- 공식사이트  
https://pandas.pydata.org/
- API 참고  
https://pandas.pydata.org/docs/reference/index.html

In [1]:
!pip install numpy
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the &#39;/usr/bin/python3 -m pip install --upgrade pip&#39; command.[0m
Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the &#39;/usr/bin/python3 -m pip install --upgrade pip&#39; command.[0m


In [2]:
# 1. 모듈 가져오기
import numpy as np
import pandas as pd

In [3]:
# 2. 버전 확인
np.__version__, pd.__version__

(&#39;1.19.2&#39;, &#39;1.1.2&#39;)

##  Series

- 1-dimension, 1차원
- index와 value를 가짐

In [4]:
# 데이터는 임의로 부여해 생성
# np.nan : 결측치, None 정도로 생각
# 타입이 자동으로 float로 설정(기본타입)
# index를 별도로 부여하지 않으면 0부터 자동 부여(암묵적/묵시적인 인덱스값)
# Series가 가지고 있는 데이터들의 타입은 모두 동일 = 단일 타입
a = pd.Series([1, 3, 5, np.nan, 6, 8]) 
a

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [5]:
# 데이터를 살펴본다
# 데이터를 준비, 분석하는 것의 결론 = 통찰을 얻는 것

# 1. 타입
# dtype은 Series(1차원), dtypes는 DataFrame(2차원)
a.dtype

dtype(&#39;float64&#39;)

In [6]:
# 2. 데이터의 shape, 모양, 크기, volume
# a는 1차원 데이터로서 6개 데이터 존재
# shape의 결과물이 tuple (1차원, 2차원, 3차원, ...)
# 차원은 shape의 멤버수와 동일
a.shape, len(a.shape)

((6,), 1)

In [7]:
# 3. 차원
len(a.shape), a.ndim

(1, 1)

## DataFrame

- 데이터 분석 시 가장 많이 사용되는 자료구조
- 2-Dimension
- Series에서 차원이 하나 올라가거나, Series가 2개 이상 모이면 DataFrame이라고 할 수 있음
- DataFrame → 추출 → Series : 차원 축소

---

- 구성원
  - index(인덱스) : 왼쪽에 위치, 데이터의 개수와 크기를 같이 함, 생략 가능
  - column(컬럼) : 데이터의 특성(feature)을 설명, 상단에 위치, 생략 가능
  - value(값) : 실제 데이터를 의미, 중앙에 위치

In [8]:
# DataFrame 생성
cols = list('ABCD')

In [9]:
# indexs = pd.date_range( '20200519', periods=60)
indexs = pd.date_range( '20200519', periods=7)
indexs, indexs.shape[0], len(indexs)

(DatetimeIndex([&#39;2020-05-19&#39;, &#39;2020-05-20&#39;, &#39;2020-05-21&#39;, &#39;2020-05-22&#39;,
                &#39;2020-05-23&#39;, &#39;2020-05-24&#39;, &#39;2020-05-25&#39;],
               dtype=&#39;datetime64[ns]&#39;, freq=&#39;D&#39;),
 7,
 7)

In [10]:
# 데이터는 임의로 만들겠음(난수)
# df의 shape : (7, 4)
# datas  = np.random.randn(7, 4)
# 수치를 직접 쓰지 않고, 입력 데이터의 크기에 맞춰서 생성
datas = np.random.randn(indexs.shape[0], len(cols))
datas, datas.shape

(array([[-2.17400813,  0.85195567, -0.06216668,  0.81107541],
        [ 0.95952274,  0.91131632, -1.33864791, -0.34393947],
        [ 0.61864199,  0.99934401,  1.04984558, -0.9058044 ],
        [ 1.17149057,  0.65414084, -0.44598496, -0.63815127],
        [ 1.29265296,  2.21195873,  0.34795198,  0.31457721],
        [ 0.40774747, -1.59559769, -1.22578072,  0.74159625],
        [ 0.86231939, -0.21029299,  1.63450022,  1.18593137]]),
 (7, 4))

In [11]:
df =  pd.DataFrame( datas, indexs, cols)
df

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


## Viewing
- DF를 얻고 나서 수행하는 기본 검토 사항
- 통찰

In [12]:
# 1. 데이터 값 확인
# 상위값 확인, 기본 5개
df.head()

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577


In [13]:
df.head(2)

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939


In [14]:
# 하위값 확인
df.tail

&lt;bound method NDFrame.tail of                    A         B         C         D
2020-05-19 -2.174008  0.851956 -0.062167  0.811075
2020-05-20  0.959523  0.911316 -1.338648 -0.343939
2020-05-21  0.618642  0.999344  1.049846 -0.905804
2020-05-22  1.171491  0.654141 -0.445985 -0.638151
2020-05-23  1.292653  2.211959  0.347952  0.314577
2020-05-24  0.407747 -1.595598 -1.225781  0.741596
2020-05-25  0.862319 -0.210293  1.634500  1.185931&gt;

In [15]:
df.tail(1)

Unnamed: 0,A,B,C,D
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [16]:
# 개별 요소 확인
df.columns

Index([&#39;A&#39;, &#39;B&#39;, &#39;C&#39;, &#39;D&#39;], dtype=&#39;object&#39;)

In [17]:
df.index

DatetimeIndex([&#39;2020-05-19&#39;, &#39;2020-05-20&#39;, &#39;2020-05-21&#39;, &#39;2020-05-22&#39;,
               &#39;2020-05-23&#39;, &#39;2020-05-24&#39;, &#39;2020-05-25&#39;],
              dtype=&#39;datetime64[ns]&#39;, freq=&#39;D&#39;)

In [18]:
df.values, type(df.values)

(array([[-2.17400813,  0.85195567, -0.06216668,  0.81107541],
        [ 0.95952274,  0.91131632, -1.33864791, -0.34393947],
        [ 0.61864199,  0.99934401,  1.04984558, -0.9058044 ],
        [ 1.17149057,  0.65414084, -0.44598496, -0.63815127],
        [ 1.29265296,  2.21195873,  0.34795198,  0.31457721],
        [ 0.40774747, -1.59559769, -1.22578072,  0.74159625],
        [ 0.86231939, -0.21029299,  1.63450022,  1.18593137]]),
 numpy.ndarray)

In [19]:
# df가 주어지면 가장 먼저 할 일
df.shape

(7, 4)

In [20]:
# 데이터 타입
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [21]:
# 기본정보
df.info()

&lt;class &#39;pandas.core.frame.DataFrame&#39;&gt;
DatetimeIndex: 7 entries, 2020-05-19 to 2020-05-25
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       7 non-null      float64
 1   B       7 non-null      float64
 2   C       7 non-null      float64
 3   D       7 non-null      float64
dtypes: float64(4)
memory usage: 280.0 bytes


In [22]:
# 통계 요약 : 개수, 산술평균, 표준편차, 최소값, 25%, 50%, 75%, 최대값
df.describe()

Unnamed: 0,A,B,C,D
count,7.0,7.0,7.0,7.0
mean,0.448338,0.546118,-0.005755,0.166469
std,1.195537,1.181674,1.109947,0.802624
min,-2.174008,-1.595598,-1.338648,-0.905804
25%,0.513195,0.221924,-0.835883,-0.491045
50%,0.862319,0.851956,-0.062167,0.314577
75%,1.065507,0.95533,0.698899,0.776336
max,1.292653,2.211959,1.6345,1.185931


In [23]:
# B열 데이터 기준으로 데이터를 정렬하시오. 내림차순.
df.sort_values(by = 'B', ascending = False)

Unnamed: 0,A,B,C,D
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-25,0.862319,-0.210293,1.6345,1.185931
2020-05-24,0.407747,-1.595598,-1.225781,0.741596


In [24]:
# 정렬의 기준 방향과 정렬되는 축의 방향이 부적합 → 오류
try :
  df.sort_values(by = 'B', axis = 1, ascending = False)
except Exception as e :
  print("정렬 기준과 축의 방향이 불일치")

정렬 기준과 축의 방향이 불일치


## 기본 조작(데이터 추출)

- 데이터를 분석하기 위해 raw 데이터를 수단과 방법을 가리지 않고 DataFrame으로 만든다면, 그 다음 주제는 데이터 조작(다루기)
- 데이터 추출, 파생변수(신규column) 생성, 통계적 정보 추출, ...

### indexing

- 값을 추출
- 차원 축소 발생
  - DataFrame에서 인덱싱 → Series
  - Series에서 인덱싱 → value(스칼라)
- 문법
  - 변수명 [ 키 ]
  - pandas에서는?

In [25]:
df

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [26]:
df.columns

Index([&#39;A&#39;, &#39;B&#39;, &#39;C&#39;, &#39;D&#39;], dtype=&#39;object&#39;)

In [27]:
df.columns[0]

&#39;A&#39;

In [28]:
# column은 사라지고, index만 살아남음
# column명의 타입 및 값을 명확하게 알고 있을 때만, 직접 기입
df['A'], type(df['A']), df[df.columns[0]]

(2020-05-19   -2.174008
 2020-05-20    0.959523
 2020-05-21    0.618642
 2020-05-22    1.171491
 2020-05-23    1.292653
 2020-05-24    0.407747
 2020-05-25    0.862319
 Freq: D, Name: A, dtype: float64,
 pandas.core.series.Series,
 2020-05-19   -2.174008
 2020-05-20    0.959523
 2020-05-21    0.618642
 2020-05-22    1.171491
 2020-05-23    1.292653
 2020-05-24    0.407747
 2020-05-25    0.862319
 Freq: D, Name: A, dtype: float64)

In [29]:
# 데이터 프레임의 인덱싱 수행 시 값으로 인덱스 값을 넣음
try :
  df['2020-05-19']
except Exception as e :
  print(e, "인덱스 값은 df의 인덱싱 수행 시 사용할 수 없음")

&#39;2020-05-19&#39; 인덱스 값은 df의 인덱싱 수행 시 사용할 수 없음


In [30]:
# column명은 자동으로 df의 멤버 변수로 생성됨
df.A

2020-05-19   -2.174008
2020-05-20    0.959523
2020-05-21    0.618642
2020-05-22    1.171491
2020-05-23    1.292653
2020-05-24    0.407747
2020-05-25    0.862319
Freq: D, Name: A, dtype: float64

### slicing

- 데이터를 자름
- 차원 유지
  - df 슬라이싱 → df
  - Series 슬라이싱 → Series
- 문법
  - 변수 \[ 시작인덱스 : 끝인덱스 : step(통상생략, 기본값 1) \]

In [31]:
# 원본 작업인가 사본작업인가?
# 카피(처음부터 끝까지) → 사본 출력
df[:]

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [32]:
# 1, 2번째 데이터만 추가(순서는 0부터 카운트)
df[1:3]

Unnamed: 0,A,B,C,D
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804


In [33]:
# 데이터가 하나씩 건너뜀. 여기서는 홀수날만.
# 3번 인자 step도 정상적으로 적용됨
df[::2]

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [34]:
# slicing 자리에 column값을 부여하면 안 됨
try :
  df['A' : 'C']
except Exception as e :
  pass

In [35]:
# x <= rkqtm <= y, 끝 경계값을 포함
df['2020-05-21' : '2020-05-25']

Unnamed: 0,A,B,C,D
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


- 전통적인 인덱싱, 슬라이싱 기법을 적용할 경우
  - 각 방향 별로 한계점이 존재(사용못하는 케이스가 존재)
  - 데이터가 연속적이여만 추출이 가능

In [36]:
# 인덱싱, 슬라이싱 응용
df[df.columns[:2]][:2]

Unnamed: 0,A,B
2020-05-19,-2.174008,0.851956
2020-05-20,0.959523,0.911316


In [37]:
# A만 구할 건데, 차원은 유지하고 싶음
df[df.columns[:1]]

Unnamed: 0,A
2020-05-19,-2.174008
2020-05-20,0.959523
2020-05-21,0.618642
2020-05-22,1.171491
2020-05-23,1.292653
2020-05-24,0.407747
2020-05-25,0.862319


In [38]:
df[['A']]

Unnamed: 0,A
2020-05-19,-2.174008
2020-05-20,0.959523
2020-05-21,0.618642
2020-05-22,1.171491
2020-05-23,1.292653
2020-05-24,0.407747
2020-05-25,0.862319


### loc

- location 정보를 이용하여 데이터를 추출
- 실제 인덱스값 혹은 column명을 사용
- df.loc\[ 표현 \]

In [39]:
# 2020-05-25 데이터를 추출하시오.
# DataFrame에서 차원 축소가 1회 진헹 → 산출물 : Series
df.loc['2020-05-25']

A    0.862319
B   -0.210293
C    1.634500
D    1.185931
Name: 2020-05-25 00:00:00, dtype: float64

In [40]:
# 2020-05-25 데이터를 추출하시오. 단, C컬럼만.
# DataFrame에서 차원 축소가 2회(인덱스에서 1회, 컬럼에서 1회) 진헹 → 산출물 : Scalar
df.loc['2020-05-25', 'C']

1.6345002158212818

- df.loc\[ 인덱스값 혹은 슬라이싱값, 컬럼값 혹은 컬럼값 슬라이싱 \]
- df.loc\[ 1-D표현, 2-D표현 \]

In [41]:
# 위와 동일한 결과인데 2-D를 유지하고 싶다.
df.loc[ '2020-05-25':'2020-05-25', ['C'] ]

Unnamed: 0,C
2020-05-25,1.6345


In [42]:
# Column쪽에서 차원축소가 진행되었으므로 Series로 결과 나옴
df.loc[ '2020-05-25':'2020-05-25', 'C' ]

2020-05-25    1.6345
Freq: D, Name: C, dtype: float64

In [43]:
# 인덱스 쪽에서 차원축소가 진행되었으므로 Series로 결과 나옴
df.loc[ '2020-05-25', ['C'] ]

C    1.6345
Name: 2020-05-25 00:00:00, dtype: float64

In [44]:
# column은 비연속적으로 자유롭게 배치 가능
# index는 비연속적으로 배치된 데이터 구할 수 있음 (단, 특정 가격 단위로만)
df.loc[ '2020-05-21':'2020-05-25':2, ['C', 'A'] ]

Unnamed: 0,C,A
2020-05-21,1.049846,0.618642
2020-05-23,0.347952,1.292653
2020-05-25,1.6345,0.862319


### iloc

- numpy의 펜시인덱싱 기법과 거의 동일
- index locaion 정보(행과 열의 번호)를 이용해 데이터를 추출
- 인덱스 값만 사용해 처리(숫자만 써야함)
- df.iloc\[ 표현 \]

In [45]:
df

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [46]:
# 1 → 차원축소 → Series
# index 중 2번째 data 추출
df.iloc[1]

A    0.959523
B    0.911316
C   -1.338648
D   -0.343939
Name: 2020-05-20 00:00:00, dtype: float64

In [47]:
# 1차원, 2차원을 각각 표현해서 추출
# 차원유지
df.iloc[1:3, 1:3]

Unnamed: 0,B,C
2020-05-20,0.911316,-1.338648
2020-05-21,0.999344,1.049846


In [48]:
# 펜시 인덱싱 기법 적용
# 원하는 행과 열을 마음대로 배치해서 나열
# 비연속적인 데이터를 원하는 순서대로 추출 可
df.iloc[ [3, 5, 1, 2], [3, 1] ]

Unnamed: 0,D,B
2020-05-22,-0.638151,0.654141
2020-05-24,0.741596,-1.595598
2020-05-20,-0.343939,0.911316
2020-05-21,-0.905804,0.999344


### 블리언 인덱싱

In [49]:
# 특정 조건을 만족하는 데이터만 추출
# iloc + 조건식(T/F) → boolean indexing

# df에서 B컬럼의 값들 중 양수인 데이터만 추출해라
# 블리언 인덱싱의 결과로 블리언 데이터만 나오면 그 중에 참인 데이터만 추출됨
df[ df.B > 0 ]

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577


In [50]:
df.C > 0

2020-05-19    False
2020-05-20    False
2020-05-21     True
2020-05-22    False
2020-05-23     True
2020-05-24    False
2020-05-25     True
Freq: D, Name: C, dtype: bool

In [51]:
df > 0 

Unnamed: 0,A,B,C,D
2020-05-19,False,True,False,True
2020-05-20,True,True,False,False
2020-05-21,True,True,True,False
2020-05-22,True,True,False,False
2020-05-23,True,True,True,True
2020-05-24,True,False,False,True
2020-05-25,True,False,True,True


In [52]:
# 데이터 전체(df 단위)를 조건식을 부여하면, 해당되지 않는 데이터는 NaN으로 대체됨
df[ df > 0 ]

Unnamed: 0,A,B,C,D
2020-05-19,,0.851956,,0.811075
2020-05-20,0.959523,0.911316,,
2020-05-21,0.618642,0.999344,1.049846,
2020-05-22,1.171491,0.654141,,
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,,,0.741596
2020-05-25,0.862319,,1.6345,1.185931


In [53]:
df

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


### 기타 기본 표현

In [54]:
# 데이터 추가
new_data = [ '월', '월', '화', '목', '토', '수', '금']
new_data

[&#39;월&#39;, &#39;월&#39;, &#39;화&#39;, &#39;목&#39;, &#39;토&#39;, &#39;수&#39;, &#39;금&#39;]

In [55]:
# column 추가/수정 → 파생 변수를 생성
# 변수[ '키' ] = 값
df['E'] = new_data
df

Unnamed: 0,A,B,C,D,E
2020-05-19,-2.174008,0.851956,-0.062167,0.811075,월
2020-05-20,0.959523,0.911316,-1.338648,-0.343939,월
2020-05-21,0.618642,0.999344,1.049846,-0.905804,화
2020-05-22,1.171491,0.654141,-0.445985,-0.638151,목
2020-05-23,1.292653,2.211959,0.347952,0.314577,토
2020-05-24,0.407747,-1.595598,-1.225781,0.741596,수
2020-05-25,0.862319,-0.210293,1.6345,1.185931,금


In [56]:
# 데이터 조사 → 그런 값을 가지고 있는가?
df.E.isin( ['화', '금'] )

2020-05-19    False
2020-05-20    False
2020-05-21     True
2020-05-22    False
2020-05-23    False
2020-05-24    False
2020-05-25     True
Freq: D, Name: E, dtype: bool

In [57]:
# E항 데이터 중에 화, 금 값이 존재하면 해당 데이터만 추출
df[ df.E.isin( ['화', '금'] ) ]

Unnamed: 0,A,B,C,D,E
2020-05-21,0.618642,0.999344,1.049846,-0.905804,화
2020-05-25,0.862319,-0.210293,1.6345,1.185931,금


In [58]:
# apply (중요, pandas) ↔ map(python)
# apply는 모든 구성원을 돌면서 일괄적인 처리를 수행
# dataframe, series에서도 모두 적용 可
# cumsum : 누적합
df.apply( np.cumsum )

Unnamed: 0,A,B,C,D,E
2020-05-19,-2.174008,0.851956,-0.062167,0.811075,월
2020-05-20,-1.214485,1.763272,-1.400815,0.467136,월월
2020-05-21,-0.595843,2.762616,-0.350969,-0.438668,월월화
2020-05-22,0.575647,3.416757,-0.796954,-1.07682,월월화목
2020-05-23,1.8683,5.628716,-0.449002,-0.762243,월월화목토
2020-05-24,2.276048,4.033118,-1.674783,-0.020646,월월화목토수
2020-05-25,3.138367,3.822825,-0.040282,1.165285,월월화목토수금


In [59]:
# E항이 문자열이라 처리가 안 됨, 가로 방향 불가
try :
  df.apply( np.cumsum, 1 )
except Exception as e :
  print("Error")

Error


In [60]:
# column 제거
# del : 해당 객체의 레퍼런스를 감소시킴 → 해제
# 파이썬으로 수행
del df['E']
df.head(3)

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804


In [61]:
df['E'] = new_data
df

Unnamed: 0,A,B,C,D,E
2020-05-19,-2.174008,0.851956,-0.062167,0.811075,월
2020-05-20,0.959523,0.911316,-1.338648,-0.343939,월
2020-05-21,0.618642,0.999344,1.049846,-0.905804,화
2020-05-22,1.171491,0.654141,-0.445985,-0.638151,목
2020-05-23,1.292653,2.211959,0.347952,0.314577,토
2020-05-24,0.407747,-1.595598,-1.225781,0.741596,수
2020-05-25,0.862319,-0.210293,1.6345,1.185931,금


In [62]:
# axis = 0일 때는 index, axis = 1일 때는 column
# inplace : 원본에 반영할 것인가
# pandas에서 수행
df.drop( ['E'], 1, inplace = True )
df

Unnamed: 0,A,B,C,D
2020-05-19,-2.174008,0.851956,-0.062167,0.811075
2020-05-20,0.959523,0.911316,-1.338648,-0.343939
2020-05-21,0.618642,0.999344,1.049846,-0.905804
2020-05-22,1.171491,0.654141,-0.445985,-0.638151
2020-05-23,1.292653,2.211959,0.347952,0.314577
2020-05-24,0.407747,-1.595598,-1.225781,0.741596
2020-05-25,0.862319,-0.210293,1.6345,1.185931


In [63]:
# 기타 통계 함수
# x : column들이 들어온다 ← df에서 apply 적용 시
# Series에서는 값 하나하나가 x가 됨
df.apply( lambda x:x.max()-x.min() )

A    3.466661
B    3.807556
C    2.973148
D    2.091736
dtype: float64

In [64]:
df.max()

A    1.292653
B    2.211959
C    1.634500
D    1.185931
dtype: float64

## pandas 고급


### 피벗 테이블
- https://colab.research.google.com/drive/1sWgXAv7uP1fAQER_m0akc9KK_dgIlIsF?usp=sharing

### groupby

### 병합(merge, concat)

- DataFrame n개를 1개의 DataFrame으로 합치는 기능


In [65]:
# 기본 재료 만들기
left = pd.DataFrame( {
    'key' : list('1234'), 
    'A' : list('ABCD'), 
    'B' : list('abcd')
} )
left

Unnamed: 0,key,A,B
0,1,A,a
1,2,B,b
2,3,C,c
3,4,D,d


In [66]:
left.shape

(4, 3)

In [67]:
right = pd.DataFrame( {
    'key' : list('0123'), 
    'C' : list('가나다라'), 
    'D' : list('WXYZ')
} )
right

Unnamed: 0,key,C,D
0,0,가,W
1,1,나,X
2,2,다,Y
3,3,라,Z


- 데이터 프레임 2개에는 각각 공통된 column key가 존재
- key값은 부분만 일치

#### merge

- 2개의 데이터프레임을 1개로 묶는 역할
- 병합되는 데이터프레임 간 공통된 컬럼이 존재해야됨
- database의 sql 내용 중 join과 유사

In [68]:
# 별도로 표시하지 않아도 공통된 컬럼을 찾아서 상호 일치되는 데이터만 묶어서 df를 새로 생성 : 교집합
# 공통된 키는 명확하게 지정해주는 것이 좋음
# left -> right, 나열한 순서
pd.merge( left, right )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z


In [69]:
pd.merge( right, left, on = 'key' )

Unnamed: 0,key,C,D,A,B
0,1,나,X,A,a
1,2,다,Y,B,b
2,3,라,Z,C,c


In [70]:
# 합집합, 데이터를 다 붙이고 맞지 않는(비어있는) 부분은 모두 결측 처리
pd.merge( left, right, on = "key", how = 'outer' )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z
3,4,D,d,,
4,0,,,가,W


In [71]:
# inner가 기본 방식
pd.merge( left, right, on = "key", how = 'inner' )

Unnamed: 0,key,A,B,C,D
0,1,A,a,나,X
1,2,B,b,다,Y
2,3,C,c,라,Z


#### concat

- 단순 합치기
- 개수는 관계 없음
- 방향성 : 수직, 수형 -> axis = 0 or 1

In [72]:
# 수직 방향으로 붙임, 없는 부분은 결측치 처리, key도 공통값들이 등장
pd.concat( [ left, right ] )

Unnamed: 0,key,A,B,C,D
0,1,A,a,,
1,2,B,b,,
2,3,C,c,,
3,4,D,d,,
0,0,,,가,W
1,1,,,나,X
2,2,,,다,Y
3,3,,,라,Z


In [73]:
pd.concat( [ left, right ], sort = True )

Unnamed: 0,A,B,C,D,key
0,A,a,,,1
1,B,b,,,2
2,C,c,,,3
3,D,d,,,4
0,,,가,W,0
1,,,나,X,1
2,,,다,Y,2
3,,,라,Z,3


In [74]:
# 수평 합치기
pd.concat( [ left, right ], sort = True, axis = 1 )

Unnamed: 0,key,A,B,key.1,C,D
0,1,A,a,0,가,W
1,2,B,b,1,나,X
2,3,C,c,2,다,Y
3,4,D,d,3,라,Z
