<a href="https://colab.research.google.com/github/juhee3199/Data-Analysis/blob/main/Data_Handling/_Pandas_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas 한번에 제대로 배우기
관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 python 패키지

### pandas 특징
- 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터엣도 결측 데이터(NaN으로 표시됌)를 쉽게 처리
- 크기 변이성(Size mutability): DataFrame 및 고차원 객체에서 열을 삽입 및 삭제 가능
- 자동 또는 명시적(explicit) 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, DataFrame등의 계산에서 자동으로 데이터 조정 가능
- 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine)작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
- 누락된 데이터 또는 다른 Python 및 Numpy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 쉽게 변환
- 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
- 직관적인 데이터 세트 병합 및 결합
- 데이터 세트의 유연한 재구성 및 피벗
- 축의 계층적 라벨링(눈금당 여러 개의 라벨을 가질 수 있음)
- 플랫 파일(csv 및 구분), Excel파일, 데이터베이스 로딩 및 초고속 HDF5형식의 데이터 저장/로드에 사용되는 강력한 IO도구
- 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우(moving window) 통계, 날짜 이동 및 지연



---



In [1]:
import numpy as np  # pandas는 numpy를 기반으로 하기 때문에 함께
import pandas as pd 

pd.__version__

'1.3.5'

## Pandas 객체
Series 객체, DataFrame 객체, Index 객체

### Series 객체
-  Series는 데이터의 1차원 배열이라고 할 수 있다.
- numpy배열이며, 값은 values로 인덱스는 index로 접근할 수 있다.
- 이 때, values는 Numpy배열이다.
- Numpy와는 다르게 인덱스 값을 설정할 수 있다. (np는 정수열 인덱스만 가능)
- 인덱스를 키라고 생각한다면, Series배열은 딕셔너리형 객체라고 생각해도 무방하다.

In [2]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
s   
# index와 함께 저장이 됌

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [3]:
s.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
s.index  # range 형태로 index 구성

RangeIndex(start=0, stop=5, step=1)

In [5]:
# 개별 인덱싱 접근 가능
s[1]

0.25

In [6]:
# 슬라이싱 가능
s[1:4]

1    0.25
2    0.50
3    0.75
dtype: float64

In [15]:
# 별도로 인덱스 지정 가능
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [16]:
s['a']  # 문자로 인덱스를 지정했기 때문에 인덱싱 값이 'a'로 접근

0.0

In [17]:
s[['a', 'b', 'e']]   

a    0.00
b    0.25
e    1.00
dtype: float64

In [21]:
s['b':]

b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [19]:
s[1:]

b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [10]:
'b' in s

True

In [23]:
# 연속된 숫자가 아니어도 인덱스로 지정 가능

s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = [2,4,6,8,10])
s

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64

In [24]:
s[4]

0.25

In [25]:
s[2:]      # 2번째 인덱스부터 불러옴

6     0.50
8     0.75
10    1.00
dtype: float64

In [26]:
s.unique()   # 유니크한 값만 출력

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [27]:
s.value_counts()  # 각 값이 몇개 있는지 count

0.00    1
0.25    1
0.50    1
0.75    1
1.00    1
dtype: int64

In [28]:
s.isin([0.25, 0.75])   # 해당 값을 가지고 있는지 boolean으로 반환

2     False
4      True
6     False
8      True
10    False
dtype: bool

In [30]:
# tuple을 Series에 주어주면 그대로 사용 가능

pop_tuple = {'서울특별시': 9720846,
             '부산광역시': 3404423,
             '인천광역시': 2947217}

population = pd.Series(pop_tuple)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

In [31]:
population['서울특별시']

9720846

In [32]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame 객체
- 데이터프레임은 Series 객체의 집합체

1) 하나의 Series를 이용해 만들 경우

In [33]:
# 2차원 특성을 가질 수 있음

pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])
# 누락값을 인식하고 자동으로 NaN 으로 표시됌

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [34]:
# 컬럼과 인덱스 지정
pd.DataFrame(np.random.rand(5,5),
             columns = ['A','B','C','D','E'],
             index = [1,2,3,4,5])

Unnamed: 0,A,B,C,D,E
1,0.505851,0.803935,0.713534,0.83901,0.509974
2,0.433695,0.908736,0.798859,0.020995,0.565932
3,0.31998,0.081453,0.477295,0.887346,0.510652
4,0.626571,0.800958,0.707803,0.243696,0.280575
5,0.30851,0.105857,0.221047,0.95467,0.525372


In [36]:
male_tuple = {'서울특별시': 4732275,
             '부산광역시': 1668618,
             '인천광역시': 1476813}

male = pd.Series(male_tuple)
male

female_tuple = {'서울특별시': 4988571,
               '부산광역시': 1735805,
               '인천광역시': 1470404}

female = pd.Series(female_tuple)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
dtype: int64

2) 다수의 Series를 이용해 만들 때는 딕셔너리처럼 생성하면 된다.

In [37]:
# 세 개의 series를 포함시켜서 dataframe 만들기
# 한 컬럼이 하나의 시리즈를 구성하는 형태로 완성됌

korea_df = pd.DataFrame({'인구수':population,
                         '남자인구수':male,
                         '여자인구수':female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


In [38]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시'], dtype='object')

In [39]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [40]:
korea_df['여자인구수']  # 인덱싱

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
Name: 여자인구수, dtype: int64

In [41]:
korea_df['서울특별시':'인천광역시'] # 슬라이싱

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


### Index 객체
데이터프레임에서도 인덱싱 (arr[1, 2]), 슬라이싱 (arr[ : , 1 : 3 ]), 마스킹 (arr [ arr > 0 ]), 팬시인덱싱 ( arr[ 0, [1, 3] ]) 모두 가능하다.

In [42]:
idx = pd.Index([2,4,6,8,10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [43]:
idx[1]

4

In [44]:
idx[1:2:2] # 슬라이싱 가능

Int64Index([4], dtype='int64')

In [45]:
idx[-1::]

Int64Index([10], dtype='int64')

In [46]:
idx[::2]  # step을줄 수도 있음

Int64Index([2, 6, 10], dtype='int64')

In [47]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### Index 연산

|연산자|내용|설명|
|------|---|---|
||append|색인 객체를 추가한 새로운 색인 반환|
|-|difference|색인의 차집합 반환|
|&|intersection|색인의 교집합 반환|
||union|색인의 합집합 반환|
||||
||||
||||
||||
||||


In [54]:
idx1 = pd.Index([1,2,4,6,8])
idx2 = pd.Index([2,4,5,6,7])

print(idx1.append(idx2))
print(idx1.difference(idx2))  # 차집합
print(idx1 - idx2)  # 값을 뺌

print(idx1.intersection(idx2)) # 교집합
print(idx1 & idx2)

print(idx1.union(idx2))
print(idx1 | idx2)

print(idx1.delete(0))   # 0번 값인 1이 빠짐
print(idx1.drop(1))     # 가장 앞에 있는 값이 drop됌
print(idx1 ^ idx2)      # 여집합


Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


  if __name__ == '__main__':
  if sys.path[0] == '':
  app.launch_new_instance()




---



## 인덱싱(Indexing)

In [55]:
# 별도로 인덱스 지정 가능
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [56]:
s['b']

0.25

In [57]:
'b' in s

True

In [58]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [59]:
s.items()

<zip at 0x7fcabcbedfa0>

In [60]:
list(s.items())  # zip으로 묶여서 나타내져있기 때문에 list로 감싸서 읽기

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [61]:
# 추가 인덱스를 통해 특정 값을 삽입할 수 있음
s['f'] = 1.25
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [62]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [64]:
s[0:4]

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [66]:
# 필터링 옵션을 줄 수 있음

s[(s>0.4) & (s<0.8)]

c    0.50
d    0.75
dtype: float64

In [68]:
s[['a','c','e']]

a    0.0
c    0.5
e    1.0
dtype: float64

### Series 인덱싱

In [69]:
s = pd.Series(['a','b','c','d','e'],
              index = [1,3,5,7,9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [70]:
s[1]

'a'

In [71]:
s[2:4]

5    c
7    d
dtype: object

- iloc 사용
iloc: integer 정수값으로 접근

In [73]:
s.iloc[1]

'b'

In [74]:
s.iloc[2:4]

5    c
7    d
dtype: object

- reindex: 새로운 인덱스 구축

In [76]:
s.reindex(range(10))  # 값이 없는 경우 NaN으로 채움

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [77]:
s.reindex(range(10), method='bfill')  # 빈 값을 이전 값으로 채우기

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

### DataFrame 인덱싱


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

#### 다중 인덱스 생성

#### 인덱싱 및 슬라이싱

#### 다중 인덱스 재정렬

## 데이터 연산

### 연산자 범용 함수


#### add()

#### sub() / subtract()

#### mul() / multply()




#### truediv() /  div() / divide() / floordiv()

#### mod()

#### pow()

### 정렬(Sort)

### 순위(Ranking)


### 고성능 연산

## 데이터 결합

### Concat() / Append()

### 병합과 조인

## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)


### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


## 문자열 연산

#### 문자열 연산자

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly