<a href="https://colab.research.google.com/github/omj3424/python_suanLab/blob/main/_Pandas_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas 한번에 제대로 배우기




---



## Pandas 란?

* 관계 또는 레이블링 데이터를 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

## Pandas 특징

* 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측 데이터(NaN으로 표시됨)를 쉽게 처리
* 크기 변이성(Size mutability): DataFrame 및 고차원 객체에서 열을 삽입 및 삭제 가능
* 자동 및 명시적(explicit) 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, DataFrame 등의 계산에서 자동으로 데이터 조정 가능
* 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
* 누락된 데이터 또는 다른 Python 및 NumPy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 쉽게 변환
* 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
* 직관적인 데이터 세트 병합 및 결합
* 데이터 세트의 유연한 재구성 및 피벗
* 축의 계층적 라벨링(눈금당 여러 개의 라벨을 가질 수 있음)
* 플랫 파일(CSV 및 구분), Excel 파일, 데이터베이스 로딩 및 초고속 HDF5 형식의 데이터 저장/로드에 사용되는 강력한 IO 도구
* 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우(moving window) 통계, 날짜 이동 및 지연

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'2.1.4'

## Pandas 객체


### Series 객체

In [2]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
s

Unnamed: 0,0
0,0.0
1,0.25
2,0.5
3,0.75
4,1.0


In [3]:
s.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
s[1]

0.25

In [6]:
s[1:4]

Unnamed: 0,0
1,0.25
2,0.5
3,0.75


In [7]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index=['a', 'b', 'c', 'd', 'e'])
s

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75
e,1.0


In [8]:
s['c']

0.5

In [9]:
s[['c', 'd', 'e']]

Unnamed: 0,0
c,0.5
d,0.75
e,1.0


In [10]:
'b' in s

True

In [11]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index=[2, 4, 6, 8, 10])
s

Unnamed: 0,0
2,0.0
4,0.25
6,0.5
8,0.75
10,1.0


In [12]:
s[4]

0.25

In [13]:
s[2:]

Unnamed: 0,0
6,0.5
8,0.75
10,1.0


In [14]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [15]:
s.value_counts()

Unnamed: 0,count
0.0,1
0.25,1
0.5,1
0.75,1
1.0,1


In [16]:
s.isin([0.25, 0.75])

Unnamed: 0,0
2,False
4,True
6,False
8,True
10,False


In [25]:
pop_tuple = {'서울특별시': 9720846,
             '부산광역시': 3404423,
             '인천광역시': 2947217,
             '대구광역시': 2427954,
             '대전광역시': 1471040,
             '광주광역시': 1455048}
population = pd.Series(pop_tuple)
population

Unnamed: 0,0
서울특별시,9720846
부산광역시,3404423
인천광역시,2947217
대구광역시,2427954
대전광역시,1471040
광주광역시,1455048


In [18]:
population['서울특별시']

9720846

In [19]:
population['서울특별시':'인천광역시']

Unnamed: 0,0
서울특별시,9720846
부산광역시,3404423
인천광역시,2947217


### DataFrame 객체

In [20]:
pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [21]:
pd.DataFrame(np.random.rand(5, 5),
             columns=['A', 'B', 'C', 'D', 'E'],
             index=[1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.868204,0.486754,0.908767,0.11197,0.07109
2,0.93209,0.609673,0.502541,0.584077,0.855797
3,0.696831,0.722324,0.938278,0.101734,0.110286
4,0.623408,0.624292,0.447029,0.785187,0.6917
5,0.834801,0.690147,0.318685,0.10136,0.211735


In [23]:
male_tuple = {'서울특별시': 4732275,
              '부산광역시': 1668618,
              '인천광역시': 1476813,
              '대구광역시': 1198815,
              '대전광역시': 734441,
              '광주광역시': 720060}
male = pd.Series(male_tuple)
male

Unnamed: 0,0
서울특별시,4732275
부산광역시,1668618
인천광역시,1476813
대구광역시,1198815
대전광역시,734441
광주광역시,720060


In [24]:
female_tuple = {'서울특별시': 4988571,
              '부산광역시': 1735805,
              '인천광역시': 1470404,
              '대구광역시': 1229139,
              '대전광역시': 736599,
              '광주광역시': 734988}
female = pd.Series(female_tuple)
female

Unnamed: 0,0
서울특별시,4988571
부산광역시,1735805
인천광역시,1470404
대구광역시,1229139
대전광역시,736599
광주광역시,734988


In [26]:
korea_df = pd.DataFrame({'인구수': population,
                         '남자인구수': male,
                         '여자인구수': female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [27]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [28]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [29]:
korea_df['여자인구수']

Unnamed: 0,여자인구수
서울특별시,4988571
부산광역시,1735805
인천광역시,1470404
대구광역시,1229139
대전광역시,736599
광주광역시,734988


In [30]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


### Index 객체

* Index: 일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현
* Int64Index: 정수 값을 위한 Index
* MultiIndex: 단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체(튜플의 배열과 유사)
* DatetimeIndex: NumPy의 datetime64 타입으로 타임스탬프 저장
* PeriodIndex: 기간 데이터를 위한 Index

In [31]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Index([2, 4, 6, 8, 10], dtype='int64')

In [32]:
idx[1]

4

In [33]:
idx[1:2:2]

Index([4], dtype='int64')

In [34]:
idx[-1::]

Index([10], dtype='int64')

In [35]:
idx[::2]

Index([2, 6, 10], dtype='int64')

In [37]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### Index 연산

In [None]:
21:06~부터 듣기



---



## 인덱싱(Indexing)

### Series 인덱싱

### DataFrame 인덱싱


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

#### 다중 인덱스 생성

#### 인덱싱 및 슬라이싱

#### 다중 인덱스 재정렬

## 데이터 연산

### 연산자 범용 함수


#### add()

#### sub() / subtract()

#### mul() / multply()




#### truediv() /  div() / divide() / floordiv()

#### mod()

#### pow()

### 정렬(Sort)

### 순위(Ranking)


### 고성능 연산

## 데이터 결합

### Concat() / Append()

### 병합과 조인

## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)


### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


## 문자열 연산

#### 문자열 연산자

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly