# Pandas

## 개요
- Numpy 기반 데이터 분석 라이브러리
- 복잡한 데이터 분석에 특화
- pandas는 numpy와 달리 데이터 타입이 다양하게 섞여 있어도 처리가능

## 구조적 데이터 생성하기
### 1. Series를 활용한 데이터 생성
- Series란 라벨을 갖는 구조적 데이터를 생성하는 것

In [5]:
import pandas as pd
seq_data = [1, 2, 3, 4]
s = pd.Series(seq_data)
s

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
index_seq = [3, 4, 5, 6]
seq_data = [1, 2, 3, 4]
s = pd.Series(seq_data, index=index_seq)
s

3    1
4    2
5    3
6    4
dtype: int64

In [11]:
dict_data = {2:4, 3:4, 5:6, 6:4}
s = pd.Series(dict_data)
s

2    4
3    4
5    6
6    4
dtype: int64

### 2. 날짜 자동 생성: date_range
- 원하는 날짜를 자동 생성하는 방법

In [16]:
pd.date_range(start="2010-02-22", end="2010-02-28", freq='D')

DatetimeIndex(['2010-02-22', '2010-02-23', '2010-02-24', '2010-02-25',
               '2010-02-26', '2010-02-27', '2010-02-28'],
              dtype='datetime64[ns]', freq='D')

### 3. Dataframe 을 활용한 데이터 생성
- Dataframe은 자료(Data)를 담는 틀(Frame)
- 라벨이 있는 2차원 데이터를 생성하고 처리할 수 있음
- 세로축 라벨을 index, 가로축 라벨을 columns, 그 외 values

In [28]:
dict_data = {
    "col1": [1,2,3,4],
    "col2": [2,3,4,5],
    "col3": [3,4,5,6]
}
df = pd.DataFrame(data=dict_data, index=[2,3,4,5])
df

Unnamed: 0,col1,col2,col3
2,1,2,3
3,2,3,4
4,3,4,5
5,4,5,6


- 데이터 행과 열을 바꿀 수 있음

In [29]:
df.T

Unnamed: 0,2,3,4,5
col1,1,2,3,4
col2,2,3,4,5
col3,3,4,5,6


In [30]:
df

Unnamed: 0,col1,col2,col3
2,1,2,3
3,2,3,4
4,3,4,5
5,4,5,6


## 데이터 통합하기
### 1. 세로 방향으로 통합하기
- DataFrame에서 columns가 같은 두 데이터를 세로 방향으로 합하려면 'append()'를 이용

### 2. 가로 방향으로 통합하기
- 'join()'을 이용하여 가로 방향으로 두 데이터 합치기

### 3. 특정 열 기준으로 통합하기
- 두개의 DataFrame가 특정 열을 기준으로 공통된 값을 갖는 경우 'merge()'를 이용하여 통합