# pandas
* 파이썬에서 데이터 분석과 처리를 쉽게 할 수 있게 도와주는 pandas 라이브러리
* NumPy를 기반으로 만들어졌지만 좀 더 복잡한 데이터 분석에 특화
* 같은 데이터 타입의 배열만 처리할 수 있는 NumPy에 반해 pandas는 데이터 타입이 다양하게 섞여 있어도 처리 가능
* pandas홈페이지(https://pandas.pydata.org)

## 구조적 데이터 생성하기
* pandas도 NumPy처럼 불러와야 함
* `import pandas as pd`
### 1. Series를 활용한 데이터 생성
`s = pd.Series(seq_data)`

* pandas에서 데이터를 생성하는 가장 기본적인 방법 : Series() 이용
* Series를 이용하면 Series 형식의 구조적 데이터(라벨을 갖는 1차원 데이터) 생성가능
* seq_data(시퀀스 데이터)로는 리스트와 튜플 타입의 데이터를 모두 사용 가능(주로 리스트 데이터를 이용)
* 인자로 넣은 시퀀스 데이터에 순서를 표시하는 라벨이 자동으로 부여됨
* 세로축 라벨을 index라고 하고, 입력한 시퀀스 데이터를 values라고 함
* index는 데이터를 처리할 때 이용

In [9]:
import pandas as pd
s1 = pd.Series([10,20,30,40,50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

**Series 데이터는 index와 values를 분리해서 가져올 수 있음**

`s.index` : index 가져오기

`s.values` : values 가져오기

In [13]:
s1.index

RangeIndex(start=0, stop=5, step=1)

In [14]:
s1.values

array([10, 20, 30, 40, 50], dtype=int64)

**Series()로 데이터를 생성할 때 문자와 숫자가 혼합된 리스트를 인자로 사용 가능**

In [20]:
s2 = pd.Series(['a','b','c',1,2,3])
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

**np.nan를 이용하여 Series 데이터에 특정 원소가 없음을 표시하기**

Nan은 데이터가 없다는 것을 의미 (데이터를 위한 index는 있지만 실제 값은 없음)

In [22]:
import numpy as np
s3 = pd.Series([np.nan,10,30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

**Series 데이터를 생성할 때 인자로 index를 추가 가능**

`s = pd.Series(seq_data, index = index_seq)`
* index_seq도 리스트와 튜플 타입의 데이터를 모두 사용 가능(주로 리스트 데이터를 이용)

* ※주의 : seq_data의 항목 개수와 index_seq의 항목 개수는 같아야 함

In [24]:
s4 = pd.Series([200,195,np.nan,205],index=['2018-10-07','2018-10-08','2018-10-09','2018-10-10'])
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

**파이썬의 딕셔너리를 이용해 데이터 생성하기**

`s = pd.Series(dict_data)` : 딕셔너리 형태로 입력하면 데이터의 키(keys)와 값(values)이 각각 Series 데이터의 index와 values가 됨

In [26]:
s5 = pd.Series({'국어':100,'수학':90,'영어':95})
s5

국어    100
수학     90
영어     95
dtype: int64

**행/열 인덱스 이름 설정**

* index.name
* columns.name

**해당열이 있으면 내용 갱신, 열이 없으면 추가**

* 열추가 : df[열이름(key)]=values
* 열 내용 갱신 : df[열이름(key)]=values

### 2. 날짜 자동 생성 : data_range
`pd.date_range(start=None, end=None, periods=None, freq='D)` : 원하는 날짜를 자동으로 생성
* steart는 반드시 있어야하고, end나 periods는 둘 중 하나만 있어도 됨
* freq를 입력하지 않으면 'D'옵션이 설정되어 달력 날짜 기준으로 하루씩 증가함
* 날짜를 입력할 때는 다양한 형식(yyyy-mm-dd, yyyy/mm/dd, yyyy.mm.dd, mm-dd-yyyy, mm/dd/yyyy, mm.dd.yyyy)으로 입력할 수 있고, 생성된 날짜 데이터의 형식은 모두 yyyy-mm-dd임

**freq 옵션**

|약어|설명|예|
|---|--------------------|------------------------------------------|
|D|하루 주기|freq='D' : 하루 주기, freq='2D' : 이틀 주기|
|B|업무날짜 기준 하루 주기|업무일(월~금) 기준으로 생성|
|W|요일 시작 기준 일주일 주기|freq='W', freq='W-SUN' : 일요일로 일주일 시작, freq='W-MON' : 월요일로 일주일 시작|
|M|월말 날짜 기준 주기|freq='M' : 한달 주기, freq='3M' : 세 달 주기|
|BM|업무 월말 날짜 기준 주기|freq='2BM'|
|MS|월초 날짜 기준 주기|freq='MS'|
|BMS|업무 월초 날짜 기준 주기|freq='BMS'|
|Q|분기 끝 날짜 기준 주기|freq='Q'|
|BQ|업무 분기 끝 날짜 기준 주기|freq='BQ'|
|QS|분기 시작 날짜 기준 주기|freq='QS'|
|BQS|업무 분기 시작 날짜 기준 주기|freq='BQS'|
|A|일년 끝 날짜 기준 주기|freq='A'|
|BA|업무 일년 끝 날짜 기준 주기|freq='BA'|
|AS|일년 시작 날짜 기준 주기|freq='AS'|
|BAS|업무 일년 시작 날짜 기준 주기|freq='BAS'|
|H|시간 기준 주기|freq='2H' : 2시간 주기|
|BH|업무 시간 기준 주기|업무 시간(09:00 ~ 17:00)기준으로 생성|
|T, min|분 주기|freq='10T' : 10분 주기, freq='30min' : 30분 주기|
|S|초 주기|freq='30S' : 30초 주기|

In [4]:
import pandas as pd
pd.date_range(start='2022-01-09',end='2022-02-10')

DatetimeIndex(['2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-22', '2022-01-23', '2022-01-24',
               '2022-01-25', '2022-01-26', '2022-01-27', '2022-01-28',
               '2022-01-29', '2022-01-30', '2022-01-31', '2022-02-01',
               '2022-02-02', '2022-02-03', '2022-02-04', '2022-02-05',
               '2022-02-06', '2022-02-07', '2022-02-08', '2022-02-09',
               '2022-02-10'],
              dtype='datetime64[ns]', freq='D')

In [5]:
pd.date_range(start='2022-01-09', periods=3)

DatetimeIndex(['2022-01-09', '2022-01-10', '2022-01-11'], dtype='datetime64[ns]', freq='D')

In [11]:
pd.date_range(start='2022-01-08',periods=3,freq='B') # 업무일로 3일 선택하기

DatetimeIndex(['2022-01-10', '2022-01-11', '2022-01-12'], dtype='datetime64[ns]', freq='B')

In [7]:
pd.date_range(start='2022-01-10',periods=3,freq='W') # 주 시작일(일요일)로 3번 선택하기

DatetimeIndex(['2022-01-16', '2022-01-23', '2022-01-30'], dtype='datetime64[ns]', freq='W-SUN')

In [9]:
pd.date_range(start='2022-01-10',periods=3,freq='W-MON') # 주 시작일(월요일)로 3번 선택하기

DatetimeIndex(['2022-01-10', '2022-01-17', '2022-01-24'], dtype='datetime64[ns]', freq='W-MON')

In [13]:
pd.date_range(start='2022-01-10',periods=3,freq='M') # 월 말 날짜로 3달 추출

DatetimeIndex(['2022-01-31', '2022-02-28', '2022-03-31'], dtype='datetime64[ns]', freq='M')

In [15]:
pd.date_range(start='2022-04-10',periods=3,freq='BM')

DatetimeIndex(['2022-04-29', '2022-05-31', '2022-06-30'], dtype='datetime64[ns]', freq='BM')

In [18]:
pd.date_range(start='2022-01-09',periods=4,freq='Q') # 분기 끝 날짜 기준으로 4개

DatetimeIndex(['2022-03-31', '2022-06-30', '2022-09-30', '2022-12-31'], dtype='datetime64[ns]', freq='Q-DEC')

In [19]:
pd.date_range(start='2022-01-09',periods=3,freq='A')

DatetimeIndex(['2022-12-31', '2023-12-31', '2024-12-31'], dtype='datetime64[ns]', freq='A-DEC')

In [20]:
pd.date_range(start='2022-01-09',periods=3,freq='AS')

DatetimeIndex(['2023-01-01', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

In [21]:
pd.date_range(start='2022-01-09',periods=3,freq='M')

DatetimeIndex(['2022-01-31', '2022-02-28', '2022-03-31'], dtype='datetime64[ns]', freq='M')

In [23]:
pd.date_range(start='2022-01-09',periods=3,freq='2H')

DatetimeIndex(['2022-01-09 00:00:00', '2022-01-09 02:00:00',
               '2022-01-09 04:00:00'],
              dtype='datetime64[ns]', freq='2H')

In [24]:
pd.date_range(start='2022-01-09 09:00:00',periods=3,freq='3H')

DatetimeIndex(['2022-01-09 09:00:00', '2022-01-09 12:00:00',
               '2022-01-09 15:00:00'],
              dtype='datetime64[ns]', freq='3H')

In [27]:
pd.date_range(start='2022-01-09 09:00:00',periods=3,freq='30T')

DatetimeIndex(['2022-01-09 09:00:00', '2022-01-09 09:30:00',
               '2022-01-09 10:00:00'],
              dtype='datetime64[ns]', freq='30T')

In [28]:
pd.date_range(start='2022-01-09 09:00:00',periods=3,freq='30min')

DatetimeIndex(['2022-01-09 09:00:00', '2022-01-09 09:30:00',
               '2022-01-09 10:00:00'],
              dtype='datetime64[ns]', freq='30T')

In [29]:
pd.date_range(start='2022-01-09 09:00:00',periods=3,freq='30S')

DatetimeIndex(['2022-01-09 09:00:00', '2022-01-09 09:00:30',
               '2022-01-09 09:01:00'],
              dtype='datetime64[ns]', freq='30S')

In [30]:
index_date = pd.date_range(start='2022.01.09',periods=5,freq='B')
pd.Series([32,50,43,29,61], index=index_date)

2022-01-10    32
2022-01-11    50
2022-01-12    43
2022-01-13    29
2022-01-14    61
Freq: B, dtype: int64

### 3. DataFrame을 활용한 데이터 생성
DateFrame을 이용하면 index가 있는 2차원 데이터를 생성하고 처리할 수 있다

`df = pd.DataFrame(data [, index=index_data, columns=columns_datd])`

* data에는 리스트, 딕셔너리, NumPy의 배열, Series 데이터, DataFrame 데이터를 입력 가능
* 세로축 라벨 : index, 가로축 라벨 : columns
* index와 columns를 입력하지 않으면 0부터 숫자가 작성됨
* ※주의 : data의 행 개수와 index 요소의 개수, data의 열 개수와 columns 요소의 개수가 같아야함

In [33]:
pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [34]:
pd.DataFrame([[10,20,30],[40,50,60],[70,80,90]])

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [37]:
df_index = pd.date_range(start='2019-09-01',periods=4)
pd.DataFrame([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],index=df_index,columns=['A','B','C'])

Unnamed: 0,A,B,C
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


* 딕셔너리를 사용하면 딕셔너리 데이터의 키는 DataFrame에서 columns로 지정됨

In [52]:
table_data = {'연도':[2015,2016,2016,2017,2017],'지사':['한국','한국','미국','한국','미국'],'고객수':[200,250,450,300,500]}
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객수': [200, 250, 450, 300, 500]}

In [54]:
df_a = pd.DataFrame(table_data)
df_a

Unnamed: 0,연도,지사,고객수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


* DataFrame 데이터에서 index, columns, values 확인 가능

`DataFrame.index`, `DataFrame.columns`, `DataFrame.values`

In [55]:
df_a.index

RangeIndex(start=0, stop=5, step=1)

In [56]:
df_a.columns

Index(['연도', '지사', '고객수'], dtype='object')

In [57]:
df_a.values

array([[2015, '한국', 200],
       [2016, '한국', 250],
       [2016, '미국', 450],
       [2017, '한국', 300],
       [2017, '미국', 500]], dtype=object)

## 데이터 연산
* pandas의 Series()와 DataFrame()으로 생성한 데이터끼리는 사칙연산이 가능
* pandas의 데이터끼리는 서로 크기가 달라도 연산이 가능 : 연산을 할 수 있는 항목만 연산을 수행하고, 할 수 없는 부분은 Nan으로 표시

In [59]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([10,20,30,40,50])
s1+s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [60]:
s2-s1

0     9
1    18
2    27
3    36
4    45
dtype: int64

In [61]:
s1*s2

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [62]:
s2/s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [63]:
s3 = pd.Series([1,2,3,4,5,6])
s4 = pd.Series([10,20,30,40,50])
s3+s4

0    11.0
1    22.0
2    33.0
3    44.0
4    55.0
5     NaN
dtype: float64

In [64]:
s4-s3

0     9.0
1    18.0
2    27.0
3    36.0
4    45.0
5     NaN
dtype: float64

In [65]:
s3*s4

0     10.0
1     40.0
2     90.0
3    160.0
4    250.0
5      NaN
dtype: float64

In [67]:
s4/s3

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
5     NaN
dtype: float64

In [68]:
table_data1 = {'A':[1,2,3,4,5],'B':[10,20,30,40,50],'C':[100,200,300,400,500]}
table_data1

{'A': [1, 2, 3, 4, 5],
 'B': [10, 20, 30, 40, 50],
 'C': [100, 200, 300, 400, 500]}

In [71]:
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [72]:
table_data2 = {'A':[6,7,8],'B':[60,70,80],'C':[600,700,800]}
table_data2

{'A': [6, 7, 8], 'B': [60, 70, 80], 'C': [600, 700, 800]}

In [74]:
df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [75]:
df1+df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


* pandas에는 데이터 통계 분석을 위한 다양한 메서드가 있어 데이터의 총합, 평균, 표준편차 등을 구할 수 있음

|메서드|설명|메서드|설명|
|------|------|------|------|
|`sum()`|총합|`mean()`|평균|
|`std()`|표준편차|`var()`|분산|
|`min()`|최솟값|`max()`|최댓값|
|`cumsum()`|원소의 누적 합|`cumprod()`|원소의 누적 곱|


*`describe()` : 평균, 표준편차, 최댓값, 최솟값 등을 한 번에 구할 수 있음

In [76]:
table_data3 = {'봄':[256.5,264.3,215.9,223.2,312.8],'여름':[770.6,567.5,599.8,387.1,446.2],'가을':[363.5,231.2,293.1,247.7,381.6],'겨울':[139.3,59.9,76.9,109.1,108.1]}
table_data3

{'봄': [256.5, 264.3, 215.9, 223.2, 312.8],
 '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
 '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
 '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}

In [78]:
df3 = pd.DataFrame(table_data3, index=[2012,2013,2014,2015,2016])
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [79]:
df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [80]:
df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [81]:
df3.std(axis=1)

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64

In [82]:
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3
