In [2]:
import pandas as pd

# 2.Pandas

## 2.1 Series

Numpy와 유사하나 index를 가지고 있음

### 생성

```python
series = pd.Series(
  [90, 85, 80, 75, 70]
  ) # 인덱스를 지정하지 않으면 0부터 시작

series = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )
```

In [4]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index=['국', '영', '수', '사', '과']
)

series

국    90
영    85
수    80
사    75
과    70
dtype: int64

### 추가, 변경, 삭제
기존 딕셔너리의 추가, 변경, 삭제와 동일 <br>
<br>

추가
```python
series['한국사'] = 100
```
<br>

변경
```python
series['국'] = 100
series.국 = 100
```
<br>

삭제
```python
del series['국']
```




In [5]:
series['코딩'] = 100
series

In [10]:
series['코딩'] = 90
series

series.코딩 = 85
series

국     90
영     85
수     80
사     75
과     70
코딩    85
dtype: int64

In [11]:
del series['코딩']
series

국    90
영    85
수    80
사    75
과    70
dtype: int64

### name
name 속성을 이용하여 series와 index에 이름 부여 가능

```python
series.name = '성적'
series.index.name = '과목'
```

In [12]:
series.name = '성적'
series.index.name = '과목'

series

과목
국    90
영    85
수    80
사    75
과    70
Name: 성적, dtype: int64

### indexing

```python
series[0], series['국']    # 특정 인덱스 번호 혹은 이름 지정
series.국

series[[0, 2, 1]]         # 인덱스 순서를 원하는 순서대로 변경하여 출력
series[['국', '수', '영']]  # 인덱스 순서를 원하는 순서대로 변경하여 출력

series[0:3]            # 슬라이싱
series['국어':'수학']    # 슬라이싱, 끝 점 포함
```

In [21]:
print(series[0])
print(series['국'])
print(series.국)
print()

print(series[[0, 2, 1]])
print(series[['과', '국', '영', '수']])
print()

print(series[0:3])
print(series['국':'수'])

90
90
90

과목
국    90
수    80
영    85
Name: 성적, dtype: int64
과목
과    70
국    90
영    85
수    80
Name: 성적, dtype: int64

과목
국    90
영    85
수    80
Name: 성적, dtype: int64
과목
국    90
영    85
수    80
Name: 성적, dtype: int64


### series 연산

series끼리 연산 진행 가능 <br>
다만, series 연산은 동일 index끼리 연산이므로 index 정보가 다르면 연산 불가 <br>
<br>

```python
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )
```

In [36]:
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )

series1 + series2

국    185
영    165
수    150
사    155
과    165
dtype: int64

In [39]:
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95, 100],
  index=['영', '수', '사', '과', '국', '코딩']
  )

series1 + series2

과    150
국    185
사    145
수    160
영    180
dtype: int64

## 2.2 DataFrame

Series가 1d 행렬에 index를 추가한 것과 같이 <br>
DataFrame은 2d 행렬에 index와 column을 추가한 것 <br>
혹은 여러 Series의 합 <br>


### 2.2.1 판다스 기초

#### 생성

딕셔너리 기반
```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df
```
<br>
<br>

배열 기반
```python
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1', '학생2', '학생3']
df = pd.DataFrame(data, index=index, columns=columns)
```

In [41]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [44]:
print(df.학생1)
print(df.학생1.국)

국    90
영    85
수    80
사    75
과    70
Name: 학생1, dtype: int64
90


In [49]:
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1', '학생2', '학생3']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### 추가, 변경, 삭제
**추가** <br>
DataFrame의 추가는 기본적으로 열 단위 추가

```python
# 현재 row는 국, 영, 수, 사, 과의 5개 정보인데 1개 정보만 추가하게 되면, 이 값을 전체에 복사
# 즉, 모든 row 값을 90으로 채움
df['학생4'] = 90

# 만약 2개 이상의 값을 넣고 싶으면 배열을 이용하여 넣어야 함
# 이 경우 row수와 일치하지 않으면 에러 발생
df['학생4'] = [90, 80]     # 에러
df['학생4'] = [90, 80, 70, 60, 50] 
```
<br>

**변경** <br>
데이터프레임.컬럼.인덱스 = 변경값 <br>
기존 컬럼이 존재하면 생성과 유사하게 동작
```python
df.학생3.국 = 100
df['학생3'] = 100    # df.학생3 = 100
df['학생3'] = [100, 99, 98, 97, 96]    # df.학생3 = [100, 99, 98, 97, 96]
```



**삭제**
```python
del df['학생4']
df.drop(columns='학생4')
```


In [54]:
df['학생4'] = 90
print(df)
df['학생4'] = [10, 20, 50, 90, 70]
print(df)
df.학생4.국 = 80
print(df)

   학생1  학생2  학생3  학생4
국   90   95   85   90
영   85   80   95   90
수   80   70   90   90
사   75   80   70   90
과   70   95   85   90
   학생1  학생2  학생3  학생4
국   90   95   85   10
영   85   80   95   20
수   80   70   90   50
사   75   80   70   90
과   70   95   85   70
   학생1  학생2  학생3  학생4
국   90   95   85   80
영   85   80   95   20
수   80   70   90   50
사   75   80   70   90
과   70   95   85   70


In [55]:
del df['학생4']
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### name

Series에서와 마찬가지로 이름을 지정할 수 있음 <br>
다만, DataFrame은 2차원이므로 index와 column 모두에 이름 지정 가능 <br>

```python
df.index.name = '과목'
df.columns.name = '학생'
```

In [58]:
df.index.name = '과목'
df.columns.name = '학생'

df

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### column 이름 변경
dataframe의 column 정보는 df.columns에 저장 <br>
여기에 저장된 값을 다른 값으로 입력하면 변경 가능 <br>
단, 열 전체 정보를 입력해야 함 (열 개수와 입력 값이 일치하지 않으면 에러) <br>
개별 column 이름을 변경하고 싶으면 rename 사용
<br>

```python
df.columns
df.columns = '학생4'    # 에러
df.columns = ['학생4']  # 에러
df.rename(columns={'학생1': '학생4'})
df.columns = ['학생4', '학생5', '학생6']
```

In [61]:
df.columns = ['학생4', '학생2', '학생3']
df.columns.name = '학생'
df

학생,학생4,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [62]:
df.rename(columns={'학생4': '학생1'})

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### indexing
**column** <br>
```python
df['학생1']           # Series 반환
df[['학생1']]         # DataFrame 반환
df[['학생1', '학생2']] # 다수의 컬럼 선택
```
<br>

**row** <br>
항상 슬라이싱(:) 사용
```python
df[:1]
df[1:3]
df['국':'수']
```

In [67]:
print(df['학생2'])
print(df[['학생2']])
print(df[['학생3', '학생2']])

과목
국    95
영    80
수    70
사    80
과    95
Name: 학생2, dtype: int64
학생  학생2
과목     
국    95
영    80
수    70
사    80
과    95
학생  학생3  학생2
과목          
국    85   95
영    95   80
수    90   70
사    70   80
과    85   95


In [69]:
print(df[1:3])
print(df['영':'사'])

학생  학생4  학생2  학생3
과목               
영    85   80   95
수    80   70   90
학생  학생4  학생2  학생3
과목               
영    85   80   95
수    80   70   90
사    75   80   70


##### iloc, loc

판다스 데이터프레임에는 위의 인덱싱을 보다 효과적으로 수행할 수 있는 특별한 방법이 존재 <br>
<br>

> **loc** <br>
행 인덱싱은 정수 또는 행 인덱스 데이터, 열 인덱스는 문자열 <br>
```python
dataframe.loc[행 인덱싱]
dataframe.loc[행 인덱싱, 열 인덱싱]
```

<br>
<br>

> **iloc** <br>
사용법은 loc와 큰 차이가 없으나 iloc 내부에는 반드시 정수 인덱싱만 허용 <br>
```python
dataframe.iloc[행 인덱싱]
dataframe.iloc[행 인덱싱, 열 인덱싱]
```

##### iloc, loc

판다스 데이터프레임에는 위의 인덱싱을 보다 효과적으로 수행할 수 있는 특별한 방법이 존재 <br>
<br>

> **loc** <br>
행 인덱싱은 정수 또는 행 인덱스 데이터, 열 인덱스는 문자열 <br>
```python
dataframe.loc[행 인덱싱]
dataframe.loc[행 인덱싱, 열 인덱싱]
```

<br>
<br>

> **iloc** <br>
사용법은 loc와 큰 차이가 없으나 iloc 내부에는 반드시 정수 인덱싱만 허용 <br>
```python
dataframe.iloc[행 인덱싱]
dataframe.iloc[행 인덱싱, 열 인덱싱]
```

#### describe
데이터 프레임의 기술통계량 산출 <br>


#### values
데이터 프레임 값을 numpy로 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.values
```

#### shape
데이터 프레임의 행,열을 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.shape
```

#### unique
중복값을 제거한 데이터 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.학생2.unique()
```

#### count
행별 개수, 열별 개수 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.count()        # 행별 원소 개수
df.count(axis=1)  # 열별 원소 개수
```

#### sort_index
인덱스 정렬 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = [3, 1, 4, 2, 5]
df = pd.DataFrame(data, index=index)

df.sort_index()                   # 오름차순으로 정렬된 데이터 프레임 반환
df.sort_index(inplace=True)       # 데이터 프레임 자체를 변환
df.sort_index(ascending=False)    # 내림차순으로 정렬된 데이터 프레임 반환
```

#### sort_values
특정 컬럼 값을 기준으로 정렬 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.sort_values(by=['학생1'])                      # 학생1의 점수를 기준으로 오름차순 정렬된 데이터 프레임 반환
df.sort_values(by=['학생1'], ascending=False)     # 학생1의 점수를 기준으로 내림차순 정렬된 데이터 프레임 반환
df.sort_values(by=['학생1'], inplace=True)        # 데이터 프레임을 학생1의 점수를 기준으로 오름차순 정렬
df.sort_values(by=['학생1', '학생2'])              # 학생1, 학생2의 점수를 기준으로 (학생1 우선) 오름차순 정렬된 데이터프레임 반환
```

#### apply
열 또는 축을 기준으로 함수 적용

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.apply(lambda x: x + 10, axis=1)
```

#### value_counts
특정 열을 기준으로 값의 개수 산출

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.value_counts()
```

#### set_index
특정 열을 index로 설정

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.set_index('학생1')
```

### 2.2.2 데이터 입출력


#### 입력
pd.read_csv를 통하여 csv 데이터를 읽음

```python
pd.read_csv(파일경로)
```
<br>

read_csv 내에는 다양한 옵션 존재
- use_cols: csv 컬럼에서 특정 컬럼만을 읽음
- names: 읽어 들인 데이터의 열 이름 변경 가능
- index_col: 입력하는 파일 내의 특정 column을 index로 설정 가능
- sep: csv의 데이터 구분은 ",", 하지만 데이터 구분자가 다른 경우 (\t) 이러한 구분자를 sep을 통해 지정할 수 있음
- skiprows: 읽어들인 데이터 중 필요 없는 row를 제거할 수 있음
- na_values: 값 중 na_values에 지정한 값은 읽을 때 na 처리

#### 출력
pd.to_csv를 통하여 csv 데이터를 출력

```python
pd.to_csv(파일경로)
```
<br>

to_csv 내에는 다양한 옵션 존재

- encoding: encoding을 지정하지 않고 출력 시 excel에서 한글이 깨지는 경우가 존재. 이 경우 utf-8-sig를 사용하면 해결 가능. <br> cp949, euc-kr등의 옵션도 존재
- sep: 입력 때와 마찬가지로 구분자를 지정해줄 수 있음
- na_rep: 입력 때와 마찬가지로 특정 값을 na로 처리하여 저장할 수 있음
- index: index를 출력할지 유무. True, False
- headers: column을 출력할지 유무. True, False


### 2.2.3 데이터 전처리

#### duplicated
데이터프레임 내 중복값 확인



In [None]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}

#### drop_duplicates

#### isna
결측값 확인

```python
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.isna()
```



#### fillna
결측값을 특정 값으로 대체

```python
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.fillna(0)                   # 특정 값으로 대체
df.fillna(method='ffill')      # 결측값을 앞의 값으로 대체
df.fillna(method='bfill')      # 결측값을 뒤의 값으로 대체
```

### 2.2.4 데이터 조회

#### isin
주어진 값이 데이터프레임 내에 존재하는지 확인

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.isin([80])
```

#### where
특정 조건을 만족하는지 검사 <br>
조건을 만족하는 경우 값 변경 가능 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.where(df%2==0, -df)
```

#### query
column의 boolean 결과를 쿼리하는 표현 <br>
위의 loc를 활용한 방법보다 간단 <br>
<br>

```python
df = pd.DataFrame({
    'A': range(1, 6),
    'B': range(10, 0, -2),
    'C C': range(10, 5, -1)
    })

df.query('A > B')        # df.loc[df.A > df.B]
df.query('`C C` < 8')    # df.loc[df['C C'] < 8]
```

### 2.2.5 컬럼 조작

#### filter
특정 조건에 맞는 열이나 행을 추출

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.filter(items=['학생1', '학생2'])    # 주어진 열을 선택
df.filter(like='학생',  axis=1)       # 학생이라는 단어를 포함하는 열 선택
df.filter(regex='\d', axis=1)        # 숫자를 포함하는 열 선택 
```

#### drop
column이나 row를 제거

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.drop(columns='학생1')               # 1개 컬럼 drop
df.drop(columns=['학생1', '학생2'])     # 복수개 컬럼 drop

df.drop('국')             # 1개 row drop
df.drop(['국', '영'])      # 복수개 row drop
```

### 2.2.6 통계

#### sum
데이터프레임의 행 또는 열 기준 합을 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.sum()         # default 0: 학생별 합
df.sum(axis=1)   # 1: 과목별 합
```

#### mean
데이터프레임의 행 또는 열 기준 평균 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.mean()         # default 0: 학생별 평균
df.mean(axis=1)   # 1: 과목별 평균
```

#### median
데이터프레임의 행 또는 열 기준 중앙값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.median()         # default 0: 학생별 중앙값
df.median(axis=1)   # 1: 과목별 중앙값
```

#### mode
데이터프레임의 행 또는 열 기준 최빈값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.mode()         # default 0: 학생별 합
df.mode(axis=1)   # 1: 과목별 합
```

#### max
데이터프레임의 행 또는 열 기준 최댓값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.max()         # default 0: 학생별 최댓값
df.max(axis=1)   # 1: 과목별 최댓값
```

#### min
데이터프레임의 행 또는 열 기준 최솟값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.min()         # default 0: 학생별 최솟값
df.min(axis=1)   # 1: 과목별 최솟값
```

#### cumsum

데이터프레임의 행 또는 열 기준 누적합 반환

```python
data = {
    '자산1': [0.01, 0.02, 0.03],
    '자산2': [0.06, 0.09, 0.07],
    '자산3': [0.04, 0.09, 0.01],
}
index = [2018, 2019, 2020]
df = pd.DataFrame(data, index=index)

df.cumsum()         # default 0: 자산별 누적합
df.cumsum(axis=1)   # 1: 연도별 누적합
```

#### cumprod
데이터프레임의 행 또는 열 기준 누적곱 반환

```python
data = {
    '자산1': [0.01, 0.02, 0.03],
    '자산2': [0.06, 0.09, 0.07],
    '자산3': [0.04, 0.09, 0.01],
}
index = [2018, 2019, 2020]
df = pd.DataFrame(data, index=index)

df.cumprod()         # default 0: 자산별 누적곱
df.cumprod(axis=1)   # 1: 연도별 누적곱
```

#### rank
데이터프레임의 행 또는 열 기준 순위 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.rank()         # default 0: 학생별 최솟값
df.rank(axis=1)   # 1: 과목별 최솟값
```

#### quantile
데이터프레임의 행 또는 열 기준 분위수 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.quantile()         # default 0: 학생별 중앙값
df.quantile(q=0.8)    # default 0: 학생별 80%값 반환
df.quantile(axis=1)   # 1: 과목별 학생별 중앙값
```

#### var
데이터프레임의 행 또는 열 기준 분산 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.var()         # default 0: 학생별 분산
df.var(axis=1)   # 1: 과목별 분산
```

#### std
데이터프레임의 행 또는 열 기준 표준편차 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.std()         # default 0: 학생별 표준편차
df.std(axis=1)   # 1: 과목별 표준편차
```

#### corr
데이터프레임 내 상관관계 행렬 반환 <br>
상관관계는 pearson, kendall, spearman 방법 가능

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.corr()                     # pearson
df.corr(method='kendall')     # kendall
df.corr(method='spearman')    # spearman
```

#### cov
데이터프레임 내 공분산 행렬 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.cov()
```

### 2.2.7 집계

#### groupby
그룹별 집계

```python
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)

df.groupby('구분').mean()
```

#### agg
다양한 집계함수 사용 가능

```python
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)

df.groupby('구분').agg(['min', 'max', 'mean'])
```

### 2.2.8 결합

#### merge
두 데이터프레임 병합 <br>

on: 결합 대상 key 컬럼 <br>
how <br>
- left: 왼쪽 데이터 프레임의 키를 중심으로 결합
- right: 오른쪽 데이터 프레임의 키를 중심으로 결합
- outer: 두 데이터 프레임의 키를 중심으로 결합
- inner: 두 데이터 프레임에서 공통으로 존재하는 값만 결합
- cross: 모든 경우의 수를 구하여 결합

```python
df1 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})

df1.merge(df2, how='inner', on='a')
df1.merge(df2, how='left', on='a')
df1.merge(df2, how='cross')


df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

df1.merge(df2, left_on='lkey', right_on='rkey')
df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))
```

#### concat
두 데이터프레임 결합 <br>
리스트 내의 데이터프레임 결합에도 사용 <br>

```python
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])

pd.concat([df1, df2])            # 아래로 결합
pd.concat([df1, df2], axis=1)    # 옆으로 결합


dataframe_list = [df1, df2]
pd.concat(dataframe_list)
```

### 2.2.9 데이터프레임 조작

#### explode
리스트 내의 값을 row로 분해

```python
data = {
    '학생1': [[90, 85, 80, 75, 70]],
    '학생2': [[95, 80, 70, 80, 95]],
    '학생3': [[85, 95, 90, 70, 85]],
}
df = pd.DataFrame(data)

df.explode('학생1')
df.explode('학생2')
df.explode('학생3')
```

#### pivot
인덱스, 컬럼 값으로 데이터 재정렬

```python
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                           'two'],
                   'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                   'zoo': ['x', 'y', 'z', 'q', 'w', 't']})

df.pivot(index='foo', columns='bar', values='baz')
df.pivot(index='foo', columns='bar')['baz']
df.pivot(index='foo', columns='bar', values=['baz', 'zoo'])
```

#### melt
uppivot, 데이터 프레임 재정렬

```python
data = {
  'A': {0: 'a', 1: 'b', 2: 'c'},
  'B': {0: 1, 1: 3, 2: 5},
  'C': {0: 2, 1: 4, 2: 6}
  }
df = pd.DataFrame(data)


df.melt(id_vars=['A'], value_vars=['B'])
df.melt(id_vars=['A'], value_vars=['B', 'C'])
df.melt(id_vars=['A'], value_vars=['B', 'C'], var_name='new_var_name', value_name='new_value_name')
```

#### stack
데이터를 아래로 이어붙임

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.stack()
```


#### unstack

멀티 인덱스 데이터프레임을 컬럼으로 분할


```python
scores = [90, 95, 85, 85, 80, 95, 80, 70, 90, 75, 80, 70, 70, 95, 85]
index = pd.MultiIndex.from_tuples(
    [('국', '학생1'),
     ('국', '학생2'),
     ('국', '학생3'),
     ('영', '학생1'),
     ('영', '학생2'),
     ('영', '학생3'),
     ('수', '학생1'),
     ('수', '학생2'),
     ('수', '학생3'),
     ('사', '학생1'),
     ('사', '학생2'),
     ('사', '학생3'),
     ('과', '학생1'),
     ('과', '학생2'),
     ('과', '학생3')],
)
df = pd.Series(scores, index=index)

df.unstack()
```

## 2.3. 시계열 데이터

#### date_range
주어진 범위에 해당하는 date 리스트 반환

```python
pd.date_range(start='9/1/2022', end='9/30/2022')
pd.date_range(start='2022-09-01', end='2022-09-30')
pd.date_range(start='2022-09-01', end='2022-09-30', freq='1W')    # 1주 단위로 date 생성
pd.date_range(start='2022-09-01', periods=8)                      # 시작일 기준 8개의 날 생성
pd.date_range(end='2022-09-01', periods=8)                        # 종료일 기준 8개의 날 생성
```

#### shift

데이터 프레임의 인덱스 또는 컬럼을 주어진 숫자 만큼 옮김

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.shift(periods=1)                 # 아래로 한 칸 이동
df.shift(periods=1, axis='columns') # 컬럼 한 칸 이동
df.shift(periods=3, fill_value=0)   # 아래로 세 칸 이동 후 nan값을 0으로 채움
df.shift(periods=3, freq='D')       # 3일 이동
```

#### diff
주어진 숫자 만큼의 인덱스 혹은 컬럼 차를 계산

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.diff()
df.diff(periods=3)     # 3칸 간격의 차를 계산
```

#### pct_change
주어진 숫자 만큼의 인덱스 혹은 컬럼 변화율 계산

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.pct_change()
df.pct_change(periods=3)     # 3칸 간격의 변화율 계산
```

#### rolling
주어진 숫자 만큼의 윈도우 생성 <br>
생성된 윈도우 내에서 집계 함수 사용 가능 <br>

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.rolling(2).sum()
```

## 2.4 시각화
데이터프레임 값을 시각화

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.plot()                            # 모든 컬럼에 대한 line 그래프
df.plot(legend=False)                # 범주를 출력하지 않음
df.plot(kind='box')                  # 열 별 box plot 
df.plot(kind='density')              # 열 별 밀도함수
df.plot(kind='pie', subplots=True)   # pie 그래프
```