In [1]:
import pandas as pd
import numpy as np

# 3.Pandas

## 3.1 Series

Numpy와 유사하나 index를 가지고 있음

### 생성

```python
series = pd.Series(
  [90, 85, 80, 75, 70]
  ) # 인덱스를 지정하지 않으면 0부터 시작

series = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )
```

In [2]:
series = pd.Series(
    [90, 85, 80, 75, 70]
)
series

0    90
1    85
2    80
3    75
4    70
dtype: int64

In [3]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index=['국', '영', '수', '사', '과']
)
series

국    90
영    85
수    80
사    75
과    70
dtype: int64

In [4]:
a = {'가':1}
a['가']=2
a

{'가': 2}

### 추가, 변경, 삭제
기존 딕셔너리의 추가, 변경, 삭제와 동일 <br>
<br>

추가
```python
series['한국사'] = 100
```
<br>

변경
```python
series['국'] = 100
series.국 = 100
```
<br>

삭제
```python
del series['국']
```




In [5]:
series['한국사']=100
series

국       90
영       85
수       80
사       75
과       70
한국사    100
dtype: int64

In [6]:
series['국'] = 100
series

국      100
영       85
수       80
사       75
과       70
한국사    100
dtype: int64

In [7]:
series.탐구 = 100
series

국      100
영       85
수       80
사       75
과       70
한국사    100
dtype: int64

### name
name 속성을 이용하여 series와 index에 이름 부여 가능

```python
series.name = '성적'
series.index.name = '과목'
```

### indexing

```python
series[0], series['국']    # 특정 인덱스 번호 혹은 이름 지정
series.국

series[[0, 2, 1]]         # 인덱스 순서를 원하는 순서대로 변경하여 출력
series[['국', '수', '영']]  # 인덱스 순서를 원하는 순서대로 변경하여 출력

series[0:3]            # 슬라이싱
series['국어':'수학']    # 슬라이싱, 끝 점 포함
```

In [8]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index=['국', '영', '수', '사', '과']
)
series

국    90
영    85
수    80
사    75
과    70
dtype: int64

In [9]:
series['국', '과', '영']

KeyError: 'key of type tuple not found and not a MultiIndex'

인덱싱을 할 수 있다.

In [10]:
series['국':'사']

국    90
영    85
수    80
사    75
dtype: int64

### series 연산

series끼리 연산 진행 가능 <br>
다만, series 연산은 동일 index끼리 연산이므로 index 정보가 다르면 연산 불가 <br>
<br>

```python
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )
```

In [11]:
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )

In [12]:
series1 + series2

국    185
영    165
수    150
사    155
과    165
dtype: int64

## 3.2 DataFrame

Series가 1d 행렬에 index를 추가한 것과 같이 <br>
DataFrame은 2d 행렬에 index와 column을 추가한 것 <br>
혹은 여러 Series의 합 <br>


### 3.2.1 판다스 기초

#### 생성

딕셔너리 기반
```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df
```
<br>
<br>

배열 기반
```python
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1', '학생2', '학생3']
df = pd.DataFrame(data, index=index, columns=columns)
```

In [13]:
# dictionary
data = {
    '학생1' : [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85]    
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [14]:
# 배열 기반 생성
data = [
  [60, 60, 50],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]
columns = ['학생1', '학생2', '학생3']
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, columns=columns, index=index)
df

Unnamed: 0,학생1,학생2,학생3
국,60,60,50
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### 추가, 변경, 삭제
**추가** <br>
DataFrame의 추가는 기본적으로 열 단위 추가

```python
# 현재 row는 국, 영, 수, 사, 과의 5개 정보인데 1개 정보만 추가하게 되면, 이 값을 전체에 복사
# 즉, 모든 row 값을 90으로 채움
df['학생4'] = 90

# 만약 2개 이상의 값을 넣고 싶으면 배열을 이용하여 넣어야 함
# 이 경우 row수와 일치하지 않으면 에러 발생
df['학생4'] = [90, 80]     # 에러
df['학생4'] = [90, 80, 70, 60, 50] 
```
<br>

**변경** <br>
데이터프레임.컬럼.인덱스 = 변경값 <br>
기존 컬럼이 존재하면 생성과 유사하게 동작
```python
df.학생3.국 = 100
df['학생3'] = 100    # df.학생3 = 100
df['학생3'] = [100, 99, 98, 97, 96]    # df.학생3 = [100, 99, 98, 97, 96]
```



**삭제**
```python
del df['학생4']
df.drop(columns='학생4')
```


In [15]:
df['재수1'] = 100
df


Unnamed: 0,학생1,학생2,학생3,재수1
국,60,60,50,100
영,85,80,95,100
수,80,70,90,100
사,75,80,70,100
과,70,95,85,100


In [16]:
# df['재수1'] = [100, 90]
df['재수1'] = [100, 90, 90, 95, 100]
df

Unnamed: 0,학생1,학생2,학생3,재수1
국,60,60,50,100
영,85,80,95,90
수,80,70,90,90
사,75,80,70,95
과,70,95,85,100


In [17]:
df['재수1']['사'] 
df['재수1']['사'] = 100
df.학생3.국 = 80
df

Unnamed: 0,학생1,학생2,학생3,재수1
국,60,60,80,100
영,85,80,95,90
수,80,70,90,90
사,75,80,70,100
과,70,95,85,100


In [18]:
del df['재수1']
df

Unnamed: 0,학생1,학생2,학생3
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [19]:
# df = df.drop(columns='학생3')
df

Unnamed: 0,학생1,학생2,학생3
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### name

Series에서와 마찬가지로 이름을 지정할 수 있음 <br>
다만, DataFrame은 2차원이므로 index와 column 모두에 이름 지정 가능 <br>

```python
df.index.name = '과목'
df.columns.name = '학생'
```

In [20]:
df.index.name = '과목'
df

Unnamed: 0_level_0,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [21]:
df.columns.name = '학생'
df

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### column 이름 변경
dataframe의 column 정보는 df.columns에 저장 <br>
여기에 저장된 값을 다른 값으로 입력하면 변경 가능 <br>
단, 열 전체 정보를 입력해야 함 (열 개수와 입력 값이 일치하지 않으면 에러) <br>
개별 column 이름을 변경하고 싶으면 rename 사용
<br>

```python
df.columns
df.columns = '학생4'    # 에러
df.columns = ['학생4']  # 에러
df.rename(columns={'학생1': '학생4'})
df.columns = ['학생4', '학생5', '학생6']
```

In [22]:
df

학생,학생1,학생2,학생3
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [23]:
df.columns = ['학생4', '학생5', '학생6']
df

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [24]:
df

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [25]:
df.rename(columns={'학생4': '학생1'})

Unnamed: 0_level_0,학생1,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### indexing
**column** <br>
```python
df['학생1']           # Series 반환
df[['학생1']]         # DataFrame 반환
df[['학생1', '학생2']] # 다수의 컬럼 선택
```
<br>

**row** <br>
항상 슬라이싱(:) 사용
```python
df[:1]
df[1:3]
df['국':'수']
```

In [30]:
df[:2]

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95


In [31]:
df[['학생4', '학생5', '학생6']]

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


##### iloc, loc

판다스 데이터프레임에는 위의 인덱싱을 보다 효과적으로 수행할 수 있는 특별한 방법이 존재 <br>
<br>

> **loc** <br>
행 인덱싱은 정수 또는 행 인덱스 데이터, 열 인덱스는 문자열 <br>
```python
dataframe.loc[행 인덱싱]
dataframe.loc[행 인덱싱, 열 인덱싱]
```

<br>
<br>

> **iloc** <br>
사용법은 loc와 큰 차이가 없으나 iloc 내부에는 반드시 정수 인덱싱만 허용 <br>
```python
dataframe.iloc[행 인덱싱]
dataframe.iloc[행 인덱싱, 열 인덱싱]
```

In [32]:
df.iloc[0]

학생4    60
학생5    60
학생6    80
Name: 국, dtype: int64

In [34]:
df.iloc[0:2, 1:3]

Unnamed: 0_level_0,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국,60,80
영,80,95


In [35]:
df

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [36]:
df.loc['국' : '수']

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국,60,60,80
영,85,80,95
수,80,70,90


In [39]:
df.loc[df.mean(axis=1) > 80]

Unnamed: 0_level_0,학생4,학생5,학생6
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영,85,80,95
과,70,95,85


#### describe
데이터 프레임의 기술통계량 산출 <br>


In [40]:
df.describe()

Unnamed: 0,학생4,학생5,학생6
count,5.0,5.0,5.0
mean,74.0,77.0,84.0
std,9.617692,13.038405,9.617692
min,60.0,60.0,70.0
25%,70.0,70.0,80.0
50%,75.0,80.0,85.0
75%,80.0,80.0,90.0
max,85.0,95.0,95.0


#### values
데이터 프레임 값을 numpy로 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.values
```

In [41]:
df.values

array([[60, 60, 80],
       [85, 80, 95],
       [80, 70, 90],
       [75, 80, 70],
       [70, 95, 85]], dtype=int64)

#### shape
데이터 프레임의 행,열을 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.shape
```

In [42]:
df.shape

(5, 3)

#### unique
중복값을 제거한 데이터 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.학생2.unique()
```

In [43]:
df.학생5.unique()

array([60, 80, 70, 95], dtype=int64)

#### count
행별 개수, 열별 개수 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.count()        # 행별 원소 개수
df.count(axis=1)  # 열별 원소 개수
```

In [45]:
df.count()

학생4    5
학생5    5
학생6    5
dtype: int64

#### sort_index
인덱스 정렬 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = [3, 1, 4, 2, 5]
df = pd.DataFrame(data, index=index)

df.sort_index()                   # 오름차순으로 정렬된 데이터 프레임 반환
df.sort_index(inplace=True)       # 데이터 프레임 자체를 변환
df.sort_index(ascending=False)    # 내림차순으로 정렬된 데이터 프레임 반환
```

In [47]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = [3, 1, 4, 2, 5]
df = pd.DataFrame(data, index=index)

df.sort_index()                   # 오름차순으로 정렬된 데이터 프레임 반환


Unnamed: 0,학생1,학생2,학생3,재수
1,85,80,95,100
2,75,80,70,95
3,90,95,85,80
4,80,70,90,99
5,70,95,85,90


In [48]:
df.sort_index(inplace=True)       # 데이터 프레임 자체를 변환


In [49]:
df.sort_index(ascending=False)    # 내림차순으로 정렬된 데이터 프레임 반환

Unnamed: 0,학생1,학생2,학생3,재수
5,70,95,85,90
4,80,70,90,99
3,90,95,85,80
2,75,80,70,95
1,85,80,95,100


#### sort_values
특정 컬럼 값을 기준으로 정렬 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.sort_values(by=['학생1'])                      # 학생1의 점수를 기준으로 오름차순 정렬된 데이터 프레임 반환
df.sort_values(by=['학생1'], ascending=False)     # 학생1의 점수를 기준으로 내림차순 정렬된 데이터 프레임 반환
df.sort_values(by=['학생1'], inplace=True)        # 데이터 프레임을 학생1의 점수를 기준으로 오름차순 정렬
df.sort_values(by=['학생1', '학생2'])              # 학생1, 학생2의 점수를 기준으로 (학생1 우선) 오름차순 정렬된 데이터프레임 반환
```

In [51]:
data = {
    '학생1': [90, 95, 85, 75, 70],
    '학생2': [85, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

In [52]:
df

Unnamed: 0,학생1,학생2,학생3,재수
국,90,85,85,80
영,95,80,95,100
수,85,70,90,99
사,75,80,70,95
과,70,95,85,90


In [53]:
df.sort_values(by=['학생1'])

Unnamed: 0,학생1,학생2,학생3,재수
과,70,95,85,90
사,75,80,70,95
수,85,70,90,99
국,90,85,85,80
영,95,80,95,100


#### apply
열 또는 축을 기준으로 함수 적용

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.apply(lambda x: x + 10, axis=1)
```

In [56]:
df.학생1.apply(lambda x: pow(x, 2))

국    8100
영    9025
수    7225
사    5625
과    4900
Name: 학생1, dtype: int64

In [57]:
df.apply(lambda x: pow(x, 2), axis=1)

Unnamed: 0,학생1,학생2,학생3,재수
국,8100,7225,7225,6400
영,9025,6400,9025,10000
수,7225,4900,8100,9801
사,5625,6400,4900,9025
과,4900,9025,7225,8100


#### value_counts
특정 열을 기준으로 값의 개수 산출

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.value_counts()
```

In [58]:
df.학생1.value_counts()

90    1
95    1
85    1
75    1
70    1
Name: 학생1, dtype: int64

In [60]:
df

Unnamed: 0,학생1,학생2,학생3,재수
국,90,85,85,80
영,95,80,95,100
수,85,70,90,99
사,75,80,70,95
과,70,95,85,90


In [61]:
df.value_counts()

학생1  학생2  학생3  재수 
70   95   85   90     1
75   80   70   95     1
85   70   90   99     1
90   85   85   80     1
95   80   95   100    1
dtype: int64

In [67]:
data = {
    '학생1': [90, 85, 80, 70, 70],
    '학생2': [95, 80, 70, 70, 70],
    '학생3': [85, 95, 90, 70, 70],
    '재수': [80, 100, 99, 70, 70],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)



In [68]:
df.value_counts()

학생1  학생2  학생3  재수 
70   70   70   70     2
80   70   90   99     1
85   80   95   100    1
90   95   85   80     1
dtype: int64

#### set_index
특정 열을 index로 설정

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.set_index('학생1')
```

In [69]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

In [70]:
df.set_index('학생1')

Unnamed: 0_level_0,학생2,학생3,재수
학생1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
90,95,85,80
85,80,95,100
80,70,90,99
75,80,70,95
70,95,85,90


### 3.2.2 데이터 입출력


#### 입력
pd.read_csv를 통하여 csv 데이터를 읽음

```python
pd.read_csv(파일경로)
```
<br>

read_csv 내에는 다양한 옵션 존재
- usecols: csv 컬럼에서 특정 컬럼만을 읽음
- names: 읽어 들인 데이터의 열 이름 변경 가능
- index_col: 입력하는 파일 내의 특정 column을 index로 설정 가능
- sep: csv의 데이터 구분은 ",", 하지만 데이터 구분자가 다른 경우 (\t) 이러한 구분자를 sep을 통해 지정할 수 있음
- skiprows: 읽어들인 데이터 중 필요 없는 row를 제거할 수 있음
- na_values: 값 중 na_values에 지정한 값은 읽을 때 na 처리

In [80]:
# pd.read_csv(
#     r'C:\\Users\\user\\Documents\\github\\2022_08_06_big_data\\bigdata2\\dart\\market_info.csv',
#     usecols=['종목명', '시가총액'],
#     index_col=['종목명'],
#     sep='||'
#     skiprows=2
#     na_values=2
#     )

In [81]:
# pd.read_csv(
#     r'C:\\Users\\user\\Documents\\github\\2022_08_06_big_data\\bigdata2\\dart\\market_info.csv',
#     sep='||'
#     skiprows=2
#     )

SyntaxError: invalid syntax (464008457.py, line 4)

In [82]:
pd.read_csv('C:\\Users\\user\\Documents\\github\\2022_08_06_big_data\\bigdata2\\dart\\market_info.csv')

Unnamed: 0,종목명,시가총액,외국인비율,거래량,PER,ROE
0,삼성전자,3343078.0,49.54,11417477.0,8.49,13.92
1,LG에너지솔루션,1195740.0,4.37,445676.0,848.84,10.68
2,SK하이닉스,669762.0,50.42,1732651.0,5.84,16.84
3,삼성바이오로직스,574374.0,10.53,66133.0,107.33,8.21
4,LG화학,464498.0,48.11,178442.0,23.2,18.47
5,삼성전자우,426255.0,71.84,789209.0,7.86,
6,현대차,423063.0,28.74,400248.0,8.79,6.84
7,삼성SDI,422902.0,44.31,255163.0,28.69,8.45
8,NAVER,369931.0,53.14,473979.0,36.79,106.72
9,기아,324291.0,36.92,795028.0,6.12,14.69


#### 출력
pd.to_csv를 통하여 csv 데이터를 출력

```python
pd.to_csv(파일경로)
```
<br>

to_csv 내에는 다양한 옵션 존재

- encoding: encoding을 지정하지 않고 출력 시 excel에서 한글이 깨지는 경우가 존재. 이 경우 utf-8-sig를 사용하면 해결 가능. <br> cp949, euc-kr등의 옵션도 존재
- sep: 입력 때와 마찬가지로 구분자를 지정해줄 수 있음
- na_rep: 입력 때와 마찬가지로 특정 값을 na로 처리하여 저장할 수 있음
- index: index를 출력할지 유무. True, False
- headers: column을 출력할지 유무. True, False


In [89]:
df.to_csv('scores.csv', encoding='utf-8-sig', index=False, sep='-')

### 3.3.3 데이터 전처리

#### duplicated
데이터프레임 내 중복값 확인



In [96]:
data = {
    '학생1': [90, 85, 70, 70, 70],
    '학생2': [95, 80, 70, 70, 95],
    '학생3': [85, 95, 70, 70, 85],
    '재수': [80, 100, 70, 70, 90],
}
df = pd.DataFrame(data)
df.drop_duplicates()

Unnamed: 0,학생1,학생2,학생3,재수
0,90,95,85,80
1,85,80,95,100
2,70,70,70,70
4,70,95,85,90


#### drop_duplicates

#### isna
결측값 확인

```python
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.isna()
```



In [98]:
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.isna().sum()

학생1    1
학생2    1
학생3    1
재수     1
dtype: int64

In [100]:
df.isna()

Unnamed: 0,학생1,학생2,학생3,재수
0,True,False,False,False
1,False,False,False,True
2,False,True,False,False
3,False,False,True,False
4,False,False,False,False


#### fillna
결측값을 특정 값으로 대체

```python
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.fillna(0)                   # 특정 값으로 대체
df.fillna(method='ffill')      # 결측값을 앞의 값으로 대체
df.fillna(method='bfill')      # 결측값을 뒤의 값으로 대체
```

In [104]:
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.fillna(method='ffill')

Unnamed: 0,학생1,학생2,학생3,재수
0,,95.0,85.0,80.0
1,85.0,80.0,95.0,80.0
2,80.0,80.0,90.0,99.0
3,75.0,80.0,90.0,95.0
4,70.0,95.0,85.0,90.0


#### dropna

na가 포함된 값을 drop

In [105]:
df.dropna()

Unnamed: 0,학생1,학생2,학생3,재수
4,70.0,95.0,85.0,90.0


### 3.3.4 데이터 조회

#### isin
주어진 값이 데이터프레임 내에 존재하는지 확인

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.isin([80])
```

In [111]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.isin([80,90])

Unnamed: 0,학생1,학생2,학생3,재수
국,True,False,False,True
영,False,True,False,False
수,True,False,True,False
사,False,True,False,False
과,False,False,False,True


#### where
특정 조건을 만족하는지 검사 <br>
조건을 만족하는 경우 값 변경 가능 <br>

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.where(df%2==0, -df)
```

In [112]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.where(df%2==0, -df)

Unnamed: 0,학생1,학생2,학생3,재수
국,90,-95,-85,80
영,-85,80,-95,100
수,80,70,90,-99
사,-75,80,70,-95
과,70,-95,-85,90


In [113]:
df.where(df>70, df+ 10)

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,85,80,95,100
수,80,80,90,99
사,75,80,80,95
과,80,95,85,90


In [115]:
data = {
    '학생1': [np.NaN, 85, 80, 75, 70],
    '학생2': [95, 80, np.NaN, 80, 95],
    '학생3': [85, 95, 90, np.NaN, 85],
    '재수': [80, np.NaN, 99, 95, 90],
}
df = pd.DataFrame(data)

df.where(df.isna(), df* 2)

Unnamed: 0,학생1,학생2,학생3,재수
0,,190.0,170.0,160.0
1,170.0,160.0,190.0,
2,160.0,,180.0,198.0
3,150.0,160.0,,190.0
4,140.0,190.0,170.0,180.0


In [117]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.학생1 >= 80
df.loc[df.학생1>=80]

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,85,80,95,100
수,80,70,90,99


#### query
column의 boolean 결과를 쿼리하는 표현 <br>
위의 loc를 활용한 방법보다 간단 <br>
<br>

```python
df = pd.DataFrame({
    'A': range(1, 6),
    'B': range(10, 0, -2),
    'C C': range(10, 5, -1)
    })

df.query('A > B')        # df.loc[df.A > df.B]
df.query('`C C` < 8')    # df.loc[df['C C'] < 8]
```

In [118]:
df.query('학생1 >= 80 and 학생2 >= 80')

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,85,80,95,100
수,80,70,90,99


쿼리를 쓸때 띄어쓰기 할 일이 있으면 \` \`형식으로 사용한다.

In [124]:
df.query('`학생1` in [80, 85, 90]')

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,85,80,95,100
수,80,70,90,99


In [126]:
df.filter(items=['학생2', '학생3'])

Unnamed: 0,학생2,학생3
국,95,85
영,80,95
수,70,90
사,80,70
과,95,85


In [127]:
# 특정 단어 검색
df.filter(like='학생', axis=1)

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


In [128]:
# 정규표현식
df.filter(regex='\d', axis=1)

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


### 3.3.5 컬럼 조작

#### filter
특정 조건에 맞는 열이나 행을 추출

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.filter(items=['학생1', '학생2'])    # 주어진 열을 선택
df.filter(like='학생',  axis=1)       # 학생이라는 단어를 포함하는 열 선택
df.filter(regex='\d', axis=1)        # 숫자를 포함하는 열 선택 
```

In [136]:
df.drop(columns=['학생1', '학생2'])

Unnamed: 0,학생3,재수
국,85,80
영,95,100
수,90,99
사,70,95
과,85,90


In [137]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
    '재수': [80, 100, 99, 95, 90],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df.query('재수 >= 90').filter(like='학생', axis=1)

Unnamed: 0,학생1,학생2,학생3
영,85,80,95
수,80,70,90
사,75,80,70
과,70,95,85


#### drop
column이나 row를 제거

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.drop(columns='학생1')               # 1개 컬럼 drop
df.drop(columns=['학생1', '학생2'])     # 복수개 컬럼 drop

df.drop('국')             # 1개 row drop
df.drop(['국', '영'])      # 복수개 row drop
```

In [None]:
df.drop(columns=['학생1', '학생2'])

### 3.3.6 통계

#### sum
데이터프레임의 행 또는 열 기준 합을 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.sum()         # default 0: 학생별 합
df.sum(axis=1)   # 1: 과목별 합
```

In [138]:
df

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,85,80,95,100
수,80,70,90,99
사,75,80,70,95
과,70,95,85,90


In [140]:
df.sum(axis=1)

국    350
영    360
수    339
사    320
과    340
dtype: int64

#### mean
데이터프레임의 행 또는 열 기준 평균 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.mean()         # default 0: 학생별 평균
df.mean(axis=1)   # 1: 과목별 평균
```

In [141]:
df.mean()

학생1    80.0
학생2    84.0
학생3    85.0
재수     92.8
dtype: float64

#### median
데이터프레임의 행 또는 열 기준 중앙값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.median()         # default 0: 학생별 중앙값
df.median(axis=1)   # 1: 과목별 중앙값
```

In [142]:
df.median()

학생1    80.0
학생2    80.0
학생3    85.0
재수     95.0
dtype: float64

#### mode
데이터프레임의 행 또는 열 기준 최빈값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.mode()         # default 0: 학생별 합
df.mode(axis=1)   # 1: 과목별 합
```

In [143]:
df.mode()

Unnamed: 0,학생1,학생2,학생3,재수
0,70,80.0,85.0,80
1,75,95.0,,90
2,80,,,95
3,85,,,99
4,90,,,100


#### max
데이터프레임의 행 또는 열 기준 최댓값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.max()         # default 0: 학생별 최댓값
df.max(axis=1)   # 1: 과목별 최댓값
```

In [144]:
df.max()

학생1     90
학생2     95
학생3     95
재수     100
dtype: int64

#### min
데이터프레임의 행 또는 열 기준 최솟값 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.min()         # default 0: 학생별 최솟값
df.min(axis=1)   # 1: 과목별 최솟값
```

In [145]:
df.min()

학생1    70
학생2    70
학생3    70
재수     80
dtype: int64

#### cumsum

데이터프레임의 행 또는 열 기준 누적합 반환

```python
data = {
    '자산1': [0.01, 0.02, 0.03],
    '자산2': [0.06, 0.09, 0.07],
    '자산3': [0.04, 0.09, 0.01],
}
index = [2018, 2019, 2020]
df = pd.DataFrame(data, index=index)

df.cumsum()         # default 0: 자산별 누적합
df.cumsum(axis=1)   # 1: 연도별 누적합
```

In [146]:
df.cumsum()

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,175,175,180,180
수,255,245,270,279
사,330,325,340,374
과,400,420,425,464


#### cumprod
데이터프레임의 행 또는 열 기준 누적곱 반환

```python
data = {
    '자산1': [0.01, 0.02, 0.03],
    '자산2': [0.06, 0.09, 0.07],
    '자산3': [0.04, 0.09, 0.01],
}
index = [2018, 2019, 2020]
df = pd.DataFrame(data, index=index)

df.cumprod()         # default 0: 자산별 누적곱
df.cumprod(axis=1)   # 1: 연도별 누적곱
```

In [147]:
df.cumprod()

Unnamed: 0,학생1,학생2,학생3,재수
국,90,95,85,80
영,7650,7600,8075,8000
수,612000,532000,726750,792000
사,45900000,42560000,50872500,75240000
과,3213000000,4043200000,4324162500,6771600000


#### rank
데이터프레임의 행 또는 열 기준 순위 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.rank()         # default 0: 학생별 최솟값
df.rank(axis=1)   # 1: 과목별 최솟값
```

In [148]:
df.rank()

Unnamed: 0,학생1,학생2,학생3,재수
국,5.0,4.5,2.5,1.0
영,4.0,2.5,5.0,5.0
수,3.0,1.0,4.0,4.0
사,2.0,2.5,1.0,3.0
과,1.0,4.5,2.5,2.0


#### quantile
데이터프레임의 행 또는 열 기준 분위수 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.quantile()         # default 0: 학생별 중앙값
df.quantile(q=0.8)    # default 0: 학생별 80%값 반환
df.quantile(axis=1)   # 1: 과목별 학생별 중앙값
```

In [150]:
df.quantile(q = 0.8)

학생1    86.0
학생2    95.0
학생3    91.0
재수     99.2
Name: 0.8, dtype: float64

#### var
데이터프레임의 행 또는 열 기준 분산 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.var()         # default 0: 학생별 분산
df.var(axis=1)   # 1: 과목별 분산
```

In [151]:
df.var()

학생1     62.5
학생2    117.5
학생3     87.5
재수      66.7
dtype: float64

#### std
데이터프레임의 행 또는 열 기준 표준편차 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.std()         # default 0: 학생별 표준편차
df.std(axis=1)   # 1: 과목별 표준편차
```

In [152]:
df.std()

학생1     7.905694
학생2    10.839742
학생3     9.354143
재수      8.167007
dtype: float64

#### corr
데이터프레임 내 상관관계 행렬 반환 <br>
상관관계는 pearson, kendall, spearman 방법 가능

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.corr()                     # pearson
df.corr(method='kendall')     # kendall
df.corr(method='spearman')    # spearman
```

In [153]:
df.corr()

Unnamed: 0,학생1,학생2,학생3,재수
학생1,1.0,8.291465e-17,0.422577,-0.290401
학생2,8.291465e-17,1.0,-0.123278,-0.835891
학생3,0.4225771,-0.1232784,1.0,0.229072
재수,-0.2904012,-0.8358914,0.229072,1.0


#### cov
데이터프레임 내 공분산 행렬 반환

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.cov()
```

In [154]:
df.cov()

Unnamed: 0,학생1,학생2,학생3,재수
학생1,62.5,0.0,31.25,-18.75
학생2,0.0,117.5,-12.5,-74.0
학생3,31.25,-12.5,87.5,17.5
재수,-18.75,-74.0,17.5,66.7


### 3.3.7 집계

#### groupby
그룹별 집계

```python
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)

df.groupby('구분').mean()
```

In [165]:
data = {
    '과목': ['국', '영', '수', '사', '과'] * 5,
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5,
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
}
df = pd.DataFrame(data)
df.groupby(['과목', '구분']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,점수
과목,구분,Unnamed: 2_level_1
과,재수,85.0
과,현역,83.333333
국,재수,90.0
국,현역,90.0
사,재수,97.5
사,현역,75.0
수,재수,92.5
수,현역,80.0
영,재수,95.0
영,현역,86.666667


#### agg
다양한 집계함수 사용 가능

```python
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)

df.groupby('구분').agg(['min', 'max', 'mean'])
```

In [167]:
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)

df.groupby('구분').agg(['min', 'max', 'mean'])

Unnamed: 0_level_0,점수,점수,점수
Unnamed: 0_level_1,min,max,mean
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
재수,85,100,92.0
현역,70,95,83.0


### 3.3.8 결합

#### merge
두 데이터프레임 병합 <br>

on: 결합 대상 key 컬럼 <br>
how <br>
- left: 왼쪽 데이터 프레임의 키를 중심으로 결합
- right: 오른쪽 데이터 프레임의 키를 중심으로 결합
- outer: 두 데이터 프레임의 키를 중심으로 결합
- inner: 두 데이터 프레임에서 공통으로 존재하는 값만 결합
- cross: 모든 경우의 수를 구하여 결합

```python
df1 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})

df1.merge(df2, how='inner', on='a')
df1.merge(df2, how='left', on='a')
df1.merge(df2, how='cross')


df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

df1.merge(df2, left_on='lkey', right_on='rkey')
df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))
```

In [168]:
df1 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df2 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})

df1

Unnamed: 0,a,b
0,foo,1
1,bar,2


In [169]:
df2

Unnamed: 0,a,c
0,foo,3
1,baz,4


In [174]:
df1.merge(df2, how='left', on='a')


Unnamed: 0,a,b,c
0,foo,1,3.0
1,bar,2,


In [175]:
df1.merge(df2, how='right', on='a')

Unnamed: 0,a,b,c
0,foo,1.0,3
1,baz,,4


In [176]:
df1.merge(df2, how='cross')

Unnamed: 0,a_x,b,a_y,c
0,foo,1,foo,3
1,foo,1,baz,4
2,bar,2,foo,3
3,bar,2,baz,4


In [214]:
ticker = pd.read_csv(r'C:\Users\user\Documents\github\2022_08_06_big_data\bigdata2\dart\tickers.csv', dtype=str)
ticker

Unnamed: 0,종목명,tickers
0,삼성전자,5930
1,LG에너지솔루션,373220
2,SK하이닉스,660
3,삼성바이오로직스,207940
4,LG화학,51910
5,현대차,5380
6,삼성SDI,6400
7,NAVER,35420
8,기아,270
9,카카오,35720


In [213]:
corpcode = pd.read_csv(r'C:\Users\user\Documents\github\2022_08_06_big_data\bigdata2\dart\corpcode.csv', dtype=str)
corpcode

Unnamed: 0,corp_code,corp_name,stock_code,modify_date
0,00434003,다코,,20170630
1,00434456,일산약품,,20170630
2,00430964,굿앤엘에스,,20170630
3,00432403,한라판지,,20170630
4,00388953,크레디피아제이십오차유동화전문회사,,20170630
...,...,...,...,...
95601,00913768,파인일렉컴,,20220228
95602,00110857,대신염직공업,,20220228
95603,01364808,우진알디씨,,20220228
95604,01497522,철은인터내셔날,,20220228


In [222]:
ticker.merge(corpcode, left_on='tickers', right_on='stock_code').drop(columns=['corp_name', 'stock_code'])

Unnamed: 0,종목명,tickers,corp_code,modify_date
0,삼성전자,5930,126380,20220509
1,LG에너지솔루션,373220,1515323,20220517
2,SK하이닉스,660,164779,20220331
3,삼성바이오로직스,207940,877059,20211213
4,LG화학,51910,356361,20220114
5,현대차,5380,164742,20220325
6,삼성SDI,6400,126362,20220318
7,NAVER,35420,266961,20220728
8,기아,270,106641,20220112
9,카카오,35720,258801,20220715


#### concat
두 데이터프레임 결합 <br>
리스트 내의 데이터프레임 결합에도 사용 <br>

```python
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])

pd.concat([df1, df2])            # 아래로 결합
pd.concat([df1, df2], axis=1)    # 옆으로 결합


dataframe_list = [df1, df2]
pd.concat(dataframe_list)
```

<09/24 숙제> financial_statement의 열과 행을 바꿔서 만들어내는 것이 숙제...

In [177]:
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,foo,1.0,
1,bar,2.0,
0,foo,,3.0
1,baz,,4.0


In [178]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,a.1,c
0,foo,1,foo,3
1,bar,2,baz,4


In [182]:
dataframe_list = [df1,df2]
pd.concat(dataframe_list)

Unnamed: 0,a,b,c
0,foo,1.0,
1,bar,2.0,
0,foo,,3.0
1,baz,,4.0


In [185]:
x = pd.DataFrame({
    'x': np.arange(30)
})

In [187]:
pd.concat(np.array_split(x, 3))

Unnamed: 0,x
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


### 3.3.9 데이터프레임 조작

#### explode
리스트 내의 값을 row로 분해

```python
data = {
    '학생1': [[90, 85, 80, 75, 70]],
    '학생2': [[95, 80, 70, 80, 95]],
    '학생3': [[85, 95, 90, 70, 85]],
}
df = pd.DataFrame(data)

df.explode('학생1')
df.explode('학생2')
df.explode('학생3')
```

In [193]:
data = {
    '학생1': [[90, 85, 80, 75, 70]],
    '학생2': [[95, 80, 70, 80, 95]],
    '학생3': [[85, 95, 90, 70, 85]],
}
df = pd.DataFrame(data)

df = df.explode('학생1')
df = df.explode('학생2')
df = df.explode('학생3')
df

Unnamed: 0,학생1,학생2,학생3
0,90,95,85
0,90,95,95
0,90,95,90
0,90,95,70
0,90,95,85
...,...,...,...
0,70,95,85
0,70,95,95
0,70,95,90
0,70,95,70


#### pivot
인덱스, 컬럼 값으로 데이터 재정렬

```python
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                           'two'],
                   'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                   'zoo': ['x', 'y', 'z', 'q', 'w', 't']})

df.pivot(index='foo', columns='bar', values='baz')
df.pivot(index='foo', columns='bar')['baz']
df.pivot(index='foo', columns='bar', values=['baz', 'zoo'])
```

In [196]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                           'two'],
                   'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                   'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [197]:
df.pivot(index='foo', columns='bar', values='baz')

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


In [198]:
df.pivot(index='foo', columns='bar')['baz']

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


In [199]:
df.pivot(index='foo', columns='bar', values=['baz', 'zoo'])

Unnamed: 0_level_0,baz,baz,baz,zoo,zoo,zoo
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,1,2,3,x,y,z
two,4,5,6,q,w,t


#### melt
uppivot, 데이터 프레임 재정렬

```python
data = {
  'A': {0: 'a', 1: 'b', 2: 'c'},
  'B': {0: 1, 1: 3, 2: 5},
  'C': {0: 2, 1: 4, 2: 6}
  }
df = pd.DataFrame(data)


df.melt(id_vars=['A'], value_vars=['B'])
df.melt(id_vars=['A'], value_vars=['B', 'C'])
df.melt(id_vars=['A'], value_vars=['B', 'C'], var_name='new_var_name', value_name='new_value_name')
```

In [200]:
data = {
  'A': {0: 'a', 1: 'b', 2: 'c'},
  'B': {0: 1, 1: 3, 2: 5},
  'C': {0: 2, 1: 4, 2: 6}
  }
df = pd.DataFrame(data)

df.melt(id_vars=['A'], value_vars=['B'])


Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [201]:
df.melt(id_vars=['A'], value_vars=['B', 'C'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [202]:
df.melt(id_vars=['A'], value_vars=['B', 'C'], var_name='new_var_name', value_name='new_value_name')

Unnamed: 0,A,new_var_name,new_value_name
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


#### stack
데이터를 아래로 이어붙임

```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.stack()
```


In [204]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)

df.stack()

국  학생1    90
   학생2    95
   학생3    85
영  학생1    85
   학생2    80
   학생3    95
수  학생1    80
   학생2    70
   학생3    90
사  학생1    75
   학생2    80
   학생3    70
과  학생1    70
   학생2    95
   학생3    85
dtype: int64

#### unstack

멀티 인덱스 데이터프레임을 컬럼으로 분할


```python
scores = [90, 95, 85, 85, 80, 95, 80, 70, 90, 75, 80, 70, 70, 95, 85]
index = pd.MultiIndex.from_tuples(
    [('국', '학생1'),
     ('국', '학생2'),
     ('국', '학생3'),
     ('영', '학생1'),
     ('영', '학생2'),
     ('영', '학생3'),
     ('수', '학생1'),
     ('수', '학생2'),
     ('수', '학생3'),
     ('사', '학생1'),
     ('사', '학생2'),
     ('사', '학생3'),
     ('과', '학생1'),
     ('과', '학생2'),
     ('과', '학생3')],
)
df = pd.Series(scores, index=index)

df.unstack()
```

In [206]:
scores = [90, 95, 85, 85, 80, 95, 80, 70, 90, 75, 80, 70, 70, 95, 85]
index = pd.MultiIndex.from_tuples(
    [('국', '학생1'),
     ('국', '학생2'),
     ('국', '학생3'),
     ('영', '학생1'),
     ('영', '학생2'),
     ('영', '학생3'),
     ('수', '학생1'),
     ('수', '학생2'),
     ('수', '학생3'),
     ('사', '학생1'),
     ('사', '학생2'),
     ('사', '학생3'),
     ('과', '학생1'),
     ('과', '학생2'),
     ('과', '학생3')],
)
df = pd.Series(scores, index=index)

In [207]:
df.unstack()

Unnamed: 0,학생1,학생2,학생3
과,70,95,85
국,90,95,85
사,75,80,70
수,80,70,90
영,85,80,95


## 3.3. 시계열 데이터

#### date_range
주어진 범위에 해당하는 date 리스트 반환

```python
pd.date_range(start='9/1/2022', end='9/30/2022')
pd.date_range(start='2022-09-01', end='2022-09-30')
pd.date_range(start='2022-09-01', end='2022-09-30', freq='1W')    # 1주 단위로 date 생성
pd.date_range(start='2022-09-01', periods=8)                      # 시작일 기준 8개의 날 생성
pd.date_range(end='2022-09-01', periods=8)                        # 종료일 기준 8개의 날 생성
```

#### shift

데이터 프레임의 인덱스 또는 컬럼을 주어진 숫자 만큼 옮김

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.shift(periods=1)                 # 아래로 한 칸 이동
df.shift(periods=1, axis='columns') # 컬럼 한 칸 이동
df.shift(periods=3, fill_value=0)   # 아래로 세 칸 이동 후 nan값을 0으로 채움
df.shift(periods=3, freq='D')       # 3일 이동
```

#### diff
주어진 숫자 만큼의 인덱스 혹은 컬럼 차를 계산

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.diff()
df.diff(periods=3)     # 3칸 간격의 차를 계산
```

#### pct_change
주어진 숫자 만큼의 인덱스 혹은 컬럼 변화율 계산

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.pct_change()
df.pct_change(periods=3)     # 3칸 간격의 변화율 계산
```

#### rolling
주어진 숫자 만큼의 윈도우 생성 <br>
생성된 윈도우 내에서 집계 함수 사용 가능 <br>

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.rolling(2).sum()
```

## 3.4 시각화
데이터프레임 값을 시각화

```python
df = pd.DataFrame({"Col1": [10, 20, 15, 30, 45],
                   "Col2": [13, 23, 18, 33, 48],
                   "Col3": [17, 27, 22, 37, 52]},
                  index=pd.date_range("2020-01-01", "2020-01-05"))

df.plot()                            # 모든 컬럼에 대한 line 그래프
df.plot(legend=False)                # 범주를 출력하지 않음
df.plot(kind='box')                  # 열 별 box plot 
df.plot(kind='density')              # 열 별 밀도함수
df.plot(kind='pie', subplots=True)   # pie 그래프
```