# 2. 구조적 데이터 생성(2), 데이터 연산

## (1) 구조적 데이터 생성

### 3) Dataframe 을 활용한 데이터 생성

- Dataframe은 자료(Data)를 담는 틀(Frame)
- 라벨이 있는 2차원 데이터를 생성하고 처리할 수 있음.
```python
df = pd.Dataframe(data [, index = index_data, columns = columns_data])
```
- 세로축 라벨을 index, 가로축 라벨을 columns, 그 외는 values라고 한다.
<img src="https://user-images.githubusercontent.com/52685250/77556945-77444c00-6efc-11ea-9af0-babceb7d92f3.JPG" width="400">

- 딕셔너리 타입의 데이터
```python
In : table_data = {'연도' : [2020, 2021, 2021, 2022, 2022],
                   '지사' : ['한국', '한국', '미국', '한국', '미국'],
                   '고객 수' : [250, 450, 300, 500, 210]}
    pd.DataFrame(table_data)
```

<table>
    <thead>
        <tr>
            <td><center><b>연도</b></center></td>
            <td><center><b>지사</b></center></td>
            <td><center><b>고객 수</b></center></td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><center>2020</center></td>
            <td><center>한국</center></td>
            <td><center>250</center></td>
        </tr>
        <tr>
            <td><center>2021</center></td>
            <td><center>한국</center></td>
            <td><center>450</center></td>
        </tr>
        <tr>
            <td><center>2021</center></td>
            <td><center>미국</center></td>
            <td><center>300</center></td>
        </tr>
        <tr>
            <td><center>2022</center></td>
            <td><center>한국</center></td>
            <td><center>500</center></td>
        </tr>
        <tr>
            <td><center>2022</center></td>
            <td><center>미국</center></td>
            <td><center>200</center></td>
        </tr>
    </tbody>
</table>

- DataFrame 모듈을 이용하면 인덱스와 컬럼이 있는 데이터 등과 같이 2차원 구조의 데이터를 간편하게 생성할 수 있다.

In [None]:
import numpy as np
import pandas as pd

In [None]:
pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [None]:
data_list = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
data_list

In [None]:
pd.DataFrame(data_list)

In [None]:
# index, column 명 직접 입력
index_date = pd.date_range('2020-08-01', periods=3)
index_date

In [None]:
columns_list = ['A', 'B', 'C']

In [None]:
pd.DataFrame(data_list, index=index_date, columns=columns_list)

In [None]:
table_data = {'연도' : [2020, 2021, 2021, 2022, 2022],
              '지사' : ['한국', '한국', '미국', '한국', '미국'],
              '고객 수' : [250, 450, 300, 500, 210]}

In [None]:
df = pd.DataFrame(table_data)

In [None]:
df # 변수에 담아서 활용할 수 있다.

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

## (2) 데이터 연산

- Pandas의 `Series()`와 `DataFrame()`으로 생성한 데이터끼리 사칙연산 가능
- DataFrame 형식 Data 연산 (길이가 같지 않아도 연산 가능

<img src="https://user-images.githubusercontent.com/52685250/77559127-1f5b1480-6eff-11ea-8d1a-a29b4ea45d7c.png" width="600">

- DataFrame을 활용하여 컬럼/레코드별 간단한 통계분석이 가능

In [None]:
d1 = pd.Series([1, 2, 3, 4, 5])
d1

In [None]:
d2 = pd.Series([10, 20, 30, 40, 50])
d2

In [None]:
d1 + d2

In [None]:
d2 - d1

In [None]:
d1 * d2

In [None]:
d2 / d1

In [None]:
d1 * (2 + d2)

In [None]:
d3 = pd.Series([1, 2, 3])
d4 = pd.Series([10, 20, 30, 40, 50])

In [None]:
d3 + d4 # 계산이 안 되는 칸은 NaN으로 출력된다.

In [None]:
d4 - d3

In [None]:
d3 * d4

In [None]:
d4 / d3

In [None]:
table_d1 = {'A' : [1, 2, 3, 4, 5],
            'B' : [10, 20, 30, 40, 50],
            'C' : [100, 200, 300, 400, 500]}
df1 = pd.DataFrame(table_d1)
df1

In [None]:
table_d2 = {'A' : [6, 7, 8],
            'B' : [60, 70, 80],
            'C' : [600, 700, 800]}
df2 = pd.DataFrame(table_d2)
df2

In [None]:
df1 + df2

In [None]:
table_d3 = {'봄': [266.5, 275.3, 265.9, 222.2, 308.8],
            '여름': [763.7, 528.6, 574.6, 352.4, 477.5],
            '가을': [365.4, 274.7, 296.6, 287.8, 356.7],
            '겨울': [187.3, 69.8, 85.9, 89.1, 104.5]}
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2022', '2023', '2024', '2025', '2026']

In [None]:
df3 = pd.DataFrame(table_d3, columns = columns_list, index = index_list)
df3

In [None]:
df3.mean()

In [None]:
df3.std()

In [None]:
# axis 값을 1로 바꾸면 레코드 별로 통계분석을 할 수 있다.
# (default : axis=0 => 컬럼별로 통계분석)
df3.mean(axis=1)

In [None]:
df3.std(axis=1)