# 데이터 생성하기

데이터를 직접 생성해보는 것도 데이터 과학의 중요한 영역이 되었다.  
다양한 라이브러리를 통해 데이터를 직접 만들어보자.

* 넘파이를 사용하여 1차원 및 2차원 데이터를 생성하기.
* 판다스를 사용하여 Series와 DataFrame을 다루기. 
* DataFrame에 행과 열을 설정해보기
* Series로 날짜 데이터를 넣어보기

# Numpy
넘파이(Numpy)는 파이썬에서 대규모 다차원 배열과 행렬을 지원하는 라이브러리.  
넘파이를 사용해 데이터를 만들어보자.

## 1차원 데이터

In [5]:
# 넘파이 라이브러리 임포트
import numpy as np

# 1차원 데이터 생성
data_1d = np.array([1, 2, 3, 4, 5])
print("1차원 데이터:", data_1d)

1차원 데이터: [1 2 3 4 5]


In [7]:
arr1 = np.arange(0, 9); arr1
print(arr1.dtype) # 데이터 타입 확인

int64


In [8]:
arr1 = arr1.astype(float) # 데이터 변환
print(arr1.dtype)

float64


## 2차원 데이터

In [12]:
# 2차원 데이터 생성
arr1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [13]:
# reshape() 이용하기
arr2 = arr1.reshape(3,3)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

# Pandas
* Pandas를 이용해 데이터를 만들어보자

## Series 다루기
Series는 1차원 배열과 같은 데이터 구조로, 인덱스를 가집니다.

In [17]:
# 판다스 라이브러리 임포트
import pandas as pd

# Series 생성
series_data = pd.Series([10, 20, 30, 40, 50])
print("Series 데이터:")
print(series_data)

Series 데이터:
0    10
1    20
2    30
3    40
4    50
dtype: int64


## DataFrame 다루기
DataFrame은 2차원 배열과 같은 데이터 구조로, 행과 열을 가집니다.

In [18]:
# DataFrame 생성
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print("DataFrame 데이터:")
print(df)

DataFrame 데이터:
   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12


## DataFrame에 행과 열 설정하기
DataFrame의 행과 열을 설정하는 방법을 보여줍니다.

In [19]:
# DataFrame에 행과 열 설정
df.index = ['Row1', 'Row2', 'Row3', 'Row4']
df.columns = ['Col1', 'Col2', 'Col3']
print("행과 열이 설정된 DataFrame:")
print(df)

행과 열이 설정된 DataFrame:
      Col1  Col2  Col3
Row1     1     5     9
Row2     2     6    10
Row3     3     7    11
Row4     4     8    12


## Series로 날짜 데이터 넣기
Series에 날짜 데이터를 넣는 방법을 알아보자.

In [29]:
# 날짜 데이터 생성
date = pd.date_range(start='2023-01-01', periods=5, freq='D')
print("날짜 Series 데이터:")
pd.DataFrame(date)

날짜 Series 데이터:


Unnamed: 0,0
0,2023-01-01
1,2023-01-02
2,2023-01-03
3,2023-01-04
4,2023-01-05


In [24]:
date = pd.date_range(start='2022-04-24', end='2022-04-27')
pd.DataFrame(date)

Unnamed: 0,0
0,2022-04-24
1,2022-04-25
2,2022-04-26
3,2022-04-27


In [25]:
date = pd.date_range(start='2022-01-05', end='2022-10-10', periods = 6)
pd.DataFrame(date)

Unnamed: 0,0
0,2022-01-05 00:00:00
1,2022-03-01 14:24:00
2,2022-04-26 04:48:00
3,2022-06-20 19:12:00
4,2022-08-15 09:36:00
5,2022-10-10 00:00:00


In [27]:
date = pd.date_range(start='2022-01-01', end='2022-12-12', freq = 'D')
pd.DataFrame(date)

Unnamed: 0,0
0,2022-01-01
1,2022-01-02
2,2022-01-03
3,2022-01-04
4,2022-01-05
...,...
341,2022-12-08
342,2022-12-09
343,2022-12-10
344,2022-12-11


In [30]:
date = pd.date_range(start='2022-01-01', end='2022-12-30', freq = '2D')
pd.DataFrame(date)

Unnamed: 0,0
0,2022-01-01
1,2022-01-03
2,2022-01-05
3,2022-01-07
4,2022-01-09
...,...
177,2022-12-21
178,2022-12-23
179,2022-12-25
180,2022-12-27


In [32]:
date = pd.date_range(start='2022-01-01', periods = 4, freq = 'W')
pd.DataFrame(date)

Unnamed: 0,0
0,2022-01-02
1,2022-01-09
2,2022-01-16
3,2022-01-23


In [33]:
date = pd.date_range(start='2022-01-01', periods = 4, freq = 'QS')
pd.DataFrame(data)

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12
