# 데이터 생성하기

데이터를 직접 생성해보는 것도 데이터 과학의 중요한 영역이 되었다.  
다양한 라이브러리를 통해 데이터를 직접 만들어보자.

* 넘파이를 사용하여 1차원 및 2차원 데이터를 생성하기.
* 판다스를 사용하여 Series와 DataFrame을 다루기. 
* DataFrame에 행과 열을 설정해보기
* Series로 날짜 데이터를 넣어보기

# Numpy
넘파이(Numpy)는 파이썬에서 대규모 다차원 배열과 행렬을 지원하는 라이브러리.  
넘파이를 사용해 데이터를 만들어보자.

## 1차원 데이터

In [1]:
# 넘파이 라이브러리 임포트
import numpy as np

# 1차원 데이터 생성
data_1d = np.array([1, 2, 3, 4, 5])
print("1차원 데이터:", data_1d)

1차원 데이터: [1 2 3 4 5]


넘파이를 사용하면 다양한 방식으로 1차원 데이터를 생성할 수 있다. 예를 들어, `arange` 함수는 특정 범위의 값을 생성할 수 있고, `astype` 함수는 데이터 타입을 변환할 수 있다.

In [2]:
arr1 = np.arange(0, 9); arr1
print(arr1.dtype) # 데이터 타입 확인

int64


In [3]:
arr1 = arr1.astype(float) # 데이터 변환
print(arr1.dtype)

float64


## 2차원 데이터

In [4]:
# 2차원 데이터 생성
arr1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

2차원 데이터를 다루기 위해서는 `reshape` 함수를 사용하여 배열의 형태를 변경할 수 있다. 예를 들어, `reshape(3,3)`는 3x3 행렬로 데이터를 변환한다.

In [5]:
# reshape() 이용하기
arr2 = arr1.reshape(3,3)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

또한 `eye` 함수는 단위 행렬을 생성하고, `diag` 함수는 대각 행렬을 생성할 수 있다.

In [6]:
# eye() 사용하기
d1 = np.eye(5)
d1

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [7]:
# diag() 사용하기
d2 = np.diag([i for i in range(1, 5)])
d2

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

# Pandas
* Pandas를 이용해 데이터를 만들어보자

## Series 다루기
Series는 1차원 배열과 같은 데이터 구조로, 인덱스를 가집니다.

In [8]:
# 판다스 라이브러리 임포트
import pandas as pd

# Series 생성
series_data = pd.Series([10, 20, 30, 40, 50])
print("Series 데이터:")
print(series_data)

Series 데이터:
0    10
1    20
2    30
3    40
4    50
dtype: int64


## DataFrame 다루기
DataFrame은 2차원 배열과 같은 데이터 구조로, 행과 열을 가집니다.

