# 라이브러리에 따른 데이터 형식

데이터 라이브러리들, 예를 들어 Pandas, Numpy, TensorFlow, PyTorch 등은 각각 특정한 데이터 형식을 요구한다. 
    
이들 간의 차이와 요구사항을 이해하면 코드 작성이 훨씬 쉬워지고 성능 또한 최적화할 수 있다.

## Pandas (Data Analysis Library)

데이터 형식: 주로 DataFrame과 Series 형식 사용.
    
DataFrame: 2차원 테이블 형식의 데이터 (엑셀 시트처럼 행과 열로 구성됨).
                            
Series: 1차원 배열 (DataFrame의 열에 해당).
                
형식 요구 사항:
                
컬럼별로 동일한 데이터 타입을 가지는 것이 좋음 (예: int, float, str)

결측치(NaN) 처리 가능.

In [1]:
import pandas as pd

# DataFrame 생성
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
df = pd.DataFrame(data)
print(df)


    Name  Age
0  Alice   25
1    Bob   30


## Numpy (Numerical Computing Library)

데이터 형식: 주로 ndarray (N-dimensional array) 사용.
                    
형식 요구 사항:
                    
배열의 모든 요소는 동일한 데이터 타입이어야 함 (int32, float64 등).
                    
연산이 빠르고 메모리 효율적임.

In [2]:
import numpy as np

# Numpy 배열 생성
arr = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float32)
print(arr)


[[1. 2. 3.]
 [4. 5. 6.]]


## TensorFlow (Deep Learning Library)

데이터 형식: 주로 Tensor 형식 사용.
    
형식 요구 사항:
Tensor는 Numpy 배열과 유사하지만 GPU 가속이 가능.
    
Tensor의 데이터 타입은 보통 tf.float32 또는 tf.int32를 사용.    th, channels) 등).

Tensor의 shape이 명확하게 정의되어야 함 ((batch_size, height, width, channels) 등).

In [3]:
import tensorflow as tf

# Tensor 생성
tensor = tf.constant([[1.0, 2.0], [3.0, 4.0]], dtype=tf.float32)
print(tensor)


tf.Tensor(
[[1. 2.]
 [3. 4.]], shape=(2, 2), dtype=float32)


## PyTorch (Deep Learning Library)

데이터 형식: 주로 Tensor 형식 사용.
    
형식 요구 사항:
    
PyTorch Tensor는 Numpy 배열과 유사하고 GPU 가속이 가능.
    
기본 데이터 타입은 torch.float32가 자주 사용됨.
    
데이터 shape을 명확하게 정의해야 하며, TensorFlow와는 달리 채널 우선순위가 다를 수 있음 ((batch_size, channels, height, width)).

In [4]:
import torch

# PyTorch Tensor 생성
tensor = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)
print(tensor)


tensor([[1., 2.],
        [3., 4.]])


# 데이터 형식 간 변환

서로 다른 라이브러리를 사용할 때 데이터 형식을 변환해야 하는 경우가 많습니다. 

예를 들어, Pandas DataFrame을 Numpy 배열로 변환하거나, Numpy 배열을 TensorFlow 또는 PyTorch Tensor로 변환할 수 있습니다.

## 1차원 리스트는 DataFrame의 단일 컬럼으로 변환

In [5]:
import pandas as pd

# 1차원 리스트
data = ['Alice', 'Bob', 'Charlie']

# DataFrame으로 변환
df = pd.DataFrame(data, columns=['Name'])
print(df)


      Name
0    Alice
1      Bob
2  Charlie


## 리스트의 리스트 (2차원 리스트)

2차원 리스트는 **행(row)**과 **열(column)**로 변환할 수 있습니다.

In [7]:
import pandas as pd

# 2차원 리스트
data = [[1, 'Alice', 25], [2, 'Bob', 30], [3, 'Charlie', 35]]

# DataFrame으로 변환
df = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
print(df)


   ID     Name  Age
0   1    Alice   25
1   2      Bob   30
2   3  Charlie   35


## Numpy 배열을 Pandas DataFrame으로

1. 기본 변환: pd.DataFrame(array)
2. 컬럼명 지정: pd.DataFrame(array, columns=[...])
3. 인덱스 지정: pd.DataFrame(array, index=[...])
4. 데이터 타입 변환: df.astype(dtype)
5. Shape 변경 후 변환: array.reshape(...) 후 DataFrame으로 변환

1. 기본변환

In [12]:
import numpy as np
import pandas as pd

# Numpy 배열 생성
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# DataFrame으로 변환
df = pd.DataFrame(array)

print(df)


   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


2. 컬럼명 지정

Numpy 배열을 DataFrame으로 변환할 때, 컬럼명을 지정할 수 있습니다.

In [13]:
import numpy as np
import pandas as pd

# Numpy 배열 생성
array = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

# DataFrame으로 변환 (컬럼명 지정)
df = pd.DataFrame(array, columns=['A', 'B', 'C'])

print(df)


    A   B   C
0  10  20  30
1  40  50  60
2  70  80  90


3. 인덱스 지정

행(row) 인덱스를 지정할 수도 있습니다.

In [14]:
import numpy as np
import pandas as pd

# Numpy 배열 생성
array = np.array([[100, 200], [300, 400], [500, 600]])

# DataFrame으로 변환 (컬럼명과 인덱스 지정)
df = pd.DataFrame(array, columns=['Price', 'Quantity'], index=['Product 1', 'Product 2', 'Product 3'])

print(df)


           Price  Quantity
Product 1    100       200
Product 2    300       400
Product 3    500       600


4. 데이터 타입 확인 및 변환

Numpy 배열에서 DataFrame으로 변환할 때, 데이터 타입이 올바르게 설정되었는지 확인할 수 있습니다.

In [15]:
import numpy as np
import pandas as pd

# Numpy 배열 생성 (float 타입)
array = np.array([[1.5, 2.5], [3.5, 4.5]], dtype=np.float32)

# DataFrame으로 변환
df = pd.DataFrame(array, columns=['X', 'Y'])

# 데이터 타입 확인
print(df.dtypes)


X    float32
Y    float32
dtype: object


5. Numpy 배열의 Shape 변경 후 변환

Numpy 배열의 shape을 변경한 후 DataFrame으로 변환할 수도 있습니다.

In [16]:
import numpy as np
import pandas as pd

# 1차원 Numpy 배열 생성
array = np.array([1, 2, 3, 4, 5, 6])

# 배열의 shape 변경 (2x3)
reshaped_array = array.reshape(2, 3)

# DataFrame으로 변환
df = pd.DataFrame(reshaped_array, columns=['A', 'B', 'C'])

print(df)


   A  B  C
0  1  2  3
1  4  5  6


## Pandas DataFrame → Numpy Array

In [9]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
array = df.to_numpy()
print(array)


[[1 4]
 [2 5]
 [3 6]]


## Numpy Array → TensorFlow Tensor

In [10]:
import numpy as np
import tensorflow as tf

array = np.array([1, 2, 3], dtype=np.float32)
tensor = tf.convert_to_tensor(array)
print(tensor)


tf.Tensor([1. 2. 3.], shape=(3,), dtype=float32)


## Numpy Array → PyTorch Tensor

In [11]:
import numpy as np
import torch

array = np.array([1, 2, 3], dtype=np.float32)
tensor = torch.from_numpy(array)
print(tensor)


tensor([1., 2., 3.])
