# 시리즈와 데이터프레임의 자료형 관리 기준

* 판다스내의 시리즈나 데이터프레임도 넘파이의 다차원 배열처럼 다양한 자료형을 처리한다.
* 판다스의 모듈은 넘파이의 자료형을 기반으로 추가적인 자료형을 만든다.

In [1]:
import pandas as pd
import numpy as np

## 데이터프레임의 자료형 변경

In [2]:
# 2차원 배열을 리스트로 만들려면 리스트 내부에 리스트를 넣어 리스트 객체를 만든다.
data = [[1, 3], [4, 5]]

In [3]:
# 열의 레이블을 리스트로 생성
columns = ['a', 'b']

In [4]:
df_ = pd.DataFrame(data=data, columns=columns) # 데이터프레임의 data, columns 매개변수에 지정해서 객체 생성

In [5]:
df_.dtypes  # 데이터프레임의 자료형 확인

a    int64
b    int64
dtype: object

In [6]:
# 여러 열의 자료형을 변경시 dict를 사용
# 자료형은 넘파이의 자료형 또는 파이썬의 자료형 사용
df_c = df_.astype({'a': str, 'b': np.int32}) # str은 파이썬의 자료형, np.int32는 넘파이의 자료형
# df_c = df_.astype({'a': 'str', 'b': 'int32'}) # 'str', 'int32'는 넘파이 자료형

In [7]:
df_c.dtypes 
# pandas에서 str은 object이다.

a    object
b     int32
dtype: object

## 시리즈로 데이터프레임 만들기

In [8]:
# dict에 열이름을 키로, 시리즈 객체를 값으로 한다.
df = pd.DataFrame({'a': pd.Series([1, 2, 3], dtype='int'),
                   'b': pd.Series([7, 8, 9], dtype='float')})

In [9]:
df.dtypes

a      int32
b    float64
dtype: object

In [10]:
df

Unnamed: 0,a,b
0,1,7.0
1,2,8.0
2,3,9.0


## 하나의 열만 자료형 변경

In [11]:
data = pd.DataFrame({'date': [2016, 2017, 2018, 2019],
                     'type': ['A', 'B', 'C', 'D']}) 

In [12]:
data

Unnamed: 0,date,type
0,2016,A
1,2017,B
2,2018,C
3,2019,D


In [13]:
data.dtypes
# 판다스에서 문자열은 object이다.

date     int64
type    object
dtype: object

In [14]:
# 하나의 열만 자료형 변경
data['date'] = data['date'].astype('float') # 'float'은 파이썬의 자료형

In [15]:
data.dtypes

date    float64
type     object
dtype: object