In [2]:
import pandas as pd

## 판다스 자료형 확인하기

* 데이터프레임.dtypes
* 시리즈.dtype

정수형 + string = object
float + 정수형 = float

## 판다스 자료형 변환하기

* 데이터프레임.astype('자료형')
* 시리즈.astype('자료형')

### 숫자형 자료형으로 변환하기

* pd.to_numeric(시리즈, errors=에러처리옵션)

-- ignore : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음  
-- coerce : 숫자로 변경할 수 없는 값은 NaN으로 설정  
-- raise : 숫자로 변경할 수 없는 값이 있으면 에러 발생(default)

In [12]:
# 샘플 데이터
df = pd.DataFrame({'col1':[1,2], 'col2':[3,4]})
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [4]:
df.dtypes

col1    int64
col2    int64
dtype: object

In [6]:
df = df.astype('float64')
df.dtypes

col1    float64
col2    float64
dtype: object

In [7]:
df

Unnamed: 0,col1,col2
0,1.0,3.0
1,2.0,4.0


In [8]:
# 문자열로 변환
df = df.astype('str')
df.dtypes

col1    object
col2    object
dtype: object

In [10]:
# 정수형으로 변환할 때는 먼저 float로 바꾸고 그다음에 정수로 바꿔야 함

df.astype('float').astype('int')
df.dtypes

col1    object
col2    object
dtype: object

## 컬럼의 자료형 변환

In [13]:
df


Unnamed: 0,col1,col2
0,1,3
1,2,4


In [15]:
# col2의 자료형만 str로 변환

df['col2'] = df['col2'].astype('str')
df.dtypes

col1     int64
col2    object
dtype: object

In [16]:
# col2의 자료형만 float로 변환
df['col2'] = df['col2'].astype('float')
df.dtypes

col1      int64
col2    float64
dtype: object

In [17]:
# col2 의 자료형만 int로 변환
df['col2']=df['col2'].astype('int')
df.dtypes

col1    int64
col2    int64
dtype: object

In [19]:
df = pd.DataFrame({'col1':[1,2], 'col2':[3,4], 'col3':[5,'-']})
df

Unnamed: 0,col1,col2,col3
0,1,3,5
1,2,4,-


In [20]:
# col3 컬럼을 str형으로 변환
df['col3'] = df['col3'].astype('str')
type(df.loc[0,'col3'])

str

In [None]:
# 변경할 수 없는 자료가 섞여있으면 error

## 자료형이 혼합된 컬럼을 숫자형으로 변경

* pd.to_numeric(컬럼, errors=에러처리옵션)

-- ignore : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음  
-- coerce : 숫자로 변경할 수 없는 값은 NaN으로 설정  
-- raise : 숫자로 변경할 수 없는 값이 있으면 에러 발생(default)

In [21]:
s2 = pd.Series(['1.0', '2', -3, 'a'])
pd.to_numeric(s2, errors='ignore')

0    1.0
1      2
2     -3
3      a
dtype: object

In [22]:
pd.to_numeric(s2, errors='coerce')

0    1.0
1    2.0
2   -3.0
3    NaN
dtype: float64

## 시계열 데이터로 변경

* 데이터프레임.astype('datetime64')
* pd.to_datetime(df['사망'])

# 카테고리형 다루기

In [29]:
df = pd.read_csv('data/scores.csv')

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    30 non-null     object 
 1   kor     27 non-null     float64
 2   eng     28 non-null     float64
 3   math    29 non-null     float64
dtypes: float64(3), object(1)
memory usage: 1.1+ KB


In [26]:
# 결측치가 있는 행 삭제하기
df.dropna(inplace=True)

In [28]:
# 결측치 확인(isnull)
df.isnull().sum()

name    0
kor     0
eng     0
math    0
dtype: int64

In [30]:
df['average'] = round((df.kor+df.eng+df.math)/3,1)
df.head(1)

Unnamed: 0,name,kor,eng,math,average
0,Aiden,100.0,90.0,95.0,95.0


In [32]:
def get_grade(x):
    if x>=90:
        return 1
    elif x>=80:
        return 2
    elif x>=70:
        return 3
    elif x>=60:
        return 4
    else:
        return 5
    
df['grade'] = df['average'].apply(get_grade)
df.head()
    

Unnamed: 0,name,kor,eng,math,average,grade
0,Aiden,100.0,90.0,95.0,95.0,1
1,Charles,90.0,80.0,75.0,81.7,2
2,Danial,95.0,100.0,100.0,98.3,1
3,Evan,100.0,100.0,100.0,100.0,1
4,Henry,,35.0,60.0,,5


## 카테고리형으로 변환하기

In [34]:
df['grade']=df['grade'].astype('category')

In [35]:
df.dtypes

name         object
kor         float64
eng         float64
math        float64
average     float64
grade      category
dtype: object

In [36]:
df['grade'].dtype

CategoricalDtype(categories=[1, 2, 3, 4, 5], ordered=False)

## 카테고리 이름 바꾸기

* 컬럼.cat.categories = 카테고리리스트

In [38]:
df['grade'].cat.categories = ['A','B','C','D','F']
df

Unnamed: 0,name,kor,eng,math,average,grade
0,Aiden,100.0,90.0,95.0,95.0,A
1,Charles,90.0,80.0,75.0,81.7,B
2,Danial,95.0,100.0,100.0,98.3,A
3,Evan,100.0,100.0,100.0,100.0,A
4,Henry,,35.0,60.0,,F
5,Ian,90.0,100.0,90.0,93.3,A
6,James,70.0,75.0,65.0,70.0,C
7,Julian,80.0,90.0,55.0,75.0,C
8,Justin,50.0,60.0,100.0,70.0,C
9,Kevin,100.0,100.0,90.0,96.7,A


## 누락된 카테고리 추가

* 컬럼.cat.set_categories(카테고리리스트)

# 시계열 데이터 다루기

1. 컬럼을 datetime자료형으로 변경하기

* pd.to_datetime(컬럼)

2. 연, 월, 일, 분기 추출하기

* 컬럼.dt.year
* 컬럼.dt.month
* 컬럼.dt.day
* 컬럼.dt.quarter

2. 날짜 계산하기

* 컬럼-컬럼
* 컬럼.dt.year - 컬럼.dt.year

3. 요일, 월이름 추출하기

* 컬럼.dt.strftime('%a') : 요약된 요일 이름
* 컬럼.dt.strftime('%A') : 긴 요일이름
* 컬럼.dt.strftime('%w') : 숫자요일(0:일요일)
* 컬럼.dt.strftime('%b') : 요약된 월이름
* 컬럼.dt.strftime('%B') : 긴 월이름

4. datetime 자료형을 인덱스로 사용하기

* df.index = 컬럼

->연도별로 정보를 추출하기 편함

ex) 1955년 출생한 데이터 추출하기
df.loc['1955-02']
