In [1]:
# 카테고리형 자료에서 카테고리를 관리
# cf) 성별 = [남자,여자] / 혈액형 = [A,B,O,AB] 등등..
# -> 이러한 경우 '문자열'자료형으로 관리하는 것 보다 '카테고리형'으로 관리하는것이
#    용량과 속도면에서 더 효율적으로 관리가 가능하다.

In [2]:
# 컬럼.astype('category') -> 카테고리형으로 변환하기
# 컬럼.cat.categories = 카테고리리스트 -> 카테고리 이름 바꾸기
# 컬럼.cat.set_categories(카테고리리스트) -> 카테고리 추가하기

# 데이터 준비/확인
- 평균점수에 따른 등급을 카테고리형 자료로 다루기 위해 평균점수에 따른 등급컬럼 추가하기  

In [3]:
import pandas as pd
df = pd.read_csv('data/scores.csv')
df.head(3)

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0
2,Danial,95.0,100.0,100.0


## 결측치 확인/처리하기
- 결측치는 0으로 대치

In [5]:
# 결측치 확인하기 (info)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    30 non-null     object 
 1   kor     27 non-null     float64
 2   eng     28 non-null     float64
 3   math    29 non-null     float64
dtypes: float64(3), object(1)
memory usage: 1.1+ KB


In [6]:
# 결측치가 있는 행 삭제하기
df.dropna(inplace = True)

In [7]:
# 결측치 확인(isnull)
df.isnull().sum()

name    0
kor     0
eng     0
math    0
dtype: int64

## 평균 점수 컬럼 추가하기
- 등급을 매기기 위한 평균점수 컬럼 추가

In [11]:
df['average'] = round((df.kor+df.eng+df.math)/3,1)
df.head(3)

Unnamed: 0,name,kor,eng,math,average
0,Aiden,100.0,90.0,95.0,95.0
1,Charles,90.0,80.0,75.0,81.7
2,Danial,95.0,100.0,100.0,98.3


## 평균점수에 따른 등급 컬럼 추가
- 컬럼.apply(함수)

In [15]:
def get_grade(x):
    if x>=90:
        return 1
    elif x>=80:
        return 2
    elif x>=70:
        return 3
    elif x>=60:
        return 4
    else:
        return 5
    
df['grade'] = df['average'].apply(get_grade)
df.head(1)

Unnamed: 0,name,kor,eng,math,average,grade
0,Aiden,100.0,90.0,95.0,95.0,1


# 카테고리형으로 변환하기
* 등급컬럼(grade)을 카테고리형 자료형으로 변환하기

In [16]:
# 자료형 확인하기
df.dtypes

name        object
kor        float64
eng        float64
math       float64
average    float64
grade        int64
dtype: object

In [19]:
# 자료형 변환하기
df['grade'] = df['grade'].astype('category')

In [20]:
df.dtypes

name         object
kor         float64
eng         float64
math        float64
average     float64
grade      category
dtype: object

In [21]:
df['grade'].dtype

CategoricalDtype(categories=[1, 2, 3, 4], ordered=False)

# 카테고리 이름 바꾸기
- 컬럼.cat.categories = 카테고리리스트

In [22]:
df['grade'].cat.categories = ['A','B','C','D'] # [1,2,3,4] 가 순서대로 변경됨

In [23]:
df.head()

Unnamed: 0,name,kor,eng,math,average,grade
0,Aiden,100.0,90.0,95.0,95.0,A
1,Charles,90.0,80.0,75.0,81.7,B
2,Danial,95.0,100.0,100.0,98.3,A
3,Evan,100.0,100.0,100.0,100.0,A
5,Ian,90.0,100.0,90.0,93.3,A


# 누락된 카테고리 추가
- 컬럼.cat.set_categories(카테고리리스트)

In [25]:
df['grade'] = df['grade'].cat.set_categories(['A','B','C','D','F'])
df['grade'].dtypes

CategoricalDtype(categories=['A', 'B', 'C', 'D', 'F'], ordered=False)

# 데이터 용량 확인하기
- titanic 데이터에서 카테고리형으로 관리할 수 있는 자료형을 카테고리형으로변환하여 데이터 용량 비교하기 

## 데이터 준비하고 확인하기

In [28]:
df_titanic = pd.read_csv('data/titanic.csv')
df_titanic.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [29]:
df_titanic['Survived'].unique()

array([0, 1], dtype=int64)

In [30]:
df_titanic['Pclass'].unique()

array([3, 1, 2], dtype=int64)

In [31]:
df_titanic['Sex'].unique()

array(['male', 'female'], dtype=object)

In [32]:
df_titanic['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [34]:
# 데이터 타입
df_titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [35]:
# 용량 확인하기
df_titanic.info() # memory usage: 122.8+ KB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 122.8+ KB


## 카테고리형으로 바꾸기
- 컬럼.astype('category')

In [37]:
# 카테고리형으로 바꾸기 (Survived,Pclass,Sex,Embarked)
df_titanic['Survived'] = df_titanic['Survived'].astype('category')
df_titanic['Pclass'] = df_titanic['Pclass'].astype('category')
df_titanic['Sex'] = df_titanic['Sex'].astype('category')
df_titanic['Embarked'] = df_titanic['Embarked'].astype('category')
df_titanic.dtypes

PassengerId       int64
Survived       category
Pclass         category
Name             object
Sex            category
Age             float64
SibSp             int64
Parch             int64
Ticket           object
Fare            float64
Cabin            object
Embarked       category
dtype: object

In [38]:
# 용량
df_titanic.info() # memory usage: 87.6+ KB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  1309 non-null   int64   
 1   Survived     1309 non-null   category
 2   Pclass       1309 non-null   category
 3   Name         1309 non-null   object  
 4   Sex          1309 non-null   category
 5   Age          1046 non-null   float64 
 6   SibSp        1309 non-null   int64   
 7   Parch        1309 non-null   int64   
 8   Ticket       1309 non-null   object  
 9   Fare         1308 non-null   float64 
 10  Cabin        295 non-null    object  
 11  Embarked     1307 non-null   category
dtypes: category(4), float64(2), int64(3), object(3)
memory usage: 87.6+ KB


In [39]:
# 메모리 사용량은 줄이는 것이 좋다!

In [40]:
##

In [None]:
# datetime 자료형에서 정보 추출하기

In [41]:
import pandas as pd
df = pd.read_csv('data/birth_die.csv')
df

Unnamed: 0,이름,주요경력,출생,사망
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14
1,마이클잭슨,가수,1958-08-29,2009-06-25
2,스티브잡스,CEO,1955-02-24,2011-10-05
3,로빈윌리엄스,배우,1951-07-21,2014-08-11
4,앨빈토플러,미래학자,1928-10-04,2016-06-27


In [42]:
df.dtypes

이름      object
주요경력    object
출생      object
사망      object
dtype: object

# 컬럼을 datetime 자료형으로 변경하기
- pd.to_datetime(컬럼)

In [45]:
# 출생, 사망 컬럼을 datetime 자료형으로 변경하기
df['출생'] = pd.to_datetime(df['출생'])
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망              object
dtype: object

In [46]:
df['사망'] = pd.to_datetime(df['사망'])
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망      datetime64[ns]
dtype: object

# 연, 월, 일, 분기 추출하기
- 컬럼.dt.year
- 컬럼.dt.month
- 컬럼.dt.day
- 컬럼.dt.quarter

In [50]:
# 출생 컬럼 0번 인덱스의 연도
df['출생'][0].year

1942

In [51]:
# 출생 컬럼의 연도
df['출생'].dt.year

0    1942
1    1958
2    1955
3    1951
4    1928
Name: 출생, dtype: int64

In [52]:
df['출생'].dt.month

0     1
1     8
2     2
3     7
4    10
Name: 출생, dtype: int64

In [53]:
df['출생'].dt.day

0     8
1    29
2    24
3    21
4     4
Name: 출생, dtype: int64

In [55]:
# 분기 컬럼 만들기
df['출생'].dt.quarter
df['분기'] = df['출생'].dt.quarter
df

Unnamed: 0,이름,주요경력,출생,사망,분기
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1
1,마이클잭슨,가수,1958-08-29,2009-06-25,3
2,스티브잡스,CEO,1955-02-24,2011-10-05,1
3,로빈윌리엄스,배우,1951-07-21,2014-08-11,3
4,앨빈토플러,미래학자,1928-10-04,2016-06-27,4


# 날짜 계산하기

In [58]:
# 생존일수 컬럼 만들기
df['생존일수'] = df['사망'] - df['출생']
df

Unnamed: 0,이름,주요경력,출생,사망,분기,생존일수
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1,27824 days
1,마이클잭슨,가수,1958-08-29,2009-06-25,3,18563 days
2,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days
3,로빈윌리엄스,배우,1951-07-21,2014-08-11,3,23032 days
4,앨빈토플러,미래학자,1928-10-04,2016-06-27,4,32043 days


In [59]:
# 생존기간 컬럼 만들기
df['생존기간'] = df['사망'].dt.year - df['출생'].dt.year
df

Unnamed: 0,이름,주요경력,출생,사망,분기,생존일수,생존기간
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1,27824 days,76
1,마이클잭슨,가수,1958-08-29,2009-06-25,3,18563 days,51
2,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56
3,로빈윌리엄스,배우,1951-07-21,2014-08-11,3,23032 days,63
4,앨빈토플러,미래학자,1928-10-04,2016-06-27,4,32043 days,88


# 요일, 월이름 추출하기
- 컬럼.dt.strftime('%a') : 요약된 요일이름
- 컬럼.dt.strftime('%A') : 긴 요일이름
- 컬럼.dt.strftime('%W') : 숫자요일(0:일요일)
- 컬럼.dt.strftime('%b') : 요약된 월이름
- 컬럼.dt.strftime('%B') : 긴 월이름

In [64]:
print(df['출생'].dt.strftime('%a'))
print(df['출생'].dt.strftime('%A'))
print(df['출생'].dt.strftime('%W'))
print(df['출생'].dt.strftime('%b'))
print(df['출생'].dt.strftime('%B'))

0    Thu
1    Fri
2    Thu
3    Sat
4    Thu
Name: 출생, dtype: object
0    Thursday
1      Friday
2    Thursday
3    Saturday
4    Thursday
Name: 출생, dtype: object
0    01
1    34
2    08
3    29
4    40
Name: 출생, dtype: object
0    Jan
1    Aug
2    Feb
3    Jul
4    Oct
Name: 출생, dtype: object
0     January
1      August
2    February
3        July
4     October
Name: 출생, dtype: object


In [66]:
# 출생요일 컬럼 
df['출생요일'] = df['출생'].dt.strftime('%a')
df

Unnamed: 0,이름,주요경력,출생,사망,분기,생존일수,생존기간,출생요일
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1,27824 days,76,Thu
1,마이클잭슨,가수,1958-08-29,2009-06-25,3,18563 days,51,Fri
2,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56,Thu
3,로빈윌리엄스,배우,1951-07-21,2014-08-11,3,23032 days,63,Sat
4,앨빈토플러,미래학자,1928-10-04,2016-06-27,4,32043 days,88,Thu


In [67]:
# 출생월 컬럼 추가하기
df['출생월'] = df['출생'].dt.strftime('%b')
df

Unnamed: 0,이름,주요경력,출생,사망,분기,생존일수,생존기간,출생요일,출생월
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1,27824 days,76,Thu,Jan
1,마이클잭슨,가수,1958-08-29,2009-06-25,3,18563 days,51,Fri,Aug
2,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56,Thu,Feb
3,로빈윌리엄스,배우,1951-07-21,2014-08-11,3,23032 days,63,Sat,Jul
4,앨빈토플러,미래학자,1928-10-04,2016-06-27,4,32043 days,88,Thu,Oct


# datetime 자료형을 인덱스로 만들어 사용하기

In [72]:
# 출생컬럼을 인덱스로 만들기
df.index = df['출생']
df

Unnamed: 0_level_0,이름,주요경력,출생,사망,분기,생존일수,생존기간,출생요일,출생월
출생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1942-01-08,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14,1,27824 days,76,Thu,Jan
1958-08-29,마이클잭슨,가수,1958-08-29,2009-06-25,3,18563 days,51,Fri,Aug
1955-02-24,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56,Thu,Feb
1951-07-21,로빈윌리엄스,배우,1951-07-21,2014-08-11,3,23032 days,63,Sat,Jul
1928-10-04,앨빈토플러,미래학자,1928-10-04,2016-06-27,4,32043 days,88,Thu,Oct


In [73]:
# 1955년 출생한 데이터 추출하기
df.loc['1955']

Unnamed: 0_level_0,이름,주요경력,출생,사망,분기,생존일수,생존기간,출생요일,출생월
출생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1955-02-24,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56,Thu,Feb


In [74]:
# 1955년 2월 출생한 데이터 추출하기
df.loc['1955-02']

Unnamed: 0_level_0,이름,주요경력,출생,사망,분기,생존일수,생존기간,출생요일,출생월
출생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1955-02-24,스티브잡스,CEO,1955-02-24,2011-10-05,1,20677 days,56,Thu,Feb
