In [1]:
import numpy as np
import pandas as pd

In [1]:
# Pandas 데이터 입출력
# Pandas는 데이터 파일을 읽어 Series 혹은 DataFrame을 만들 수 있음

# CSV(Comma Separated Value) 포맷
# CSV 파일 포맷: 데이터 값이 콤마(comma)로 구분되는 텍스트 파일

In [12]:
# squeeze 매개변수는 하나의 열을 갖는 DataFrame을 Series로 변환
# index_col은 index로 사용할 column을 지정

pokemons = pd.read_csv("datas/pokemon.csv", index_col="Pokemon").squeeze("columns")
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [13]:
pokemons.describe()

count        809
unique       159
top       Normal
freq          65
Name: Type, dtype: object

In [18]:
# sort_values() 메서드
# Series의 값 정렬하기

pokemons.sort_values()  # (ascending = True) 생략되어 있음

Pokemon
Illumise                Bug
Silcoon                 Bug
Pinsir                  Bug
Burmy                   Bug
Wurmple                 Bug
                  ...      
Tirtouga       Water / Rock
Relicanth      Water / Rock
Corsola        Water / Rock
Carracosta     Water / Rock
Empoleon      Water / Steel
Name: Type, Length: 809, dtype: object

In [19]:
# 내림차순으로 정렬

pokemons.sort_values(ascending = False)

Pokemon
Empoleon      Water / Steel
Corsola        Water / Rock
Relicanth      Water / Rock
Carracosta     Water / Rock
Tirtouga       Water / Rock
                  ...      
Kricketune              Bug
Cascoon                 Bug
Scatterbug              Bug
Kricketot               Bug
Grubbin                 Bug
Name: Type, Length: 809, dtype: object

In [27]:
# parse_dates는 csv 파일에서 데이터를 읽어들일 때
# 날짜/시간으로 파싱해야 하는 컬럼을 지정할 수 있음
# parse_dates 인수에 파싱할 column 명을 리스트 형태로 전달

# 메서드 체이닝
google = pd.read_csv("datas/google_stocks.csv",
                    parse_dates=["Date"],
                    index_col="Date").squeeze("columns")
google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

In [28]:
# usecols 인수를 활용하면
# csv 파일로부터 pandas가 가져와야 하는 열의 목록을 지정할 수 있음

war = pd.read_csv("datas/revolutionary_war.csv",
                    parse_dates=["Start Date"],
                    index_col="Start Date",
                    usecols=["Start Date", "State"]).squeeze("columns")
war

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

In [38]:
# 연습문제
# nan 값을 갖는 데이터의 개수

len(war) - war.count()    # war.isnull().sum()

70

In [39]:
# 결측치를 제외한 값의 개수

war.count()    # war.notnull().sum()

162

In [33]:
# 유일한 값의 개수

war.nunique()

17

In [35]:
# Series의 값 정렬하기
# nan을 어떻게 정렬할지 기준 정해주려면
# na_position이라는 인수에 first, last 값을 사용

war.sort_values(na_position="first")

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

In [36]:
war.sort_values(na_position="last")

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1782-08-08            NaN
1782-08-25            NaN
1782-09-13            NaN
1782-10-18            NaN
1782-12-06            NaN
Name: State, Length: 232, dtype: object

In [37]:
# dropna() 메서드
# nan 배제하기

war.dropna()

Start Date
1774-09-01     Massachusetts
1774-12-14     New Hampshire
1775-04-19     Massachusetts
1775-04-19     Massachusetts
1775-04-20          Virginia
                   ...      
1782-08-15          Virginia
1782-08-19          Virginia
1782-08-26    South Carolina
1782-09-11          Virginia
1783-01-22          Virginia
Name: State, Length: 162, dtype: object

In [41]:
# index를 기준으로 정렬

pokemons.sort_index(ascending=True)  # 오름차순

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [43]:
war.sort_index()

# NaN은 float인 반면 NaT(Not a Time)는 날짜/시간 유형의 데이터

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

In [45]:
# sort_index() 메서드에도 na_position 인수를 사용 가능

war.sort_index(na_position = "last")

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

In [47]:
# Series의 index에 포함된 NaT 값을 배제

war.loc[war.index.notnull()]

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 228, dtype: object

In [62]:
war.loc[war.index.dropna()]  # index값 중복이 없어야 함!

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-19    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 250, dtype: object

In [63]:
war.index.value_counts()[:11]  # index 중복

1781-04-25    2
1781-05-22    2
1780-08-18    2
1781-09-13    2
1782-03-16    2
1780-05-25    2
1778-09-07    2
1782-01-11    2
1777-08-22    2
1775-04-19    2
1781-04-15    2
Name: Start Date, dtype: int64

In [53]:
# 연습문제
# google 변수에 담긴 Series 객체에 대해서 가장 큰 값 10개와 가장 작은 값 10개를 출력

print(google.sort_values(ascending=False).head(10))
google.sort_values().head(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64


Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

In [54]:
# nsmallest(), nlargest() 메서드

# nsmallest(): 작은 값을 순서대로 인수의 숫자만큼 구함
# nlargest(): 큰 값을 순서대로 인수만큼 구함

google.nlargest(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64

In [55]:
google.nsmallest(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

In [57]:
# Series value_counts() 메서드
# Series 내 데이터의 고유한 값의 빈도
# 정보를 카테고리화하여 요약

pokemons.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

In [71]:
len(pokemons.value_counts())     # pokemons.nunique()와 같은 값

159

In [74]:
# Series에 대해서 범주를 나눠 값의 빈도 확인
# bins 인수에 값의 구간을 갖는 리스트를 넘겨줌
# 리스트의 모든 인접한 쌍을 각 구간의 하한, 상한값으로 사용

bins = np.linspace(0, 1400, 8)
bins

array([   0.,  200.,  400.,  600.,  800., 1000., 1200., 1400.])

In [75]:
# 소괄호((, ))는 해당 값 미포함
# 대괄호([, ])는 해당 값 포함

google.value_counts(bins=bins)

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [80]:
# 연습문제
# [0, 200, 400, 600, 800, 1000, 1200, 1400]의 구간을 갖는 값의 개수 구하고
# 인덱스 순으로 정렬

google.value_counts(bins=[0, 200, 400, 600, 800, 1000, 1200, 1400]).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [82]:
# Series value_counts() 메서드

# 범주를 정수로 전달하면 그 정수만큼 알아서 구간을 나눔
# 단 구간의 크기가 일정치 않을 수 있음
# sort 인수에 False 값 주면 값을 기준으로 정렬하지 않음

google.value_counts(bins=8, sort=False)

(48.581, 204.54]       651
(204.54, 359.26]      1435
(359.26, 513.98]       263
(513.98, 668.7]        466
(668.7, 823.42]        334
(823.42, 978.14]       161
(978.14, 1132.86]      283
(1132.86, 1287.58]     231
Name: Close, dtype: int64