# Pandas (2)
파이썬의 데이터 분석 라이브러리


- Series의 값이 많은 경우

:   Series의 데이터 개수가 많아지면 처음 5개, 끝 5개를 
출력해줍니다.
그 사이에는 ‘...’이란 표시가 존재하고 값이 생략되었다는 
것을 의미합니다.
수 많은 데이터를 한번에 출력하게되면 주피터 자체가 
느려질 수 있기 때문입니다.


In [1]:
import pandas as pd

In [2]:
# 500개의 값을 갖는 시리즈 생성
nums = pd.Series(range(500))
nums

0        0
1        1
2        2
3        3
4        4
      ... 
495    495
496    496
497    497
498    498
499    499
Length: 500, dtype: int64

### < Series head() 메서드 >

- 앞의 데이터를 추출해볼 때 사용할 수 있는 메서드가 
head()입니다.
- head() 메서드는 앞부터 출력할 데이터의 개수를 지정할 
수 있습니다. 
- 디폴트 값은 5로 5개의 값을 출력합니다.

In [3]:
nums.head(10)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [4]:
nums.head() # 디폴트 값

0    0
1    1
2    2
3    3
4    4
dtype: int64

### < Series tail() 메서드 >
- 뒤에서부터 데이터를 추출해볼 때 사용할 수 있는 
메서드가 tail()입니다.
- tail() 메서드는 맨 뒤에서부터 출력할 데이터의 개수를 
지정할 수 있습니다. 
- 디폴트 값은 head() 메서드와 
마찬가지로 5로 5개의 값을 출력합니다.

In [5]:
nums.tail()

495    495
496    496
497    497
498    498
499    499
dtype: int64

In [6]:
nums.tail(10)

490    490
491    491
492    492
493    493
494    494
495    495
496    496
497    497
498    498
499    499
dtype: int64

### < Series 수학 연산 >
- 여기 np.nan 값의 데이터를 갖는 Series를 만들었습니다. 

- 정수의 값을 적었지만, 
np.nan의 데이터는 float 자료형이기 때문에 dtype이 float로 된 것을 확인할 수 
있습니다.

In [7]:
import numpy as np

In [8]:
nums = pd.Series([1, 2, np.nan, 4, 5])
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

### < Series 수학 연산 nunique() 메서드 >

- nunique() 메서드는 고유한 값의 개수를 계산할 때 사용합니다. 
- 아래의 예제를 보면 
‘h’, ‘e’, ‘l’, ‘l’, ‘o’의 값을 갖는 Series 객체에서 고유한 값인 ‘h’, ‘e’, ‘l’, ‘o’에 대한 
개수를 구해주는 것을 확인할 수 있습니다.


In [9]:
hello = pd.Series(list("hello"))   
hello

0    h
1    e
2    l
3    l
4    o
dtype: object

In [10]:
hello.nunique()

4

### < Series 수학 연산 count() 메서드 >

- count() 메서드는 데이터의 개수를 계산합니다. 이때 nan인 값에 대해서는 개수에 
포함시키지 않습니다.
- len()은 그와 별개로 전체 길이를 알려줍니다.

In [11]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [12]:
nums.count()

4

In [13]:
len(nums)

5

### < Series 수학 연산 sum() 메서드 >

- sum() 메서드는 Series에 있는 데이터를 모두 더합니다. 대부분의 수학 연산과 관련된 
메서드는 결측치를 포함하지 않고 계산을 합니다.
- skipna 파라미터의 기본 값이 True이기 때문입니다. 이때 인수로 skipna의 값을 False로 
전달하면 결측값을 포함한 계산 결과를 얻을 수 있습니다.

In [14]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [15]:
nums.sum() # 결측값 불포함

12.0

In [16]:
nums.sum(skipna = False) # 결측값도 포함

nan

In [17]:
nums.sum(skipna = True)

12.0

### < Series 수학 연산 mean(), median(), std() 메서드 >

- mean() :  평균
- median() :  중앙값
- std() :  표준편차

들을 구해주는 메서드입니다.


In [18]:
nums.mean()

3.0

In [19]:
nums.median()

3.0

In [20]:
nums.std()

1.8257418583505538

### < Series 수학 연산 max(), min() 메서드 >

- max() 메서드는 Series에서 가장 큰 값을 구하고 
- min() 메서드는 Series에서 가장 작은 
값을 구해줍니다

In [21]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [22]:
nums.max()

5.0

In [23]:
nums.min()

1.0

### ord()함수

- Series의 값이 문자인 경우도 최대값과 최소값을 구할 
수 있습니다.
- ord() 함수는 하나의 문자를 Unicode 숫자로 
변경해줍니다. // ord(하나의 문자)
- 그 크기를 가지고 최대값과 최소값을 
구합니다.
- 문자를 아스키코드 -> 십진법으로 표현

In [24]:
somechar = pd.Series(list("AaBbCc"))
somechar

0    A
1    a
2    B
3    b
4    C
5    c
dtype: object

In [25]:
somechar.max()

'c'

In [26]:
somechar.min()

'A'

In [27]:
ord('a')

97

In [28]:
ord('A')

65

### < Series 수학 연산 describe() 메서드 >
- describe() 메서드는 수치 값을 갖는 Series에 대해 
count, mean, std, min, 25%, median(50%), 75%, 
max에 대한 모든 통계를 구해줍니다.
- object값을 갖는 Series에 대해서는 데이터 수인 count, 
고유한 값의 수인 unique, 최빈 값 top, 최빈 값의 빈도 
freq에 대한 값을 구해줍니다.

- cf) sql 에서 desc 라고 썼음.

In [32]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [33]:
nums.describe() # 수치형 데이터

count    4.000000
mean     3.000000
std      1.825742
min      1.000000
25%      1.750000
50%      3.000000
75%      4.250000
max      5.000000
dtype: float64

In [34]:
hello.describe()

count     5
unique    4
top       l
freq      2
dtype: object

### < Series의 변환 >
- Series는 파이썬의 기본 자료구조로 변경 가능합니다. 
- list() 함수를 활용하여 nums에 담긴 Series 객체를 list 
객체로 변경하였습니다.
- 뿐만 아니라 딕셔너리 자료형으로도 변경 가능합니다. 
- dict() 함수를 활용하면 됩니다. 
- Series의 index는 dict의 
key가 되고 Series의 values는 dict의 values가 됩니다.

In [29]:
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [30]:
list(nums)

[1.0, 2.0, nan, 4.0, 5.0]

In [31]:
dict(nums)

{0: 1.0, 1: 2.0, 2: nan, 3: 4.0, 4: 5.0}

### < 연습 문제 >
다음과 같이 두 시퀀스 자료형이 주어졌을 때 
superheros를 index로하고 strength_levels을 data로 
하는 Series를 생성하세요.

In [38]:
superheros = [ "Batman",
              "Superman",
              "Spider-Man",
              "Iron Man",
              "Captain America",
              "Wonder Woman" 
             ]

strength_levels = (100, 120, 90, 95, 110, 120)

In [39]:
heros = pd.Series(data = strength_levels, index = superheros)
heros

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

### < 연습 문제 >
앞서 만든 Series에서 뒤에서부터 마지막 행 4개를 
구해보세요.

In [40]:
heros.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

### < 연습 문제 >
앞서 만든 Series의 값 중 고유한 값의 개수를 
구해보세요.

In [41]:
heros.nunique()

5

### < 연습 문제 >
앞서 만든 Series의 값의 평균, 중앙값, 최대값, 
최소값을 각각 구해보세요.

In [42]:
print(heros.mean())
print(heros.median())
print(heros.max())
print(heros.min())

105.83333333333333
105.0
120
90


### < 연습 문제 >
앞서 만든 Series를 딕셔너리 형태로 변경해보세요.

In [43]:
dict(heros)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}

In [44]:
# cf) 아이언맨의 인덱스와 값을 시리즈로 조회해보세요.

heros[["Iron Man"]]

Iron Man    95
dtype: int64

### < Pandas 데이터 입출력 >
- Pandas는 데이터 파일을 읽어 Series 혹은 DataFrame을 만들 수 있습니다. 
- 가장 단순하지만 널리 사용되는 CSV(Comman Separated Value) 포맷 입출력에 대해 
우선 살펴보겠습니다. 
- CSV 파일 포맷은 데이터 값이 콤마(comma)로 구분되는 텍스트 파일입니다.

### < csv 파일을 Series로 데이터 읽어오기 >
- index와 values로 사용될 두 컬럼만으로 구성된 CSV 파일은 Series로 읽어올 수 
있습니다.
- 이때 index_col이란 매개변수로 인덱스로 사용할 column의 이름을 지정해주고, 
squeeze라는 매개변수에 True 값을 전달해야 합니다.

In [46]:
pd.read_csv("datas/pokemon.csv")

Unnamed: 0,Pokemon,Type
0,Bulbasaur,Grass / Poison
1,Ivysaur,Grass / Poison
2,Venusaur,Grass / Poison
3,Charmander,Fire
4,Charmeleon,Fire
...,...,...
804,Stakataka,Rock / Steel
805,Blacephalon,Fire / Ghost
806,Zeraora,Electric
807,Meltan,Steel


In [47]:
pd.read_csv("datas/pokemon.csv", index_col="Pokemon")

Unnamed: 0_level_0,Type
Pokemon,Unnamed: 1_level_1
Bulbasaur,Grass / Poison
Ivysaur,Grass / Poison
Venusaur,Grass / Poison
Charmander,Fire
Charmeleon,Fire
...,...
Stakataka,Rock / Steel
Blacephalon,Fire / Ghost
Zeraora,Electric
Meltan,Steel


In [48]:
pokemons = pd.read_csv("datas/pokemon.csv", index_col="Pokemon", squeeze = True)
pokemons



  pokemons = pd.read_csv("datas/pokemon.csv", index_col="Pokemon", squeeze = True)


Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [49]:
# 불러온 데이터가 Series로 잘 만들어졌는지 조회해봅시다.

pokemons = pd.read_csv("datas/pokemon.csv", index_col="Pokemon").squeeze("columns") # squeeze 속성으로 이렇게 쓴다.
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

### < 연습 문제 >
불러온 데이터의 특징을 파악해봅니다.
- 데이터의 총 개수
- 고유한 값의 종류
- 제일 많이 갖고 있는 값
- 제일 많이 갖는 값의 개수

In [50]:
pokemons.describe()

count        809
unique       159
top       Normal
freq          65
Name: Type, dtype: object

### < Series의 값 정렬하기 : sort_values() 메서드 >
- Series가 갖는 value들을 정렬할 때 사용할 수 있는 메서드가 sort_values() 입니다.


In [51]:
pokemons.sort_values()  # 오름차순으로 정렬

#(ascending = True)가 오름차순의 디폴트구나

Pokemon
Illumise                Bug
Silcoon                 Bug
Pinsir                  Bug
Burmy                   Bug
Wurmple                 Bug
                  ...      
Tirtouga       Water / Rock
Relicanth      Water / Rock
Corsola        Water / Rock
Carracosta     Water / Rock
Empoleon      Water / Steel
Name: Type, Length: 809, dtype: object

- Series가 갖는 값을 내림차순(큰 값부터 작은 값으로)으로 정렬할 때는 sort_values() 
메서드에 키워드 인수 ascending에 값을 False로 전달합니다.

In [52]:
pokemons.sort_values(ascending = False) # 내림차순으로 정렬

Pokemon
Empoleon      Water / Steel
Corsola        Water / Rock
Relicanth      Water / Rock
Carracosta     Water / Rock
Tirtouga       Water / Rock
                  ...      
Kricketune              Bug
Cascoon                 Bug
Scatterbug              Bug
Kricketot               Bug
Grubbin                 Bug
Name: Type, Length: 809, dtype: object

### < csv 파일을 Series로 데이터 읽어오기 >
- csv는 문자로된 파일입니다. 
- 여기서 
문자지만 날짜/시간으로 된 데이터도 
존재할 수 있습니다.
- 이에 대해 파이썬 자료로 파싱해서 읽어들일 
수 있는 방법이 있습니다.
- pd.read_csv() 메서드의 parse_dates 
인수에 파싱할 column 명을 리스트 형태로 
전달하면 됩니다.

In [53]:
# parse_dates 는 csv파일에서 데이터를 읽어드릴 때
# 날짜/ 시간으로 파싱해야하는 컬럼을 지정할 수 있습니다.

google = pd.read_csv("datas/google_stocks.csv",  # 불러올 파일 찾아서 Copy Path
                     parse_dates = ["Date"],
                     index_col = "Date").squeeze("columns")

google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

- csv 파일에서 필요한 column만 지정해서 
가져올 때는 usecols 인수를 활용하면 
됩니다. 
- 그 값으로 불러올 column의 목록을 
리스트의 요소로 작성하면 됩니다.

In [54]:
# usecols 인수를 활용하면
# csv 파일로부터 팬더스가 가져와야 하는 열의 목록을 지정할 수 있습니다.

war = pd.read_csv("datas/revolutionary_war.csv",
                  parse_dates = ["Start Date"],
                  index_col = "Start Date",
                  usecols = ["Start Date", "State"]).squeeze()

war

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

### < 연습 문제 >
앞서 불러온 war에 담긴 데이터의 특징을 파악해보세요.

(1) nan 값을 갖는 데이터는 총 몇개인가?

(2) 결측치를 제외한 값의 개수는 몇인가?

(3) 유일한 값의 개수는 총 몇개인가?

In [55]:
# (1) nan 값을 갖는 데이터는 총 몇개인가?
war.isnull().sum()
    # True == 1 , False == 0  / True 의 총 개수

# len(war) - war.count()

70

In [56]:
war[war.isnull()]

Start Date
1775-09-17    NaN
1775-12-31    NaN
1776-03-03    NaN
1776-03-25    NaN
1776-05-18    NaN
             ... 
1782-08-08    NaN
1782-08-25    NaN
1782-09-13    NaN
1782-10-18    NaN
1782-12-06    NaN
Name: State, Length: 70, dtype: object

In [57]:
# (2) 결측치를 제외한 값의 개수는 몇인가?
war.count()

162

In [58]:
# (3) 유일한 값의 개수는 총 몇개인가?
war.nunique()

17

### < Series의 값 정렬하기 sort_values() 메서드 >
- 다시 Series의 값을 기준으로 정렬하는 방법에 대해 설명을 이어가려 합니다.
- Series에 nan 값이 존재할 때 nan을 어떻게 정렬할지 기준을 정해줄 수 있습니다. 
- 그 방법으론 na_position이라는 인수에 first, last 값을 사용하면 됩니다.

In [59]:
war.sort_values(na_position = "first" )

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

In [60]:
war.sort_values(na_position = "last" )

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1782-08-08            NaN
1782-08-25            NaN
1782-09-13            NaN
1782-10-18            NaN
1782-12-06            NaN
Name: State, Length: 232, dtype: object

### < Series의 값 중 nan 배제하기 dropna() >
- war 변수에 담긴 Series 객체를 살펴보면 nan 값이 상당합니다. 
- 이 nan값에 대해 앞서 notnull() 메서드와 bool indexing으로 nan이 없는 Series를 구하기도 했지만,
- dropna() 메서드는 직접 nan 값을 배제시킬 수 있다!!!

In [61]:
war.dropna()

Start Date
1774-09-01     Massachusetts
1774-12-14     New Hampshire
1775-04-19     Massachusetts
1775-04-19     Massachusetts
1775-04-20          Virginia
                   ...      
1782-08-15          Virginia
1782-08-19          Virginia
1782-08-26    South Carolina
1782-09-11          Virginia
1783-01-22          Virginia
Name: State, Length: 162, dtype: object

### < Series의 index를 기준으로 정렬하기 >
- 이번엔 values가 아닌 index를 기준으로 정렬해보도록 하겠습니다. 
- sort_index() 메서드를 활용하면 됩니다. 
- 이 메서드도 ascending 인수를 가지며 기본 값은 True로 
오름차순을 기본으로 합니다.

In [62]:
pokemons.sort_index(ascending = True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

- 이번엔 war에 담긴 Series 객체를 index 기준으로 오름차순 정렬해보겠습니다. 
- NaT라는 값을 확인할 수 있습니다. 
- Not a Time의 줄임말입니다. 
- NaN은 float인 반면 NaT는 날짜/시간 유형의 데이터 입니다.


In [63]:
war.sort_index(ascending = True)

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

In [64]:
war.sort_index()

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

- sort_index() 메서드에도 na_position 인수를 사용할 수 있습니다.


In [65]:
war.sort_index(na_position = "first")

Start Date
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
1774-09-01    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

In [66]:
war.sort_index(na_position = "last")

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

### < Series의 index에 NaT 배제하기(참고) >
- Series의 index에 포함된 NaT 값을 배제하는 두가지 방법입니다.


In [67]:
# 1

war.loc[war.index.dropna()]

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-19    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 250, dtype: object

In [69]:
war[war.index.dropna()] # 사실 loc없어도 상관없겠죠

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-19    Massachusetts
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 250, dtype: object

In [68]:
war.index.dropna()

DatetimeIndex(['1774-09-01', '1774-12-14', '1775-04-19', '1775-04-19',
               '1775-04-20', '1775-05-10', '1775-05-27', '1775-06-11',
               '1775-06-17', '1775-08-08',
               ...
               '1782-08-08', '1782-08-15', '1782-08-19', '1782-08-26',
               '1782-08-25', '1782-09-11', '1782-09-13', '1782-10-18',
               '1782-12-06', '1783-01-22'],
              dtype='datetime64[ns]', name='Start Date', length=228, freq=None)

In [70]:
# 2

war.loc[war.index.notnull()]
 #1 보다 얘가 더 정확해 length 차이

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 228, dtype: object

### < 연습 문제 >
- google변수에 담긴 Series 객체에 대해서 가장 큰 값 10개와 가장 작은 값 10개를 출력해보세요.


In [71]:
# google변수에 담긴 Series 객체에 대해서 가장 큰 값 10개
google.sort_values(ascending = False).head(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64

In [72]:
# google변수에 담긴 Series 객체에 대해서 가장 작은 값 10개
google.sort_values().head(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

### < Series nsmallest(), nlargest() 메서드 >
- 앞서 구한 값을 메서드로 구할 수도 있습니다. 
- nsmallest()는 작은 값을 순서대로 인수의 숫자만큼 구해주고, 
- nlargest()는 큰 값을 순서대로 인수만큼 구합니다.

In [73]:
google.nlargest(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64

In [74]:
google.nsmallest(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

### < Series value_counts() 메서드 >
- value_counts() 메서드는 Series 내 데이터의 고유한 값의 빈도를 볼 때 활용합니다. 
- 아래의 예제를 보면 Normal이란 값을 갖는 데이터의 수가 65개, Water란 값을 갖는 
데이터가 61개, Grass의 값을 갖는 데이터가 38개, ...와 같이 정보를 카테고리화하여 
요약하고 있습니다.

In [75]:
pokemons.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

In [76]:
len(pokemons.value_counts())

159

In [77]:
pokemons.nunique()

159

- 수치형 데이터를 갖는 Series에 대해서 범주를 나눠 값의 빈도를 확인할 수 있습니다. 
- bins 인수에 값의 구간을 갖는 리스트를 넘겨주면 됩니다. 
- 리스트의 모든 인접한 쌍을 각 구간의 하한, 상한값으로 사용합니다.

In [78]:
bins = np.linspace(0, 1400, 8)  # 간격을 정확하게 나눠서 하고싶을 때
bins

array([   0.,  200.,  400.,  600.,  800., 1000., 1200., 1400.])

In [79]:
google.value_counts(bins = bins)
                
                    
# 왼쪽 소괄호( ( )는 해당 값의 미포함 
# 오른쪽 대괄호( ] )는 해당 값을 포함

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

### < 연습 문제 >

google 변수가 가르키는 Series 객체에 대해서 [0, 200, 400, 600, 800, 1000, 1200, 
1400]의 구간을 갖는 값의 개수를 구하고 인덱스 순으로 정렬해보세요.

In [80]:
bins = np.linspace(0, 1400, 8)
google.value_counts(bins = bins).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [81]:
google.value_counts(bins = [0, 200, 400, 600, 800, 1000, 1200, 1400]).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

### < Series value_counts() 메서드 >
범주를 정수로 전달하면 그 정수만큼 알아서 구간을 나눕니다.

(단 구간의 크기가 일정치 않을 수 있습니다.) 

또 sort 인수에 False 값 줘서 값을 기준으로 정렬하지 않을 수도 있습니다.

In [82]:
google.value_counts(bins = 5, sort = False)
# 정확하게 범위가 나뉘진 않지만 대략적으로 분포를 파악할 수 있다.

(48.581, 297.372]      1707
(297.372, 544.924]      829
(544.924, 792.476]      566
(792.476, 1040.028]     292
(1040.028, 1287.58]     430
Name: Close, dtype: int64