# read_csv 함수로 데이터셋 가져오기
- csv는 데이터의 각 행을 줄 바꿈으로 구분하고 각 행 값을 쉼표로 구분하는 txt파일
  - 첫번째 행에는 데이터의 열 헤더가 있음

In [1]:
import pandas as pd

In [2]:
pd.read_csv(filepath_or_buffer = "pokemon.csv") #pd.read_csv("pokemon.csv")

Unnamed: 0,Pokemon,Type
0,Bulbasaur,Grass / Poison
1,Ivysaur,Grass / Poison
2,Venusaur,Grass / Poison
3,Charmander,Fire
4,Charmeleon,Fire
...,...,...
804,Stakataka,Rock / Steel
805,Blacephalon,Fire / Ghost
806,Zeraora,Electric
807,Meltan,Steel


- 데이터셋의 열 개수와 관계 없이 항상 2차원 판다스 자료구조인 DataFrame으로 가져옴. -> 데이터셋의 열 중 하나를 인덱스 열로 설정하고 Series로 다루기

In [3]:
pokemon = pd.read_csv("pokemon.csv", index_col = "Pokemon").squeeze("columns")
pokemon

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [4]:
pd.read_csv("google_stocks.csv").head()

Unnamed: 0,Date,Close
0,2004-08-19,49.98
1,2004-08-20,53.95
2,2004-08-23,54.5
3,2004-08-24,52.24
4,2004-08-25,52.8


- 데이터셋을 가져올 때 판다스는 각 열에 가장 적합한 데이터 유형을 유추 
- 날짜/시간 값을 가진 열을 문자열 타입으로 가져옴
-> 변환해주는 parse_dates 매개변수에 해당 열을 입력

In [5]:
google = pd.read_csv(
    "google_stocks.csv", 
    parse_dates = ["Date"], 
    index_col = "Date"
).squeeze("columns")
google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

In [6]:
pd.read_csv("revolutionary_war.csv").tail()

Unnamed: 0,Battle,Start Date,State
227,Siege of Fort Henry,9/11/1782,Virginia
228,Grand Assault on Gibraltar,9/13/1782,
229,Action of 18 October 1782,10/18/1782,
230,Action of 6 December 1782,12/6/1782,
231,Action of 22 January 1783,1/22/1783,Virginia


In [7]:
#read_csv함수의 usecols 매개변수에 2개의 열만을 전달해 Series로 변환
battles = pd.read_csv(
    "revolutionary_war.csv",
    index_col = "Start Date",
    parse_dates = ["Start Date"],
    usecols = ["State", "Start Date"],
).squeeze("columns")
battles.tail()

Start Date
1782-09-11    Virginia
1782-09-13         NaN
1782-10-18         NaN
1782-12-06         NaN
1783-01-22    Virginia
Name: State, dtype: object

# Series 정렬
- 값이나 인덱스를 기준으로 Series를 오름차순/내림차순으로 정렬 가능

## sort_values 메서드를 사용하여 값 기준으로 정렬
- 오름차순(크기가 증가)으로 정렬된 새 Series를 반환

In [8]:
google.sort_values()

Date
2004-09-03      49.82
2004-09-01      49.94
2004-08-19      49.98
2004-09-02      50.57
2004-09-07      50.60
               ...   
2019-04-23    1264.55
2019-10-25    1265.13
2018-07-26    1268.33
2019-04-26    1272.18
2019-04-29    1287.58
Name: Close, Length: 3824, dtype: float64

In [9]:
#문자열 Series는 알파벳 순서로 정렬
pokemon.sort_values()

Pokemon
Illumise                Bug
Silcoon                 Bug
Pinsir                  Bug
Burmy                   Bug
Wurmple                 Bug
                  ...      
Tirtouga       Water / Rock
Relicanth      Water / Rock
Corsola        Water / Rock
Carracosta     Water / Rock
Empoleon      Water / Steel
Name: Type, Length: 809, dtype: object

In [10]:
#판다스는 문자열 정렬 시 대문자를 소문자보다 앞에 정렬
pd.Series(data = ["Adam", "adam", "Ben"]).sort_values()

0    Adam
2     Ben
1    adam
dtype: object

In [11]:
#ascending 매개변수는 정렬 순서를 설정(True가 기본 인수인 오름차순)
google.sort_values(ascending = False).head()

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
Name: Close, dtype: float64

In [12]:
#na_position 매개변수는 반환된 Series에서 NaN값을 어디에 배치할 지 결정(기본인수=last)
battles.sort_values() #battles.sort_values(na_position = "last")

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1782-08-08            NaN
1782-08-25            NaN
1782-09-13            NaN
1782-10-18            NaN
1782-12-06            NaN
Name: State, Length: 232, dtype: object

In [13]:
battles.sort_values(na_position = "first")

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

In [14]:
#dropna 메서드: 결측값이 모두 제거된 Series를 반환, 인덱스가 아닌 값의 NaN만 대상으로 함.
battles.dropna().sort_values()

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1781-07-06       Virginia
1781-07-01       Virginia
1781-06-26       Virginia
1781-04-25       Virginia
1783-01-22       Virginia
Name: State, Length: 162, dtype: object

## sort_index 메서드를 사용하여 인덱스 기준으로 정렬

In [15]:
#sort_index 메서드를 사용시 인덱스를 기준으로 Series를 정렬 가능(ascending 매개변수, 기본 인수가 True)
pokemon.sort_index() #pokemon.sort_index(ascending = True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [16]:
#날짜/시간의 오름차순 정렬
battles.sort_index()

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

In [17]:
#날짜/시간의 내림차순 정렬
battles.sort_index(ascending = False).head()

Start Date
1783-01-22    Virginia
1782-12-06         NaN
1782-10-18         NaN
1782-09-13         NaN
1782-09-11    Virginia
Name: State, dtype: object

- 넘파이 객체 NaT: not a time

In [18]:
#na_position 매개변수: NaN 값의 배치 위치를 결정
battles.sort_index(na_position = "first").head()

Start Date
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
1774-09-01    Massachusetts
Name: State, dtype: object

## nsmallest와 nlargest 메서드를 사용하여 가장 작은 값과 가장 큰 값 검색

In [19]:
#가장 큰 값 5개를 찾기-1
google.sort_values(ascending = False).head()

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
Name: Close, dtype: float64

In [20]:
#가장 큰 값 n=5개(기본 인수)를 찾기-2
google.nlargest(n=5) #google.nlargest()

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
Name: Close, dtype: float64

In [21]:
#가장 작은 값 n=5개(기본 인수)를 찾기
google.nsmallest(n=5) #google.nsmallest()

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
Name: Close, dtype: float64

- nlargest 와 nsmallest 메서드는 문자열 Series에선 사용 불가

# inplace 매개변수로 Series 덮어쓰기
- 여태까지 호출한 모든 메서드는 새로운 Series를 반환 -> 원본 Series 객체는 새로 진행된 작업에 영향을 받지 않음
- 판다스의 메서드에 있는 inplace 매개변수에 인수를 True로 전달하면 메서드가 호출되는 객체를 수정함

In [22]:
battles.head(3)

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
Name: State, dtype: object

- inplace 매개변수를 사용하더라도 판다스는 메서드를 호출할 때마다 객체의 복사본을 만들었음 -> 현재는 inplace 매개변수를 제거.
- 판다스는 불변 자료구조를 사용하기 때문. (불변 객체가 버그를 줄임)

In [23]:
battles.sort_values(inplace = True)

ValueError: This Series is a view of some other array, to sort in-place you must create a copy

In [24]:
battles = battles.sort_values()
battles.head(3)

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
Name: State, dtype: object

# value_counts 메서드로 값 계산하기

In [25]:
pokemon.head()

Pokemon
Bulbasaur     Grass / Poison
Ivysaur       Grass / Poison
Venusaur      Grass / Poison
Charmander              Fire
Charmeleon              Fire
Name: Type, dtype: object

In [26]:
#값을 버킷으로 그룹화, 각 버킷의 요소 개수를 계산, 새 Series 객체를 반환
pokemon.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

In [27]:
len(pokemon.value_counts()) == pokemon.nunique()

True

- 추가 공백이 있거나 문자의 대소문자가 다른 경우(데이터 무결성이 보장되지 않는 경우) 별도로 계산하게 됨

In [28]:
#value_counts 메서드의 ascending 매개변수의 기본 인수는 False(내림차순)
pokemon.value_counts(ascending = True)

Fire / Ghost         1
Fighting / Dark      1
Fighting / Steel     1
Normal / Ground      1
Fire / Psychic       1
                    ..
Fire                30
Psychic             35
Grass               38
Water               61
Normal              65
Name: Type, Length: 159, dtype: int64

In [29]:
#value_counts 메서드의 normalize 매개변수를 True로 설정하여 고유 값의 빈도를 반환
pokemon.value_counts(normalize = True).head()

Normal     0.080346
Water      0.075402
Grass      0.046972
Psychic    0.043263
Fire       0.037083
Name: Type, dtype: float64

In [30]:
#빈도 백분율의 정밀도를 제한하고 싶은 경우 -> round 메서드 사용
#round 메서드의 첫번째 매개변수 decimals는 자릿수를 결정
(pokemon.value_counts(normalize = True) * 100).round(2)

Normal                8.03
Water                 7.54
Grass                 4.70
Psychic               4.33
Fire                  3.71
                      ... 
Fire / Psychic        0.12
Normal / Ground       0.12
Psychic / Fighting    0.12
Dark / Ghost          0.12
Fire / Ghost          0.12
Name: Type, Length: 159, dtype: float64

In [31]:
#숫자 Series에서도 동일하게 작동
google.value_counts().head()

287.68    3
194.27    3
307.10    3
288.92    3
290.41    3
Name: Close, dtype: int64

- 숫자 데이터셋의 경향을 확인할 때는 고유한 값을 계산하는 것보다 값을 미리 정의된 구간으로 그룹화하는 게 더 유용 -> max, min을 계산 후 사이값을 그룹화

In [32]:
google.max()

1287.58

In [33]:
google.min()

49.82

In [34]:
#value_counts 메서드의 bins 매개변수에 리스트 전달->리스트의 모든 인접한 쌍을 각 구간의 하한, 상한값으로 사용
buckets = [0, 200, 400, 600, 800, 1000, 1200, 1400]
google.value_counts(bins = buckets) #각 버킷의 값 수에 따라 정렬

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [35]:
#구간을 기준으로 결과를 정렬 (with 메서드 체이닝: 여러 메서드를 순서대로 호출)
google.value_counts(bins = buckets).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [36]:
#value_counts 메서드의 sort 매개변수에 False 값을 전달하여 동일한 결과를 얻기.
google.value_counts(bins = buckets, sort = False)

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

- 판다스는 Series 값을 버킷으로 구성할 때 빈의 범위를 어느 방향으로든 최대 0.1%까지 확장 가능(첫번째 구간에는 0 대신 -0.001 값이 포함됨)
- 괄호: 구간에서 제외된 값을 표시
- 대괄호: 구간에 포함된 값을 표시
- **폐구간**: 두 끝점이 모두 포함
- **개구간**: 두 끝점을 모두 제외
- value_counts 메서드의 bins 매개변수는 반개구간을 반환(끝점 중 하나를 포함, 다른 끝점을 제외)

In [37]:
#value_counts의 bins 매개변수는 정수를 인수로 받아 (최댓값-최솟값)/지정된 수 로 범위를 설정
google.value_counts(bins = 6, sort = False)

(48.581, 256.113]      1204
(256.113, 462.407]     1104
(462.407, 668.7]        507
(668.7, 874.993]        380
(874.993, 1081.287]     292
(1081.287, 1287.58]     337
Name: Close, dtype: int64

In [38]:
battles.head()

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
Name: State, dtype: object

In [39]:
battles.value_counts().head()

South Carolina    31
New York          28
New Jersey        24
Virginia          21
Massachusetts     11
Name: State, dtype: int64

In [40]:
#판다스는 기본적으로 value_counts Series에서 NaN값을 제외함. 이를 포함시키기 위해서는 dropna 매개변수에 False 인자 전달
battles.value_counts(dropna = False).head()

NaN               70
South Carolina    31
New York          28
New Jersey        24
Virginia          21
Name: State, dtype: int64

In [41]:
battles.index

DatetimeIndex(['1781-09-06', '1779-07-05', '1777-04-27', '1777-09-03',
               '1777-05-17', '1779-09-10', '1779-09-07', '1780-03-02',
               '1778-06-30', '1781-01-07',
               ...
               '1782-05-06', '1782-05-25', '1782-05-28', '1782-07-01',
               '1782-07-06', '1782-08-08', '1782-08-25', '1782-09-13',
               '1782-10-18', '1782-12-06'],
              dtype='datetime64[ns]', name='Start Date', length=232, freq=None)

In [42]:
#value_count 메서드는 index 속성을 통해 인덱스 객체에 접근 시 적용 가능
battles.index.value_counts()

1781-05-22    2
1775-04-19    2
1782-03-16    2
1782-01-11    2
1781-04-25    2
             ..
1776-09-15    1
1776-10-11    1
1777-10-06    1
1780-11-23    1
1782-12-06    1
Name: Start Date, Length: 217, dtype: int64

# apply 메서드를 사용하여 모든 Series 값에 대한 함수 호출
- 함수는 파이썬에서 일급 객체(다른 데이터 유형과 동일하게 취급, 유효한 자료 구조)
- 일급 객체로 할 수 있는 것
  - 리스트에 저장
  - 딕셔너리 키에 대한 값에 할당
  - 다른 함수에 인수로 전달
  - 다른 함수에서 반환값으로 사용
- 함수: 출력을 생성하는 일련의 명령(레시피)
- 함수 호출: 명령어의 실제 실행(요리)

In [43]:
#내장 함수(에 대한 참조)를 저장하는 리스트를 선언
funcs = [len, max, min]

In [44]:
#funcs 리스트를 순회하는 예제
for current_func in funcs:
    print(current_func(google))

3824
1287.58
49.82


- 함수를 파이썬에서 객체로 취급하는 것이 판다스에서 apply 메서드에 적용됨.
- apply 메서드는 첫번째 매개변수 func로 호출할 함수를 설정
  - apply 메서드에 전달하는 인자는 호출되지 않은 특정 함수(레시피).
  - 판다스의 내부 어딘가에서 apply 메서드는 모든 Series 값에 대해 함수를 호출해야한다는 점을 알고 있음
  - 사용자 정의 함수도 허용(함수란 논리를 캡슐화하기 위한 이상적인 컨테이너)

In [45]:
google.apply(func = round) #google.apply(round)

Date
2004-08-19      50
2004-08-20      54
2004-08-23      54
2004-08-24      52
2004-08-25      53
              ... 
2019-10-21    1246
2019-10-22    1243
2019-10-23    1259
2019-10-24    1261
2019-10-25    1265
Name: Close, Length: 3824, dtype: int64

In [49]:
#사용자 정의 함수
def single_or_multi(pokemon_type):
    if "/" in pokemon_type:
        return "Multi"
    return "Single"

In [48]:
pokemon.head(4)

Pokemon
Bulbasaur     Grass / Poison
Ivysaur       Grass / Poison
Venusaur      Grass / Poison
Charmander              Fire
Name: Type, dtype: object

In [47]:
pokemon.apply(single_or_multi)

Pokemon
Bulbasaur       Multi
Ivysaur         Multi
Venusaur        Multi
Charmander     Single
Charmeleon     Single
                ...  
Stakataka       Multi
Blacephalon     Multi
Zeraora        Single
Meltan         Single
Melmetal       Single
Name: Type, Length: 809, dtype: object

In [50]:
pokemon.apply(single_or_multi).value_counts()

Multi     405
Single    404
Name: Type, dtype: int64

# 코딩 챌린지

Q. revolutionary_war.csv 데이터셋을 가져오고 \[요일(인덱스), 각 요일의 전투 횟수(값)\]의 Series를 반환

In [65]:
import pandas as pd
import datetime as dt

day_of_war = pd.read_csv(
    "revolutionary_war.csv",
    parse_dates = ["Start Date"],
    usecols = ["Start Date"],
).squeeze("columns")

def day_of_the_week(datetime):
    return datetime.strftime("%A")

day_of_war = day_of_war.dropna().apply(day_of_the_week).value_counts()
day_of_war

Saturday     39
Friday       39
Wednesday    32
Thursday     31
Sunday       31
Tuesday      29
Monday       27
Name: Start Date, dtype: int64