Series의 데이터 개수가 많아지면 jupyter 자체가 느려지는 것을 방지하기 위해 처음 5개, 끝 5개를 출력해 준다.

In [116]:
import pandas as pd
import numpy as np

In [2]:
pd.Series(range(500))

0        0
1        1
2        2
3        3
4        4
      ... 
495    495
496    496
497    497
498    498
499    499
Length: 500, dtype: int64

head() 메서드를 이용해 앞으로부터 데이터를 추출할 수 있다. 기본 값은 5개로 초기화 되어있다.

In [None]:
num = pd.Series(range(500))
num.head()

0    0
1    1
2    2
3    3
4    4
dtype: int64

tail() 메서드로는 뒤에서부터 데이터를 추출한다.

In [5]:
num.tail()

495    495
496    496
497    497
498    498
499    499
dtype: int64

NaN이 포함되면 Series의 타입은 float이 된다.

In [6]:
nums = pd.Series([1, 2, np.nan, 4, 5])
nums

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

nunique() 메서드는 고유한 값의 개수를 계산할 때 사용된다.

In [8]:
hello = pd.Series(list('hello'))
hello.nunique()

4

count() 메서드는 대이터의 개수를 계산한다. nan은 포함하지 않기 때문에 len()과 차이가 있다.

In [9]:
nums.count()

4

In [None]:
len(nums)

5

sum() 메서드는 Series에 있는 데이터를 모두 더한다. 대부분의 수학 연산과 관련된 메서드는 결측치를 포함하지 않고 계산한다. skipna 파라미터의 값이 True이기 때문이다. 인수로 강제로 False로 지정하면 NaN이 반환된다.

In [11]:
nums.sum(skipna=False)

nan

mean()은 평균을, median()은 중앙값을, std()는 표준편차를 구해주는 메서드이다.

In [12]:
nums.mean()

3.0

In [13]:
nums.median()

3.0

In [14]:
nums.std()

1.8257418583505538

max()와 min()은 각각 최댓값과 최솟값을 반환한다.

In [15]:
nums.max()

5.0

In [None]:
nums.min()

1.0

Series의 값이 문자인 경우도 최댓값과 최솟값을 구할 수 잆다. ord() 함수는 하나의 문자를 Unicode 숫자로 변경해 준다.

In [19]:
somechar = pd.Series(list('aAbBcC'))
somechar.max()

'c'

describe() 메서드는 수치 값을 갖는 Series에 대해 count, mean, std, min, 25%, median, 75%, max에 대한 모든 통계를 구해준다.
object 타입의 Series에 대해서는 데이터 수인 count, 고유한 수인 unique, 최빈값 top, 최빈값의 빈도 freq를 구해준다.

In [20]:
num.describe()

count    500.000000
mean     249.500000
std      144.481833
min        0.000000
25%      124.750000
50%      249.500000
75%      374.250000
max      499.000000
dtype: float64

In [22]:
hello.describe()

count     5
unique    4
top       l
freq      2
dtype: object

Series는 파이썬의 기본 자료구조로 변경 가능하다. list()함수로 리스트로 변경할 수 있고, dict()로 dictionary로 변경할 수도 있다.

In [23]:
list(nums)

[1.0, 2.0, nan, 4.0, 5.0]

In [24]:
dict(nums)

{0: 1.0, 1: 2.0, 2: nan, 3: 4.0, 4: 5.0}

연습문제 - 다음과 같이 두 자료형이 주어졌을 때 superheros를 index로 하고 strength_levels을 data로 하는 Series를 생성하시오.

In [31]:
superheros = [
    "Batman",
    "Superman",
    "Spider-Man",
    "Iron Man",
    "Captain America",
    "Wonder Woman"
]
strength_levels = (100, 120, 90, 95, 110, 120)

sup_ser = pd.Series(index=superheros, data=strength_levels)
sup_ser

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [32]:
sup_ser.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [34]:
sup_ser.nunique()

5

In [36]:
sup_ser.mean().round(2)

105.83

In [37]:
sup_ser.median()

105.0

In [38]:
sup_ser.max()

120

In [39]:
sup_ser.min()

90

In [40]:
dict(sup_ser)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}

Pandas는 데이터 파일을 읽어 Series 혹은 DataFrame을 만들 수 있다. 가장 단순하지만 널리 사용되는 csv 포맷 입출력에 대해 알아보겠다. Comma serperated value는 말 그대로 데이터 값이 콤마로 구분되는 텍스트 파일이다. squeeze 속성을 쓰면 series로 반환된다.

In [74]:
pokemons = pd.read_csv('datas/pokemon.csv', index_col=('Pokemon')).squeeze()
pokemons

Pokemon
Bulbasaur      Grass / Poison
Ivysaur        Grass / Poison
Venusaur       Grass / Poison
Charmander               Fire
Charmeleon               Fire
                    ...      
Stakataka        Rock / Steel
Blacephalon      Fire / Ghost
Zeraora              Electric
Meltan                  Steel
Melmetal                Steel
Name: Type, Length: 809, dtype: object

In [75]:
pokemons.describe()

count        809
unique       159
top       Normal
freq          65
Name: Type, dtype: object

내림차순 정렬을 위해서는 sort_values(ascending = False)를 사용한다.

In [77]:
pokemons.sort_values(ascending=False)

Pokemon
Empoleon      Water / Steel
Corsola        Water / Rock
Relicanth      Water / Rock
Carracosta     Water / Rock
Tirtouga       Water / Rock
                  ...      
Kricketune              Bug
Cascoon                 Bug
Scatterbug              Bug
Kricketot               Bug
Grubbin                 Bug
Name: Type, Length: 809, dtype: object

csv는 문자로 된 파일이지만, 날짜/시간으로 된 데이터도 존재할 수 있다. 이에 대해 파이썬 자료로 파싱해서 읽어들일 수 있다. pd.read_csv() 메서드에 parse_dates 인수에 파싱할 column명을 리스트 형태로 전달하면 된다.

In [78]:
google = pd.read_csv('datas/google_stocks.csv', parse_dates=['Date'], index_col = 'Date').squeeze()
google

Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

csv 파일에서 필요한 column만 지정해서 가져올 때는 usecols 인수를 활용하면 된다. 그 값으로 불러올 column의 목록을 리스트의 요소로 작성하면 된다.

In [80]:
war = pd.read_csv('datas/revolutionary_war.csv', 
                  usecols=['Start Date', 'State'], 
                  parse_dates=['Start Date'], 
                  index_col = 'Start Date').squeeze()
war

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

In [85]:
war.isnull().sum()

70

In [83]:
war.count()

162

In [84]:
war.nunique()

17

Series에 nan 값이 존재할 때 nan을 어떻게 정렬할지 기준을 정해줄 수 있다. na_position이라는 인수에 first, last 값을 사용하면 된다.

In [86]:
war.sort_values(na_position = 'first')

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

dropna() 메서드로 nan 값을 직접 배제시킬 수 있다.

In [87]:
war.dropna()

Start Date
1774-09-01     Massachusetts
1774-12-14     New Hampshire
1775-04-19     Massachusetts
1775-04-19     Massachusetts
1775-04-20          Virginia
                   ...      
1782-08-15          Virginia
1782-08-19          Virginia
1782-08-26    South Carolina
1782-09-11          Virginia
1783-01-22          Virginia
Name: State, Length: 162, dtype: object

sort_index()로 index를 기준으로 정렬할 수 있다. 이 메서드도 ascending 인수를 가지며 기본 값은 True로 오름차순을 기본으로 한다.

In [88]:
pokemons.sort_index(ascending=True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

war에 담긴 객체를 index 기준으로 오름차순 정렬하면 NaT라는 값이 나온다. Not a Time의 줄임말로 datetime에서 나온다.

In [89]:
war.sort_index()

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1783-01-22         Virginia
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
Name: State, Length: 232, dtype: object

index에 포함된 NaT 값을 배제하는 방법도 있다.

In [90]:
war.loc[war.index.notnull()]

Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 228, dtype: object

연습문제 - google 변수에 담긴 Series 객체에 대해서 가장 큰 값 10개와 가장 작은 값 10개를 출력해보세요.

In [93]:
google.sort_values().tail(10)

Date
2019-04-24    1256.00
2019-10-23    1259.13
2019-10-24    1260.99
2019-04-25    1263.45
2018-07-25    1263.70
2019-04-23    1264.55
2019-10-25    1265.13
2018-07-26    1268.33
2019-04-26    1272.18
2019-04-29    1287.58
Name: Close, dtype: float64

In [94]:
google.sort_values().head(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

메서드로도 할 수 있다.

In [95]:
google.nlargest(10)

Date
2019-04-29    1287.58
2019-04-26    1272.18
2018-07-26    1268.33
2019-10-25    1265.13
2019-04-23    1264.55
2018-07-25    1263.70
2019-04-25    1263.45
2019-10-24    1260.99
2019-10-23    1259.13
2019-04-24    1256.00
Name: Close, dtype: float64

In [97]:
google.nsmallest(10)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
2004-08-30    50.81
2004-09-08    50.96
2004-09-09    50.96
2004-08-31    50.99
2004-08-24    52.24
Name: Close, dtype: float64

value_counts() 메서드는 데이터의 고유한 값의 빈도를 볼 때 사용한다.

In [98]:
pokemons.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

수치형 데이터를 갖는 Series에 대해서 범주를 나눠 값의 빈도를 확인할 수 있따. bins 인수에 값의 구간을 갖는 리스트를 넘겨주면 된다. 아래에서 소괄호는 해당 값의 미포함을 나타내며 대괄호는 포함을 나타낸다.

In [107]:
bins = np.linspace(0, 1400, 8)
google.value_counts(bins=bins)

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

연습문제 - 위를 인덱스 순으로 정렬하라.

In [109]:
google.value_counts(bins=bins).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

범주를 정수로 전달하면 그 정수만큼 알아서 구간을 나눈다. 또 sort 인수에 False 값을 줘서 값을 기준으로 정렬하지 않을 수도 있다.

In [111]:
google.value_counts(bins=8, sort=False)

(48.581, 204.54]       651
(204.54, 359.26]      1435
(359.26, 513.98]       263
(513.98, 668.7]        466
(668.7, 823.42]        334
(823.42, 978.14]       161
(978.14, 1132.86]      283
(1132.86, 1287.58]     231
Name: Close, dtype: int64

데이터를 csv로 출력할 수 있다. to_csv() 메서드를 ㅅ용하며, 첫 인자로는 파일 경로를 입력한다. 

In [120]:
data = [[1, 1.11, 'one'],
     [2, '', 'two'],
     ['누락', 3.33, 'three']]

df = pd.DataFrame(data=data, columns = ['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [121]:
df.to_csv('datas/sample1.csv', index=False)

In [123]:
df_read = pd.read_csv('datas/sample1.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


column 인덱스를 배제하고 저장할 수도 있다.

In [126]:
df.to_csv('datas/sample2.csv', index=False, header=False)

헤더가 없는 파일을 불러올 때 names 키워드로 설장할 수 있다.

In [127]:
pd.read_csv('datas/sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


콤마로 구분되지 않은 텍스트 파일에 대해 처리할 수도 있다. 매직 명령어인 %%writefile 파일명 으로 저장할 수 있다.

In [128]:
%%writefile datas/sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing datas/sample3.txt


앞의 파일을 불러오려면 sep 인자를 써서 지정해주면 된다. 만약 길이가 정해지지 않은 공백이 구분자인 경우에는 '\s+' 정규식 문자열을 사용하면 된다.

In [131]:
pd.read_csv('datas/sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


데이터에 헤더를 추가할 수도 있다.

In [133]:
%%writefile datas/sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing datas/sample4.txt


건너 뛰어야 할 행이 있으면 skiprows를 사용하면 된다.

In [134]:
pd.read_csv('datas/sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


데이터로 불러올 자료 안 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣으면 된다.

In [136]:
pd.read_csv('datas/sample1.csv', na_values=['누락'])

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


파일을 출력할 때도 sep 인자로 구분자를 바꿀 수 있다. 또 저장할 때도 na_rep 키워드를 사용해서 NaN 표시값을 바꿀 수도 있다.

웹에서 파일을 읽고 싶을 경우 path에 URL을 넣어주면 된다.

In [138]:
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


In [173]:
import requests as rq
import sys
import json

In [145]:
key = 'XYPOYKDP47WYCIRCVWP6'
stock_key = '901Y055'
stock_url = f'https://ecos.bok.or.kr/api/StatisticSearch/{key}/json/kr/1/10/{stock_key}/M/202001/202112/S22B/?/?/?'

stock = rq.get(stock_url)
stock_pd = pd.DataFrame(stock.json()['StatisticSearch']['row'])

In [147]:
stock_pd.to_csv('datas/stock.csv')

기상청의 api를 활용해서 데이터를 받아 보자. https://www.data.go.kr/iim/api/selectAPIAcountView.do 에 접속하면 api 정보를 얻을 수 있다. 예시로 일기도 조회서비스를 선택했다.
서비스키	ServiceKey	4	필수	-	공공데이터포털에서 받은 인증키
페이지 번호	pageNo	4	필수	1	페이지번호
한 페이지 결과 수	numOfRows	4	필수	10	한 페이지 결과 수
응답자료형식	dataType	4	옵션	XML	요청자료형식(XML/JSON)
지상코드	code	2	필수	24	지상코드
시간	time	8	필수	20151013	년월일(YYYYMMDD)

In [184]:
key='hNcLaSFUKJaiKbIEYqwmW%2Fuf%2FJN7BTQTwAJLEUQqynY9aywJLjXOCUlo%2FVaNsQkt6ay%2F41ircvxIrFIpf978kQ%3D%3D'
daily_weather = rq.get(f'http://apis.data.go.kr/1360000/WthrChartInfoService/getSurfaceChart?serviceKey={key}&numOfRows=10&pageNo=1&dataType=json&code=1&time=20230306')
daily_weather.status_code

200

In [185]:
daily_weather.json()

{'response': {'header': {'resultCode': '00', 'resultMsg': 'NORMAL_SERVICE'},
  'body': {'dataType': 'JSON',
   'items': {'item': [{'man-file': '[http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030600.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030603.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030606.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030609.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030612.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030615.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030618.png, http://www.kma.go.kr/repositary/image/cht/img/sfc3_2023030621.png]'}]},
   'pageNo': 1,
   'numOfRows': 10,
   'totalCount': 1}}}