## Open API를 이용하여 DataFrame 만들기

In [1]:
import numpy as np
import pandas as pd
import json
import urllib

# open API URL

open_api='http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json'
query_string='?key=3e41d763ea586c52944aee067560a31c&targetDt=20210113'
open_api_url=open_api+query_string
print(open_api_url)

http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=3e41d763ea586c52944aee067560a31c&targetDt=20210113


In [2]:
# URL을 이용해서 호출하는 행위 => request
page_obj = urllib.request.urlopen(open_api_url)
print(type(page_obj))

#response객체안에 우리가 원하는 json 포함되어 있음
json_page = json.loads(page_obj.read())
#print(json_page)
print(type(json_page))

# json을 python의 dict로 변환
# 원하는 내용 추출해서 DataFrame으로 생성

my_dict = dict() #{}
rank_list = list()
title_list = list()
sales_list = list()

for tmp_dict in json_page['boxOfficeResult']['dailyBoxOfficeList']:
    rank_list.append(tmp_dict['rank'])
    title_list.append(tmp_dict['movieNm'])
    sales_list.append(tmp_dict['salesAmt'])

my_dict['순위'] = rank_list
my_dict['제목'] = title_list
my_dict['매출액'] = sales_list

df = pd.DataFrame(my_dict)
display(df)

<class 'http.client.HTTPResponse'>
<class 'dict'>


Unnamed: 0,순위,제목,매출액
0,1,원더 우먼 1984,27970760
1,2,화양연화,14991170
2,3,미스터 존스,7024370
3,4,조제,6187200
4,5,도굴,5616750
5,6,라라랜드,4393500
6,7,완벽한 가족,5014580
7,8,빅풋 주니어2: 패밀리가 떴다,4187850
8,9,가을의 마티네,2950500
9,10,뱅가드,3887900


### Pandas의 자료구조인 DataFrame을 만드는 방법

1. dict를 이용해서 직접 데이터를 입력해서 만드는 방법
2. CSV파일을 이용해서 DataFrame을 만드는 방법
3. Database에 있는 데이터를 이용해서 DataFrame을 만드는 방법
4. Open API를 이용해서 DataFrame을 만드는 방법


In [3]:
data = {'이름':['홍길동','신사임당','강감찬','아이유','김연아'],
       '학과':['컴퓨터','철학','수학','영어영문','통계'],
       '학년':[1,2,2,4,3],
       '학점':[1.3,3.5,2.7,4.3,4.5]}

df = pd.DataFrame(data,columns=['학과','이름','학년','주소'],
                 index = ['one','two','three','four','five'])
display(df)

Unnamed: 0,학과,이름,학년,주소
one,컴퓨터,홍길동,1,
two,철학,신사임당,2,
three,수학,강감찬,2,
four,영어영문,아이유,4,
five,통계,김연아,3,


In [4]:
import warnings
warnings.filterwarnings(action='ignore') # warning off
#warnings.filterwarnings(action='default') # warning on

data = {'이름':['홍길동','신사임당','강감찬','아이유','김연아'],
       '학과':['컴퓨터','철학','수학','영어영문','통계'],
       '학년':[1,2,2,4,3],
       '학점':[1.3,3.5,2.7,4.3,4.5]}

df = pd.DataFrame(data,columns=['학과','이름','학년','학점'],
                 index = ['one','two','three','four','five'])
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


In [5]:
print(df['이름'])   # Series로 출력
print(type(df['이름']))   # <class 'pandas.core.series.Series'>

stu_name = df['이름']    # View가 나와요!!

stu_name['three'] = '을지문덕'    
print(stu_name)

display(df)


one       홍길동
two      신사임당
three     강감찬
four      아이유
five      김연아
Name: 이름, dtype: object
<class 'pandas.core.series.Series'>
one       홍길동
two      신사임당
three    을지문덕
four      아이유
five      김연아
Name: 이름, dtype: object


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,을지문덕,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


In [6]:
stu_name = df['이름'].copy()    # 별도의 Series를 만들려면 어떻게 하나요?

stu_name = df['이름']
stu_name['three'] ='을지문덕'
print(stu_name)

one       홍길동
two      신사임당
three    을지문덕
four      아이유
five      김연아
Name: 이름, dtype: object


#### Fancy index

In [7]:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings(action='ignore')  # warning off
# warnings.filterwarnings(action='default')  # warning on

data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# 그러면 column을 두 개 이상 가져올려면 어떻게 해야 하나요?
# 이름과 학점 column을 가져올꺼예요!
# fancy indexing
df[['이름','학점']]   # 결과는 DataFrame

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,이름,학점
one,홍길동,1.3
two,신사임당,3.5
three,강감찬,2.7
four,아이유,4.3
five,김연아,4.5


In [8]:

# df['등급'] = 'A'  # 수행되나요?? broadcasting
# display(df)

# df['등급'] = ['A','C','B','A','C']
# display(df)

# df['등급'] = np.array(['A','C','B','A',np.nan])
# display(df)

df['등급'] = ['A','C','B','A',np.nan]
display(df)
display(df.to_numpy())


Unnamed: 0,학과,이름,학년,학점,등급
one,컴퓨터,홍길동,1,1.3,A
two,철학,신사임당,2,3.5,C
three,수학,강감찬,2,2.7,B
four,영어영문,아이유,4,4.3,A
five,통계,김연아,3,4.5,


array([['컴퓨터', '홍길동', 1, 1.3, 'A'],
       ['철학', '신사임당', 2, 3.5, 'C'],
       ['수학', '강감찬', 2, 2.7, 'B'],
       ['영어영문', '아이유', 4, 4.3, 'A'],
       ['통계', '김연아', 3, 4.5, nan]], dtype=object)

In [9]:
# 자리수 맞춰야 함
# 모자란다고 자동으로 결측을 채워주지 않는다
df['등급']=['A','C','B','A',np.nan]
display(df)

Unnamed: 0,학과,이름,학년,학점,등급
one,컴퓨터,홍길동,1,1.3,A
two,철학,신사임당,2,3.5,C
three,수학,강감찬,2,2.7,B
four,영어영문,아이유,4,4.3,A
five,통계,김연아,3,4.5,


In [10]:
data = {'이름':['홍길동','신사임당','강감찬','아이유','김연아'],
       '학과':['컴퓨터','철학','수학','영어영문','통계'],
       '학년':[1,2,2,4,3],
       '학점':[1.3,3.5,2.7,4.3,4.5]}

df = pd.DataFrame(data,columns=['학과','이름','학년','학점'],
                 index = ['one','two','three','four','five'])

# DataFrame에 column을 추가할꺼예요!
# df["등급"] = np.arange(1,10,2)  # 5개의 값을 이용
# df['나이'] = [15,20,25,30]  # 행의 개수가 맞지 않아서 오류
# df['나이'] = pd.Series([15,20,25,30,35],
#                     index=['one','two','three','four','five'])  # index 기반처리

# index를 기반으로 처리되기 때문에 아래와 같은 경우도 허용
df['나이'] = pd.Series([15,30,35],
                    index=['one','three','four'])  # index 기반처리

display(df)

Unnamed: 0,학과,이름,학년,학점,나이
one,컴퓨터,홍길동,1,1.3,15.0
two,철학,신사임당,2,3.5,
three,수학,강감찬,2,2.7,30.0
four,영어영문,아이유,4,4.3,35.0
five,통계,김연아,3,4.5,


In [11]:
df['장학생'] = df['학점']>4.0
display(df)

Unnamed: 0,학과,이름,학년,학점,나이,장학생
one,컴퓨터,홍길동,1,1.3,15.0,False
two,철학,신사임당,2,3.5,,False
three,수학,강감찬,2,2.7,30.0,False
four,영어영문,아이유,4,4.3,35.0,True
five,통계,김연아,3,4.5,,True


In [12]:
## DataFrame안에 데이터를 삭제하는 경우

## 원본에서는 삭제하는 경우, 원본은 보존하고 삭제처리된 복사본 생성

new_df = df.drop('학년',axis=1, inplace=False) 
        # inplace = True : 원본변경
        # inplace = False : 삭제된 복사본 생성

display(new_df)


##### 여기까지가 Column에 관련된 CRUD
##### CRUD(Create, Read, Update, Delete)


Unnamed: 0,학과,이름,학점,나이,장학생
one,컴퓨터,홍길동,1.3,15.0,False
two,철학,신사임당,3.5,,False
three,수학,강감찬,2.7,30.0,False
four,영어영문,아이유,4.3,35.0,True
five,통계,김연아,4.5,,True


## Record로 보기


In [13]:
## 이제 column에 대해서 알아봤으니 record로 넘어가 보아요!
## 행을 제어할려면 어떻게 해야 하나요?
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


In [14]:
# column indexng
print(df['이름'])   # OK. Series로 결과 리턴
#print(df['이름':'학년'])  # Error. column은 slicing이 안되요!
display(df[['이름','학년']]) # OK. Fancy indexing은 허용!
## boolean indexing은 column과는 상관이 없어요. row indexing할때 사용 
                        


one       홍길동
two      신사임당
three     강감찬
four      아이유
five      김연아
Name: 이름, dtype: object


Unnamed: 0,이름,학년
one,홍길동,1
two,신사임당,2
three,강감찬,2
four,아이유,4
five,김연아,3


In [15]:
# Row indexing(숫자 index를 이용해서)
#print(df[0])      # Error 행에 대한 숫자 인덱스로 단일 indexing이 안되요!
display(df[1:3])    # slicing은 가능!
display(df[0:1])    # slicing은 가능!   => View
display(df[1:])    # slicing은 가능!
# display(df[[1,3]])    # Fancy indexing!  Error!!!


Unnamed: 0,학과,이름,학년,학점
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3


Unnamed: 0,학과,이름,학년,학점
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


In [16]:
# Row indexing(index를 이용해서)

# print(df['two'])    # Error. 행에 대한 index를 이용한 단일 row 추출은 안되요!
display(df["two":"four"])  # OK! index를 이용한 row slicing 가능
display(df['two':])  # OK! index를 이용한 row slicing 가능
#display(df['two':-1])  # Error! 숫자index와 일반 index를 혼용해서 사용할 수 없어요!
# display(df[['one','three']]) # Error

Unnamed: 0,학과,이름,학년,학점
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3


Unnamed: 0,학과,이름,학년,학점
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


In [17]:
# 많이 많이 혼동되요!!
# 그래서 row indexing은 별도의 표기법을 따로 이용해요!
# loc[]
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# loc[]를 이용해서 row indexing
# loc[]를 이용하면 숫자 index를 사용할 수 없어요!

# display(df.loc['two'])  # 이제는 단일 row를 추출할 수 있어요!
                        # 대신 결과는 Series로 리턴되요!
# display(df.loc['two':'three'])  # OK!!! 결과는 DataFrame
display(df.loc[['two','four']])  # OK!! Fancy indexing도 가능!
    


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,학과,이름,학년,학점
two,철학,신사임당,2,3.5
four,영어영문,아이유,4,4.3


In [18]:
# row indexing은 loc[]를 이용해서 indexing을 해요!
# 숫자 index를 사용하지 못해요!!
# 숫자 index를 사용하려면 iloc[]를 이용하면 되요!

data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# display(df.iloc[1])  # 이제는 단일 row를 추출할 수 있어요!
                        # 대신 결과는 Series로 리턴되요!
# display(df.iloc[1:3])  # OK!!! 결과는 DataFrame
display(df.iloc[[0,3]])  # OK!! Fancy indexing도 가능!

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
four,영어영문,아이유,4,4.3


In [19]:
data = {"이름":["이지은","박동훈","홍길동","강감찬","오혜영"],
       "학과":["컴퓨터","기계","철학","컴퓨터","철학"],
       "학년":[1,2,2,4,3],
       "학점":[1.5,2.0,3.1,1.1,2.7]}

df = pd.DataFrame(data,
                 columns=['학과','이름','학점','학년','등급'],
                 index=['one','two','three','four','five'])

display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


In [20]:
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# display(df.loc['one' : 'three'])  # OK ! row indexing
# display(df.loc['one' : 'three','이름'])  # OK ! row indexing => Series
# display(df.loc['one' : 'three','이름':'학년'])  # OK ! 
# display(df['이름' : '학년']) # Error
display(df.loc['one' : 'three',['이름','학점']])  # OK ! 

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,이름,학점
one,홍길동,1.3
two,신사임당,3.5
three,강감찬,2.7


In [21]:
# boolean indexing
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# 학점이 4.0을 초과하는 학생의 이름과 학점을 DataFrame으로 출력!
# df['학점'] > 4.0  # boolean mask
display(df.loc[df['학점'] > 4.0,['이름','학점']])

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,이름,학점
four,아이유,4.3
five,김연아,4.5


In [22]:
## 간단한 퀴즈하나 풀어보아요!

import numpy as np
import pandas as pd

data = {"이름" : ["이지은", "박동훈", "홍길동", "강감찬", "오혜영"],
        "학과" : ["컴퓨터", "기계", "철학", "컴퓨터", "철학"],
        "학년" : [1, 2, 2, 4, 3],
        "학점" : [1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data, 
                  columns=["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four","five"])
display(df)

# 1. 이름이 박동훈인 사람을 찾아 이름과 학점을 DataFrame으로 출력하세요
display(df.loc[df['이름'] == '박동훈','이름':'학점'])
# 2. 학점이 (1.5,2.5)인 사람을 찾아 학과, 이름, 학점을 DataFrame으로 출력
display(df.loc[(df['학점'] > 1.5) & (df['학점'] < 2.5),'학과':'학점'])
#    (1.5, 2.5) => 1.5 초과 2.5 미만을 의미
# 3. 학점이 3.0을 초과하는 사람을 찾아 등급을 'A'로 설정하세요!
df.loc[df['학점'] > 3.0,'등급'] = 'A'
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,이름,학점
two,박동훈,2.0


Unnamed: 0,학과,이름,학점
two,기계,박동훈,2.0


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,A
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


In [23]:
df.loc[df["이름"]=="박동훈"]

Unnamed: 0,학과,이름,학점,학년,등급
two,기계,박동훈,2.0,2,


In [24]:
df.loc[(df["학점"]>1.5)&(df["학점"]<2.5),'학과':'학점']

Unnamed: 0,학과,이름,학점
two,기계,박동훈,2.0


In [25]:
df.loc[df['학점']>3.0,'등급']='A'

In [26]:
df

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,A
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


In [27]:
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# loc를 이용한 row 추가
# df.loc['six',:] = ['국어국문','김길동',3,3.7]
df.loc['six','이름':'학점'] = ['김길동',3,3.7]
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1.0,1.3
two,철학,신사임당,2.0,3.5
three,수학,강감찬,2.0,2.7
four,영어영문,아이유,4.0,4.3
five,통계,김연아,3.0,4.5
six,,김길동,3.0,3.7


In [28]:
data = { '이름' : ['홍길동','신사임당','강감찬','아이유','김연아'],
         '학과' : ['컴퓨터', '철학', '수학', '영어영문', '통계'],
         '학년' : [1, 2, 2, 4, 3],
         '학점' : [1.3, 3.5, 2.7, 4.3, 4.5]}

df = pd.DataFrame(data,
                  columns=['학과','이름','학년','학점'],
                  index=['one','two','three','four','five'])
display(df)

# loc를 이용한 row 추가
# df.loc['six',:] = ['국어국문','김길동',3,3.7]
df.loc['six','이름':'학점'] = ['김길동',3,3.7]
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,1.3
two,철학,신사임당,2,3.5
three,수학,강감찬,2,2.7
four,영어영문,아이유,4,4.3
five,통계,김연아,3,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1.0,1.3
two,철학,신사임당,2.0,3.5
three,수학,강감찬,2.0,2.7
four,영어영문,아이유,4.0,4.3
five,통계,김연아,3.0,4.5
six,,김길동,3.0,3.7
