## pandas 
* 행에 열 레이블을 부착한 n차원 행렬 자료구조를 제공하는 파이썬 라이브러리
* 지원하는 자료구조는 Series, DataFrame, Panel
* 단, 0.20이후로 Panel은 deprecated 되었음.
* numpy 기반으로 구현되어 처리속도가 빠름
* pandas.pydata.org
* pip install pandas
* pandas 창시자 중 한명은 해지펀드 에널리스트로 일하며 파이썬에서 금융 시계열을 다루기 위한 목적으로 개발

In [23]:
import numpy as np
import pandas as pd

In [3]:
pd.__version__

'1.3.4'

## pandas 자료구조 1 : series
* R의 벡터와 유사한 자료구조 : 1차원 배열
* pd.Series(데이터, 인덱스, 자료형)

In [19]:
# 빈 series 생성
a = pd.Series(dtype='object')
a

Series([], dtype: object)

In [20]:
# numpy배열을 series로 생성
b = pd.Series([1,2,3,4,5])
b

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [21]:
# 시리즈 생성시 인덱스 지정
c = pd.Series([6,7,8,9,10], index=[1,2,3,4,5])
c

1     6
2     7
3     8
4     9
5    10
dtype: int64

In [28]:
# series 객체가 지원하는 여러가지 속성
print(c.values) # 시리즈 요소값
print(c.index)  # 시리즈 인덱스
print('c[2]',c[2])     # 2번째 값(인덱스가 1부터 시작) 
print('c[3:5]', c[3:5])   # 3, 4번째 값 

[ 6  7  8  9 10]
Int64Index([1, 2, 3, 4, 5], dtype='int64')
c[2] 7
c[3:5] 4     9
5    10
dtype: int64


## pandas indexer
* pandas에서 정수형 인덱스를 사용하는 경우, 파이썬의 slice연산과 혼동할 위험 존재
* 따라서, pandas만의 특별한 요소지정방법 제공 - indexer
    + loc : 문자형 인덱스로 요소 지정
    + iloc : 숫자형 인덱스로 요소 지정

In [29]:
d = pd.Series([9,8,7,6,5], index=['가','나','다','라','마'])
d

가    9
나    8
다    7
라    6
마    5
dtype: int64

In [42]:
# 1번째 자료 지정
print(d[0])

print(d.iloc[0])

print(d.loc['가'])


9
9
9


In [48]:
# 2번째이후 모든 자료 지정
print(d[1:])

print(d.iloc[1:])    # d.iloc[1:5]

print(d.loc['나':])  # d.loc['나':'마']

나    8
다    7
라    6
마    5
dtype: int64
나    8
다    7
라    6
마    5
dtype: int64
나    8
다    7
라    6
마    5
dtype: int64


In [54]:
# 홀수 위치 모든 자료 지정
print(d[::2])

print(d.iloc[::2])

print(d.loc[['가','다','마']])

가    9
다    7
마    5
dtype: int64
가    9
다    7
마    5
dtype: int64
가    9
다    7
마    5
dtype: int64


In [55]:
# dict 객체로 시리즈 객체 생성
data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
e = pd.Series(data)
e

a    1
b    2
c    3
d    4
e    5
dtype: int64

## pandas 자료구조 2 : dataframe
* R의 데이터프레임과 유사한 자료구조 : 2차원 테이블
* pd.DataFrame(데이터, 인덱스, 컬럼레이블, 자료형)




In [56]:
# 빈 데이터프레임 객체 생성
f = pd.DataFrame()
f

In [59]:
data = [1,2,3,4,5]
g = pd.DataFrame(data, columns=['nums'])
g 

Unnamed: 0,nums
0,1
1,2
2,3
3,4
4,5


In [61]:
# 3행 2열 배열로 dataframe 객체 생성
data = [['지현',99],['혜교',76],['수지',83]] 
cols = ['이름','점수']
idx = [1,2,3]
h = pd.DataFrame(data, columns=cols, index=idx)
h

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


In [64]:
# dict로 dataframe 객체 생성
data2 = { '이름':['지현','혜교','수지'], '점수':[99,76,83] }

i = pd.DataFrame(data2, index=idx)
i

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


In [84]:
# series로 dataframe 객체 생성
name = pd.Series(['지현','혜교','수지'])
jumsu = pd.Series([99,76,83])
data3 = {'이름':name, '점수':jumsu}

j = pd.DataFrame(data3)
j


Unnamed: 0,이름,점수
0,지현,99
1,혜교,76
2,수지,83


In [85]:
# index를 재설정 하려면 reindex를 사용
# 기존에 존재하지 않는 인덱스가 추가되면 그행은 Nan값으로 입력
j = j.reindex(idx)
j

Unnamed: 0,이름,점수
1,혜교,76.0
2,수지,83.0
3,,


In [86]:
# 특정 컬럼을 인덱스로 재설정하려면 set_index를 사용
# 단, 해당컬럼에 중복값이 존재하면 안됨
j = j.set_index('이름')
j 

Unnamed: 0_level_0,점수
이름,Unnamed: 1_level_1
혜교,76.0
수지,83.0
,


In [87]:
j.index= idx
j

Unnamed: 0,점수
1,76.0
2,83.0
3,


In [100]:
# leadership 데이터를 pandas읭 dataframe으로 생성
data3 = [[1, '10/24/14', 'US', 'M', 32, 5, 4, 5, 5, 5],[2, '10/28/14', 'US', 'F', 45, 3, 5, 2, 5, 5],
        [3, '10/01/14', 'UK', 'F', 25, 3, 5, 5, 5, 2],[4, '10/12/14', 'UK', 'M', 39, 3, 3, 4, None, None],
        [5, '05/01/14', 'UK', 'F', 99, 2, 2, 1, 2, 1]]
cols3 = ['Manager','Date','Country','Gender','Age','q1','q2','q3','q4','q5']

leadership = pd.DataFrame(data3, columns=cols3)
leadership.index = [1,2,3,4,5]
leadership

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5
1,1,10/24/14,US,M,32,5,4,5,5.0,5.0
2,2,10/28/14,US,F,45,3,5,2,5.0,5.0
3,3,10/01/14,UK,F,25,3,5,5,5.0,2.0
4,4,10/12/14,UK,M,39,3,3,4,,
5,5,05/01/14,UK,F,99,2,2,1,2.0,1.0


In [126]:
manager = [1,2,3,4,5]
date = ['10/24/14','10/28/14','10/01/14','10/12/14','/05/01/14']
country = ['US','US','UK','UK','UK']
gender = ['M','F','F','M','F']
age = [32,45,25,39,99]
q1 = [5,3,3,3,2]
q2 = [4,5,5,3,2]
q3 = [5,2,5,4,1]
q4 = [5,5,5,np.NaN,2]
q5 = [5,5,2,np.NaN,1]

data4 = {'a':manager, 'b':date, 'c':country, 'd':gender, 'e':age, 'f':q1, 'g':q2, 'h':q3, 'i':q4, 'j':q5}

managership = pd.DataFrame(data4)
managership.index = [1,2,3,4,5]
managership.columns = ['manager','date','country','gender','age','q1','q2','q3','q4','q5']
managership

Unnamed: 0,manager,date,country,gender,age,q1,q2,q3,q4,q5
1,1,10/24/14,US,M,32,5,4,5,5.0,5.0
2,2,10/28/14,US,F,45,3,5,2,5.0,5.0
3,3,10/01/14,UK,F,25,3,5,5,5.0,2.0
4,4,10/12/14,UK,M,39,3,3,4,,
5,5,/05/01/14,UK,F,99,2,2,1,2.0,1.0


In [122]:
# 데이터 프레임의 각 요소에 접근
# 나이컬럼 출력 
print(managership['age'])  # 객체명['컬럼명']
print(managership.age)    # 객체명.컬럼명
print(managership.iloc[:, 4])    # 객체명.iloc[행:,열]
print(managership.loc[:,'age'])  # 객쳋명.loc[:, '컬럼명']

1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64


In [125]:
# 질문컬럼(q1~q5) 출력
print(managership[['q1', 'q2','q3','q4','q5']])
print(managership.iloc[:, 5:10])
print(managership.loc[:, 'q1':'q5'])

   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0
   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0
   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0


## 외부파일로 데이터프레임 만들기
* 외부 데이터파일을 이용해서 dataframe 객체를 만들 수 있다
* csv, excel, json, xml, ...등등 지원함
* pd.read_xxx('경로', 구분자, 헤더, 인코딩)

In [130]:
aw = pd.read_csv('csv/applewood.txt', header=0, sep=' ')
aw.head()


Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
0,21,"$1,387",Tionesta,Sedan,0
1,23,1754,Sheffield,SUV,1
2,24,1817,Sheffield,Hybrid,1
3,25,1040,Sheffield,Compact,0
4,26,1273,Kane,Sedan,1


In [131]:
# 데이터프레임의 구조 알아보자
# 컬럼별 자료형, 결측치 갯수, 데이터 총 갯수
aw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180 entries, 0 to 179
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Age           180 non-null    int64 
 1   Profit        180 non-null    object
 2   Location      180 non-null    object
 3   Vehicle-Type  180 non-null    object
 4   Previous      180 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 7.2+ KB


In [139]:
# 일련번호 만들기 numpy arange
idx = np.arange(1,180+1)
aw.index = idx
aw.head()



Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
1,21,"$1,387",Tionesta,Sedan,0
2,23,1754,Sheffield,SUV,1
3,24,1817,Sheffield,Hybrid,1
4,25,1040,Sheffield,Compact,0
5,26,1273,Kane,Sedan,1


In [135]:
# json 파일 읽고 데이터프레임으로 만들기
seoul_geo = pd.read_json('json/seoul_geo_simple.json')
seoul_geo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   type      25 non-null     object
 1   features  25 non-null     object
dtypes: object(2)
memory usage: 528.0+ bytes


In [137]:
seoul_geo.head()  # 컬럼 뒷부분이 보이지 않음

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."


In [142]:
# pd.set_option함수를 이용해서 출력양식을 변경
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 100)
pd.set_option('display.max_colwidth', 250)
seoul_geo.head()

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11250', 'name': '강동구', 'name_eng': 'Gangdong-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.11519584981606, 37.557533180704915], [127.11879551821994, 37.557222485451305..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11240', 'name': '송파구', 'name_eng': 'Songpa-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.0690698130372, 37.522279423505026], [127.07496309841329, 37.52091052765938], [..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11230', 'name': '강남구', 'name_eng': 'Gangnam-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.05867359288398, 37.52629974922568], [127.0690698130372, 37.522279423505026], ..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11220', 'name': '서초구', 'name_eng': 'Seocho-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.01397119667513, 37.52503988289669], [127.01917707838057, 37.520085205855196], ..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11210', 'name': '관악구', 'name_eng': 'Gwanak-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[126.98367668291802, 37.473856492692086], [126.9846374349825, 37.46996301876212], [..."


In [149]:
# 읽어들인 json 데이터가 복잡한 중첩구조로 구성된 경우
# file 객체로 json 파일을 읽은 후 json.load 함수로 데이터들을 메모리에 적재한 후 
# json_normalize함수로 필요한 데이터를 지정해서 데이터 프레임으로 만들어야 한다.
import json
from pandas import json_normalize


with open('json/seoul_geo_simple.json') as f :
    jdata = json.load(f)
jdata

seoul_geo = json_normalize(jdata['features'])
seoul_geo.head()

Unnamed: 0,type,properties.code,properties.name,properties.name_eng,properties.base_year,geometry.type,geometry.coordinates
0,Feature,11250,강동구,Gangdong-gu,2013,Polygon,"[[[127.11519584981606, 37.557533180704915], [127.11879551821994, 37.557222485451305], [127.12146867175024, 37.55986003393365], [127.12435254630417, 37.56144246249796], [127.13593925898998, 37.56564793048277], [127.14930548011061, 37.5689225030389..."
1,Feature,11240,송파구,Songpa-gu,2013,Polygon,"[[[127.0690698130372, 37.522279423505026], [127.07496309841329, 37.52091052765938], [127.07968915919895, 37.52077294752823], [127.08639455667742, 37.52161824624356], [127.0943611414465, 37.523984206117525], [127.10087519791962, 37.524841220167055..."
2,Feature,11230,강남구,Gangnam-gu,2013,Polygon,"[[[127.05867359288398, 37.52629974922568], [127.0690698130372, 37.522279423505026], [127.06860425556381, 37.51812758676938], [127.06926628842805, 37.51717796437217], [127.0719146000724, 37.50224013587669], [127.0764808967127, 37.498612695580306],..."
3,Feature,11220,서초구,Seocho-gu,2013,Polygon,"[[[127.01397119667513, 37.52503988289669], [127.01917707838057, 37.520085205855196], [127.02038705349842, 37.51771683027875], [127.02265609299096, 37.509970106251416], [127.03372275812187, 37.48674434662411], [127.03621915098798, 37.4817580242760..."
4,Feature,11210,관악구,Gwanak-gu,2013,Polygon,"[[[126.98367668291802, 37.473856492692086], [126.9846374349825, 37.46996301876212], [126.98662755598336, 37.466937278295305], [126.98896316546526, 37.465041871263544], [126.99026416700147, 37.46271603227842], [126.98956736277059, 37.4576007564004..."


## 웹페이지에서 table 태그를 데이터프레임을 만들기
* read_html

In [152]:
# hanb.co.kr 의 stroe 메뉴의 전체도서목옥을 데이터프레임으로 만들기

import requests
from bs4 import BeautifulSoup
import warnings
warnings.filterwarnings(action='ignore')


url = 'https://www.hanbit.co.kr/store/books/full_book_list.html'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' }

In [155]:
res = requests.get(url, headers=headers)

tables = pd.read_html(res.text)
tables[1]

Unnamed: 0,브랜드,도서명,저자,발행일,정가
0,한빛비즈,비겁한 돈,황현희 외 1명,2021-11-08,"16,000원"
1,한빛미디어,구글 BERT의 정석,수다르산 라비찬디란,2021-11-03,"34,000원"
2,한빛미디어,머신러닝 디자인 패턴,발리아파 락슈마난 외 2명,2021-11-01,"38,000원"
3,한빛미디어,소프트웨어 아키텍처 101,마크 리처즈 외 1명,2021-11-01,"32,000원"
4,한빛미디어,혼자 공부하는 SQL,우재남,2021-11-01,"24,000원"
5,한빛에듀,똑똑한 두뇌 연습 : 놀이공원 미로찾기,권나영,2021-10-28,"7,500원"
6,한빛미디어,한 권으로 다지는 머신러닝&딥러닝 with 파이썬,알베르토 아르타산체스 외 1명,2021-10-21,"40,000원"
7,한빛아카데미,"IT CookBook, 시스템 프로그래밍: 리눅스&유닉스",이종원,2021-10-15,"28,000원"
8,한빛미디어,살아 움직이는 머신러닝 파이프라인 설계,하네스 하프케 외 1명,2021-10-11,"32,000원"
9,한빛미디어,시험장에 몰래 가져갈 이경오의 SQL+SQLD 비밀노트,이경오,2021-10-10,"32,000원"


In [156]:
tables[1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   브랜드     50 non-null     object
 1   도서명     50 non-null     object
 2   저자      50 non-null     object
 3   발행일     50 non-null     object
 4   정가      50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


In [167]:
# yes24.co.kr의 베스트셀러 페이지의 도서목록을 read_html함수로 추출

url = 'http://www.yes24.com/24/category/bestseller?CategoryNumber=001&sumgb=06'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' }

In [170]:
res = requests.get(url, headers=headers)
# html 소스내에 table 태그가 불완전하게 작성되었기 때문에 read_html 함수로 데이터를 가져올 수 없음

pd.read_html(res.text)


[       0   1  \
 0    1.0 NaN   
 1    NaN NaN   
 2    2.0 NaN   
 3    NaN NaN   
 4    3.0 NaN   
 5    NaN NaN   
 6    4.0 NaN   
 7    NaN NaN   
 8    5.0 NaN   
 9    NaN NaN   
 10   6.0 NaN   
 11   NaN NaN   
 12   7.0 NaN   
 13   NaN NaN   
 14   8.0 NaN   
 15   NaN NaN   
 16   9.0 NaN   
 17   NaN NaN   
 18  10.0 NaN   
 19   NaN NaN   
 20  11.0 NaN   
 21   NaN NaN   
 22  12.0 NaN   
 23   NaN NaN   
 24  13.0 NaN   
 25   NaN NaN   
 26  14.0 NaN   
 27   NaN NaN   
 28  15.0 NaN   
 29   NaN NaN   
 30  16.0 NaN   
 31   NaN NaN   
 32  17.0 NaN   
 33   NaN NaN   
 34  18.0 NaN   
 35   NaN NaN   
 36  19.0 NaN   
 37   NaN NaN   
 38  20.0 NaN   
 39   NaN NaN   
 
                                                                                                                                                                                                                                                             2  \
 0   [도서] 트렌드 코리아 2022 : 서울대 소비트렌드분석센터의 202

## 데이터 프레임을 파일로 저장하기
* to_xxx 함수 이용

In [172]:
# managership 데이터프레임을 csv파일로 저장
managership.to_csv('csv/managers.csv', index=False)

In [173]:
tables.to_csv('csv/hanbbooks.csv', index=False)

AttributeError: 'list' object has no attribute 'to_csv'