### Pands 
+ 행에 열 레이블을 부착한 n 차원 행렬 자료구조를 제옹하는 파이썬 라이브러리
+ 지원하는 자료구조는 Series, DataFrame, Panel임
+ 단, 0.20 이후로 Panel은 deprecated 됨
+ Numpy 기반으로 구현되어 처리속도가 빠름

+ pandas의 창시자중 한 명은 해지펀드 애널리스트로 일하며 파이썬에서 금융 시계열을 다루기 위한 목적으로 개발함
+ pandas.pydata.org
+ pip install pandas

In [1]:
import numpy as np
import pandas as pd

### Pandas 자료구조 1 : Series
+ R의 벡터와 유사한 자료구조 : 1차원 배열
+ pd.Series(데이터, 인덱스, 자료형)

In [2]:
# 버전 확인
pd.__version__

'1.3.3'

In [3]:
# 빈싯리즈 생성
a = pd.Series(dtype='object')
a

Series([], dtype: object)

In [4]:
# numpy 배열을 시리즈로 생성
b = pd.Series([1,2,3,4,5])
b  # 인덱스는 0부터

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [5]:
# 시리즈 생성시 인뎃스 지정 (index 속성)
c = pd.Series([6,7,8,9,10], index=[1,2,3,4,5])
c

1     6
2     7
3     8
4     9
5    10
dtype: int64

In [6]:
# 시리즈 객체가 지원하는 여러가지 속성
print(c.values)  # 시리즈의 요소 값
print(c.index)   # 시리즈의 인덱스 값
print(c[2])      # 2번째값 (인덱스가 1부터 시작)
print(c[2:4])    # 3,4 번째 값

[ 6  7  8  9 10]
Int64Index([1, 2, 3, 4, 5], dtype='int64')
7
3    8
4    9
dtype: int64


### 팬더스 indexer
+ pandas에서 정수형 인덱스를 사용하는 경우 파이썬의 slice연산과 혼동할 위험 존재
+ 따라서, pandas 만의 특별한 요소지정방법 제공 - indexer
    - loc : 문자형 인덱스로 요소 지정
    - iloc : 숫자형 인덱스로 요소 지정

In [7]:
d = pd.Series([9,8,7,6,5], index=['가','나','다','라','마'])
d

가    9
나    8
다    7
라    6
마    5
dtype: int64

In [8]:
# 1번째로 자료 지정
print(d[0])
print(d.iloc[0])
print(d.loc['가'])

9
9
9


In [9]:
# 2번째 이후 모든 자료 지정
print(d[1:])
print(d.iloc[1:])
print(d.loc['나':])

나    8
다    7
라    6
마    5
dtype: int64
나    8
다    7
라    6
마    5
dtype: int64
나    8
다    7
라    6
마    5
dtype: int64


In [10]:
# 홀수위치의 모든 자료 지정
print(d[::2])
print(d.iloc[::2])
print(d.loc[['가','다','마']])

가    9
다    7
마    5
dtype: int64
가    9
다    7
마    5
dtype: int64
가    9
다    7
마    5
dtype: int64


In [11]:
# dict 객체로 시리즈 객체 생성
data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
e = pd.Series(data)
e

a    1
b    2
c    3
d    4
e    5
dtype: int64

### Pandas 자료구조 2 : dataframe
+ R의 데이터프레임과 유사한 자료구조 : 2차원 테이블
+ pd.DataFrame(데이터, 인덱스, 컬럼테이블,자료형)

In [12]:
# 빈 데이터프레임 객체 생성
f = pd.DataFrame()
f

In [13]:
# 리스트로 데이터프레임 객체 생성
data = [1,2,3,4,5]
g = pd.DataFrame(data)
g   # 컬럼명이 없음

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [14]:
g = pd.DataFrame(data, columns=['nums'])
g

Unnamed: 0,nums
0,1
1,2
2,3
3,4
4,5


In [15]:
# 3행 2열짜리 배열로 dataframe 객체 생성
data = [['지현',99],['혜교',76],['수지',83]]
cols = ['이름','점수']
idx = [1,2,3]
h = pd.DataFrame(data, columns=cols, index=idx)
h

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


In [16]:
# dict로 dataframe 객체 생성
data2 = {'이름':['지현','혜교','수지'],'점수':[99,76,83]}
i = pd.DataFrame(data2, index=idx)
i

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


In [17]:
# series로 DataFrame 객체 생성
name = pd.Series(['지현','혜교','수지'],index=idx)  # index를 지정 안할시 0,1,2
jumsu = pd.Series([99,76,83],index=idx)
data3 = {'이름':name, '점수':jumsu}
j = pd.DataFrame(data3, index=idx) # index가 idx = 1,2,3 이여서 name,jumsu 에 index 설정
j

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


In [18]:
# series로 DataFrame 객체 생성 // index 없을경우
name = pd.Series(['지현','혜교','수지'])
jumsu = pd.Series([99,76,83])
data3 = {'이름':name, '점수':jumsu}
j = pd.DataFrame(data3)
j

Unnamed: 0,이름,점수
0,지현,99
1,혜교,76
2,수지,83


In [19]:
# 인덱스를 재 설정하려면 reindex를 사용
# 기존에 존재하지 않는 인덱스가 추가되면 그 행은 NaN값으로 입력됨
j = j.reindex(idx)
j

Unnamed: 0,이름,점수
1,혜교,76.0
2,수지,83.0
3,,


In [20]:
# 특정 컬럼을 인덱스로 재 설정하려면 set_index를 사용
# 단, 해당컬럼에 중복값이 존재하면 안됨
j = j.set_index(name)
j

Unnamed: 0,이름,점수
지현,혜교,76.0
혜교,수지,83.0
수지,,


In [21]:
# ex> leadership 데이터를 pandas의 dataframe로 생성
m = [1,2,3,4,5]
d = ['10/24/14','10/28/14','10/01/14','10/12/14','05/01/14']
c = ['US','US','UK','UK','UK']
g = ['M','F','F','M','F']
a = [32,45,25,39,99]
q1 = [5,3,3,3,2]
q2 = [4,5,5,3,2]
q3 = [5,2,5,4,1]
q4 = [5,5,5,None,2]
q5 = [5,5,2,np.NAN,1]
data1 = {'Manager':m,'Date':d,'Country':c,'Gender':g,'Age':a,'q1':q1,'q2':q2,'q3':q3,'q4':q4,'q5':q5}

managership = pd.DataFrame(data1, index=m)
managership

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5
1,1,10/24/14,US,M,32,5,4,5,5.0,5.0
2,2,10/28/14,US,F,45,3,5,2,5.0,5.0
3,3,10/01/14,UK,F,25,3,5,5,5.0,2.0
4,4,10/12/14,UK,M,39,3,3,4,,
5,5,05/01/14,UK,F,99,2,2,1,2.0,1.0


In [22]:
# 데이터프레임의 각 요소에 접근하기
# 나이 컬럼 출력
print(managership['Age'])       # 객체명[컬럼명]
print(managership.Age)          # 객체명.컬럼명
print(managership.iloc[:,4])    # 객체명.iloc[행,열]
print(managership.loc[:,'Age']) # 객체명.loc[행이름, 컬럼명]

1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64
1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64


In [23]:
# 질문 컬럼(q1~q5) 출력
print(managership[['q1','q2','q3','q4','q5']])  # 객체명[ [컬럼명1,컬럼명2,....,컬럼명n] ]
print('-'*25)
print(managership.iloc[:,5:10])                 # 객체명.iloc[행, 시작:끝+1]
print('-'*25)
print(managership.loc[:,'q1':'q5'])             # 객체명.loc[행, 시작컬럼명:끝컬럼명]

   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0
-------------------------
   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0
-------------------------
   q1  q2  q3   q4   q5
1   5   4   5  5.0  5.0
2   3   5   2  5.0  5.0
3   3   5   5  5.0  2.0
4   3   3   4  NaN  NaN
5   2   2   1  2.0  1.0


### 외부 파일로 데이터프레임 만들기
+ 외부 데이터파일을 이용해서 dataframe 객체를 만들 수 있음
+ csv, excel, json, xml, ... 등등 지원함
+ pd.read_xxx(경로, 구문자, 헤더설정, 인코딩)

In [24]:
aw = pd.read_csv('csv/applewood.txt', header=0, sep=' ')
aw.head()

Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
0,21,"$1,387",Tionesta,Sedan,0
1,23,1754,Sheffield,SUV,1
2,24,1817,Sheffield,Hybrid,1
3,25,1040,Sheffield,Compact,0
4,26,1273,Kane,Sedan,1


In [25]:
# 데이터프레임의 구조 알아보기
# 컬럼별 자료형, 결측치 갯수, 데이터 총 갯수
aw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180 entries, 0 to 179
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Age           180 non-null    int64 
 1   Profit        180 non-null    object
 2   Location      180 non-null    object
 3   Vehicle-Type  180 non-null    object
 4   Previous      180 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 7.2+ KB


In [26]:
# 일련번호 만들기 : numpy arange
idx = np.arange(1,180+1) # n부터 n-1 까지 표시
aw.index = idx
aw.head()

Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
1,21,"$1,387",Tionesta,Sedan,0
2,23,1754,Sheffield,SUV,1
3,24,1817,Sheffield,Hybrid,1
4,25,1040,Sheffield,Compact,0
5,26,1273,Kane,Sedan,1


In [27]:
# json 파일 읽고 데이터프레임으로 만들기
book = pd.read_json('json/books.json')
book.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   books   40 non-null     object
dtypes: object(1)
memory usage: 448.0+ bytes


In [28]:
book.head()

Unnamed: 0,books
0,"{'title': '트렌드 코리아 2022', 'writer': '이혜원,서울대학교..."
1,"{'title': '설민석의 한국사 대모험 18', 'writer': '스토리박스,..."
2,"{'title': '달러구트 꿈 백화점 2', 'writer': '이미예 저', '..."
3,"{'title': '방금 떠나온 세계', 'writer': '김초엽 저', 'pub..."
4,"{'title': '달러구트 꿈 백화점', 'writer': '이미예 저', 'pu..."


In [29]:
# pd.set_option 함수를 이용해서 출력약식을 변경
pd.set_option('display.max_columns',50)
pd.set_option('display.width',100)
pd.set_option('display.max_colwidth',250)
book.head()

Unnamed: 0,books
0,"{'title': '트렌드 코리아 2022', 'writer': '이혜원,서울대학교 생활과학연구소 소비트렌드분석센터,한다혜,권정윤,서유현 저 외 6명', 'pub': '미래의창', 'price': '16200'}"
1,"{'title': '설민석의 한국사 대모험 18', 'writer': '스토리박스,설민석 글/정현희 그림/강석화 감수', 'pub': '아이휴먼', 'price': '10800'}"
2,"{'title': '달러구트 꿈 백화점 2', 'writer': '이미예 저', 'pub': '팩토리나인', 'price': '12420'}"
3,"{'title': '방금 떠나온 세계', 'writer': '김초엽 저', 'pub': '한겨레출판', 'price': '13500'}"
4,"{'title': '달러구트 꿈 백화점', 'writer': '이미예 저', 'pub': '팩토리나인', 'price': '12420'}"


In [30]:
# 읽어들인 json 데이터가 복잡한 중첩구조로 구성된 경우
# file 객체로 json 파일을 읽은 후 json.load 함수로 데이터들을 메모리에 적재한 후 json_normalize 함수로 필요한 데이터를 지정해서 데이터프레임으로 만들어야 함
import json
from pandas import json_normalize
with open('json/books.json') as f:
    jdata = json.load(f)
book = json_normalize(jdata['books'])
book.head()

Unnamed: 0,title,writer,pub,price
0,트렌드 코리아 2022,"이혜원,서울대학교 생활과학연구소 소비트렌드분석센터,한다혜,권정윤,서유현 저 외 6명",미래의창,16200
1,설민석의 한국사 대모험 18,"스토리박스,설민석 글/정현희 그림/강석화 감수",아이휴먼,10800
2,달러구트 꿈 백화점 2,이미예 저,팩토리나인,12420
3,방금 떠나온 세계,김초엽 저,한겨레출판,13500
4,달러구트 꿈 백화점,이미예 저,팩토리나인,12420


### 웹페이지에서 table 테그를 데이터프레임으로 만들기
+ read_html

In [41]:
# hanbit.co.kr의 store메뉴의 전체 도서목록을 데이터프레임으로 만들기
import requests
from bs4 import BeautifulSoup

url = 'https://www.hanbit.co.kr/store/books/full_book_list.html'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}
res = requests.get(url, headers=headers)
tables = pd.read_html(res.text)
tables[1].head()

Unnamed: 0,브랜드,도서명,저자,발행일,정가
0,한빛비즈,비겁한 돈,황현희 외 1명,2021-11-08,"16,000원"
1,한빛미디어,구글 BERT의 정석,수다르산 라비찬디란,2021-11-03,"34,000원"
2,한빛미디어,머신러닝 디자인 패턴,발리아파 락슈마난 외 2명,2021-11-01,"38,000원"
3,한빛미디어,소프트웨어 아키텍처 101,마크 리처즈 외 1명,2021-11-01,"32,000원"
4,한빛미디어,혼자 공부하는 SQL,우재남,2021-11-01,"24,000원"


In [42]:
tables[1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   브랜드     50 non-null     object
 1   도서명     50 non-null     object
 2   저자      50 non-null     object
 3   발행일     50 non-null     object
 4   정가      50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


+ url = 'http://www.yes24.com/24/Category/BestSeller'
+ headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}
+ res = requests.get(url, headers=headers)
+ pd.read_html(res.text)

### html 소스내에 table 테그가 불완전하게 작성되었기 때문에 read_html함수로 데이터를 가져올 수 없음

### 데이터프레임을 파일로 저장하기
+ 객체명.to_xxx(경로) 함수 이용

In [36]:
# 앞서 생성한 managership 데이터프레임을 csv 파일로 저장
managership.to_csv('csv/managers.csv', index=False)

In [54]:
# 앞서 생성한 전체도서목록에 대한 데이터프레임을 csv 파일로 저장
tables[1].to_csv('csv/hanbbooks.csv', index=False)