## pandas
+ 행에 열 레이블을 부착한 n차원 행렬 자료구조를 제공하는 파이썬 라이브러리
+ 지원하는 자료구조는 Series, DataFrame, Panel
+ 0.20 이후로 Panel 은 deprecated
+ numpy 기반으로 처리속도가 빠름
+ 파이썬에서 금융 시계열을 다룰 목적으로 헤지펀드 애널리스트가 개발에 참여
+ pandas.pydata.org
+ pip install pandas

In [134]:
import numpy as np
import pandas as pd

### pandas 자료구조 1 : series
+ R의 벡터와 유사한 자료구조 : 1차원 배열
+ pd.Series(데이터, 인덱스, 자료형)

#### 빈 시리즈 생성

In [4]:
pd.__version__

'1.3.3'

In [5]:
a = pd.Series(dtype='object')
a

Series([], dtype: object)

#### numpy 배열을 시리즈로 생성

In [7]:
b = pd.Series([1,2,3,4,5])
b

0    1
1    2
2    3
3    4
4    5
dtype: int64

#### 시리즈 생성시 인덱스 지정 (index 속성)

In [15]:
c = pd.Series([6,7,8,9,10], index=[1,2,3,4,5])
c

1     6
2     7
3     8
4     9
5    10
dtype: int64

#### 시리즈 객체가 지원하는 속성들

In [19]:
print(c.values)  # 시리즈의 요소값
print(c.index)  # 시리즈의 인덱스
print(c[2])     # 2번째값(인덱스가 1부터 시작)
print(c[3:5])   # 3,4번째값

[ 6  7  8  9 10]
Int64Index([1, 2, 3, 4, 5], dtype='int64')
7
4     9
5    10
dtype: int64


### pandas indexer
+ pandas에서 정수형 인덱스를 사용하는 경우 파이썬의 slice 연산과 혼동할 위험 존재
+ 따라서, panda만의 특별한 요소지정방법 제공 - indexer
    - loc : 문자형 인덱스 요소 지정
    - iloc : 숫자형 인덱스 요소 지정

In [21]:
d = pd.Series([9,8,7,6,5], index = ['가','나','다','라','마'])
d

가    9
나    8
다    7
라    6
마    5
dtype: int64

#### 1번째 자료 지정

In [23]:
print(d[0])

9

In [25]:
print(d.iloc[0])

9


In [29]:
print(d.loc['가'])

9


#### 2번째이후 자료 지정

In [50]:
print(d[1:])

나    8
다    7
라    6
마    5
dtype: int64


In [41]:
print(d.iloc[1:3])

나    8
다    7
dtype: int64


In [39]:
print(d.loc['나':'라'])

나    8
다    7
라    6
dtype: int64


In [45]:
print(d[::2])

가    9
다    7
마    5
dtype: int64


In [46]:
print(d.iloc[::2])

가    9
다    7
마    5
dtype: int64


In [47]:
print(d.loc[::2])

가    9
다    7
마    5
dtype: int64


In [49]:
print(d.loc[['가','다','마']])

가    9
다    7
마    5
dtype: int64


#### dict 객체로 시리즈 객체 생성

In [52]:
data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
e = pd.Series(data)
e

a    1
b    2
c    3
d    4
e    5
dtype: int64

### pandas 자료구조 2 : dataframe
+ R의 데이터프레임과 유사한 자료구조 : 2차원 테이블
+ pd.DataFrame(데이터, 인덱스, 컬럼레이블, 자료형)

#### 빈 데이터프레임 객체 생성

In [53]:
f = pd.DataFrame()
f

#### 리스트로 데이터프레임 객체 생성

In [54]:
data = [1,2,3,4,5]
g = pd.DataFrame(data)
g  # 컬럼명이 없음

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [56]:
g = pd.DataFrame(data, columns=['nums'])
g   # 컬럼명 출력

Unnamed: 0,nums
0,1
1,2
2,3
3,4
4,5


#### 3행 2열짜리 배열로 dataframe 객체 생성

In [79]:
data = [['지현',99],['혜교',76],['수지',83]]
cols = ['이름', '점수']
idx = [1,2,3]
h = pd.DataFrame(data, columns=cols, index=idx)
h

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


#### dict로 dataframe 객체 생성

In [80]:
data2 = {'이름':['지현','혜교','수지'], '점수':[99,76,83]}
i = pd.DataFrame(data2, index=idx)
i

Unnamed: 0,이름,점수
1,지현,99
2,혜교,76
3,수지,83


#### series로 dataframe 객체 생성

In [81]:
name = pd.Series(['지현', '혜교', '수지']) # 0,1,2 index
jumsu = pd.Series([99, 76, 83])  # 0,1,2 index
data3 = {'이름':name, '점수':jumsu}
j = pd.DataFrame(data3) # 1, 2, 3 index
j

Unnamed: 0,이름,점수
0,지현,99
1,혜교,76
2,수지,83


In [103]:
Manager=pd.Series([1,2,3,4,5])
Date = pd.Series(['10/24/14','10/28/14','10/01/14', '10/12/14', '05/01/14'])
Country = pd.Series(['US','US','UK','UK','UK'])
Gender = pd.Series(['M','F','F','M','F'])
Age = pd.Series([32,45,25,39,99])
q1 = pd.Series([5,3,3,3,2])
q2 = pd.Series([4,5,5,3,2])
q3 = pd.Series([5,5,5,np.NAN,2])
q4 = pd.Series([5,5,2,np.NAN,1])
leadership = {'Manager':Manager, 'Date':Date, 'Country':Country, 'Gender' : Gender, 'Age':Age, 'q1':q1,'q2':q2,'q3':q3,'q4':q4}
leadership = pd.DataFrame(leadership)
# leadership = leadership.set_index('Manager')
leadership.index = [1,2,3,4,5]
leadership


Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4
1,1,10/24/14,US,M,32,5,4,5.0,5.0
2,2,10/28/14,US,F,45,3,5,5.0,5.0
3,3,10/01/14,UK,F,25,3,5,5.0,2.0
4,4,10/12/14,UK,M,39,3,3,,
5,5,05/01/14,UK,F,99,2,2,2.0,1.0


In [97]:
Manager=[1,2,3,4,5]
Date=['10/24/14','10/28/14','10/01/14', '10/12/14', '05/01/14']
Country =['US','US','UK','UK','UK']

managex = {'Man' : Manager, 'Date':Date, 'Country':Country}
managex = pd.DataFrame(managex)
managex

Unnamed: 0,Man,Date,Country
0,1,10/24/14,US
1,2,10/28/14,US
2,3,10/01/14,UK
3,4,10/12/14,UK
4,5,05/01/14,UK


#### 인덱스를 재설정하려면 reindex 사용
+ 존재하지 않는 인덱스가 추가되면 그 행의 값은 NaN이 됨

In [82]:
j = j.reindex(idx)
j

Unnamed: 0,이름,점수
1,혜교,76.0
2,수지,83.0
3,,


#### 특정 컬럼을 인덱스로 재설정하려면 set_index를 사용

In [83]:
j = j.set_index('이름')
j

Unnamed: 0_level_0,점수
이름,Unnamed: 1_level_1
혜교,76.0
수지,83.0
,


j = j.index = idx
j

In [104]:
leadership

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4
1,1,10/24/14,US,M,32,5,4,5.0,5.0
2,2,10/28/14,US,F,45,3,5,5.0,5.0
3,3,10/01/14,UK,F,25,3,5,5.0,2.0
4,4,10/12/14,UK,M,39,3,3,,
5,5,05/01/14,UK,F,99,2,2,2.0,1.0


#### 데이터프레임 요소에 접근하기

In [106]:
print(leadership['Age'])  # 객체명[컬럼명])

1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64


In [108]:
print(leadership.Age)

1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64


In [112]:
print(leadership.iloc[:,4])

1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64


In [114]:
print(leadership.loc[:,'Age'])

1    32
2    45
3    25
4    39
5    99
Name: Age, dtype: int64


In [117]:
print(leadership[['q1','q2','q3','q4']]) # 객체명[[컬럼명1, 컬럼명2..]])

   q1  q2   q3   q4
1   5   4  5.0  5.0
2   3   5  5.0  5.0
3   3   5  5.0  2.0
4   3   3  NaN  NaN
5   2   2  2.0  1.0


In [118]:
print(leadership.iloc[:, 5:9])

   q1  q2   q3   q4
1   5   4  5.0  5.0
2   3   5  5.0  5.0
3   3   5  5.0  2.0
4   3   3  NaN  NaN
5   2   2  2.0  1.0


In [121]:
print(leadership.loc[:,'q1':'q4'])

   q1  q2   q3   q4
1   5   4  5.0  5.0
2   3   5  5.0  5.0
3   3   5  5.0  2.0
4   3   3  NaN  NaN
5   2   2  2.0  1.0


#### 외부파일로 데이터프레임 만들기
+ 외부 데이터파일을 이용해서 dataframe 객체를 만들 수 있음
+ csv, excel, json, xml ... 등등 지원
+ pd.read_xxx(경로, 구분자, 헤더설정, 인코딩)

In [122]:
aw = pd.read_csv('data/applewood.txt', header=0, sep=' ')
aw.head()

Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
0,21,"$1,387",Tionesta,Sedan,0
1,23,1754,Sheffield,SUV,1
2,24,1817,Sheffield,Hybrid,1
3,25,1040,Sheffield,Compact,0
4,26,1273,Kane,Sedan,1


#### 데이터프레임의 구조 - 컬럼별 자료형, 결측치 개수, 데이터 총 개수

In [123]:
aw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180 entries, 0 to 179
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Age           180 non-null    int64 
 1   Profit        180 non-null    object
 2   Location      180 non-null    object
 3   Vehicle-Type  180 non-null    object
 4   Previous      180 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 7.2+ KB


#### 일련번호 만들기 : numpy arange(시작번호, 종료번호, 간격)

In [125]:
idx = np.arange(1,180+1)

In [126]:
aw.index = idx
aw.head()

Unnamed: 0,Age,Profit,Location,Vehicle-Type,Previous
1,21,"$1,387",Tionesta,Sedan,0
2,23,1754,Sheffield,SUV,1
3,24,1817,Sheffield,Hybrid,1
4,25,1040,Sheffield,Compact,0
5,26,1273,Kane,Sedan,1


#### json 파일을 읽고 데이터프레임으로 만들기

In [129]:
seoul_geo = pd.read_json('data/seoul_geo_simple.json')
seoul_geo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   type      25 non-null     object
 1   features  25 non-null     object
dtypes: object(2)
memory usage: 528.0+ bytes


In [130]:
seoul_geo.head()

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."


#### pd.set_option 함수를 이용해서 출력양식 변경

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11..."


In [139]:
pd.set_option('display.max_columns', 50)

In [141]:
pd.set_option('display.max_colwidth', 250)

In [143]:
seoul_geo.head()

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11250', 'name': '강동구', 'name_eng': 'Gangdong-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.11519584981606, 37.557533180704915], [127.11879551821994, 37.557222485451305..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11240', 'name': '송파구', 'name_eng': 'Songpa-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.0690698130372, 37.522279423505026], [127.07496309841329, 37.52091052765938], [..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11230', 'name': '강남구', 'name_eng': 'Gangnam-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.05867359288398, 37.52629974922568], [127.0690698130372, 37.522279423505026], ..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11220', 'name': '서초구', 'name_eng': 'Seocho-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.01397119667513, 37.52503988289669], [127.01917707838057, 37.520085205855196], ..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11210', 'name': '관악구', 'name_eng': 'Gwanak-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[126.98367668291802, 37.473856492692086], [126.9846374349825, 37.46996301876212], [..."


#### 읽어들인 json 데이터가 복잡한 중첩구조로 구성된 경우
+ file 객체로 json 파일을 읽은 후 json.load 함수로 데이터들을 메모리에 적재하고 json_normalize 함수로 필요한 데이터를 저장해 데이터프레임으로 만듬

In [144]:
seoul_geo = pd.read_json('data/seoul_geo_simple.json', orient='features')

In [145]:
seoul_geo.head()

Unnamed: 0,type,features
0,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11250', 'name': '강동구', 'name_eng': 'Gangdong-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.11519584981606, 37.557533180704915], [127.11879551821994, 37.557222485451305..."
1,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11240', 'name': '송파구', 'name_eng': 'Songpa-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.0690698130372, 37.522279423505026], [127.07496309841329, 37.52091052765938], [..."
2,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11230', 'name': '강남구', 'name_eng': 'Gangnam-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.05867359288398, 37.52629974922568], [127.0690698130372, 37.522279423505026], ..."
3,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11220', 'name': '서초구', 'name_eng': 'Seocho-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[127.01397119667513, 37.52503988289669], [127.01917707838057, 37.520085205855196], ..."
4,FeatureCollection,"{'type': 'Feature', 'properties': {'code': '11210', 'name': '관악구', 'name_eng': 'Gwanak-gu', 'base_year': '2013'}, 'geometry': {'type': 'Polygon', 'coordinates': [[[126.98367668291802, 37.473856492692086], [126.9846374349825, 37.46996301876212], [..."


In [147]:
import json
from pandas import json_normalize

In [148]:
with open('data/seoul_geo_simple.json') as f:
    jdata = json.load(f)

In [None]:
jdata

In [150]:
seoul_geo = json_normalize(jdata['features'])
seoul_geo.head()

Unnamed: 0,type,properties.code,properties.name,properties.name_eng,properties.base_year,geometry.type,geometry.coordinates
0,Feature,11250,강동구,Gangdong-gu,2013,Polygon,"[[[127.11519584981606, 37.557533180704915], [127.11879551821994, 37.557222485451305], [127.12146867175024, 37.55986003393365], [127.12435254630417, 37.56144246249796], [127.13593925898998, 37.56564793048277], [127.14930548011061, 37.5689225030389..."
1,Feature,11240,송파구,Songpa-gu,2013,Polygon,"[[[127.0690698130372, 37.522279423505026], [127.07496309841329, 37.52091052765938], [127.07968915919895, 37.52077294752823], [127.08639455667742, 37.52161824624356], [127.0943611414465, 37.523984206117525], [127.10087519791962, 37.524841220167055..."
2,Feature,11230,강남구,Gangnam-gu,2013,Polygon,"[[[127.05867359288398, 37.52629974922568], [127.0690698130372, 37.522279423505026], [127.06860425556381, 37.51812758676938], [127.06926628842805, 37.51717796437217], [127.0719146000724, 37.50224013587669], [127.0764808967127, 37.498612695580306],..."
3,Feature,11220,서초구,Seocho-gu,2013,Polygon,"[[[127.01397119667513, 37.52503988289669], [127.01917707838057, 37.520085205855196], [127.02038705349842, 37.51771683027875], [127.02265609299096, 37.509970106251416], [127.03372275812187, 37.48674434662411], [127.03621915098798, 37.4817580242760..."
4,Feature,11210,관악구,Gwanak-gu,2013,Polygon,"[[[126.98367668291802, 37.473856492692086], [126.9846374349825, 37.46996301876212], [126.98662755598336, 37.466937278295305], [126.98896316546526, 37.465041871263544], [126.99026416700147, 37.46271603227842], [126.98956736277059, 37.4576007564004..."


#### 웹페이지에서 table 태그를 데이터프레임으로 만들기
+ read_html

In [152]:
import requests
from bs4 import BeautifulSoup

In [None]:
url = ''
headers = {}