# Pandas

In [2]:
import pandas as pd
import numpy as np

## Series

In [None]:
# Series 객체를 생성 할 때 pd.Series()
series = pd.Series(['하나','둘','셋'], index=range(1,4))

In [5]:
series

1    하나
2     둘
3     셋
dtype: object

In [28]:
#알아보기쉽게 _로 끊어서 표시 (현실에서 , 같이)
s = pd.Series([9_904_312,3_448_737,2_890_451,2_466_052], index = ['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [29]:
test = pd.Series([_*10 for _ in range(1,10)])
test

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [30]:
test.values

array([10, 20, 30, 40, 50, 60, 70, 80, 90], dtype=int64)

In [31]:
sum(test.values > 50)

4

In [32]:
#name으로 컬럼이름 지정, index.name으로 index에도 이름 지정 가능
s.name = "인구"
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [35]:
#딕셔너리로 Series 생성, index 설정 가능
d = {'a':1,"b":2,"c":3}
ser = pd.Series(data=d, index=['c','a','b'])
ser

c    3
a    1
b    2
dtype: int64

In [56]:
# index는 key로 만들어짐 없는 값을 index로 주면 NaN값 출력
d = {'a':1,"b":2,"c":3}
ser = pd.Series(data=d,index=['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

In [57]:
#공백없는 문자열인 경우 index label이 속성인것처럼 활용해 index값에 접근할 수 있다
ser.a

1

In [55]:
score = pd.Series([88,95,100,67],index = ['철수','영희','길동','몽룡'], name='사회점수')
score.index.name='이름'
score

이름
철수     88
영희     95
길동    100
몽룡     67
Name: 사회점수, dtype: int64

In [59]:
"서울" in s

True

In [60]:
"대전" in s

False

In [61]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [63]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [64]:
for k,v in s.items():
    if v > 3000000:
        print(f"{k}의 인구는 300만이 넘습니다.")

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


### series 인덱싱

In [67]:
print(s[0])
print(s[[0]])# series형태로 가져옴

9904312
도시
서울    9904312
Name: 인구, dtype: int64


In [69]:
s[['인천']]

도시
인천    2890451
Name: 인구, dtype: int64

In [70]:
#대구도 포함됨! why? 숫자와 달리 문자열은 앞뒤 문자열이 뭔지 파악하기 힘들어서 인듯?
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [72]:
s2 = pd.Series({"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490156})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490156
dtype: int64

In [73]:
#대전, 대구의 경우 두 자료에 모두 존재하지 않아 계산 불가능하므로 NaN값 가짐
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [74]:
#Series에서 NaN값 확인
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [75]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [78]:
#bool타입으로 indexing
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [142]:
#2010년(s2) 대비 2015(s)년 인구 증가율(%)
rs = (s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [135]:
#인구변화가 가장 큰 도시출력
rs = s - s2
a = rs[rs.notnull()]
a[[a.values.argmax()]]

서울    272830.0
dtype: float64

In [152]:
rs["부산":"인천"]= [1.63,2.83,9.82]
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [153]:
rs['대구']=1.41
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [155]:
rs.notnull()

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [156]:
del rs['서울']
rs

부산    1.63
인천    9.82
대구    1.41
dtype: float64

In [163]:
fin1 = {"카카오":60010,"삼성전자":61000,"LG전자":90000}
fin2_value = [60200,61200,200100]
fin2_index = ['카카오','삼성전자','네이버']
ser_finance1 = pd.Series(data=fin1)
ser_finance2 = pd.Series(fin2_value, index=fin2_index)
ser_finance2

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

In [164]:
ser_finance1+ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [165]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [166]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [167]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [180]:
result = ser_finance1 - ser_finance2

In [183]:
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame

In [197]:
d = {'col1':[1,2],'col2':[3,4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [267]:
data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [210]:
df.index.name='도시'
df.columns.name='특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [220]:
import requests
from io import BytesIO
import zipfile
import xmltodict
api = 'https://opendart.fss.or.kr/api/corpCode.xml'
res = requests.get(api, params={'crtfc_key': '463cba3e96c43560eda520cfdad14d0c245d6575'})
data_xml = zipfile.ZipFile(BytesIO(res.content))

In [221]:
data_xml.namelist()

['CORPCODE.xml']

In [222]:
import json
data_xml_z = data_xml.read('CORPCODE.xml').decode('utf-8')
data_odict = xmltodict.parse(data_xml_z)
data_dict = json.loads(json.dumps(data_odict))
stock_data = data_dict.get('result', {}).get('list')

In [None]:
stock_data

In [None]:
pd.DataFrame(data = stock_data)

In [225]:
import requests

response = requests.get('https://opendart.fss.or.kr/api/majorstock.json',
                        params={'crtfc_key': '463cba3e96c43560eda520cfdad14d0c245d6575',
                               'corp_code' : '00260930'})
print(response.status_code)

200


In [None]:
sm = pd.DataFrame(data = response.json()['list'])
sm.columns = ['접수번호','접수일자','회사코드','회사명','접수종류','보고자','보유주식수','변동주식수','보유비율','변동비율','?','?','비고']
sm.head()

In [268]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [269]:
df["2005-2010 증가율"] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [270]:
del df['2010-2015 증가율']
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [277]:
df[['2015','2010']]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [284]:
#series가 아닌 DF 형태로 호출하고 싶다면 리스트형태로 호출하자
print(type(df[['2010']]))
print(type(df['2010']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [285]:
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [289]:
#row단위로 인덱싱 하려면 슬라이싱 이용
df2[1:]

Unnamed: 0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [290]:
df[1:2]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [292]:
df['부산':'부산']

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [None]:
df['서울']#을 실행하면 key error발생 컬럼을 호출할때 쓰는 형태이기 때문

In [295]:
df['2015']['서울']

9904312

In [296]:
#로우에대해 먼저 호출후 컬럼호출해도 나오긴 하지만 series객체가 호출되기 때문에 효율적이지 않다
df['서울':'서울']['2015']

서울    9904312
Name: 2015, dtype: int64

In [318]:
data = {
    "국어":[80,90,70,30],
    "영어":[90,70,60,40],
    "수학":[90,60,80,70],
}
columns = ['국어','영어','수학']
index = ['춘향','몽룡','향단','방자']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [319]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [320]:
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [323]:
df['평균점수'] = ((df['국어'] +df['수학']+df['영어']) / 3).round(2)

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [325]:
df['춘향':'춘향']

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67


In [336]:
df2 = df.T
df2['향단']

국어      70.0
영어      60.0
수학      80.0
평균점수    70.0
Name: 향단, dtype: float64

In [7]:
import numpy
np.random.seed(0)
random_df = pd.DataFrame(data = {'A':np.random.randn(6),
                         'B':np.random.randn(6),
                         'C':np.random.randn(6),
                         'D':np.random.randn(6)},
                        index = pd.date_range("20130226",periods=6))
random_df                        

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.950088,0.761038,0.313068
2013-02-27,0.400157,-0.151357,0.121675,-0.854096
2013-02-28,0.978738,-0.103219,0.443863,-2.55299
2013-03-01,2.240893,0.410599,0.333674,0.653619
2013-03-02,1.867558,0.144044,1.494079,0.864436
2013-03-03,-0.977278,1.454274,-0.205158,-0.742165


In [13]:
random2 = pd.DataFrame(data = np.random.randn(6,4),columns = ['A','B','C','D'],index = pd.date_range("20130226",periods=6))
random2

Unnamed: 0,A,B,C,D
2013-02-26,2.269755,-1.454366,0.045759,-0.187184
2013-02-27,1.532779,1.469359,0.154947,0.378163
2013-02-28,-0.887786,-1.980796,-0.347912,0.156349
2013-03-01,1.230291,1.20238,-0.387327,-0.302303
2013-03-02,-1.048553,-1.420018,-1.70627,1.950775
2013-03-03,-0.509652,-0.438074,-1.252795,0.77749
