## 데이터프레임
-  2차원 데이터를 다루는데 효과적인 판다스의 데이터프레임

![image.png](attachment:image.png)

### 대표적인 데이터프레임 생성 방법
- 딕셔너리로 데이터프레임을 생성

- 리스트로 데이터프레임을 생성

- 리스트와 딕셔너리로 데이터프레임을 생성

원본 데이터가 저장된 형태에 따라 적합한 데이터프레임 생성 방식을 사용

In [13]:
'''
딕셔너리 활용
칼럼 레이블 (종목코드, 종목명, 현재가)을 key로,
리스트에 저장된 칼럼 값들을 value로 갖는 딕셔너리를 정의
'''
from pandas import DataFrame

data = [
     ["037730", "3R", 1510],
     ["036360", "3SOFT", 1790],
     ["005760", "ACTS", 1185],
]
columns = ["종목코드","종목명","현재가"]

df = DataFrame(data) # DataFrame 클래스의 객체 생성 (생성자 호출)
print("hello")
print(df)
df # print 생략은 항상 마지막에, 자료를 가공포장해주는 주피터기능


hello
        0      1     2
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


Unnamed: 0,0,1,2
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


![image.png](attachment:image.png)

In [12]:
'''
리스트로 데이터 프레임 생성
row(행) 단위로 저장된 리스트 사용하여 데이터프레임 생성
칼럼의 레이블은 별도의 리스트로 정의하여
데이터프레임 생성자의 columns인자로 넘겨줌
'''

from pandas import DataFrame

data = [
["037730", "3R", 1510],
["036360", "3SOFT", 1790],
["005760", "ACTS", 1185],
 ]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data = data, columns = columns)
print(df)
df

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


![image.png](attachment:image.png)

In [20]:
'''
리스트와 딕셔너리로 데이터프레임을 생성
행 단위로 데이터를 표현하는데,
이때 데이터에 레이블을 붙여 각 행을 하나의 딕셔너리로 표현
딕셔너리의 키가 칼럼의 이름이 됨
'''

from pandas import DataFrame

data = [
{"종목코드": "037730", "종목명": "3R", "현재가": 1510,"상승률":"10%"},
{"종목코드": "036360", "종목명": "3SOFT", "현재가": 1790,"하락률":"7%"},
{"종목코드": "005760", "종목명": "ACTS", "시가": 1185},
]
df = DataFrame(data = data)
print(df)
df


     종목코드    종목명     현재가  상승률  하락률      시가
0  037730     3R  1510.0  10%  NaN     NaN
1  036360  3SOFT  1790.0  NaN   7%     NaN
2  005760   ACTS     NaN  NaN  NaN  1185.0


Unnamed: 0,종목코드,종목명,현재가,상승률,하락률,시가
0,37730,3R,1510.0,10%,,
1,36360,3SOFT,1790.0,,7%,
2,5760,ACTS,,,,1185.0


![image.png](attachment:image.png)

## 데이터프레임 인덱싱
![image.png](attachment:image.png)

In [28]:
'''
인덱스를 따로 설정하지 않으면,
RageIndex라는 타입의 정수 인덱스가 자동으로 생성됨
'''
from pandas import DataFrame

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
print(df.index)
print(df)
df.index

df

RangeIndex(start=0, stop=3, step=1)
     종목코드    종목명   현재가   등락률
0  037730     3R  1510  7.36
1  036360  3SOFT  1790  1.65
2  005760   ACTS  1185  1.28


Unnamed: 0,종목코드,종목명,현재가,등락률
0,37730,3R,1510,7.36
1,36360,3SOFT,1790,1.65
2,5760,ACTS,1185,1.28


In [32]:
'''
종목코드를 인덱스로 지정
'''
from pandas import DataFrame

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')
#set_index()는 원본 데이터에 영향을 주지 않으므로 df 변수로 다시 바인딩(값을 담는 것)
print(df)
print(df.index)
df

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
Index(['037730', '036360', '005760'], dtype='object', name='종목코드')


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [34]:
'''
DataFrame 생성시 인덱스를 지정하는 방법
'''

from pandas import DataFrame

data = [
["3R", 1510, 7.36],
["3SOFT", 1790, 1.65],
["ACTS", 1185, 1.28]
]
index = ["037730", "036360", "005760"] # 데이터프레임의 인덱스로 사용할 데이터를 파이썬 리스트로 표현합니다.
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data=data, index=index, columns=columns) # 데이터프레임을 생성할 때 사용할 인덱스를 명시적으로 설정합니다.
df.index.name = "종목코드" # 인덱스에 대해 이름을 설정합니다.
print(df)
df

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


## 데이터프레임 칼럼


In [39]:
'''
대괄호([ ])안에 칼럼 이름을 넣으면 해당 칼럼의 데이터를 모두 선택합니다. 
다음 코드는 "현재가" 열을 선택하는 코드입니다.
'''

from pandas import DataFrame
data = [
["037730", "3R", 1510, 7.36],
["036360", "3SOFT", 1790, 1.65],
["005760", "ACTS", 1185, 1.28],
 ]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data = data, columns=columns)
df = df.set_index('종목코드')
#데이터프레임의 칼럼 인덱싱은 하나의 열을 가져옵니다.
print(df)
print("==="*20)
print(type(df))
print("==="*20)
print(df["현재가"])
print("==="*20)
print(type(df["현재가"])) # 종목코드를 인덱스로 하는 "현재가" 열이 시리즈로 출력됩니다.

df["현재가"]
df

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
<class 'pandas.core.frame.DataFrame'>
종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64
<class 'pandas.core.series.Series'>


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [41]:
'''
여러 개의 칼럼을 슬라이싱 가능
리스트의 슬라이싱이 연속된 데이터만을 선택할 수 있었지만,
데이터프레임은 불연속적인 데이터도 떼어낼 수 있습니다
'''

리스트 = ["현재가","등락률"]
print(type(df[리스트]))
df[리스트]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


In [42]:
'''
한 줄로 표현
'''
df[["현재가","등락률"]] # 대괄호 안에 리스트 넣어 표현

Unnamed: 0_level_0,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


## 데이터프레임 로우
- 데이터프레임에서 로우 단위로 인덱싱하려면 iloc 혹은 loc 속성을 사용해야 합니다. 
- 단독으로 사용하는 인덱싱 기호 ‘[ ]’는 칼럼을 의미하므로 파이썬에게 로우 인덱싱임을 알려주는 겁니다.

   |속성|설명|
   |--- |------------------------------|
   |loc|인덱스를 기준으로 로우 데이터 추출|
   |iloc|행 번호를 기준으로 로우 데이터 추출|

In [44]:
'''
loc로 인덱싱한 행 데이터는 시리즈로 반환됨
'''
from pandas import DataFrame

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')

print(df)
print("==="*30)
print(type(df))
print("==="*30)
print(df.loc["037730"])
print("==="*30)
print(type(df.loc["037730"]))

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
<class 'pandas.core.frame.DataFrame'>
종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
<class 'pandas.core.series.Series'>


In [46]:
'''
데이터프레임에서 자동으로 맵핑된 행 번호로도 로우 데이터를 인덱싱할 수 있습니다.
iloc 속성은 양수 인덱스와 음수 인덱스를 사용할 수 있습니다.
'''
print(df.iloc[0])
print('==='*20)
print(df.iloc[-1])

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명    ACTS
현재가    1185
등락률    1.28
Name: 005760, dtype: object


### 특정 값(범위) 가져오기

In [50]:
'''
1단계 : 행 단위로 먼저 선택하기
'''
from pandas import DataFrame
data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],  
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data = data, columns = columns)
df = df.set_index("종목코드")

print(df)
print('==='*20)
print(df.iloc[0]) # 시리즈로 반환
print('==='*20)
print(df.loc["037730"])# 시리즈로 반환

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object


In [4]:
'''
2단계 : 선택한 행 중에서 ,열단위로 선택하기
데이터 프레임은 로우와 칼럼을 반드시 구분해야 하지만,
Series 는 1차원에만 데이터가 있기 때문에
ioc/iloc를 생략해도 올바른 데이터가 출력됩니다
'''
print(df.iloc[0].iloc[1])
print(df.iloc[0][1])
print(df.iloc[0].loc['현재가'])
print(df.iloc[0]['현재가'])
print(df.loc["037730"].iloc[1])
print(df.loc["037730"].loc['현재가'])
print(df.loc["037730"]['현재가'])

NameError: name 'df' is not defined

In [8]:
'''
loc[행,열]
iloc[행,열]
'''
from pandas import DataFrame
data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],  
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data = data, columns = columns)
df = df.set_index("종목코드")

print(df.loc["037730","현재가"])
print(df.iloc[0,1])

df

1510
1510


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [9]:
'''
칼럼을 먼저 선택 후, 로우를 선택하는 방법
'''
print(df)
print("=========="*2)
print(df["현재가"])
print("=========="*2)
print(df["현재가"].loc["037730"])
print(df["현재가"]["037730"])
print(df["현재가"].iloc[0])
print(df["현재가"][0])

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64
1510
1510
1510
1510


## 특정 범위 가져오기

In [None]:
'''
데이터프레임의 여러 개의 행을 슬라이싱하면,
결과는 데이터프레임으로 반환됨
'''
from pandas import Dataframe

In [14]:
'''
1단계: 행 선택
'''

print(df.loc[["037730","036360"]])
print(type(df.loc[["037730","036360"]]))
print("======"*3)
print(df.iloc[[0,1]])
print(type(df.iloc[ [0,1] ]))

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
<class 'pandas.core.frame.DataFrame'>
          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
<class 'pandas.core.frame.DataFrame'>


In [16]:
'''
2단계 : 열 선택
'''
df = df.loc[["037730","036360"]] # 선택된 행만 다시 df에 바인딩
print(df)
print()
print(df[["종목명","현재가"]]) # 선택된 행 중 원하는 열 선택

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790


In [19]:
'''
한 번에 특정 범위의 데이터만 선택하는 방법

loc[[행1,행2...], [열1,열2,..]] 
iloc[[행1,행2,..],[열1, 열2,...]]
'''

print(df.loc[["037730","036360"], ["종목명","현재가"]])

print()
print(df.iloc[[0,1],[0,1]])

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790


In [22]:
'''
불리언 인덱싱을 응용하면
특정 조건을 만족할 때의 값들을 선택할 수 있습니다

로우 인덱스 자리에 조건 비교를 적용한 시리즈를 입력해보세요.
'''
from pandas import DataFrame
data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],  
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data = data, columns = columns)
df = df.set_index("종목코드")

print(df)
print("==========")

cond = df["현재가"]>= 1400
print(df.loc[cond,"현재가"]) #cond 조건을 만족하는 행 중에서, "현재가" 열만 선택

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
종목코드
037730    1510
036360    1790
Name: 현재가, dtype: int64


In [54]:
'''
1. 다음의 foods 딕셔너리를 이용하여 DataFrame을 생성해보세요
2. 생성한 DataFrame 에서 일식, 중식, 간편식 중 각각의 0번, 1번 음식만 추출해보세요
'''
from pandas import DataFrame
foods = {
    '한식': ['백반','해장국','김치찜'],
    '일식': ['초밥','우동','돈까스'],
    '중식': ['짜장면','짬뽕','탕수육'],
    '간편식': ['샌드위치','햄버거','김밥'],
    '특식': ['삼계탕','피자','보쌈']
}

columns = [0,1,2,3,4]
df = DataFrame (data = foods) # 칼럼 생략, 딕셔너리에서 칼럼 생략안할시 오류

print(df)
print()
print(df.iloc[[0,1],[1,2,3]])

    한식   일식   중식   간편식   특식
0   백반   초밥  짜장면  샌드위치  삼계탕
1  해장국   우동   짬뽕   햄버거   피자
2  김치찜  돈까스  탕수육    김밥   보쌈

   일식   중식   간편식
0  초밥  짜장면  샌드위치
1  우동   짬뽕   햄버거


In [55]:
print(df.loc[[0,1],['일식','중식','간편식']]) # loc [[행], [열]]
df.iloc[[0,1],[1,2,3]]

   일식   중식   간편식
0  초밥  짜장면  샌드위치
1  우동   짬뽕   햄버거


Unnamed: 0,일식,중식,간편식
0,초밥,짜장면,샌드위치
1,우동,짬뽕,햄버거


In [56]:
print(df.loc[0:1,'일식':'간편식']) # 슬라이싱
df.iloc[0:2,1:4] # 중요함

   일식   중식   간편식
0  초밥  짜장면  샌드위치
1  우동   짬뽕   햄버거


Unnamed: 0,일식,중식,간편식
0,초밥,짜장면,샌드위치
1,우동,짬뽕,햄버거


In [67]:
'''
1~10위 까지의 운동 중 운동칼로리(운동명)와 칼로리 열만 추출해보세요
'''
import pandas as pd

dfs = pd.read_html('https://www.dietshin.com/calorie/sports_main.asp',
                  encoding='utf-8')
columns = [3.6]
df = dfs[0]

df.loc[:29,['운동칼로리','칼로리']] # loc 인덱스위치명
df.iloc[:30,[2,5]] #iloc 행번호

Unnamed: 0,운동칼로리,칼로리
0,보통 걷기,21 kcal
1,만보걷기,334 kcal
2,싸이클 실내자전거,50 kcal
3,빠르게걷기,40 kcal
4,스쿼트,7.2 kcal
5,스트레칭,40 kcal
6,산책 걷기,21 kcal
7,등산 하이킹,480 kcal
8,런닝머신 걷기,28 kcal
9,자전거 타기,80 kcal


#### 칼럼 추가하기

In [72]:
'''
데이터프레임 생성
'''
from pandas import DataFrame, Series

data = [
[112000, 112500, 109500, 110500],
[114000, 114500, 110500, 111000],
[113000, 115000, 112000, 115000],
[111500, 112500, 110000, 111500],
[111000, 114000, 109500, 112000],
]

columns = ["시가", "고가", "저가", "종가"]
index = ["2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31", "2019-05-30"]

df = DataFrame(data=data, index=index, columns=columns)
df["변동성"] =df["고가"] - df["저가"]
df
    

Unnamed: 0,시가,고가,저가,종가,변동성
2019-06-05,112000,112500,109500,110500,3000
2019-06-04,114000,114500,110500,111000,4000
2019-06-03,113000,115000,112000,115000,3000
2019-05-31,111500,112500,110000,111500,2500
2019-05-30,111000,114000,109500,112000,4500


### 로우 추가하기

In [74]:
from pandas import DataFrame, Series
'''
loc 속성을 이용한 방법
'''
# DataFrame 초기화(index와 columns 변수는 위에서 지정함)
df = DataFrame(data = data, index = index, columns = columns) 
# 칼럼 레이블을 인덱스로 사용하는 시리즈 추가
df.loc["2019-05-29"] = Series([109000,111000,108500,109500],index=columns)
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500


In [75]:
Series([109000,111000,108500,109500],index=columns)

시가    109000
고가    111000
저가    108500
종가    109500
dtype: int64

In [78]:
'''
DataFrame.append()에 시리즈를 넘겨주는 방법
'''
ohlc = [109000,111000,108500,109500]

# 시리즈의 name이 데이터프레임의 인덱스로 사용됨
s = Series(data = ohlc, index= columns, name="2019-05-29")
print(s)

newdf= df.append(s)
newdf

시가    109000
고가    111000
저가    108500
종가    109500
Name: 2019-05-29, dtype: int64


Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500
2019-05-29,109000,111000,108500,109500


In [79]:
'''
DataFrame.append()에 데이터프레임을 넘겨주는 방법
'''
# dataframe 은 2차원이므로 데이터를 2중 리스트로 지정 (1x4 형태의 행렬)
ohlc =[[109000,111000,108500,109500]]
row_df = DataFrame(data =ohlc, index = ["2019-05-29"], columns = columns)
print(row_df)

new_df = df.append(row_df)
new_df

                시가      고가      저가      종가
2019-05-29  109000  111000  108500  109500


Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500
2019-05-29,109000,111000,108500,109500


In [81]:
from pandas import Series, DataFrame
ohlc = [109000.111000,100500,109500]
row_df = DataFrame(data = ohlc)
print(row_df)
row_df

            0
0  109000.111
1  100500.000
2  109500.000


Unnamed: 0,0
0,109000.111
1,100500.0
2,109500.0


In [2]:
'''
drop(axis=0): 행 기준 삭제
drop(axis=0): 열 기준 삭제

axis 생략시 axis=0 적용됨
'''
from pandas import Series, DataFrame

data = [
    [112000, 112500, 109500, 110500],
    [114000, 114500, 110500, 111000],
    [113000, 115000, 112000, 115000],
    [111500, 112500, 110000, 111500],
    [111000, 114000, 109500, 112000],
]

columns = ["시가", "고가", "저가", "종가"]
index = ["2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31", "2019-05-30"]
df = DataFrame( data=data, index=index, columns=columns)

df2 = df.drop("시가",axis=1)
print(df)
print(df2)

                시가      고가      저가      종가
2019-06-05  112000  112500  109500  110500
2019-06-04  114000  114500  110500  111000
2019-06-03  113000  115000  112000  115000
2019-05-31  111500  112500  110000  111500
2019-05-30  111000  114000  109500  112000
                고가      저가      종가
2019-06-05  112500  109500  110500
2019-06-04  114500  110500  111000
2019-06-03  115000  112000  115000
2019-05-31  112500  110000  111500
2019-05-30  114000  109500  112000


In [6]:
'''
행 삭제
'''

df = DataFrame(data = data, index=index, columns=columns)
df2 = df.drop("2019-05-30",axis=0)
print(df)
print(df2) #0530행 삭제
df2

                시가      고가      저가      종가
2019-06-05  112000  112500  109500  110500
2019-06-04  114000  114500  110500  111000
2019-06-03  113000  115000  112000  115000
2019-05-31  111500  112500  110000  111500
2019-05-30  111000  114000  109500  112000
                시가      고가      저가      종가
2019-06-05  112000  112500  109500  110500
2019-06-04  114000  114500  110500  111000
2019-06-03  113000  115000  112000  115000
2019-05-31  111500  112500  110000  111500


Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500


In [5]:
'''
원본 데이터프레임에서 로우나 칼럼을 바로 삭제하고자 한다면
inplace 항목에 True 값 지정
(원본 데이터가 바뀜)
'''

# DataFrame 초기화
df = DataFrame(data=data,index=index,columns=columns)
df.drop("2019-05-30",axis=0,inplace=True)
print(df)
df

                시가      고가      저가      종가
2019-06-05  112000  112500  109500  110500
2019-06-04  114000  114500  110500  111000
2019-06-03  113000  115000  112000  115000
2019-05-31  111500  112500  110000  111500


Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500


In [13]:
'''
여러 행 삭제
'''
df = DataFrame(data=data,index=index,columns=columns)
df.drop(["2019-05-31","2019-05-30","2019-06-04"],axis=0,inplace=True)
print(df)
df

                시가      고가      저가      종가
2019-06-05  112000  112500  109500  110500
2019-06-03  113000  115000  112000  115000


Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-03,113000,115000,112000,115000


In [16]:
'''
데이터프레임 생성

DataFrame.columns : 칼럼조회
DataFrame.index: 인덱스조회
'''

from pandas import DataFrame

data = [
["037730", "3R", 1510],
["036360", "3SOFT", 1790],
["005760", "ACTS", 1185],
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame (data=data,columns=columns)
df = df.set_index("종목코드")

print(df.columns)
print(df.index)
df

Index(['종목명', '현재가'], dtype='object')
Index(['037730', '036360', '005760'], dtype='object', name='종목코드')


Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5760,ACTS,1185


In [18]:
'''
칼럼 레이블 변경 및 
인덱스 이름 변경

변경하려는 칼럼 이름의 개수와
기존에 정의된 칼럼 이름의 개수가 동일해야 합니다
'''

df.columns = ['name','close'] # 칼럼 이름 변경
df.index.name = 'code' # 인덱스 name 변경

print(df.columns)
print(df.index)
df

Index(['name', 'close'], dtype='object')
Index(['037730', '036360', '005760'], dtype='object', name='code')


Unnamed: 0_level_0,name,close
code,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5760,ACTS,1185


### 데이터 타입 변경

In [50]:
'''
데이터프레임 생성

세 종목의 현재가는 문자열 데이터 타입으로 저장돼 있습니다.
이 경우 현재가 데이터에 수치 연산을 적용할 수 없기 때문에
데이터 타입을 정수로 변경하는 것이 좋습니다.
'''
from pandas import DataFrame
import numpy as np
data= [
["037730", "3R", '1,510'],
["036360", "3SOFT", '1,790'],
["005760","ACTS", '1,185'], # 로우 단위로 데이터를 표현합니다.
 ]

columns = ["종목코드", "종목명", "현재가"] # 칼럼 이름을 리스트로 표현합니다.
df = DataFrame(data=data, columns=columns) # 데이터프레임 객체를 생성합니다.
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   종목코드    3 non-null      object
 1   종목명     3 non-null      object
 2   현재가     3 non-null      object
dtypes: object(3)
memory usage: 200.0+ bytes


In [45]:
'''
apply(): DataFrame의 로우 또는 칼럼의 각 데이터에 함수를 적용
apply함수는 괄호안 함수 적용해주는 기능
'''
# 컴마제거
def remove_comma(x): # remove_comma( )라는 이름의 함수를 정의합니다
    return x.replace(',','')

df['현재가'] = df['현재가'].apply(remove_comma) # 데이터프레임의 ‘현재가’ 칼럼의 데이터에 대해 remove_comma 메서드를 적용합니다.
print(df.dtypes) # 데이터프레임 객체에서 각 칼럼의 데이터 타입을 출력합니다.
# Dataframe에서의 object는 파이썬에서 문자열 타입과 같습니다.
df

종목코드    object
종목명     object
현재가     object
dtype: object


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


In [46]:
'''
astype(): 변경하고자하는 칼럼의 이름과 데이터 타입을
딕셔너리의 키(key)와 값(value)으로 표현
'''

df = df.astype({'현재가': np.int64}) # np.int32, np.int, int, str ....
print(df.dtypes)
df

종목코드    object
종목명     object
현재가      int64
dtype: object


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


In [51]:
# 컴마제거 및 숫자형으로 한번에 변환
def remove_comma(x):
    return int(x.replace(',', ''))

df['현재가'] = df['현재가'].apply(remove_comma)

print(df.dtypes)
df

종목코드    object
종목명     object
현재가      int64
dtype: object


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


In [30]:
'''
데이터프레임 객체는 여러 개의 칼럼으로 구성되기 때문에
sort_valuew(by='칼럼 이름')과 같은 형태로 메서드를 사용합니다.
'''

# 현재가를 기준으로 오름차순 정렬
df2 = df.sort_values(by='현재가') # ascending=True 가 생략됨
df2

Unnamed: 0,종목코드,종목명,현재가
2,5760,ACTS,1185
0,37730,3R,1510
1,36360,3SOFT,1790


In [31]:
df2 = df.sort_values(by='현재가',ascending=False)
df2

Unnamed: 0,종목코드,종목명,현재가
1,36360,3SOFT,1790
0,37730,3R,1510
2,5760,ACTS,1185


In [52]:
'''
순위구하기
'''
# 현재가를 기준으로 오름차순 순위
df['순위'] = df['현재가'].rank()
df

Unnamed: 0,종목코드,종목명,현재가,순위
0,37730,3R,1510,2.0
1,36360,3SOFT,1790,3.0
2,5760,ACTS,1185,1.0


In [53]:
df['순위'] = df['현재가'].rank(ascending=False)
df

Unnamed: 0,종목코드,종목명,현재가,순위
0,37730,3R,1510,2.0
1,36360,3SOFT,1790,1.0
2,5760,ACTS,1185,3.0


### 데이터프레임 위/아래로 붙이기(행 붙이기)

In [71]:
from pandas import DataFrame

#첫번째 데이터프레임
data= {
    '종가':   [113000, 111500],
     '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)
print(df1)
print("======="*3)
# 두번째 데이터프레임
data = {
    '종가':   [110000, 109000],
    '거래량': [483689, 791946]
}
index = ['2019-06-19', '2019-06-18']
df2 = DataFrame(data=data, index=index)
print(df2)
print("======="*3)
df = df1.append(df2)
print(df)
df

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
                종가     거래량
2019-06-19  110000  483689
2019-06-18  109000  791946
                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  483689
2019-06-18  109000  791946


Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,483689
2019-06-18,109000,791946


In [72]:
'''
Pandas.concat()을 사용하는 방법
'''
import pandas as pd
df = pd.concat([df1,df2])
df3 = pd.concat([df2,df1])
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,483689
2019-06-18,109000,791946


In [73]:
df3

Unnamed: 0,종가,거래량
2019-06-19,110000,483689
2019-06-18,109000,791946
2019-06-21,113000,555850
2019-06-20,111500,282163


### 옆으로 붙이기(열 붙이기)

In [84]:
'''
Pandas.concat()사용시 axis=1인자를 넘겨줍니다
'''
from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가':   [113000, 111500],
     '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)
print(df1)

# 두번째 데이터프레임
data = {
    '시가':   [112500, 110000],
    '고가':   [115000, 112000],
    '저가':   [111500, 109000]
}
index = ['2019-06-21', '2019-06-20']
df2 = DataFrame(data=data, index=index)
print(df2)

df = pd.concat([df1,df2],axis=1)
df

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
                시가      고가      저가
2019-06-21  112500  115000  111500
2019-06-20  110000  112000  109000


Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000,555850,112500,115000,111500
2019-06-20,111500,282163,110000,112000,109000


In [80]:
'''
칼럼 순서 변경
'''
순서 = ['시가','고가','저가','종가','거래량']
df=df[ 순서 ]
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


In [91]:
'''
로우 순서 변경
'''
순서 = ['2019-06-20','2019-06-21']
df = df.reindex(순서)
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-20,111500,282163,110000,112000,109000
2019-06-21,113000,555850,112500,115000,111500


### 데이터프레임과 엑셀

In [92]:

'''
파일명 및 시트명 지정하여 엑셀 파일로 저장
'''
df.to_excel("data.xlsx",sheet_name="035420")

In [93]:
'''
인덱스를 생략한 채로 저장
'''
df.to_excel("data.xlsx",sheet_name="other",index=False)

**연습문제**
 1. 다음과 같은 형태로 DataFrame을 생성해보세요
 2. 이름을 인덱스로 지정해보세요.
 3. 각 학생마다 국어와 영어 점수만 출력해보세요
 4. 국어 점수가 90점 이상인 학생만 출력해보세요
 5. 총점 열 추가
 6. 총점 순위 열 추가
 7. 총점 내림차순 정렬
|이름|국어|수학|영어|
|-----|-----|-----|----|
|갑|95|80|85|
|을|85|85|85|
|병|100|90|95|
|정|95|75|100|

In [162]:
#  1. 다음과 같은 형태로 DataFrame을 생성해보세요
'''
(리스트 안에 딕셔너리를 넣어 생성하는 방법)
'''
from pandas import DataFrame
data = [
    {'이름': '갑', '국어': 95, '수학': 80, '영어': 85},
    {'이름': '을', '국어': 85, '수학': 85, '영어': 85},
    {'이름': '병', '국어': 100, '수학': 90, '영어': 75},
    {'이름': '정', '국어': 95, '수학': 95, '영어': 100}
]

colunms = ["이름","국어","수학","영어"]
df1 = DataFrame(data=data,columns=columns)
df1

Unnamed: 0,이름,국어,수학,영어
0,갑,95,80,85
1,을,85,85,85
2,병,100,90,95
3,정,95,75,100


In [178]:
'''
딕셔너리 안에 리스트를 넣어 생성하는 방법
'''
data = {
    '이름': ['갑', '을', '병', '정'],
    '국어': [95, 85, 100, 95],
    '수학': [80, 85, 90, 75],
    '영어': [85, 85, 95, 100]
    
}
df = DataFrame(data=data)
df

Unnamed: 0,이름,국어,수학,영어
0,갑,95,80,85
1,을,85,85,85
2,병,100,90,95
3,정,95,75,100


In [179]:
'''
(리스트 안에 리스트를 넣어 생성하는 방법)
'''
data = [
    ['갑', 95, 80, 85],
    ['을', 85, 85, 85],
    ['병', 100, 90, 95],
    ['정', 95, 75, 100]
]

columns = ['이름', '국어', '수학', '영어']

df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,이름,국어,수학,영어
0,갑,95,80,85
1,을,85,85,85
2,병,100,90,95
3,정,95,75,100


In [182]:
#  2. 이름을 인덱스로 지정해보세요.

df2 = df.set_index("이름") # index설정은 set_index()함수
print(df2) # 인덱스를 구분
df2

     국어  수학   영어
이름              
갑    95  80   85
을    85  85   85
병   100  90   95
정    95  75  100


Unnamed: 0_level_0,국어,수학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
갑,95,80,85
을,85,85,85
병,100,90,95
정,95,75,100


In [164]:
#3. 각 학생마다 국어와 영어 점수만 출력해보세요
df3 = df2.drop("수학",axis=1)
df3

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
갑,95,85
을,85,85
병,100,95
정,95,100


In [184]:
#3-2 로우 단위 인덱싱
df2.loc[:, ['국어','영어']]

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
갑,95,85
을,85,85
병,100,95
정,95,100


In [183]:
#4. 국어 점수가 90점 이상인 학생만 출력해보세요
df4 = df2.drop(["을",],axis=0)
df4

Unnamed: 0_level_0,국어,수학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
갑,95,80,85
병,100,90,95
정,95,75,100


In [187]:
#4-2 불리언 인덱싱
df4 = df2["국어"]>=90
df2[df4]

Unnamed: 0_level_0,국어,수학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
갑,95,80,85
병,100,90,95
정,95,75,100


In [188]:
#5. 총점 열 추가

# df2["국어"] = df2["국어"].apply(pd.to_numeric)
# df2["수학"] = df2["수학"].apply(pd.to_numeric)
# df2["영어"]= df2["영어"].apply(pd.to_numeric)
df2["총점"] = df2["국어"] + df2["수학"] + df2["영어"]
df5= df2["총점"]
df2

Unnamed: 0_level_0,국어,수학,영어,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
갑,95,80,85,260
을,85,85,85,255
병,100,90,95,285
정,95,75,100,270


In [191]:
#6. 총점 순위 열 추가
df2["총점순위"]= df5.rank(ascending=True)# + 오름차순정렬
df2

Unnamed: 0_level_0,국어,수학,영어,총점,총점순위
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
갑,95,80,85,260,3.0
을,85,85,85,255,4.0
병,100,90,95,285,1.0
정,95,75,100,270,2.0


In [194]:
#7. 총점 내림차순 정렬 
'''
데이터프레임 객체는 여러 개의 칼럼으로 구성되기 때문에
sort_valuew(by='칼럼 이름')과 같은 형태로 메서드를 사용합니다.
'''
df2.sort_values(by="총점순위",ascending=True)

Unnamed: 0_level_0,국어,수학,영어,총점,총점순위
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
병,100,90,95,285,1.0
정,95,75,100,270,2.0
갑,95,80,85,260,3.0
을,85,85,85,255,4.0


In [196]:
# 원하는 정렬 단위로 데이터를 엑셀에 저장 가능
df2.sort_values(by="총점순위",ascending=True).to_excel("score.xlsx",sheet_name="kjh")