# 04장 판다스 데이터프레임 Part1

## 01) 데이터프레임 소개 및 생성

### 데이터프레임 소개 및 생성

In [1]:
import pandas as pd

data = {
    '종목코드': ['037730', '036360', '005760'],
    '종목명': ['3R', '3SOFT', 'ACTS'],
    '현재가': [1510, 1790, 1185]
}

df = pd.DataFrame(data)           # DataFrame 클래스의 객체 생성 (생성자 호출)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


In [2]:
data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005760", "ACTS", 1185],
]
columns = ["종목코드", "종목명", "현재가"]

df = pd.DataFrame(data=data, columns=columns)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


In [4]:
data = [
    {"종목코드": "037730", "종목명": "3R", "현재가": 1510},
    {"종목코드": "036360", "종목명": "3SOFT", "현재가": 1790},
    {"종목코드": "005760", "종목명": "ACTS", "현재가": 1185},
]

df = pd.DataFrame(data=data)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


## 02) 데이터프레임의 인덱스

In [None]:
### 데이터프레임의 인덱스

In [7]:
import pandas as pd

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005670", "ACTS", 1185, 1.28]
]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,현재가,등락률
0,37730,3R,1510,7.36
1,36360,3SOFT,1790,1.65
2,5670,ACTS,1185,1.28


In [11]:
# set_index 메서드는 원본 데이터를 변경하는 것이 아니라 새로운 인덱스가 설정된 새로운 데이터프레임을 리턴
df
df = df.set_index('종목코드')
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5670,ACTS,1185,1.28


In [13]:
# set_index(inplace=True)

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005670", "ACTS", 1185, 1.28]
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, columns=columns)

df
df.set_index('종목코드', inplace=True)  # inplace=True
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5670,ACTS,1185,1.28


In [16]:
import pandas as pd

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28],
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = pd.DataFrame(data=data, index=index, columns=columns)
df.index.name = '종목코드'
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


## 03) 컬럼 인덱싱

In [None]:
### 컬럼 인덱싱

In [17]:
import pandas as pd

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df['현재가']

037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64

In [23]:
df.현재가

037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64

In [24]:
리스트 = ['현재가','등락률']
df[리스트]

Unnamed: 0,현재가,등락률
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


In [25]:
df[['현재가','등락률']]

Unnamed: 0,현재가,등락률
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


In [28]:
# 데이터프레임에서 한 개의 열만 인덱싱하면 시리즈 객체 출력. 하지만 리스트로 슬라이싱하면 데이터프레임 출력
print(df['현재가'])
print('------------------------')
print(df[['현재가']])

037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64
------------------------
         현재가
037730  1510
036360  1790
005760  1185


## 04) 로우 인덱싱

### 로우 인덱싱
- loc  : 인덱스를 기준으로 로우 데이터 추출
- iloc : 행 번호를 기준으로 로우 데이터 추출 

In [30]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

df.loc['037730']

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

In [31]:
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [32]:
df.loc['037730']

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

In [33]:
df.iloc[0]

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

In [35]:
df.iloc[-1]

종목명    ACTS
현재가    1185
등락률    1.28
Name: 005760, dtype: object

In [37]:
print(df)
print(df.loc[ [ "037730", "036360" ] ])
print(df.iloc[ [ 0, 1 ] ])

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65


## 05) 특정 값 가져오기

### 특정값 가져오기

In [38]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"] 
df = pd.DataFrame(data=data, index=index, columns=columns)

print(df.iloc[0])
print(df.loc['037730'])

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object


## 06) 특정 범위 가져오기

In [None]:
import pandas as pd

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

print(df.loc[["037730", "036360"]])
print(df.iloc[[0, 1]])

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

print(df)
df = df.loc[["037730", "036360"]]
df = df[['종목명', '현재가']]
print(df)


In [None]:
# 한번에 슬라이싱을 처리

print(df.loc[["037730", "036360"], ["종목명", "현재가"]])
print(df.iloc[[0, 1], [0, 1]])

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

print(df)

print(df.loc[["037730", "036360"], ["종목명", "현재가"]])
print(df.loc[["037730", "036360"]])

## 07) 데이터프레임 필터링

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
cond = df['현재가'] >= 1400
print(df.loc[cond])

In [None]:
cond = df['현재가'] >= 1400
print(df.loc[cond]["현재가"])
print(df.loc[cond, "현재가"])

In [None]:
df[cond]

In [None]:
df.loc[cond]['현재가']

In [None]:
df.loc[cond, "현재가"]

In [None]:
cond = (df['현재가'] >= 1400) & (df['현재가'] < 1700)
df[cond]

In [None]:
df[~cond]

## 08) 컬럼 추가하기

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

In [None]:
s = pd.Series([1600,1600,1600], index=df.index)
df['목표가'] = s
df

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

df['목표가'] = 1600
df

In [None]:
# 데이터프레임의 컬럼에 저장된 시리즈 연산을 통해 '괴리율' 컬럼을 
df['괴리율'] = (df['목표가'] - df['현재가']) / df['현재가']
df

## 09) 로우 추가하기

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

In [None]:
s = pd.Series(data=["LG전자", 60000, 3.84], index=df.columns)
df.loc["066570"] = s
print(df)

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

df.loc['066570'] = ["LG전자", 60000, 3.84]
df

In [None]:
# append()를 이용한 로우 추가
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

s =pd.Series(data=["LG전자", 60000, 3.84], index=df.columns, name="066570")
new_df = df.append(s)
new_df

## 10) 컬럼/로우 삭제하기

In [None]:
# drop() 메서드 - axis=1 컬럼 삭제, axis=0은 로우 삭제

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

df_new = df.drop("현재가", axis=1)
print(df)
print(df_new)


In [None]:
df_new = df.drop('037730', axis=0)
print(df)
print(df_new)


In [None]:
# 원본 데이터프레임에서 로우나 컬럼을 바로 삭제하고자 한다면 inplace 항목에 True 설정
df.drop("037730", axis=0, inplace=True)     # 원본 데이터프레임 변경
print(df)

In [None]:
# 여러 개의 로우나 컬럼을 삭제
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)

df.drop(["037730", "005760"], axis=0, inplace=True)
print(df)

## 11) 컬럼 레이블 변경

In [None]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df.columns)
print(df.index)

In [None]:
df.columns = ['name','close','fluctuation']
df.index.name = 'code'
df

In [None]:
# rename() - 변경하고자 하는 컬럼에 {“변경 전 이름”: “변경 후 이름”}과 같은 딕셔너리를 메서드의 인자로 전달
#          - 컬럼명 중 일부만을 변경하고자 할 때 유용하게 사용

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
df.rename(columns={'종목명': 'name'}, inplace=True)
print(df)

In [None]:
df.index.name = 'code'
df

## 12) 데이터 타입 변경

In [None]:
data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"],
]
columns = ["03/02", "03/03", "03/04"]
df = pd.DataFrame(data=data, columns=columns)
print(df)

In [None]:
data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"],
]
columns = ["03/02", "03/03", "03/04"]
df = pd.DataFrame(data=data, columns=columns)

def remove_comma(x):
    return int(x.replace(',',''))

df['03/02'] = df['03/02'].map(remove_comma)
df['03/03'] = df['03/03'].map(remove_comma)
df['03/04'] = df['03/04'].map(remove_comma)

df





In [None]:
# Series - map()
# DataFrame - applymap()

data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"],
]
columns = ["03/02", "03/03", "03/04"]
df = pd.DataFrame(data=data, columns=columns)

def remove_comma(x):
    return int(x.replace(',',''))

df = df.applymap(remove_comma)
df

In [None]:
# 데이터 형변환
import numpy as np
import pandas as pd

def remove_comma(x):    
    return x.replace(",", "")
    
data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"],
]

columns = ["03/02", "03/03", "03/04"]
df = pd.DataFrame(data=data, columns=columns)

df = df.applymap(remove_comma)

print(df.dtypes)
df = df.astype( {"03/02":np.int64, "03/03":np.int64, "03/04":np.int64} )
print(df.dtypes)

## 13) 컬럼의 문자열 다루기

In [None]:
import pandas as pd
import numpy as np

data = [
    {"cd":"A060310", "nm":"3S", "close":"2,920"},
    {"cd":"A095570", "nm":"AJ네트웍스", "close":"6,250"},
    {"cd":"A006840", "nm":"AK홀딩스", "close":"29,700"},
    {"cd":"A054620", "nm":"APS홀딩스", "close":"19,400"}
]
df = pd.DataFrame(data=data)
df

In [None]:
# 'cd' 컬럼의 종목코드에서 A를 제거
# str은 시리즈에 저장된 문자열 컬럼에만 사용

df['cd'] = df['cd'].str[1:]
df['close'] = df['close'].str.replace(',','').astype(np.int64)
df