(Week2) 금데분 Ch4.8 ~ Ch5.16

# Ch4 판다스 데이터프레임 Part1

## Ch4.8 컬럼 추가하기

In [20]:
# 데이터프레임은 동일한 인덱스를 갖는 시리즈가 연결된 형태
from pandas import DataFrame, Series

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [21]:
# 컬럼을 추가하려면 데이터프레임과 같은 인덱스를 갖는 시리즈가 필요
# 방법1.
s = Series(data=[1600, 1600, 1600], index=df.index)
df["목표가"] = s
df

Unnamed: 0,종목명,현재가,등락률,목표가
37730,3R,1510,7.36,1600
36360,3SOFT,1790,1.65,1600
5760,ACTS,1185,1.28,1600


In [22]:
# 방법2. 생략
df["목표가"] = 1600
df

Unnamed: 0,종목명,현재가,등락률,목표가
37730,3R,1510,7.36,1600
36360,3SOFT,1790,1.65,1600
5760,ACTS,1185,1.28,1600


In [23]:
# 기존 시리즈간의 연산, 같은 인덱스(종목코드)를 가지면 사칙연산을 적용할 수 있음
df["괴리율"] = ((df["목표가"] - df["현재가"]) / df["현재가"])
df

Unnamed: 0,종목명,현재가,등락률,목표가,괴리율
37730,3R,1510,7.36,1600,0.059603
36360,3SOFT,1790,1.65,1600,-0.106145
5760,ACTS,1185,1.28,1600,0.350211


## Ch4.9 로우 추가하기

In [24]:
from pandas import DataFrame

data = 0
df = 0

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [25]:
# 방법1. 시리즈 객체의 인덱스는 데이터프레임의 컬럼명으로 지정하여 로우 추가
from pandas import Series

s = Series(data=["LG전자", 60000, 3.84], index=df.columns)
df.loc["066570"] = s
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84


In [26]:
# 방법2.
df.loc["066570"] = ['LG전자', 60000, 3.84]
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84


In [27]:
# 방법3-1. appened 메서드 이용
s = Series(data=["LG전자", 60000, 3.84], index=df.columns, name="066570")
#new_df = df.append(s)

# (주의) append 메서드는 Pandas 버전 2.0.0 이후로 더 이상 사용되지 않음
# 방법3-2.pd.concat을 사용하여 데이터프레임에 새 행 추가
import pandas as pd
new_df = pd.concat([df, s.to_frame().T])
new_df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84
66570,LG전자,60000,3.84


## Ch4.10 컬럼/로우 삭제하기

In [31]:
# drop 메서드 사용
# 파라미터 axis=1은 컬럼 삭제
from pandas import DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

df_new = df.drop("현재가", axis=1)
print(df)
print(df_new)

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
          종목명   등락률
037730     3R  7.36
036360  3SOFT  1.65
005760   ACTS  1.28


In [29]:
# axis=0은 로우 삭제
df_new = 0
df_new = df.drop("037730", axis=0)
print(df)
print(df_new)

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
          종목명   현재가   등락률
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


In [30]:
# 원본 데이터프레임에서 바로 삭제
# inplace 메소드
df.drop("037730", axis=0, inplace=True)
df

Unnamed: 0,종목명,현재가,등락률
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [32]:
# 한 번에 여러 개의 로우나 컬럼 삭제
# 리스트 형태로 넘기기
df.drop(["037730", "005760"], axis=0, inplace=True)
df

Unnamed: 0,종목명,현재가,등락률
36360,3SOFT,1790,1.65


## Ch4.11 컬럼 레이블 변경

In [33]:
# 데이터프레임 정의

from pandas import DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
print(df.columns)
print(df.index)
df

Index(['종목명', '현재가', '등락률'], dtype='object')
Index(['037730', '036360', '005760'], dtype='object')


Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [34]:
# 컬럼 이름 변경
df.columns = ['name', 'close', 'fluctuation']
# 인덱스 name 변경
df.index.name = 'code'
df

Unnamed: 0_level_0,name,close,fluctuation
code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [35]:
# rename 메서드, 딕셔너리를 메서드 인자로 사용
# inplace=True는 원본 데이터프레임을 바로 수정

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.rename(columns={'종목명':'code'}, inplace=True)
df

Unnamed: 0,code,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


## Ch4.12 데이터 타입 변경

In [39]:
from pandas import DataFrame

data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"],
]
columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [37]:
# 데이터 타입을 정수로 변환, map 메서드 사용
def remove_comma(x): # 시리즈에 저장된 모든 문자열에 반복 적용
    return int(x.replace(",", ""))

df['03/02'] = df['03/02'].map(remove_comma) # 컬럼의 데이터에 함수 적용
df['03/03'] = df['03/03'].map(remove_comma)
df['03/04'] = df['03/04'].map(remove_comma)
df

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [40]:
# applymap 메서드
# 데이터프레임 전체에 함수 적용
def remove_comma(x): # 시리즈에 저장된 모든 문자열에 반복 적용
    return int(x.replace(",", ""))

df = df.applymap(remove_comma)
print(df.dtypes)
df

03/02    int64
03/03    int64
03/04    int64
dtype: object


  df = df.applymap(remove_comma)


Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [41]:
import numpy as np
from pandas import DataFrame

columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns)
df = df.applymap(remove_comma)

# astype 메서드로 데이터프레임의 컬럼을 정수로 변경!
# np.int64는 numpy라는 모듈의 정수 타입
df = df.astype( {"03/02":np.int64, "03/03":np.int64, "03/04":np.int64} )
df.dtypes

  df = df.applymap(remove_comma)


Unnamed: 0,0
03/02,int64
03/03,int64
03/04,int64


## Ch4.13 컬럼의 문자열 다루기

In [44]:
from pandas import DataFrame
import numpy as np

data = [
    {"cd" : "A060310", "nm":"3S", "close":"2,920"},
    {"cd" : "A095570", "nm":"AJ네트웍스", "close":"6,250"},
    {"cd" : "A006840", "nm":"AK홀딩스", "close":"29,700"},
    {"cd" : "A054620", "nm":"APS홀딩스", "close":"19,400"}
]
df = DataFrame(data=data)
df

Unnamed: 0,cd,nm,close
0,A060310,3S,2920
1,A095570,AJ네트웍스,6250
2,A006840,AK홀딩스,29700
3,A054620,APS홀딩스,19400


In [45]:
# str 변수이용
# cd에서 A를 제거하여 숫자 코드로 사용하기
df['cd'] = df['cd'].str[1:]

In [46]:
# str에 replace 적용하기
df['close'] = df['close'].str.replace(',', '').astype(np.int64)
df

Unnamed: 0,cd,nm,close
0,60310,3S,2920
1,95570,AJ네트웍스,6250
2,6840,AK홀딩스,29700
3,54620,APS홀딩스,19400
