# 4주차 스터디

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 1. 변수설정과 참조

In [2]:
# 사용할 데이터셋을 불러오겠습니다
from seaborn import load_dataset

# 설명을 위해 데이터셋의 일부만을 사용합니다
df = load_dataset('penguins').head()
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [3]:
# df2라는 변수를 생성합니다
df2 = df

In [4]:
df2

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [5]:
# df의 0,0번째 값을 A로 변경해보겠습니다
df.iloc[0,0] = "A"
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,A,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [6]:
# 엇! df2의 0,0번째 값도 A로 바뀌었습니다!!
df2

# 왜 그런 걸까요?? 
# -> 우리가 처음에 불러온 데이터셋은 컴퓨터 "메모리"의 특정 부분에 임시적으로 저장됩니다. 
# -> df라고 우리가 지정한 변수 이름은 그 메모리의 특정 부분을 "가리키고" 있는 것 입니다.
# -> df2라는 변수명도 메모리의 동일한 부분을 가리키고 있는 것 입니다. 따라서, 우리가 df.iloc[0,0]="A"로 메모리에 위치한 데이터값을 변화를 주자 df2의 값도 변하게 된 것 입니다
## 이 변수 참조 개념은 파이썬에서 정말 중요한 개념입니다!

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,A,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [7]:
# 그러면 이러한 현상을 막으려면 어떻게 해주면 될까요? 
# -> 메모리에 위치한 데이터를 위치까지 변경한 복사본을 다시 저장하면 되지 않을까요?
# -> 판다스에선 copy() 함수를 통해서 이 문제를 해결할 수 있습니다

df3 = df.copy()
df3

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,A,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [8]:
# df3의 변수명을 변경해 보겠습니다
df3.iloc[0,0] = "B"
df3

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,B,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [9]:
# 이 경우 df의 값은 바뀌지 않은 것을 확인할 수 있습니다!!! -> copy를 해줬기 때문입니다!!!
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,A,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [10]:
# 자, 그러면 흔히들 많이 저지르는 drop을 해줄 때의 실수를 보겠습니다

# 우선 데이터셋을 다시 한번 불러오겠습니다
df = load_dataset("penguins")
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [11]:
# 우리가 데이터셋을 변수 df라는 이름에 저장했습니다(정확히 표현하자면, 메모리에 올라온 데이터를 df라는 이름이 가리키고 있는 것 입니다)

# df의 species columns를 drop 시켜보겠습니다
df = df.drop("species", axis=1)
df
# 두 번 실행시키면 왜 오류가 뜰까요?? -> 이 경우 위의 데이터셋로드 과정을 다시 실행하면 됩니다

Unnamed: 0,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Torgersen,,,,,
4,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...
339,Biscoe,,,,,
340,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Biscoe,45.2,14.8,212.0,5200.0,Female


In [12]:
# 위의 문제는 inplace를 써도 마찬가지 입니다

df.drop("island",axis=1, inplace=True)

# 그러면 지금과 같은 문제를 해결하기 위해 변수명을 계속 변경하는 것 or 계속 copy를 해주면서 코딩을 하는 건 어떨까요?
## -> 만약 데이터셋 용량이 엄청 큰 경우 메모리에 너무 많은 데이터를 올리게 될 수 있습니다 (메모리 용량문제 발생 가능)
### -> 결론: 변수 이름은 프로그래밍 중에 신경써서 관리하도록 하자...

### 2-1. Pandas 더 친숙해지기

**실제 데이터 전처리 과정을 함께 따라해 봅시다**


* 코스닥 상장 기업들의 년도별 전환사채(CB)발행 기록이 담긴 3개의 CSV파일이 있습니다. 
* 데이터셋을 하나로 합치고, 데이터가 완전한지 확인해보겠습니다

In [13]:
# 우선 데이터셋을 불러오겠습니다
df2019 = pd.read_csv("전환사채권발행결정_코스닥_2019-01-01-2019-12-31.csv",index_col=0)
df2020 = pd.read_csv("전환사채권발행결정_코스닥_2020-01-01-2020-12-31.csv",index_col=0)
df2021 = pd.read_csv("전환사채권발행결정_코스닥_2021-01-01-2021-12-31.csv",index_col=0)

# 아, 그런데 만약 년도가 2000년부터 2020년까지 엄청 많으면 이렇게 코드를 복사하기 귀찮지 않을까요?
# -> CSV파일 이름이 유사한데 반복문으로 해결할 수 있지 않을까요?
for year in range(2019,2022):
    globals()["df"+str(year)] = pd.read_csv("전환사채권발행결정_코스닥_{}-01-01-{}-12-31.csv".format(year,year), index_col=0)

In [14]:
# 확인해 볼까요?
df2019

Unnamed: 0,회사명,기업공시코드,공시일,종류,총액(원),사채만기일,표면이자율(%),만기이자율(%),사채발행방법,공시코드
0,네오티스,85910,2019-12-27,무기명식 이권부 무보증 사모 전환사채,10000000000,2025년 01월 03일,0.0,1.0,사모,20191227000693
1,지나인제약,78650,2019-12-27,무기명식 이권부 무보증 사모 전환사채,8000000000,2025년 01월 03일,0.0,0.0,사모,20191227000514
2,화신테크,86250,2019-12-27,무기명식 이권부 무보증 사모 전환사채,20000000000,2023년 03월 17일,5.0,5.0,사모,20191227000010
3,테크엘,64520,2019-12-27,무기명 사모 일반 전환사채,5000000000,2024년 12월 26일,2.0,2.0,사모,20191227000006
4,티로보틱스,117730,2019-12-26,무기명식 무보증 사모 전환사채,10000000000,2022년 12월 27일,0.0,0.0,사모,20191226000394
...,...,...,...,...,...,...,...,...,...,...
455,리더스 기술투자,19570,2019-01-04,무기명식 이권부 무보증 사모 전환사채,5000000000,2022년 02월 25일,0,3,사모,20190104000906
456,리더스 기술투자,19570,2019-01-04,무기명식 이권부 무보증 사모 전환사채,6000000000,2022년 01월 10일,0,3,사모,20190104000898
457,장원테크,174880,2019-01-04,무기명식 이권부 무보증 사모 전환사채,20000000000,2022년 02월 27일,2.0,2.0,사모,20190104000871
458,엔에스엔,31860,2019-01-04,무기명식 무보증 이권부 사모 전환사채,3000000000,2022년 01월 18일,3,5,사모,20190104000863


In [15]:
# 2019,2020,2021데이터셋을 하나로 합칩시다! 시간순으로 합치면 되겠죠? 

all_df = pd.concat([df2021,pd.concat([df2020,df2019])])

all_df

Unnamed: 0,회사명,기업공시코드,공시일,종류,총액(원),사채만기일,표면이자율(%),만기이자율(%),사채발행방법,공시코드
0,아이톡시,52770,2021-12-30,무기명식 이권부 무보증 전환사채,1500000000,2051년 12월 31일,3.0,7.0,사모,20211230000994
1,노터스,278650,2021-12-27,무기명식 이권부 무보증 사모 전환사채,40000000000,2025년 01월 13일,0.0,1.0,사모,20211227000669
2,노터스,278650,2021-12-27,무기명식 이권부 무보증 사모 전환사채,54600000000,2025년 01월 13일,0.0,1.0,사모,20211227000668
3,옵트론텍,82210,2021-12-24,무기명식 이권부 무보증 사모 전환사채,1600000000,2024년 12월 30일,0.00,0.00,사모,20211224000603
4,이원컴포텍,88290,2021-12-21,무기명식 이권부 무보증 사모 전환사채,15000000000,2025년 01월 25일,2,5,사모,20211221000754
...,...,...,...,...,...,...,...,...,...,...
455,리더스 기술투자,19570,2019-01-04,무기명식 이권부 무보증 사모 전환사채,5000000000,2022년 02월 25일,0,3,사모,20190104000906
456,리더스 기술투자,19570,2019-01-04,무기명식 이권부 무보증 사모 전환사채,6000000000,2022년 01월 10일,0,3,사모,20190104000898
457,장원테크,174880,2019-01-04,무기명식 이권부 무보증 사모 전환사채,20000000000,2022년 02월 27일,2.0,2.0,사모,20190104000871
458,엔에스엔,31860,2019-01-04,무기명식 무보증 이권부 사모 전환사채,3000000000,2022년 01월 18일,3,5,사모,20190104000863


In [16]:
# 인덱스가 그대로 합쳐졌군요
all_df.reset_index(drop=True, inplace=True)

In [17]:
# 데이터를 하나로 합쳤습니다!! 본격적인 데이터셋 분석에 들어가기 전에, 데이터에 이상한 값이 들어있는지 확인해봐야 합니다

## 이 데이터는 제가(류제현) 직접 코드를 짜서 기업공시사이트(KIND)에서 크롤링한 데이터입니다. 따라서, 어떤 방식으로 데이터를 수집했는지에 대한 지식이 있습니다
## 데이터셋의 ["회사명","기업공시코드","공시일"] 컬럼에는 이상한 데이터가 들어있을 확률이 0입니다.
### 따라서 저에게 필요한 정보인 "총액(원)", "표면이자율(%)","만기이자율(%)"에 이상한 값이 있는 지 살펴보겠습니다

In [18]:
# 우선 "총액(원)" 컬럼을 살펴보겠습니다
## 만약에 이 컬럼에 이상한 값 (숫자가 아닌 문자, 소수 등)이 들어있다면 이 데이터 타입이 int형으로 안바뀌지 않을까요?
## -> 이 아이디어에 착안해서 총액(원)의 데이터타입을 int로 변환해 보겠습니다

# 숫자 중간에 쉼표가 있기 때문에 우선 제거해 줍니다
all_df["총액(원)"] = all_df["총액(원)"].str.replace(",","")

# 이제 int형으로 변형해줍니다
all_df["총액(원)"] = all_df["총액(원)"].astype("int64")
# 오 잘 바뀌네요! 그러면 여기엔 문자는 없고, 정수값만 있다는 뜻 입니다 (문자가 포함되어 있으면 에러메시지가 뜹니다. 궁금하면 직접확인!)

In [19]:
# 그러면 이제 총액(원)에 0원, 10원 등과 같은 말도 안되는 숫자가 있는 지 확인해 보겠습니다
all_df.loc[all_df["총액(원)"] <= 500000000]
# 최소 4억 이상이네요! 충분이 납득이 가는 숫자입니다! 총액 컬럼 확인을 이제 마치겠습니다

Unnamed: 0,회사명,기업공시코드,공시일,종류,총액(원),사채만기일,표면이자율(%),만기이자율(%),사채발행방법,공시코드
27,아이오케이,78860,2021-11-30,무기명식 무이권부 무보증사모 전환사채,500000000,2024.11.30,0.0,0.0,사모,20211130000600
853,세토피아,222810,2020-03-13,무기명식 이권부 무보증 사모 전환사채,500000000,2023년 03월 13일,3.0,4.0,사모,20200313001303
878,이엠앤아이,83470,2020-02-24,무기명식 이권부 무보증 사모 전환사채,500000000,2023년 02월 21일,0.0,3.0,사모,20200224000007
1014,큐렉소,60280,2019-09-24,무기명식 이권부 무보증 사모 전환사채,400000000,2022년 09월 30일,0.0,3.0,사모,20190924000124
1026,매직마이크로,127160,2019-09-11,무기명식 이권부무보증 사모 전환사채,500000000,2022년 09월 11일,0.0,4.0,사모,20190911000343
1198,미래SCI,28040,2019-05-08,무기명식 무보증 사모 전환사채,400000000,2022년 05월 08일,2.0,2.0,사모,20190508000549
1200,미래SCI,28040,2019-05-07,무기명식 무보증 사모 전환사채,500000000,2022년 05월 08일,2.0,2.0,사모,20190507000692


In [20]:
# 다음으로 표면이자울(%)를 확인해보겠습니다
## 소수로 표시되기 때문에, 우선 float로 변환해보겠습니다

all_df["표면이자율(%)"] = all_df["표면이자율(%)"].astype("float64")

ValueError: could not convert string to float: '-'

In [None]:
# 이런 오류가 떴네요! "could not convert string to float: '-'" string값이 있다는 뜻이네요.. 한번 살펴볼까요?

all_df.loc[all_df["표면이자율(%)"] == "-"]

In [None]:
# 표면이자율과 만기이자율 둘 중 하나는 없을 수 있지만, 둘 다 없는 건 이상하군요
## 저는 실제 데이터 처리과정에서 이런 값들을 직접 기업공시에 다 들어가서 확인하고, 수정하는 과정을 거쳤습니다. 여기선 생략하겠습니다
### 데이터분석 진행을 위해 여기선 '-'값에 0을 넣어주는 것을 대신하겠습니다

all_df["표면이자율(%)"] = all_df["표면이자율(%)"].str.replace("-","0")
all_df["만기이자율(%)"] = all_df["만기이자율(%)"].str.replace("-","0")

In [None]:
# 다시 float로 변환해볼까요?

all_df["표면이자율(%)"] = all_df["표면이자율(%)"].astype("float64")

In [None]:
# 아니 망할..... 0.0, 라는 게 있어서 쉼표때문에 변환이 안되는 군요... 쉼표와 공백을 없애줍시다
all_df["표면이자율(%)"] = all_df["표면이자율(%)"].str.replace(", ","")

In [None]:
# 다시 확인해봅시다

all_df["표면이자율(%)"] = all_df["표면이자율(%)"].astype("float64")
# 우와 드디어 성공했습니다!!

In [None]:
# 길고긴 전처리가 끝났습니다!!
all_df

### 2-2 판다스를 응용해보자

* 각 데이터별로 하나라도 NaN값이 있는 팽귄을 찾아봅시다

In [None]:
from seaborn import load_dataset

In [21]:
df = load_dataset('penguins')
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


In [22]:
# 우선 아이디어 있으면 내달라고 하기

# nan은 연산자는 먹히지 않는다
#df == np.nan

df.isna()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,True,True,True,True,True
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
339,False,False,True,True,True,True,True
340,False,False,False,False,False,False,False
341,False,False,False,False,False,False,False
342,False,False,False,False,False,False,False


In [23]:
# True는 1, False는 0인 성질을 사용

idx = df.isna().sum(axis=1) >=1 
# 이걸 인덱스로 주면 되겠다!!

In [24]:
df[idx]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,
11,Adelie,Torgersen,37.8,17.3,180.0,3700.0,
47,Adelie,Dream,37.5,18.9,179.0,2975.0,
246,Gentoo,Biscoe,44.5,14.3,216.0,4100.0,
286,Gentoo,Biscoe,46.2,14.4,214.0,4650.0,
324,Gentoo,Biscoe,47.3,13.8,216.0,4725.0,
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,


### 3. Decision Tree(결정나무)

* 가장 강력한 머신러닝 알고리즘 중 하나
* 지도학습에 사용
* 변수 스케일링이 필요없기 떄문에 매우 간편함
* 오버피팅에 취악하기 때문에, 적절한 하이퍼파라미터(사람이 직접 지정해주는 변수를 의미) 지정이 필수적

In [1]:
iris = load_dataset("iris")

print(iris.shape)
iris.head()

NameError: name 'load_dataset' is not defined

In [26]:
# train_test_split을 사용하지 않고, 직접 train_data와 test_data를 나눠보겠습니다

# seed를 고정하면 랜덤값이 항상 같게 나온다(보여주기)
np.random.seed(100)
random_idx = np.random.permutation(len(iris))

test_data = iris.iloc[random_idx[:10]]
train_data = iris.iloc[random_idx[10:]]

In [27]:
test_data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
128,6.4,2.8,5.6,2.1,virginica
11,4.8,3.4,1.6,0.2,setosa
118,7.7,2.6,6.9,2.3,virginica
15,5.7,4.4,1.5,0.4,setosa
123,6.3,2.7,4.9,1.8,virginica
135,7.7,3.0,6.1,2.3,virginica
32,5.2,4.1,1.5,0.1,setosa
1,4.9,3.0,1.4,0.2,setosa
116,6.5,3.0,5.5,1.8,virginica
45,4.8,3.0,1.4,0.3,setosa


In [28]:
train_data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
40,5.0,3.5,1.3,0.3,setosa
115,6.4,3.2,5.3,2.3,virginica
26,5.0,3.4,1.6,0.4,setosa
28,5.2,3.4,1.4,0.2,setosa
145,6.7,3.0,5.2,2.3,virginica
...,...,...,...,...,...
87,6.3,2.3,4.4,1.3,versicolor
103,6.3,2.9,5.6,1.8,virginica
67,5.8,2.7,4.1,1.0,versicolor
24,4.8,3.4,1.9,0.2,setosa


In [29]:
# Feature와 Label을 나눠줍니다
X_train, y_train = train_data.iloc[:, :3], train_data.iloc[:,4]
X_test, y_test = test_data.iloc[:, :3], test_data.iloc[:,4]

In [30]:
# Tree모델을 불러오겠습니다. 해결할 문제는 팽귄의 종을 구분하는 문제이고, 이 문제는 "분류"(Classification)에 해당합니다 
from sklearn.tree import DecisionTreeClassifier

tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)

DecisionTreeClassifier()

In [31]:
# 오버피팅(가지를 끝까지 치고 내려감)으로 훈련데이터에 대한 정확도가 하락한 것을 확인할 수 있습니다
tree_model.score(X_train,y_train)

1.0

In [32]:
# 오버피팅 된 모델의 훈련세트에 대한 정확도를 체크해볼까요?

tree_model.score(X_test,y_test)

0.9

In [33]:
tree_model.predict(X_test)

array(['virginica', 'setosa', 'virginica', 'setosa', 'versicolor',
       'virginica', 'setosa', 'setosa', 'virginica', 'setosa'],
      dtype=object)

In [34]:
y_test

128    virginica
11        setosa
118    virginica
15        setosa
123    virginica
135    virginica
32        setosa
1         setosa
116    virginica
45        setosa
Name: species, dtype: object