# 2주차 스터디 과제

Made by 35기 코딩부장 류제현

In [1]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt

### 예시) Real Dataset을 사용한 머신러닝(회귀)

* scikit-learn을 사용하겠습니다

In [2]:
# 사용할 tips 데이터셋을 불러오겠습니다. (식사 후 팁을 얼마나 지불하였는 지에 대한 정보가 담겨있습니다)
import seaborn as sns
tips_df = sns.load_dataset("tips") 

# 문제를 간단하게 하기 위해서 필요한 특성만 가져오겠습니다
tips_df = tips_df[["total_bill","tip","sex","smoker","size"]]

# 데이터셋이 어떻게 생겼는지 확인합니다
print("Tips df의 크기: ", tips_df.shape)
tips_df.head()

Tips df의 크기:  (244, 5)


Unnamed: 0,total_bill,tip,sex,smoker,size
0,16.99,1.01,Female,No,2
1,10.34,1.66,Male,No,3
2,21.01,3.5,Male,No,3
3,23.68,3.31,Male,No,2
4,24.59,3.61,Female,No,4


**식사금액(total_bill), 성별(sex),흡연여부(smoker),식사인원수(size)가 주어졌을 때, 팁(tip)을 얼마나 지불했는지 예측하는 머신러닝(선형회귀)알고리즘을 짜보겠습니다!**

In [3]:
# 데이터 전처리
## sex와 smoker는 영어이기 때문에 컴퓨터가 알아들을 수 있는 숫자로 변경해 줘야 합니다!
## 간단하게 남자는 0 여자는 1 / 비흡연자는 0 흡연자는 1로 바꾸겠습니다
### 원본 컬럼에 바꾼 정보를 덮어 씌우지 않고, 컬럼 이름을 약간 바꿔서 새로운 컬럼으로 만들어 주겠습니다
tips_df["sex_01"] = tips_df['sex'].replace({"Male":0, 'Female':1})
tips_df["smoker_01"] = tips_df["smoker"].replace({"No":0, "Yes":1})

# sex_01과 smoker_01이 잘 생성된 것을 확인할 수 있습니다
tips_df.head()

Unnamed: 0,total_bill,tip,sex,smoker,size,sex_01,smoker_01
0,16.99,1.01,Female,No,2,1,0
1,10.34,1.66,Male,No,3,0,0
2,21.01,3.5,Male,No,3,0,0
3,23.68,3.31,Male,No,2,0,0
4,24.59,3.61,Female,No,4,1,0


In [4]:
# 머신러닝 용어로 X(독립변수)는 피처(feature), y(정답 또는 종속변수)는 레이블(label)이라고 합니다
## 학습에 사용할 피쳐와 레이블을 분리해주겠습니다
X = tips_df[["total_bill","sex_01","smoker_01","size"]].values # values를 붙이면 데이터프레임을 넘파이 array 형태로 변환합니다
y = tips_df["tip"].values                                      #(넘파이 array로 변환하지 않고 데이터프레임을 그대로 사용해도 동일한 결과를 얻을 수 있습니다)

In [5]:
# 싸이킷런 사용
from sklearn.linear_model import LinearRegression

# 늘 하던 것 처럼 모델을 만들고 학습시켜줍니다
model = LinearRegression()
model.fit(X,y)

LinearRegression()

In [6]:
# 결과를 확인해봅시다
print("회귀계수(기울기): ", model.coef_, ", 절편: ", model.intercept_) 
print("모델의 R^2 : ", model.score(X,y))

회귀계수(기울기):  [ 0.09410594  0.02726342 -0.08371135  0.18028013] , 절편:  0.6952285962069387
모델의 R^2 :  0.46876606416389666


### 연습문제 1. 단순한 선형회귀를 넘어 규제항이 포함된 회귀를 해보자

    Ridge / Lasso / ElasticNet이 있습니다 (일반적인 선형회귀를 OLS라 부릅니다)

Lasso는 L1규제, Ridge는 L2규제, ElasticNet은 둘을 합친 규제가 들어간 선형회귀입니다

![image.png](Ridge_Lasso.PNG)


그림에서 볼 수 있듯, 일반적인 OLS의 비용함수(Cost Function, $\sum e_i^2$)에 규제항이 뒤에 더해진 것을 볼 수 있습니다. 

규제항에 붙은 알파($a$)로 규제의 정도를 조절합니다($a=0$ 이면 릿지나 라쏘는 일반 OLS와 동일합니다!)

In [7]:
# 연습문제 1-1) 알파를 1로 설정한 라쏘 회귀를 구현해 봅시다 / 이후 score(R^2)를 출력해 봅시다
## 예제에서 사용한 X,y를 사용합니다

# 연습문제 1-1코드
from sklearn.linear_model import Lasso
lasso = Lasso(alpha=1)



In [8]:
# 연습문제 1-2) l1_ratio를 1으로 설정한 엘라스틱넷 회귀를 구현해 봅시다/  이후 score(R^2)를 출력해 봅시다

# 연습문제 1-2 코드
from sklearn.linear_model import ElasticNet
elastic = ElasticNet(l1_ratio=1)



In [9]:
# 연습문제 1-3) 왜 1-1번의 회귀와 1-2의 회귀의 score가 같을까요???
## 답을 적어주시면 됩니다



### 연습문제 2. 데이터 분석

수업시간에 사용했던 "유상증자.csv" 파일을 사용합니다!!

In [3]:
df = pd.read_csv("유상증자.csv", index_col=0) 
# Colab을 사용하신다면 적절한 파일 경로를 지정해주세요

In [6]:
# 문제 2-1) 데이터프레임의 "공시일" 컬럼을 datetime 자료형으로 변환하고, 인덱스로 지정해주세요
## 이후, 여전히 데이터에 남아있는 "공시일" 컬럼을 제거해주세요



In [None]:
# 문제 2-2) 10월과 11월의 공시 개수를 각각 구해봅시다



In [None]:
# 문제 2-3) 데이터에서 가장 많이 등장한 회사의 이름과 등장 횟수를 구해주세요



In [None]:
# 문제 2-4) "보고서명" 컬럼에 "유상증자결정"이라는 단어가 들어가 있지 '않은' 데이터만 추출해주세요



In [None]:
# 문제 2-5) 회사명의 모든 회사 이름 앞에 "(주)"를 추가해봅시다 Ex) 이브이첨단소재 -> (주)이브이첨단소재
## 문자열도 더하기가 됩니다..!

