# **1. 캐글(Kaggle)**
* 구글에서 운영하는 전세계 AI개발자, 데이터 사이언티스트들이 데이터를 분석하고 토론할 수 있는 자료 등을 제공
* 데이터 분석 및 머신러닝, 딥러닝 대회를 개최
* 데이터셋, 파이썬 자료, R 자료 등을 제공
* [캐글](https://kaggle.com)

# **2. 데이콘(Dacon)**
* 국내 최초 AI 해커톤 플랫폼
* 전문 인력 채용과 학습을 할 수 있는 여러가지 AI자료 등을 제공
* [데이콘](https://dacon.io/)

# **3. AI허브**
* 한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼
* AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 제공
* [AI허브](https://www.aihub.or.kr/)

# **4. 타이타닉 데이터**
* https://bit.ly/fc-ml-titanic

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('https://bit.ly/fc-ml-titanic')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* PassengerId: 승객 아이디
* Survived: 생존 여부(0: 사망, 1: 생존)
* Pclass: 좌석 등급
* Name: 이름
* Sex: 성별
* Age: 나이
* SibSp: 형제, 자매, 배우자 수
* Parch: 부모, 자식 수
* Ticket: 티켓 번호
* Fare: 요금
* Cabin: 선실
* Embarked: 탑승 항구

# **5. 데이터 전처리**
* 데이터 정제 작업을 뜻함
* 필요없는 데이터를 삭제하고, null이 있는 행을 처리하고, 정규화/표준화 등의 많은 작업들을 포함
* 머신러닝, 딥러닝 실무에서 전처리가 차지하는 중요도는 50% 이상이라고 봄

### 5-1. 독립변수와 종속변수 나누기

In [None]:
# feature = ['Pclass', 'Sex', 'Age', 'Fare'] # 독립변수
# label = ['Survived'] # 종속변수
columns = ['Pclass', 'Sex', 'Age', 'Fare', 'Survived']

In [None]:
df[columns].head()

Unnamed: 0,Pclass,Sex,Age,Fare,Survived
0,3,male,22.0,7.25,0
1,1,female,38.0,71.2833,1
2,3,female,26.0,7.925,1
3,1,female,35.0,53.1,1
4,3,male,35.0,8.05,0


In [None]:
df['Survived'].head()

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64

In [None]:
df['Survived'].value_counts()

Survived
0    549
1    342
Name: count, dtype: int64

### 5-2. 결측치 처리

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# 누락된 값 즉 결측값의 개수를 계산하는 코드
# 물론 Cabin, Embarked는 사용하지 않으므로 상관은 없지만 Age의 경우 모델을 만드는데 사용하므로 결측치를 제거한다.
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
# 결측값 비율 계산
df.isnull().mean()

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

In [None]:
# Age의 결측치를 평균으로 대체
df['Age'] = df['Age'].fillna(df['Age'].mean())
df['Age']

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64

### 5-3. 라벨 인코딩(Label Encoding)
* 문자(Categorical)를 수치(Numerical)로 변환

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


성별 데이터를 잘 활용하기 위해서
성별이 문자형인데 숫자형으로 바꿔야 할 필요성이 있다.
male, female 2가지 경우 밖에 없기 때문에 1, 0으로 처리

탑승항구 데이터를 잘 활용하기 위해서
탑승항구 문자형인데 숫자형으로 바꿔야 할 필요성이 있다.
C, Q, S, nul 4가지 경우이기 때문에 라벨인코딩이 필요하다.

In [None]:
# 성별(Sex)의 수치화
df['Sex'].value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

In [None]:
# 남자는 1, 여자는 0으로 변환하는 함수
def convert_sex(data):
    if data == 'male':
        return 1
    elif data == 'female':
        return 0

In [None]:
# df['Sex'] = df['Sex'].apply(convert_sex) 코드는 데이터프레임 df의 'Sex' 열에 있는 각 요소에 대해
# convert_sex라는 사용자 정의 함수를 적용하여 변환한 후, 결과를 'Sex' 열에 다시 할당하는 과정을 나타냅니다.
df['Sex'] = df['Sex'].apply(convert_sex)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,S


LabelEncoder  사용하기

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()

In [None]:
df['Embarked'].value_counts() # null은 제거

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [None]:
# 해당 항구 이름을 각각 Encoding 하여 숫자로 변경
embarked = le.fit_transform(df['Embarked'])
embarked # null: 3
# C:0 / Q:1 / S :2 / null: 3

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 3, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

In [None]:
le.classes_ # array(['C', 'Q', 'S', nan]

array(['C', 'Q', 'S', nan], dtype=object)

### 5-4. 원 핫 인코딩(One Hot Encoding)
* 독립적인 데이터는 별도의 컬럼으로 분리하고 각각 컬럼에 해당 값에만 1, 나머지는 0의 값을 갖게 하는 방법


- 독립적인 데이터는 별도의  column으로 분리하고 각각  column에 해당하는 값에만 1, 나머지는 0값을 가지가 하는 방법이다
- 예) 머신러닝 알고리즘은 'C:0','Q:1','S:2','nan:3'데이터의 관계성을 찾아 'Q + Q = S'라고 학습할 수 있다.
- = 관계성을 끊어주기 위해 One Hot Encoding을 사용한다

In [None]:
#  'Embarked' 열을 라벨인코딩하여 새로운 열 'Embarked_num'에 저장
df['Embarked_num'] = LabelEncoder().fit_transform(df['Embarked'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Embarked_num
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,S,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,S,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,S,2


 'Embarked_num' 을 원-핫 인코딩한 데이터프레임을 생성

In [None]:
# Embarked_num의 각 행의 값들이 column에 있는 값과 일치하면 1이 되고 아니면 0이 된다.
#  get_dummies 함수를 사용하여 범주형 변수를 더미(dummy) 변수로 변환하는 과정을 나타냅니다.
pd.get_dummies(df['Embarked_num'])

Unnamed: 0,0,1,2,3
0,False,False,True,False
1,True,False,False,False
2,False,False,True,False
3,False,False,True,False
4,False,False,True,False
...,...,...,...,...
886,False,False,True,False
887,False,False,True,False
888,False,False,True,False
889,True,False,False,False


In [None]:
# 'Embarked' 열을 원-핫 인코딩
# : 기존 데이터 프레임에 새로운 열로 추가
# : 원래 열 'Embarked'------> 새로운 열 'Embarked_C', 'Embarked_Q', 'Embarked_S'
df = pd.get_dummies(df, columns=['Embarked'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked_num,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,2,False,False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,0,True,False,False
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,2,False,False,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,2,False,False,True
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,2,False,False,True


In [None]:
df = df[columns]
df

Unnamed: 0,Pclass,Sex,Age,Fare,Survived
0,3,1,22.000000,7.2500,0
1,1,0,38.000000,71.2833,1
2,3,0,26.000000,7.9250,1
3,1,0,35.000000,53.1000,1
4,3,1,35.000000,8.0500,0
...,...,...,...,...,...
886,2,1,27.000000,13.0000,0
887,1,0,19.000000,30.0000,1
888,3,0,29.699118,23.4500,0
889,1,1,26.000000,30.0000,1


In [None]:
df = pd.get_dummies(df, columns=['Pclass', 'Sex'])
df.head()

Unnamed: 0,Age,Fare,Survived,Pclass_1,Pclass_2,Pclass_3,Sex_0,Sex_1
0,22.0,7.25,0,False,False,True,False,True
1,38.0,71.2833,1,True,False,False,True,False
2,26.0,7.925,1,False,False,True,True,False
3,35.0,53.1,1,True,False,False,True,False
4,35.0,8.05,0,False,False,True,False,True


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df.drop('Survived', axis=1), df['Survived'], test_size=0.2, random_state=2024)

In [None]:
X_train.shape, X_test.shape

((712, 7), (179, 7))

In [None]:
y_train.shape, y_test.shape

((712,), (179,))

In [None]:
X_train

Unnamed: 0,Age,Fare,Pclass_1,Pclass_2,Pclass_3,Sex_0,Sex_1
618,4.000000,39.0000,False,True,False,True,False
434,50.000000,55.9000,True,False,False,False,True
803,0.420000,8.5167,False,False,True,False,True
218,32.000000,76.2917,True,False,False,True,False
509,26.000000,56.4958,False,False,True,False,True
...,...,...,...,...,...,...,...
539,22.000000,49.5000,True,False,False,True,False
640,20.000000,7.8542,False,False,True,False,True
608,22.000000,41.5792,False,True,False,True,False
506,33.000000,26.0000,False,True,False,True,False
