# Chapter 1. 파이썬 기반의 머신러닝과 생태계 이해 

# 1. 머신러닝의 개념

- 머신러닝은 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭합니다.

> 지도학습
> - 분류
> - 회귀
> - 추천 시스템
> - 시각/음성 감지/인지
> - 텍스트 분석, NLP

> 비지도학습
> - 클러스터링
> - 차원 축소
> - 강화학습


머신러닝의 가장 큰 단점은 데이터에 매우 **의존적**이라는 것입니다. 가비지 인(Garbage In), 가비지 아웃(Garbage out), 즉 좋은 품질의 데이터를 갖추지 못한다면 머신러닝의 수행 결과도 좋을 수 없습니다.

파이썬의 장점: 쉽고 뛰어난 개발 생산성, 많은 라이브러리, 속도는 느리지만 확장성, 유연성, 호환성이 좋습니다.

# 2. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

>- 머신러닝:Scikit-Learn
>- 행렬/선형대수/통계:Numpy, Scipy
>- 데이터 핸들링:Pandas
>- 시각화:Matplotlib, Seaborn
>- 이외에 여러 가지 서드파티 라이브러리(plug in, library를 만드는 회사), Jupyter notebook 등이 있습니다.

머신러닝을 가장 빠르게 익히는 방법의 하나는 **다른 사람이 만든 소스 코드를 이해하고 그것을 자기 것으로 흡수하기 위해 많은 코드를 스스로 만들어 보는 것**입니다.

# 3. 넘파이
Numerical Python(Numpy)

루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠른 배열 연산 속도를 보장합니다.
C/C++과 같은 저수준 언어 기반의 호환 API를 제공합니다.

In [1]:
import numpy as np

# 1차원 데이터 3개
array1 = np.array([1, 2, 3])
print(array1.shape)

# 2차원 데이터 1개의 row, 3개의 column
array2 = np.array([[1, 2, 3]])
print(array2.shape)

(3,)
(1, 3)


ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능합니다.

한 개의 ndarray 객체에 int와 float가 함께 있을 수 없습니다. ([2, 3.5] 불가능, dtype으로 확인가능)

만약 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용합니다.(int+string -> string, int+float -> float)

메모리 절약을 위하여 astype을 사용합니다. (float -> int)
머신러닝은 대부분 메모리를 데이터를 전체 로딩한 다음 이를 기반으로 알고리즘을 적용하기 때문에 대용량의 데이터를 로딩할 때는 수행속도가 느려지거나 메모리 부족으로 오류가 발생할 수 있다.

In [2]:
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')

print(array_int)
print(array_float)

[1 2 3]
[1. 2. 3.]


In [3]:
# python range()와 비슷한 역할
sequence_array = np.arange(10)
print(sequence_array)

# 0과 1로 가득 채우기
# 원하는 shape과 data type 입력, dtype이 없는 경우 float64
zero_array = np.zeros((3, 2), dtype='float32')
one_array = np.ones((3, 2), dtype='float32')
print(zero_array)
print(one_array)

[0 1 2 3 4 5 6 7 8 9]
[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [4]:
# reshape
array1 = sequence_array.reshape(2,5) # (2,5)
array2 = sequence_array.reshape(5,2) # (5,2)
array3 = sequence_array.reshape(-1,2) # 자동으로 변환

print(array1)
print(array2)
print(array3)
print(array3.tolist()) # list로 변환해 출력

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]


axis 0이 row 방향 축, axis 1이 column 방향 축임을 이해하는 것이 중요합니다.
row 방향이라는 것이 row0, row1, row2 이런식으로 증가하는 방향을 의미합니다.

<img src="attachment:c6d051e3-eae6-4057-aa33-2ef326318bdb.png" width='60%'>


In [5]:
# Fancy Indexing
array1d = np.arange(1, 10)
array2d = array1d.reshape(3,3)

print(array2d)
print()

print(array2d[[0,1],2])
print()

print(array2d[[0,1],0:2]) # (0, 0) (0, 1) (1, 1) (1, 2)
print()

print(array2d[[0,1]]) # (0, :) (1, :)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[3 6]

[[1 2]
 [4 5]]

[[1 2 3]
 [4 5 6]]


In [6]:
# Boolean Indexing
# []내에 조건문을 그대로 기재
print(array1d[array1d>5])

[6 7 8 9]


In [7]:
# Sort
org_array = np.array([3,2,7,5])
npsort = np.sort(org_array)

print("np sort return array:", npsort) # 정렬된 값 반환
print("org_array after np sort:", org_array) # 원본 유지

orgsort = org_array.sort()

print("orgsort return array:", orgsort) # 반환 x
print("org_array after orgsort:", org_array) # 원본 정렬

np sort return array: [2 3 5 7]
org_array after np sort: [3 2 7 5]
orgsort return array: None
org_array after orgsort: [2 3 5 7]


In [8]:
org_array = np.array([[8, 23],
                      [21, 4]])

print("row 방향:\n", np.sort(org_array, axis=0))
print("column 방향:\n", np.sort(org_array, axis=1))

row 방향:
 [[ 8  4]
 [21 23]]
column 방향:
 [[ 8 23]
 [ 4 21]]


# 4. 데이터 핸들링-판다스

데이터 세트는 2차원 데이터(Row x Column)으로 구성되어있습니다.
판다스는 많은 부분이 넘파이 기반으로 작성됐는데, 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해줍니다.

판다스의 핵심 객체는 DataFrame입니다. DataFrame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체입니다.

In [26]:
import pandas as pd
titanic_df = pd.read_csv(r'./dataset/titanic/train.csv')
print(type(titanic_df))
print("DataFrame 크기: ", titanic_df.shape)
titanic_df.head(3)

<class 'pandas.core.frame.DataFrame'>
DataFrame 크기:  (891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [10]:
titanic_df.info() # object는 문자열로 생각

titanic_df.describe() # 숫자만 분석

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [11]:
# Pclass 분석
value_count = titanic_df['Pclass'].value_counts()
print(type(value_count))
print(value_count)
titanic_df['Pclass'].head() # 왼쪽이 index, 오른쪽이 value

<class 'pandas.core.series.Series'>
Pclass
3    491
1    216
2    184
Name: count, dtype: int64


0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [12]:
# numpy -> pandas
col_name = ['col1', 'col2', 'col3']
array1 = np.array([[1,2,3],[11,22,33]])
print("array shape:", array1.shape)

df_list = pd.DataFrame(array1, columns=col_name)
print("narry -> pandas:\n", df_list)

array shape: (2, 3)
narry -> pandas:
    col1  col2  col3
0     1     2     3
1    11    22    33


In [13]:
# key:column, value:data
dict = {'col1':[1,11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print("dict -> pandas:\n", df_dict)

dict -> pandas:
    col1  col2  col3
0     1     2     3
1    11    22    33


In [14]:
# pandas -> numpy, list, dict
array1 = df_dict.values
print("pandas -> numpy:\n", array1)

array2 = df_dict.values.tolist()
print("pandas -> list:\n", array2)

array3 = df_dict.to_dict()
print("pandas -> dict:\n", array3)

pandas -> numpy:
 [[ 1  2  3]
 [11 22 33]]
pandas -> list:
 [[1, 2, 3], [11, 22, 33]]
pandas -> dict:
 {'col1': {0: 1, 1: 11}, 'col2': {0: 2, 1: 22}, 'col3': {0: 3, 1: 33}}


### df.drop의 주요 파라미터 3가지 - axis, inplace, labels

axis=0 row축 방향으로 드롭을 수행하므로 특정 row(index)를 drop하겠다는 의미입니다.
axis=1 column축 방향으로 드롭을 수행하므로 특정 column(feature)을 drop하겠다는 의미입니다.

inplace=False이면 자기 자신의 DF의 데이터는 샂게하지 않으며, 삭제된 결과 DF를 반환합니다.
inplcae=True로 설정하면 자신의 DF의 데이터를 삭제합니다. (inplace=True 설정시, 반환값은 None)

Index DF, Series의 레코드를 고유하게 식별하는 객체입니다. (변경x)

DF에서의 '[]'안에 들어갈 수 있는 것은 칼럼 명 문자 또는 인덱스로 변환 가능한 표현식입니다.
즉, 숫자가 아닌 칼럼의 실제 이름이 들어가야 한다는 것 입니다.

In [15]:
titanic_df[['Survived', 'Pclass']]

Unnamed: 0,Survived,Pclass
0,0,3
1,1,1
2,1,3
3,1,1
4,0,3
...,...,...
886,0,2
887,1,1
888,0,3
889,1,1


In [16]:
titanic_df[0:2] # slicing 가능

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [17]:
titanic_df[titanic_df['Pclass']==3].head(3) # boolean 가능

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [18]:
# ix는 사라졌다! loc와 iloc 이용
print("column 명칭(label) 기반 indexing", titanic_df.loc[0, 'Pclass'])
print("column 위치(position) 기반 indexing", titanic_df.iloc[0,2])
print("Slicing은 끝까지 포함!\n", titanic_df.loc[0, 'Pclass':'Age'])

column 명칭(label) 기반 indexing 3
column 위치(position) 기반 indexing 3
Slicing은 끝까지 포함!
 Pclass                          3
Name      Braund, Mr. Owen Harris
Sex                          male
Age                          22.0
Name: 0, dtype: object


In [19]:
# boolean도 가능
print(titanic_df[titanic_df['Age'] > 60].head(5))
print()
print("여러 개의 조건들도 가능")
print(titanic_df[titanic_df['Age']>60][['Name', 'Age']].head(3))
print()
print(titanic_df.loc[titanic_df['Age'] > 60, ['Name', 'Age']].head(3))

     PassengerId  Survived  Pclass                            Name   Sex  \
33            34         0       2           Wheadon, Mr. Edward H  male   
54            55         0       1  Ostby, Mr. Engelhart Cornelius  male   
96            97         0       1       Goldschmidt, Mr. George B  male   
116          117         0       3            Connors, Mr. Patrick  male   
170          171         0       1       Van der hoef, Mr. Wyckoff  male   

      Age  SibSp  Parch      Ticket     Fare Cabin Embarked  
33   66.0      0      0  C.A. 24579  10.5000   NaN        S  
54   65.0      0      1      113509  61.9792   B30        C  
96   71.0      0      0    PC 17754  34.6542    A5        C  
116  70.5      0      0      370369   7.7500   NaN        Q  
170  61.0      0      0      111240  33.5000   B19        S  

여러 개의 조건들도 가능
                              Name   Age
33           Wheadon, Mr. Edward H  66.0
54  Ostby, Mr. Engelhart Cornelius  65.0
96       Goldschmidt, Mr. George 

In [20]:
# 여러 조건들 가능
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex']=='female'

titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


### df.sort_values()의 주요 파라미터 3가지 - by, ascending, inplace

by 특정 칼럼 입력시, 해당 칼럼으로 정렬을 수행합니다.

ascending=True 이름에서 알 수 있듯이 오름차순 정렬을 합니다. (False는 내림차순)

inplace=False 그대로 유지되며 정렬된 DF 결과를 반환합니다. (True시 정렬 결과를 그대로 사용)

In [21]:
# by
titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False).head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


In [22]:
# NaN인 결손 데이터 처리하기
print(titanic_df.isna().head(3)) # NaN인지 확인
print(titanic_df.isna().sum())

# fillna를 이용해 반환값을 다시 받거나 inplace=True로 설정해야 실제 데이터 값이 변경됨
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000') # NaN인 값을 C000으로 대체
titanic_df.head(3)

   PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0        False     False   False  False  False  False  False  False   False   
1        False     False   False  False  False  False  False  False   False   
2        False     False   False  False  False  False  False  False   False   

    Fare  Cabin  Embarked  
0  False   True     False  
1  False  False     False  
2  False   True     False  
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


In [23]:
# lambda 함수
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [24]:
# lambda 사용시 반환 값이 앞에 나와야 한다!
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,,Adult
6,54.0,Adult
7,2.0,Child


In [25]:
# 함수도 이용 가능
def get_category(age):
    cat = ''
    if age <= 5:
        cat = 'Baby'
    elif age <= 15:
        cat = 'Child'
    elif age <= 60:
        cat = 'Adult'
    else:
        cat = 'Elderly'

    return cat

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age', 'Age_cat']].head(8)

Unnamed: 0,Age,Age_cat
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,,Elderly
6,54.0,Adult
7,2.0,Baby
