# CHAPTER 01. 파이썬 기반의 머신러닝과 생태계 이해

## 01. 머신러닝의 개념

데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

- 머신러닝을 활용하여 해결할 수 있는 문제점
    - 변화하는 외부 조건에 맞춰서 수시로 코드를 변경해줘야 함.
    - 데이터를 관통하는 일정한 패턴, 조건을 찾기 어려움.

- 학습법
    1. 지도학습
        - 정답이 있는 데이터를 학습. (데이터 라벨링)
        - ex. 이 사진은 고양이 사진, 이 사진은 강아지 사진
        - 라벨링을 사람이 해야되서 시간과 비용이 많이 든다.
    2. 비지도학습
        - 라벨링을 하지 않은 사진들을 군집화
        - ex. 고양이 사진, 강아지 사진을, 병아리 사진을 다리의 개수를 feature 로 찾아 다리 2개, 다리 4개인 동물의 사진들로 군집화
        - 지도학습에서의 feature 를 찾기위한 전처리과정으로 사용하기도 한다.
    3. 강화학습
        - 어떤 행동을 했을 때의 reward를 지정하여 학습. reward 가 최대인 행동을 하도록 한다.
        
## 03. 넘파이

데이터 핸들링에서 판다스보다 불편하지만 많은 알고리즘이 넘파이 기반으로 작성되어 있어 다른 데이터 핸들링 패키지(ex. pandas) 를 이해하는 기반을 다지기 좋다.

### ndarray




In [20]:
import numpy as np
arr = np.array([1, 2, 3])
print(type(arr))
print(arr.shape)

arr = np.array([[1],[2]])
print(type(arr))
print(arr.shape)

arr = np.array([[[1], [2]], [[3], [4]], [[5],[6]]])
print(type(arr))
print(arr.shape)
# shape : (x, y)  --> 원소 개수 y 개인 배열이 x 개 있는 배열.

<class 'numpy.ndarray'>
(3,)
<class 'numpy.ndarray'>
(2, 1)
<class 'numpy.ndarray'>
(3, 2, 1)


ndarray 안의 데이터 타입은 한 종류이다.

다른 타입의 데이터로 ndarray 를 만들면 크기가 가장 큰 데이터 타입으로 캐스팅된다.



In [22]:
arr = np.array([1, 2, 3.2])
print(arr, arr.dtype)

arr = np.array(['1','2'])
print(arr, arr.dtype)

arr = np.array(['1', 'abdc'])
print(arr, arr.dtype)

[1.  2.  3.2] float64
['1' '2'] <U1
['1' 'abdc'] <U4


asypte() method로 ndarray 내 데이터 타입을 변환 할 수 있다.

기존 데이터 타입보다 작은 데이터 타입으로 변환할 경우 데이터 손실이 일어날 수 있다. (ex. float -> int :: 소수점 이하 사라짐)


In [24]:
arr = np.array([1.5, 2.3])
print(arr, arr.dtype)

arr = arr.astype('int32')
print(arr, arr.dtype)

arr = arr.astype('float64')
print(arr, arr.dtype)
# .5 .3 사라짐

[1.5 2.3] float64
[1 2] int32
[1. 2.] float64


method arange, zeros, ones 로 초기화 가능


In [26]:
arr = np.arange(10)
# 파라미터: 범위 start, stop 지정 가능
print(arr, arr.dtype)

arr = np.zeros((3, 2)) 
# 파라미터: 만들 ndarray 의 shape 과 dtype(default = float64)
print(arr, arr.dtype)

arr = np.ones((3,2))
# 파라미터: 만들 ndarray 의 shape, dtype (default = float64)
print(arr, arr.dtype)



[0 1 2 3 4 5 6 7 8 9] int64
[[0. 0.]
 [0. 0.]
 [0. 0.]] float64
[[1. 1.]
 [1. 1.]
 [1. 1.]] float64


reshape() method 로 ndarray shape 바꾸기 가능 (변경 불가능 하면 오류)

-1 하면 변환 가능한 모양으로 찾아서 변환해준다.

tolist() 를 사용하면 ndarray 를 list 로 변환 해주는데 

print 함수가 list 출력하는게 사람이 보기 편하다. (ndarray는 행 마다 라인피드)


In [28]:
arr = np.arange(10)
print(arr)

print(arr.reshape(2,5))
print(arr.reshape(2,5).tolist())
print(arr.reshape(-1,5).tolist())

print(arr.reshape(5,2).tolist())
print(arr.reshape(5,-1).tolist())

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]
[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]
[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]


### 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)

- []연산자로 ndarray 에서 random access 가능 (read, write)
- 2차원 ndarray의 경우 \[row, col\] 으로 접근 가능 (n 차원도 비슷)
- \[start: stop\] 으로 start ~ stop - 1 인덱스의 데이터를 슬라이싱 가능(새로운 ndarray 결과로 나옴)
- fancy indexing : index 집합으로 좀 더 원하는 구역을 세분화해서 추출 가능
- boolean indexing : \[조건식\] -> 조건식 만족하는 데이터 추출 가능


### 행렬의 정렬 - sort()와 argsort()

- np.sort(원본) -> 원본 그대로 두고 정렬 결과 행렬 새롭게 반환
- 원본.sort() -> 원본 행렬을 정렬함.(sort() 호출한 행렬 직접적으로 바꿈)
- sort() - 기본적으로 오름차순(내림차순으로 하려면 sort()[::-1])
- sort(arr, axis) - axis parameter 로 정렬방향 정하기 가능
- np.argsort() - 정렬했을 때의 인덱스를 나타냄


### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

- np.dot() - 내적
- np.transepose() - 전치행렬 (행, 열 바꾼 행렬)


## 04. 데이터 핸들링 - 판다스



In [29]:
import pandas as pd
titanic_df = pd.read_csv("../data/titanic_train.csv")
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [30]:
titanic_df.shape #891 rows, 12 cols

(891, 12)

In [31]:
titanic_df.info() # 칼럼, non null, 데이터 타입

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [32]:
titanic_df.describe() # 데이터 분포

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- value_counts() - 데이터 값 개수 (series)
- \[col\] - 해당 column  series


### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

- pd.DataFrame(list or ndarray, col_names) - list 와 ndarray 로 dataframe 만들기 가능
- pd.DataFrame(dict) - dict의 key = col_name, value = data 로 매핑해서 dataframe 만듦
- df.values - ndarray 리턴
- 위에서 얻은 ndarray 의 tolist() 메서드로 list 로 변환 가능


### DataFrame의 칼럼 데이터 세트 생성과 수정

- [] 로 시리즈 접근 -> 시리즈에 연산으로 데이터 값 각각에 연산 가능



### DataFrame 데이터 삭제

- df.drop(label, axis, inplace)
    - label: 삭제할 인덱스 또는 칼럼의 값
    - axis: 대상이 행인지 열인지
    - inplace: true 면 원본 데이터프레임이 변형됨(default: false)


### Index 객체

- RangeIndex 
- [] 로 접근, 슬라이싱 가능 (한번 만들어진 dataframe 의 인덱스는 readonly)
- df 또는 series 에서 reset_index() 수행하면 인덱스 0 부터 1씩 증가하는 수열로 다시 만들고 기존 인덱스는 칼럼명 index 로 칼럼에 추가함



### 데이터 셀렉션 및 필터링

- DataFrame[] 은 칼럼 지정하는 용으로 일단 생각
- ix\[row, col\] 으로 데이터 추출 가능 (deprecated), loc 과 iloc 으로 세분화 되었음
    -loc[] - 칼럼 이름 으로 접근
    -iloc[] - 칼럼 위치(index) 로 접근
- 데이터프레임의 인덱스가 Integer 이면 ix[] 에서 행에 접근시 값으로 접근함
- 데이터프레임의 인덱스값은 명칭 기반 인덱싱으로 간주 (ix 는 혼용해서 헷갈리니까 loc, iloc 을 쓰자)
- loc 슬라이싱 은 스톱 포함, iloc 은 스탑 -1 까지
- 데이터 프레임도 [] 안에 조건식으로  조건식을 만족하는 데이터 프레임 추출 가능


### 정렬, Aggregation 함수, GroupBy 적용

- sort_values() - 파라미터 칼럼 으로 정렬
- aggregation functions - dataframe 의 모든 칼럼에 적용
- groupby() - 파라미터 칼럼 값들로 groupby (반환 객체 : DataFrameGroupBy)
    - 리턴 객체에 agg() 적용 가능 (sql 에서의 max, mean, sum ...)


### 결손 데이터 처리하기

- nan 은 머신러닝 알고리즘에서 처리되지 않으므로 다른 값으로 대체해줘야 함
    - isna() 로 nan 찾기가능
    - fillna() 로 다른 값으로 채우기 가능


### apply lambda 식으로 데이터 가공

- 람다식으로 데이터 처리가능
    - if, else 만 지원 (리턴 값 순서에 유의)
- 람다식으로 else if 를 사용 할 수 없으므로 경우의 수가 많은 경우 별도의 함수를 만드는 게 낫다

