***CH01. 파이썬 기반의 머신러닝과 생태계 이해***


# **01.머신러닝의 개념**

- 머신러닝의 개념 : 일반적으로는 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭합니다.

EX) 스팸메일분류 : 단순히 특정 단어가 메일 내용에 포함되어있다고 이를 스팸메일로 분류할 수는 없습니다. 언어란 문맥에 의해 판단해야 하므로 인간의 언어에서 이러한 패턴을 규정하기란 매우 어렵다

위 문제를 해결 <- 머신러닝은 이러한 문제를 데이터 기반으로 숨겨진 패턴을 인지해 해결 (통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위해 다양한 수학적 기법을 적용)

**머신러닝의 분류**
1. 지도학습
* *분류* 
* *회귀*
* 추천 시스템 
* 시각/음성 감지/인지
* 텍스트 분석 NLP

2. 비지도 학습
* 클러스터링
* 차원축소
* 강화학습

3. 강화학습


**머신러닝의 단점**
- 데이터에 매우 의존적, 즉 가비지 인(Garbage In), 가비지 아웃(Garbage Out), 즉 좋은 품질의 데이터를 갖추지 못한다면 머신러닝의 수행 결과도 좋을 수 없습니다.
- 머신러닝을 이용해 데이터만 집어넣으면 자동으로 최적화된 결과를 도출할 거라는 믿음은 환상 <- 이 말은, 즉 데이터가 기본 베이스!

# ***02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지***
* 머신러닝 패키지 : 사이킷런 Scikit-Learn(머신러닝의 가장 대표적인 패키지), 그 외 딥러닝의 뛰어난 활약으로 텐서플로, 케라스 등


```
# from Scikit.learn_selection import train_test_split
```



* 행렬/선형대수/통계 패키지 : 넘파이 Numpy


```
# import numpy
```



* 데이터 핸들링 : 판다스 Pandas (일반적인 데이터 처리) > 넘파이 Numpy (행렬 기반의 데이터 처리 특화)

```
# import pandas
```

* 시각화 : 맷플롯립 Matplotlib (코드가 길어져서) 이를 보완 -> 시본 Seaborn

```
# import matplotlib.pyplot
```
```
# import seaborn
```

# ***03. 넘파이 Numpy***

In [None]:
import numpy as np

- 넘파이의 기반 데이터 타입은 ndarray입니다.
- ndarray를 이용해 넘파이에서 다차원(Multi-dimension) 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있다.

- np.array() 사용

In [None]:
array1 = np.array([1,2,3])
print('array1 type :',type(array1))
print('array1 array 형태 :',array1.shape)
print(array1)

array1 type : <class 'numpy.ndarray'>
array1 array 형태 : (3,)
[1 2 3]


In [None]:
array2 = np.array([[1,2,3],[2,3,4]])
print('array2 type :',type(array2))
print('array2 array 형태 :',array2.shape)
print(array2)

array2 type : <class 'numpy.ndarray'>
array2 array 형태 : (2, 3)
[[1 2 3]
 [2 3 4]]


In [None]:
array3 = np.array([[1,2,3]])
print('array3 type :',type(array3))
print('array3 array 형태 :',array3.shape)
print(array3)

array3 type : <class 'numpy.ndarray'>
array3 array 형태 : (1, 3)
[[1 2 3]]


차원(dimension)의 줄임말 dim

- 각 array의 차원을 ndarray.ndim을 이용해 차원 수 확인

In [None]:
print('array1 : {:0}차원, array2 : {:1}차원, array3 : {:2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1 : 1차원, array2 : 2차원, array3 :  2차원


In [None]:
list1 = [1, 2, 3]
list1
print(type(list1))
array1 = np.array(list1)
array1
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [None]:
list2 = [1,2,'test']
list2
array2 = np.array(list2)
array2
print(array2.dtype) # 데이터 타입이 더 큰 데이터 타입으로 변환 따라서 int형이 유니 코드 문자열 값으로 변환 <U21
list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3.dtype)

<U21
float64


- ndarray 내 데이터값의 타입 변경도 astype() 메서드를 통해 변경 가능
- 왜 변경 하는지? : 머신러닝은 메모리 부족으로 수행이 느려지거나 오류 발생
- 따라서 데이터 타입을 float -> int 형으로 변환하여 메모리를 절약

In [None]:
array_int = np.array([1,2,3])
print(array_int.dtype)
array_float = array_int.astype('float')
print(array_float.dtype)

array_int1 = array_float.astype('int')
print(array_int1.dtype)

array_float1 = np.array([1.1,2.1,3.1])
print(array_float1,array_float1.dtype)
array_int2 = array_float1.astype('int')
print(array_int2,array_int2.dtype)

int64
float64
int64
[1.1 2.1 3.1] float64
[1 2 3] int64


- ndarray를 편리하게 생성하기 - arange, zeros, ones

In [None]:
# np.arange()
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype,sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [None]:
# np.zeros()
zero_array = np.zeros((3,2),dtype ='int32') # 튜플 형태로 값을 입력 / dtype을 정해주지 않으면 default값으로 float64 형의 데이터로 채워짐
print(zero_array)
print(zero_array.dtype,zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [None]:
# np.ones()
one_array = np.ones((3,2)) # np.zeros와 동일 dtype을 정해주지 않았기에 float형태로 채워졌다.
print(one_array)
print(one_array.dtype,one_array.shape)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


 - ndarray의 차원과 크기를 변경하는 reshape()

In [None]:
array1 = np.arange(10)
print('array1 :',array1)

array1 : [0 1 2 3 4 5 6 7 8 9]


In [None]:
array2 = array1.reshape(2,5)
print('array2 :\n',array2)

array2 :
 [[0 1 2 3 4]
 [5 6 7 8 9]]


In [None]:
array3 = array1.reshape(5,2)
print('array3 :\n',array3)

array3 :
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- reshape()에 -1값을 인자로 적용한 경우
- -1을 적용하면 ndarray와 호환되는 새로운 shape로 변환

In [None]:
array1 = np.arange(10)
array1
array2 = array1.reshape(-1,5) # -1의 의미 : 고정된 5개의 컬럼에 맞게 로우를 자동 변환
print(array2)

[[0 1 2 3 4]
 [5 6 7 8 9]]


- -1 인자는 reshape(-1,1)와 같은 형태로 자주 사용된다. 무조건 2차원이고, 여러개의 넘파이 ndarray는 stack이나 concatㅇ로 결합할때 각각의 ndarray형태를 통일해 유용하게 사용됩니다.

- 다음 예제는 reshape(-1,1)을 이용해 3차원을 2차원으로, 1차원을 2차원으로 변경합니다. (adarray는 tolist() 메서드를 통해서 리스트 자료형으로 변환할 수 있다)

In [None]:
array1 = np.arange(8)
print(array1,array1.shape)
array1_3d = array1.reshape((2,2,2)) # reshape()메서드를 통해 3차원으로 변경
print(array1_3d)
print(array1_3d.shape)
array1_list = array1_3d.tolist() # 리스트 자료형으로 변환
print(array1_list)

[0 1 2 3 4 5 6 7] (8,)
[[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
(2, 2, 2)
[[[0, 1], [2, 3]], [[4, 5], [6, 7]]]


In [None]:
array5 = array1_3d.reshape(-1,1)
print(array5,array5.shape)
array5_list = array5.tolist()
print(array5_list)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]] (8, 1)
[[0], [1], [2], [3], [4], [5], [6], [7]]


In [None]:
array6 = array1.reshape(-1,1)
print(array6,array6.shape)
array6_list = array6.tolist()
print(array6_list)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]] (8, 1)
[[0], [1], [2], [3], [4], [5], [6], [7]]


넘파이의 adarray의 데이터 세트 선택하기 - 인덱싱(indexing)
1. 특정한 데이터만 추출
2. 슬라이싱
3. 팬시 인덱싱(Fancy Indexing)
4. 불린 인덱싱(Bloolean Indexing)

**1. 특정한 데이터만 추출**

In [None]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1,stop=10)
print(array1, array1.shape)
# index는 0부터 시작하므로 array1[2]는 세번째 index 위치의 데이터값을 의미
print('array1[2] 값:',array1[2])
print(type(array1[2]))

[1 2 3 4 5 6 7 8 9] (9,)
array1[2] 값: 3
<class 'numpy.int64'>


- 인덱스를 이용해 수정도 가능하다.

In [None]:
array1[0] = 9
array1[8] = 0
print(array1)

[9 2 3 4 5 6 7 8 0]


In [None]:
array1d = np.arange(start=1,stop=10)
array1d
array2d = array1d.reshape(-1,3)
print(array2d)

print('(row=0,col=0 index 가리키는 값 :',array2d[0][0])
print('(row=0,col=1 index 가리키는 값 :',array2d[0][1])
print('(row=1,col=0 index 가리키는 값 :',array2d[1,0])
print('(row=2,col=2 index 가리키는 값 :',array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0 index 가리키는 값 : 1
(row=0,col=1 index 가리키는 값 : 2
(row=1,col=0 index 가리키는 값 : 4
(row=2,col=2 index 가리키는 값 : 9


**2. 슬라이싱**

In [None]:
array1 = np.arange(start=1, stop=10)
array1
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [None]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('array2d[0:2][0:2] :\n',array2d[0:2,0:2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2][0:2] :
 [[1 2]
 [4 5]]


**3. 팬시 인덱싱**
- 팬시 인덱싱은 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식

In [None]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

# 팬시 인덱싱
print(array2d[[0,1],2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[3 6]


**4. 불린 인덱싱**
- 불린 인덱싱은 조건 필터링과 검색을 동시에 할 수 있기에 자주 사용됨


In [None]:
array1d = np.arange(start=1, stop=10)
array1d
array3 = array1d[array1d>5] # array1d > 5 인 조건
print(array3)
print(array1d>5)

[6 7 8 9]
[False False False False False  True  True  True  True]


In [None]:
# 또 다른 예시
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
boolean_indexes
array3 = array1d[boolean_indexes]
print(array3)

indexes = np.array([5,6,7,8])
# print(array1d)
print(array1d[indexes])

[6 7 8 9]
[6 7 8 9]


**- 행렬의 정렬 - sort()와 argsort()**

sort

- 넘파이의 행렬 정렬은 np.sort()와 같이 넘파이에서 sort()를 호출하는 방식과 ndarray.sort()와 같이 행렬에서 sort()를 호출하는 방식이 있다.
- 두 방식의 차이 : np.sort의 경우 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환하며, ndarray.sort()의 경우 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None

In [None]:
#np.array()
org_array = np.array([3,1,9,5])
sort_array1 = np.sort(org_array)
print('원본 행렬 :',org_array) # 원본 행렬은 그대로
print('정렬 행렬 :',sort_array1) # 정렬된 행렬 반환

원본 행렬 : [3 1 9 5]
정렬 행렬 : [1 3 5 9]


In [None]:
# ndarray.sort()
org_array = np.array([3,1,9,5])
sort_array1 = org_array.sort()
print('원본 행렬 :',org_array) # 원본 행렬이 정렬
print('정렬 행렬 :',sort_array1) # None 값 반환

원본 행렬 : [1 3 5 9]
정렬 행렬 : None


- 내림차순으로 정렬하기
- 기본 np.sort() , ndarray.sort() 는 오름차순 정렬

In [None]:
sort_array_desc = np.sort(org_array)[::-1] # np.sort()[::-1] 형태
print(sort_array_desc)

[9 5 3 1]


In [None]:
array2d = np.array([[8,12],[7,1]])
print(array2d)
print("\n")
# 로우 방향으로 정렬
sort_array2d_axis0 = np.sort(array2d,axis=0)
print(sort_array2d_axis0)

[[ 8 12]
 [ 7  1]]


[[ 7  1]
 [ 8 12]]


In [None]:
#컬럼 방향으로 정렬
sort_array2d_axis1 = np.sort(array2d,axis=1)
print(sort_array2d_axis1)

[[ 8 12]
 [ 1  7]]


argsort

- 원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때 사용
- 즉 원소의 값이 아닌 인덱스 번호가 필요할 때(sort는 원소의 값/ argsort는 원소의 인덱스 번호)


In [None]:
org_array = np.array([3,1,9,5])

sort_indices = np.argsort(org_array) #내림차순도 마찬가지 np.argsort(org_array)[::-1] -> [2,3,0,1]
print(sort_indices)

[1 0 3 2]


In [None]:
# 예시 - 성적 오름차순으로 이름 출력
import numpy as np
name_array = np.array(['John','Mike','Sarch'])
score_array = np.array([78,95,84])
sort_indices = np.argsort(score_array)
print(sort_indices)
print(name_array[sort_indices])

[0 2 1]
['John' 'Sarch' 'Mike']


**선형대수 연산 - 행렬 내적과 전치 행렬 구하기**

- 내적 행렬 : 두 행렬의 곱

In [None]:
# 행렬 내적 - np.dot() 메서드 사용
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[7,8],[9,10],[11,12]])
dot_product = np.dot(A,B)
print(dot_product)

[[ 58  64]
 [139 154]]


- 전치 행렬 : 행과 열 위치를 교환한 원소로 구성한 행렬 

In [None]:
# 전치 행렬 - np.transpose() 메서드 사용
A
transpose_product = np.transpose(A)
print(transpose_product)

[[1 4]
 [2 5]
 [3 6]]


# ***04. 데이터 핸들링 - 판다스 Pandas***

In [None]:
import pandas as pd

In [None]:
titanic_df = pd.read_csv('train.csv')
print('titanic 변수 type :',type(titanic_df))
titanic_df

titanic 변수 type : <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.9250,,S
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, R...",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Mis...",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, M...",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. K...",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
print('DataFrame 크기 :',titanic_df.shape)

DataFrame 크기 : (891, 12)


In [None]:
titanic_df.info() # info() 메서드를 통해 데이터 건수와 데이터 타입, NULL 건수를 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
titanic_df.describe() # describe() 메서드를 통해 n-percentile 분포도, 평균값, 최대값, 최솟값을 확인(int,float 자료형만 확인 object 자료형은 자동 제거)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
value_counts = titanic_df['Pclass'].value_counts()
value_counts

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [None]:
titanic_pclass = titanic_df['Pclass'] # 이 처럼 DataFrame의 []연산자 내부에 컬럼명을 입력하면 Series 형태로 반환
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [None]:
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

* 넘파이 ndarray, 리스트 list, 딕셔너리 dict을 
DataFrame으로 변환하기
* DataFrame은 기본적으로 행과 열을 가지는 2차원 데이터
* 따라서 2차원 이하의 데이터들만 DataFrame으로 변환 가능

리스트,ndarray -> 데이터 프레임

In [None]:
import numpy as np

col_name = ['col1']
list1 = [1,2,3]
array1 = np.array(list1)
print('array1 shape :',array1.shape)
# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1,columns=col_name)
print(df_list1,'\n')
# 넘파이 ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1,columns=col_name)
print(df_array1)

array1 shape : (3,)
   col1
0     1
1     2
2     3 

   col1
0     1
1     2
2     3


In [None]:
import numpy as np

col_name = ['col','col2','col3']
list2 = [[1,2,3],[11,12,13]]
array2 = np.array(list2)
print('array2 shape :',array2.shape)
# list -> DataFrame
df_list2 = pd.DataFrame(list2,columns=col_name)
print(df_list2)
# ndarray -> DataFrame
df_array2 = pd.DataFrame(array2,columns=col_name)
print('\n',df_array2)

array2 shape : (2, 3)
   col  col2  col3
0    1     2     3
1   11    12    13

    col  col2  col3
0    1     2     3
1   11    12    13


딕셔너리 -> 데이터프레임

In [None]:
dict = {'col':[1,11],'col2':[2,12],'col3':[3,13]}
df_dict = pd.DataFrame(dict)
print(df_dict)

   col  col2  col3
0    1     2     3
1   11    12    13


- DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기

데이터프레임 객체의 values를 이용하여 변환 가능

In [None]:
# DataFrame -> ndarray
array3 = df_dict.values
print('df_dict.values 타입 :',type(array3),'df_dict shape :',array3.shape)
print(array3)

df_dict.values 타입 : <class 'numpy.ndarray'> df_dict shape : (2, 3)
[[ 1  2  3]
 [11 12 13]]


In [None]:
# DataFrame -> list
list3 = df_dict.values.tolist()
print('df_dict.values.tolist 타입 :',type(list3))
print(list3)

df_dict.values.tolist 타입 : <class 'list'>
[[1, 2, 3], [11, 12, 13]]


In [None]:
# DataFrame -> list
dict3 = df_dict.to_dict()
print('df_dict.to_dict 타입 :',type(dict3))
print(dict3)

df_dict.to_dict 타입 : <class 'dict'>
{'col': {0: 1, 1: 11}, 'col2': {0: 2, 1: 12}, 'col3': {0: 3, 1: 13}}


- to_list() # DataFrame -> list로 변환

- to_dict() # DataFrame -> 딕셔너리로 변환

**DataFrame의 컬럼 데이터 생성 또는 수정**

In [None]:
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1,0


In [None]:
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp']+titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [None]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10']+100

In [None]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


** DataFrame 데이터 삭제**
- drop() 메서드 사용
- drop(labels = None, axis = 0, inplace = False)

In [None]:
titanic_drop_df = titanic_df.drop(labels='Age_0',axis=1,inplace=False)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [None]:
titanic_df.head(3) # Age_0이 존재 문재해결 -> inplace = True 사용

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1,0


- inplace 파라미터를 기재하지 않거나 False로 설정하면 자기 자신의 데이터는 삭제하지 않는다. 반면에 True로 설정하면 자기 자신의 데이터도 삭제

In [None]:
drop_result = titanic_df.drop(['Age_0','Age_by_10','Family_No'],axis=1,inplace=True)
drop_result

In [None]:
titanic_df.head(3) # inplace = True 파라미터를 설정할 시 Age_0, Age_by_10, Family_No 컬럼이 삭제된 것을 알 수 있다.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S

[3 rows x 12 columns]


- axis=0 으로 설정해 index 1,2,3 (맨 첫번째 두번째 세번째) 로우를 삭제

In [None]:
titanic_df.drop([1,2,3],axis=0,inplace=True)

print('### after axis 0 drop ####')
print(titanic_df.head(3))

### after axis 0 drop ####
   PassengerId  Survived  Pclass  ...    Fare Cabin  Embarked
0            1         0       3  ...  7.2500   NaN         S
4            5         0       3  ...  8.0500   NaN         S
5            6         0       3  ...  8.4583   NaN         Q

[3 rows x 12 columns]


[정리]
- axis = 0 이면 로우 삭제/axis = 1 이면 컬럼 삭제
- inplace = True 이면 데이터 원본 삭제/ inplace = False이면 데이터 원본 유지
- titanic_df = titanic_df.drop('Age_0',axis=1, inplace=True) 즉 다시 워논 데이터프레임을 변수로 할당하면 원본 데이터프레임에서 드롭된 결과를 적용할 경우와 같음 

**index 객체**

In [None]:
titanic_df = pd.read_csv('train.csv')

In [None]:
indexes = titanic_df.index
print(indexes)

RangeIndex(start=0, stop=891, step=1)


In [None]:
print(indexes.values)

[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 237 238 239 240 241 242 243 244 245 24

In [None]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [None]:
indexes[0] = 5 # index 객체는 함부로 변경할 수 없다

TypeError: ignored

In [None]:
series_fair = titanic_df['Fare']
print('Fair Series max 값 :',series_fair.max())
print('Fair Series sum 값 :',series_fair.sum())
print('sum() Fair Series 값 :',sum(series_fair))
print('Fair Series + 3 :\n',(series_fair + 3).head(3))

Fair Series max 값 : 512.3292
Fair Series sum 값 : 28693.9493
sum() Fair Series 값 : 28693.949299999967
Fair Series + 3 :
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


- reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자 형으로 할당 하며 기존 인덱스는 index라는 새로운 컬럼 명으로 추가됨

In [None]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [None]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print(type(value_counts))
new_value_counts = value_counts.reset_index()
print('### before reset_index ###') # Series -> DataFrame 으로 변환 (reset_index 사용 후)
print(new_value_counts)
print(type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>
### before reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
<class 'pandas.core.frame.DataFrame'>


**데이터 셀렉션 및 필터링**

- 넘파이의 경우 [ ] 연산자 내 단일 값 추출, 슬라이싱, 팬시 인덱싱, 불린 인덱싱을 통해 데이터를 추출

- 판다스의 경우 ix[ ], iloc[ ], loc[ ] 연산자를 통해 동일한 작업을 수행

In [None]:
titanic_df[0] # 숫자를 입력할 경우 오류발생

KeyError: ignored

In [None]:
titanic_df[0:2] # 슬라이싱은 정확히 원하는 결과를 반환

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [None]:
titanic_df[titanic_df['Pclass']==3].head(3) # Pclass 가 3인 데이터 3개만 추출

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


- ix [ ] 연산자는 넘파이의 [ ] 연산자와 유사한 기능 제공
- ix [행위치 , 열위치 또는 컬럼이름]

In [None]:
# ix [ ]

data = {'Name':['Chulmin','Eunkyung','Jinwoong','Soobeom'],'Year':[2011,2016,2015,2015],'Gender':['M','F','M','M']}
data_df = pd.DataFrame(data, index=['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,M
two,Eunkyung,2016,F
three,Jinwoong,2015,M
four,Soobeom,2015,M


In [None]:
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns = {'index':'old_index'})
data_df_reset.index = data_df_reset.index+1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,M
2,two,Eunkyung,2016,F
3,three,Jinwoong,2015,M
4,four,Soobeom,2015,M


In [None]:
data_df_reset.ix[1,1] # 최근에 ix 기능이 삭제되서 오류 뜨는거

AttributeError: ignored

**iloc[ ]**
- 위치 기반
- 위치 인덱싱 값만 입력 가능
- 0 부터 시작
- 명칭 입력 불가능

In [None]:
data_df_reset.iloc[0,1]

'Chulmin'

**loc[ ]**
- 명칭 기반
- 1 부터 시작

In [None]:
data_df_reset.loc[1,'Name'] # 명칭 기반이라고 무조건 명칭만 되는건 아님 (1 부터 시작)

'Chulmin'

**불린 인덱싱**

In [None]:
titanic_df = pd.read_csv('train.csv')
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean.head(3)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C


In [None]:
titanic_df[titanic_df['Age']>60][['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [None]:
titanic_df.loc[titanic_df['Age']>60,['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


- 복합 조건 연산자 사용해서도 가능

In [None]:
titanic_df[(titanic_df['Age']>60)&(titanic_df['Pclass']==1)&(titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


- 불린 인덱싱 + 복합 조건 연산자

In [None]:
cond1 = titanic_df['Age']>60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1&cond2&cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


**sort_values 정렬, Aggregation 함수, GroupBy 적용**

- DataFrame, Series의 정렬 - sort_values()
- 데이터프레임 시리즈를 정렬하기위해서는 sort_values() 메서드를 이용
- by 파라미터는 기준이 될 컬럼이름
- ascending = False로 하면 내림차순 ascending = True로 하면 오름차순
- drop 때 사용한 inplace 파라미터와 마찬가지

In [None]:
titanic_sorted = titanic_df.sort_values(by=['Name']) # ascending 파라미터는 디폴트값이 오름차순 따라서 Name 컬럼으로 오름차순 정렬
titanic_sorted

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.5500,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.2500,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.2500,,S
308,309,0,2,"Abelson, Mr...",male,30.0,1,0,P/PP 3381,24.0000,,C
874,875,1,2,"Abelson, Mr...",female,28.0,1,0,P/PP 3381,24.0000,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
286,287,1,3,"de Mulder, ...",male,30.0,0,0,345774,9.5000,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5000,,S
361,362,0,2,"del Carlo, ...",male,29.0,1,0,SC/PARIS 2167,27.7208,,C
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5000,,S


In [None]:
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'],ascending=False) # ascending = False 내림차순
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


**Aggregation 함수 적용**
- aggregation 함수의 적용은 RDBMS SQL의 aggregation 함수 적용과 유사
- 차이점은 데이터프레임에서 바로 aggregation을 호출할 경우 모든 칼럼에 해당하는 agrregation을 적용
- min(), max(), sum(), count(), mean()

In [None]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [None]:
titanic_df[['Age','Fare']].mean() # 대상 컬럼들만 추출

Age     29.699118
Fare    32.204208
dtype: float64

**groupby() 적용**
- RDBMS SQL의 groupby 키워드와 유사 대신 다른 면도 존재 (조심)
- by = 대상 컬럼 입력하게 되면 해당 컬럼 기준으로 groupby가 된 데이터프레임 반환

In [None]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(titanic_groupby)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f221cae5940>


In [None]:
titanic_groupby = titanic_df.groupby(by='Pclass').count() # groupby를 하고 aggregation 함수 (count함수) 적용 : 해당 컬럼 기준으로 각 컬럼의 개수를 반환
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [None]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId','Survived']].count() # 대상컬럼만 count를 수행
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


- aggregation 의 약자인 agg()함수를 통해 최댓값과 최솟값을 반환

In [None]:
titanic_df.groupby('Pclass')['Age'].agg(['max','min'])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [None]:
agg_format = {'Age':'max','SibSp':'sum','Fare':'mean'} # Age 컬럼은 최댓값, SibSp컬럼은 합계, 등 이런식으로도 활용 가능
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


**결손 데이터 처리하기**
- 결측치 NULL인 경우를 의미 넘파이의 NaN으로 표시
- isna() 를 통해 NaN 여부를 확인
- NaN 값을 다른 값으로 대체하는 fillna() 도 있음

In [None]:
# isna()로 결손 데이터 여부 확인
# 내가 알고 있는 방법 titanic_df.isnull().sum()
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
# fillna()로 결손 데이터 대체하기
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


- fillna(결측치를 반환할 값, inplace = False)
- drop() 참조 - inplace = True 설정하면 실제 데이터 세트 값이 변경

In [None]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean()) # Age의 결측치는 -> 평균
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S') # Embarked의 결측치는 -> S
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

**apply lambda 식으로 데이터 가공**
- 복잡한 데이터를 가공할때 사용

In [None]:
# 예제
def get_square(a):
  return a**2

print('3의 제곱은 :',get_square(3))
# lambda를 사용해 이것을 한줄로 쉽게 변환 

3의 제곱은 : 9


In [None]:
lambda_square = lambda x:x**2
print('3의 제곱 :',lambda_square(3))

3의 제곱 : 9


- lambda x:x**2에서 : 로 입력 인자와 반환될 입력 인자의 계산식을 분리
- : 왼쪽에 있는 인자를 입력 인자 오른쪽을 반환 값(계산식)을 의미


In [None]:
a = [1,2,3]
sqaures = map(lambda x:x**2,a) # 보통 여러 개의 값을 입력 인자로 사용해야 할 경우 map() 함수를 결합해서 사용
list(sqaures)

[1, 4, 9]

In [None]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x:len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [None]:
# lambda 식에서 if else 절을 사용해 조금 더 복잡한 가공 예제
# 나이가 15세 미만이면 'chile', 아니면 'Adult' 구분하는 새로운 칼럼 'Child_Adult'를 apply,lambda를 이용해 만들기
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x:'Child' if x < 15 else 'Adult')
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


- lambda x : 'Child' if x < 15 else 'Adult'

In [None]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x:'Child' if x<15 else ('Adult' if x<=60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      791
Child       78
Elderly     22
Name: Age_cat, dtype: int64

In [None]:
# apply lamda  def 함수 생성 3가지 응용
def get_category(age):
  cat = ''
  if age <= 5: cat = 'Baby'
  elif age <=12: cat = 'Teenager'
  elif age <= 18: cat = 'Student'
  elif age <= 25: cat = 'Young Adult'
  elif age <= 35: cat = 'Adult'
  else: cat = 'Elderly'

  return cat

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x:get_category(x))
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Young Adult
1,38.0,Elderly
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
