## Chapter 1 파이선 기반의 머신러닝과 생태계 이해

### 01. 머신러닝 개념

<br/>
머신러닝 : 어플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

> 데이터 분석 영역은 재빠르게 머신러닝 기반의 예측 분석으로 재편되고 있다.

- 머신러닝의 분류
    - 지도학습 : 분류, 회귀, 추천 시스템, 시각/음성 갑지/인지, 텍스트 분석, NLP 등
    - 비지도학습 : 클러스터링, 차원 축소
    - 강화학습
    
- 머신러닝의 가장 큰 단점 <br/>
    - 데이터의 매우 의존적이다. => 좋은 품질의 데이터가 없다면 머신러닝 수행 결과도 좋지 못하다.

### 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

- 머신러닝 : scikit-learn
- 행렬/선형대수/통계 : Numpy, SciPy
- 데이터 핸들링 : Pandas
- 시각화 : Matplotlib (너무 세분화, 디자인 투박, 효율성 떨어짐 => 보완 : seaborn) <br/>
    하지만 seaborn을 배우려면 Matplotlib 역시 어느정도 알아야 한다.

### 03. 넘파이(Numpy)

배열 기반의 연산과 다양한 데이터 핸들링 기능을 제공한다.
<br/>
일반적으로 아래와 같이 모듈을 불러온다.

In [2]:
import numpy as np

#### ndarray

- 넘파이의 기반 데이터 타입이며 이를 이용해 다양한 계산을 수행할 수 있다.
- 넘파이의 **array()**는 리스트 같은 다양한 인자를 받아 ndarray로 변환한다.
- 생성된 **ndarray의 shape 변수**는 ndarray의 행과 열의 수를 튜플로 반환한다.

In [3]:
array1 = np.array([1, 2, 3])
print(type(array1), array1.shape)
array2 = np.array([[1, 2, 3],
                   [4, 5, 6]])
print(type(array2), array2.shape)

<class 'numpy.ndarray'> (3,)
<class 'numpy.ndarray'> (2, 3)


#### ndarray의 데이터 타입

- ndarray의 데이터 값은 숫자, 문자열, boolean 모두 가능하지만 하나의 ndarray에 다른 데이터 타입은 공존할 수 없다.
- ndarray의 dtype 속성으로 데이터 타입 확인이 가능하다. 만약, 다른 데이터 유형이 섞인 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 타입으로 형변환을 일괄 적용한다. <br/>
- ndarray의 astype()으로 ndarray 내 데이터 값의 타입 변경도 가능하다.

In [4]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1), array1.dtype)

array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

<class 'list'>
<class 'numpy.ndarray'> int32
[1. 2. 3.] float64


#### ndarray를 편리하게 생성하기

- 특정 크기와 차원을 가진 ndarray를 연속값 혹은 0 혹은 1로 초기화해 쉽게 만들고자 할 때 <br/>
arange(), zeros(), ones()를 사용한다. <br/>
- 주로 테스트용 데이터나 대규모 데이터를 일괄적으로 초기화 할 때 사용한다. <br/>
- arange()는 0 ~ 입력값 -1 까지 순차적으로 ndarray의 데이터를 채워준다. range()처럼 시작값 부여도 가능하다.
- zeros()와 ones()는 입력값으로 튜플 형태의 shape를 입력하면 해당 크기만큼 0 혹은 1로 채워서 반환된다. <br/>
- 기본 데이터 타입은 float64이다.

In [5]:
# arange() 사용
sequence_array = np.arange(10)
print("arange(10)으로 생성한 ndarray \n")
print(sequence_array, sequence_array.dtype, sequence_array.shape)
print("\n")
# zeros() 사용
zero_array = np.zeros((3, 2), dtype='int32')
print("zero(3, 2)로 생성한 ndarray\n")
print(zero_array, zero_array.dtype, zero_array.shape)
print("\n")
# ones() 사용
ones_array = np.ones((3, 2))
print("ones(3, 2)로 생성한 ndarray\n")
print(ones_array, ones_array.dtype, ones_array.shape)

arange(10)으로 생성한 ndarray 

[0 1 2 3 4 5 6 7 8 9] int32 (10,)


zero(3, 2)로 생성한 ndarray

[[0 0]
 [0 0]
 [0 0]] int32 (3, 2)


ones(3, 2)로 생성한 ndarray

[[1. 1.]
 [1. 1.]
 [1. 1.]] float64 (3, 2)


#### ndarray의 차원과 크기를 변경하는 reshape()

- reshape()는 ndarray를 특정 차원 및 크기로 변환한다. 변환을 원하는 크기를 함수 인자로 부여하면 된다. <br/>
지정된 사이즈로 변경이 불가능하면 오류가 발생된다.
- reshape()의 효율적으로 사용하는 경우는 -1을 적용하는 경우이다. -1을 사용하면 원래 ndarray와 호환되는 새로운 shape를 반환한다.


In [6]:
# reshape 기본적인 사용
array1 = np.arange(10)
print('array1: \n', array1)
array2 = array1.reshape((2, 5))
print('array2: \n', array2)
array3 = array1.reshape((5, 2))
print('array3: \n', array3)


print("\nreshape 효율적인 사용\n")

# reshape 효율적인 사용
array1 = np.arange(10)
print('array1: \n', array1)
array2 = array1.reshape((-1, 5))
print('array2: \n', array2)
array3 = array1.reshape((5, -1))
print('array3: \n', array3)

array1: 
 [0 1 2 3 4 5 6 7 8 9]
array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3: 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

reshape 효율적인 사용

array1: 
 [0 1 2 3 4 5 6 7 8 9]
array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3: 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


#### ndarray의 인덱싱

- 단일값 추출<br/>
    원하는 위치의 인덱스 값을 []에 입력하면 된다. 2차원의 경우 [row, col] 순서이다. 또한 해당 인덱스를 사용해 바로 데이터 수정도 가능하다.

In [7]:
array1 = np.arange(start=1, stop=10)
print('array1: ', array1)

value = array1[2]
print('value: ', value)
print('\n')

#데이터 수정
array1[0] = 9
array1[8] = 0
print('array1: ', array1)
print('\n')

# 2차원에서의 단일값 추출
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)

print('(row=0, col=0) index 가리키는 값 : ', array2d[0, 0])
print('(row=0, col=1) index 가리키는 값 : ', array2d[0, 1])
print('(row=1, col=0) index 가리키는 값 : ', array2d[1, 0])
print('(row=1, col=1) index 가리키는 값 : ', array2d[1, 1])

array1:  [1 2 3 4 5 6 7 8 9]
value:  3


array1:  [9 2 3 4 5 6 7 8 0]


[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값 :  1
(row=0, col=1) index 가리키는 값 :  2
(row=1, col=0) index 가리키는 값 :  4
(row=1, col=1) index 가리키는 값 :  5


- 슬라이싱<br/>
    : 기호로 연속한 데이터를 추출할 수 있다.<br/>
    [시작 인덱스 : 종료 인덱스]로 추출하면 시작 인덱스 ~ 종료 인덱스 -1까지  추출된다.<br/>
    시작 인덱스나 종료 인덱스를 생략하면 각각 처음, 마지막 인덱스로 설정된다.<br/>
    다차원 인덱스는 단일 추출과 마찬가지로 [row, col]으로 추출한다.

In [8]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3, type(array3))

[1 2 3] <class 'numpy.ndarray'>


- 팬시 인덱싱<br/>
    리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환한다.

In [9]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)
print('\n')

array3 = array2d[[0, 1], 2]
print('array2d[[0, 1], 2] =>', array3.tolist())

array4 = array2d[[0, 1], 0:2]
print('array2d[[0, 1], 0:2] => ', array4.tolist())

array5 = array2d[[0, 1]]
print('array2d[[0, 1]] => ', array5.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array2d[[0, 1], 2] => [3, 6]
array2d[[0, 1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0, 1]] =>  [[1, 2, 3], [4, 5, 6]]


- Boolean 인덱싱<br/>
    조건 필터링 + 검색을 동시에 하기에 자주 사용된다.<br/>
    [ ] 내에 조건문을 그대로 사용하기만 하면 된다.

In [10]:
array1d = np.arange(start=1, stop=10)
array3 = array1d[array1d > 5]
print('array1d > 5 Boolean 인덱싱 값', array3)

array1d > 5 Boolean 인덱싱 값 [6 7 8 9]


#### 행렬의 정렬

np.sort()를  사용해 정렬하거나 ndarray의 ndarray.sort()를 사용해 정렬할 수 있다.<br/>
차이점은 np.sort()는 원행렬 유지, 정렬값 반환이고, ndarray.sort()는 원행렬이 정렬되고 반환값은 None이다.<br/>
기본적으로 오름차순이며 내림차순을 원할때는 np.sort(array)[::1]을 사용하면 된다.<br/>
다차원 행렬의 경우 np.sort()에 axis 속성 적용이 가능하다.

In [11]:
array2d = np.array([[8, 12],
                    [7, 1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬: \n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬: \n', sort_array2d_axis1)

로우 방향으로 정렬: 
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬: 
 [[ 8 12]
 [ 1  7]]


#### 정렬된 행렬의 인덱스를 반환하기

원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때 np.argsort()을 이용하면 된다.

In [12]:
org_array = np.array([3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스 : ', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스 :  [1 0 3 2]


#### 행렬 내적과 전치 행렬

행렬 내적은 np.dot()을, 전치 행렬은 np.transpose()를 사용한다.

In [13]:
#행렬 내적
A = np.array([[1, 2, 3],
              [4, 5, 6]])

B = np.array([[7, 8],
              [9, 10],
              [11, 12]])
dot_product = np.dot(A, B)
print('행렬 내적 결과 : \n', dot_product)

#전치 행렬
A = np.array([[1, 2],
              [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬 : \n', transpose_mat)

행렬 내적 결과 : 
 [[ 58  64]
 [139 154]]
A의 전치 행렬 : 
 [[1 3]
 [2 4]]


### 04. 판다스(Pandas)

판다스는 데이터 처리 부분에서 가장 인기있는 라이브러리이다. <br/> 우리가 판다스를 통해 다루게 될 데이터는 대부분 2차원이다. <br/> 판다스의 핵심 객체는 DataFrame이다. <br/><br/> 판다스는 다음과 같이 불러온다.

In [14]:
import pandas as pd

판다스는 csv파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공한다. <br/> read_csv('파일명', sep=',')으로, sep은 ,가 기본값이다. <br/> 파일의 첫째 줄이 칼럼으로 할당된다.

In [16]:
titanic_df = pd.read_csv('./data/titanic_train.csv')
print('titanic 변수 type: ', type(titanic_df))
titanic_df

titanic 변수 type:  <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### DataFrame에 대한 간단한 정보 조회

- DataFrame의 info()와 describe()를 활용하면 해당 DataFrame에 대한 다양한 정보를 조회할 수 있다.
- DataFrame의 [ ] 연산자 내부에 칼럼명을 입력하면 Series 형태로 특정 칼럼 데이터 세트가 반환되며 이 객체에 value_counts()를 호출하면 해당 칼럼 값의 유형과 건수를 알 수 있다. **데이터의 분포를 확인할 때 유용하다.**

In [17]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [18]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [19]:
value_counts = titanic_df['Pclass'].value_counts()
value_counts

3    491
1    216
2    184
Name: Pclass, dtype: int64

 #### DataFrame과 리스트, 딕셔너리, ndarray 상호 변환
 
 기본적으로 DataFrmae은 리스트, 딕셔너리, ndarray로부터 생성되며 그 반대의 변환도 가능하다.<br/> DataFrame은 2차원 데이터이므로 2차원 이하의 데이터들만 DataFrame으로 변환할 수 있다.

In [21]:
import numpy as np

# 1차원 데이터 생성
col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape: ', array1.shape)

# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame : \n', df_list1)

# ndarray로 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame : \n', df_array1)

# 2차원 데이터 생성
col_name2 = ['col1', 'col2', 'col3']
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)

# 2차원 데이터를 DataFrame으로 생성
## 리스트를 이용해 DataFrame 생성
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame : \n', df_list2)

## ndarray를 이용해 DataFrame 생성
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame : \n', df_array2)

# 딕셔너리를 이용해 DataFrame 생성
dict = {'col1' : [1, 11], 'col2' : [2, 22], 'col3' : [3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame : \n', df_dict)

array1 shape:  (3,)
1차원 리스트로 만든 DataFrame : 
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame : 
    col1
0     1
1     2
2     3
2차원 리스트로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    12    13
딕셔너리로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    22    33


In [22]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입 : ', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입 : ', type(dict3))
print(dict3)

df_dict.values.tolist() 타입 :  <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입 :  <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


#### DataFrame의 칼럼 데이터 세트 생성과 수정

DataFrame의 칼럼 데이터 세트의 생성과 수정 역시 [ ]를 이용해 쉽게 구현 가능하다.

In [23]:
titanic_df['Age_0'] = 0
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


In [24]:
# 다른 데이터 세트를 활용해 값을 할당할 수도 있다.
titanic_df['Age_by_10'] = titanic_df['Age'] * 10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,350.0,1


#### DataFrame 데이터 삭제

DataFrame에서 데이터 삭제는 drop() 메서드를 이용한다. <br/> DataFrame.drop()의 중요 파라미터는 아래와 같다.
- axis : 방향
- labels : axis가 0이면 index로 간주, 대부분읜 칼럼값 삭제 (axis=1)
- inplace : True이면 자신의 DataFrame의 데이터 삭제, False이면 자신은 그대로, 삭제된 DataFrame 반환 (기본값 False)

In [25]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


#### Index 객체

판다스의 Index 객체는 DataFrame, Series의 레코드를 고유하게 식별하는 객체이다. <br/> DataFrame.index 또는 Series.index로 접근 가능하다. <br/> 슬라이싱은 가능하지만 변경하지는 못한다. <br/> reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당하며 기존 인덱스는 'index'라는 새로운 칼럼명으로 추가된다.

In [27]:
titanic_df = pd.read_csv('./data/titanic_train.csv')
indexes = titanic_df.index
print(indexes.values)

[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 237 238 239 240 241 242 243 244 245 24

#### 데이터 셀렉션 및 필터링

- DataFrame의 [ ] 연산자
[ ] 안에 들어갈 수 있는 것은 칼럼 명 문자 (또는 칼럼 명의 리스트), 또는 인덱스로 변환 가능한 표현식이다. <br/> 인덱스 혹은 인덱스 리스트는 오류이다.

In [28]:
print('단일 칼럼 데이터 추출 : \n', titanic_df['Pclass'].head(3))
print('\n 여러 칼럼의 데이터 추출 : \n', titanic_df[['Survived', 'Pclass']].head(3))

단일 칼럼 데이터 추출 : 
 0    3
1    1
2    3
Name: Pclass, dtype: int64

 여러 칼럼의 데이터 추출 : 
    Survived  Pclass
0         0       3
1         1       1
2         1       3


- 명칭 기반 인덱싱과 위치 기반 인덱싱의 구분
    - 명칭 기반 인덱싱 ; 칼럼의 명칭을 기반으로 위치 지정
    - 위치 기반 인덱싱 : 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터 지정

- DataFrame iloc[ ] 연산자

위치 기반 인덱싱만 허용한다. 행과 열 값으로 integer나 슬라이싱, 팬시 리스트를 받는다. 불린 인덱싱은 불가능하다.

In [32]:
titanic_df.iloc[0, 3]

'Braund, Mr. Owen Harris'

- DataFrame loc[ ] 연산자

명칭 기반으로 데이터를 추출한다. 행 위치에 인덱스 값(숫자형이면 int 형으로), 열 위치에 칼럼 명 입력 <br/> 슬라이싱 기호 적용도 가능하다. 하지만 종료-1까지가 아닌 종료 값까지 포함된 데이터가 반환된다.

In [36]:
titanic_df.loc[0, 'Name']

'Braund, Mr. Owen Harris'

- 불린 인덱싱

매우 편리한 데이터 필터링 방식으로, loc, iloc보다 불린 인덱싱에 의존하는 경우가 더 많다.

In [37]:
titanic_df = pd.read_csv('./data/titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [38]:
# 불린 인덱싱 + 원하는 칼럼만 보기
titanic_df[titanic_df['Age'] > 60][['Name', 'Age']].head()

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0
116,"Connors, Mr. Patrick",70.5
170,"Van der hoef, Mr. Wyckoff",61.0


In [39]:
# loc도 불린 인덱싱 + 원하는 칼럼만 보기 가능, 단, 원하는 칼럼 명을 칼럼 위치에 놓아야 한다.
titanic_df.loc[titanic_df['Age'] > 60, ['Name', 'Age']].head()

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0
116,"Connors, Mr. Patrick",70.5
170,"Van der hoef, Mr. Wyckoff",61.0
