### 01. 머신러닝의 개념

- 애플리케이션을 수정하지 않고도 데이터 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

#### 머신러닝의 분류
**지도 학습(Supervised Learning)**   
- 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 텍스트 분석, NLP   

**비지도 학습(Un-supervised Learning)**   
- 클러스터링, 차원 축소, 강화학습   

#### 데이터 전쟁
- 머신러닝의 단점 → 데이터에 매우 의존적임. Garbage In, Garbage out
- 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘 구동할 수 있도록 준비하는 능력이 중요함

### 02. 파이썬 머신러닝 생태계 구성 주요 패키지

- 머신러닝 패키지 : Scikit-Learn
- 행렬/선형대수/통계 패키지 : Numpy, SciPy
- 데이터 핸들링 : Pandas
- 시각화 : Matplotlib, Seaborn

### 03.넘파이

- Numerical Python 
- 선형대수 기반 프로그램을 쉽게 만들 수 있도록 지원하는 대표적 패키지
- 루프를 사용하지 않고 대량 데이터의 배열 연산 가능하게 하므로 빠른 배열 연산 속도 보장
- C/C++과 같은 저수준 언어 기반의 호환 API 제공 → 수행 성능이 중요한 부분은 C/C++ 기반 코드로 작성하고 이를 넘파이에서 호출하는 방식으로 통합 가능
- 다양한 데이터 핸들링 기능 제공
- 편의성, 다양한 API 지원 측면에서 아쉬운 부분이 많음. 

#### ndarray 개요
- ndarray : 넘파이 기반 데이터 타입
- 다차원 배열 쉽게 생성, 연산 수행 가능 
- array() : 리스트와 같은 다양한 인자 입력받아 ndarray로 변환하는 기능 수행

In [1]:
import numpy as np

In [2]:
array1 = np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 shape:', array1.shape)

array2 = np.array([[1,2,3],
                   [2,3,4]])
print('array2 type:', type(array2))
print('array2 shape:', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 shape:', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 shape: (3,)
array2 type: <class 'numpy.ndarray'>
array2 shape: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 shape: (1, 3)


In [5]:
# 각 array 차원 확인
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1: 1차원, array2: 2차원, array3: 2차원


#### ndarray의 데이터 타입
- 숫자, 문자열, bool값 모두 가능
- 하나의 ndarray 내에는 같은 데이터 타입만 존재 가능

In [6]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


- 다른 데이터 유형이 섞여있는 리스트를 ndarry로 변경 시 데이터 크기가 더 큰 데이터 타입으로 형 변환 일괄 적용

In [7]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [8]:
# 대용량 데이터를 ndarray로 생성 시 많은 메모리 사용 → astype() 메서드를 이용해 메모리 절약 가능
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1,2.1,3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


#### ndarray 편리하게 생성하기 - arange, zeros, ones
- 주로 테스트용으로 데이터 만들거나 대규모 데이터 일괄 초기화해야 할 경우 사용

In [9]:
# arange()
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [10]:
# zeros(), ones() : defalue = float64
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


#### ndarray 차원, 크기 변경 - reshape()

In [11]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [13]:
array2 = array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3 = array1.reshape(5,-1)
print('array3 shape:', array3.shape)

array2 shape: (2, 5)
array3 shape: (5, 2)


In [14]:
# reshape(-1,1) : 원본 ndarray가 어떤 형태여도 1개의 열을 가진 ndarray로 변환됨을 보장
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist())

# 3차원 → 2차원으로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 → 2차원으로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


#### ndarray 인덱싱(Indexing)
1. 특정 데이터만 추출
2. 슬라이싱 : 연속된 인덱스상의 ndarray 추출하는 방식 , 시작인덱스 ~ 종료인덱스 -1 위치의 데이터 ndarray 반환
3. 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트/ndarray 형태로 지정해 해당 위치의 데이터의 ndarray 반환
4. 불린 인덱싱(Boolean Indexing) : 특정 조건을 만족하는(True) 인덱스 위치에 있는 데이터의 ndarray 반환

In [16]:
# 단일 값 추출
array1 = np.arange(start=1, stop=10)
print('array1:', array1)
value = array1[2]
print('value:',value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


In [17]:
print('맨 뒤의 값:{0}, 맨 뒤에서 두 번째 값: {1}'.format(array1[-1],array1[-2]))

맨 뒤의 값:9, 맨 뒤에서 두 번째 값: 8


In [18]:
# 데이터 내 값 수정
array1[0] = 9
array1[8] = 0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


In [19]:
# 다차원 ndarray에서 단일 값 추출
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) :', array2d[0,0])
print('(row=0, col=1) :', array2d[0,1])
print('(row=1, col=0) :', array2d[1,0])
print('(row=2, col=2) :', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) : 1
(row=0, col=1) : 2
(row=1, col=0) : 4
(row=2, col=2) : 9


- axis 0 (default) : 행 방향 축
- axis 1 : 열 방향 축

#### 슬라이싱

In [20]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [21]:
array1 = np.arange(1,10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [22]:
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print('array2d:\n', array2d)

print('array2d[0:2,0:2]\n',array2d[0:2,0:2])
print('array2d[1:3,0:3]\n',array2d[1:3,0:3])
print('array2d[1:3,:]\n',array2d[1:3,:])
print('array2d[:,:]\n',array2d[:,:])
print('array2d[:2,1:]\n',array2d[:2,1:])
print('array2d[:2,0]\n',array2d[:2,0])


array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2,0:2]
 [[1 2]
 [4 5]]
array2d[1:3,0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3,:]
 [[4 5 6]
 [7 8 9]]
array2d[:,:]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2,1:]
 [[2 3]
 [5 6]]
array2d[:2,0]
 [1 4]


#### 팬시 인덱싱

In [23]:
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2] =>', array3.tolist())

array4 = array2d[[0,1],0:2]
print('array2d[[0,1],0:2] =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>', array5.tolist())

array2d[[0,1],2] => [3, 6]
array2d[[0,1],0:2] => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


#### 불린 인덱싱
- 조건 필터링과 검색 동시에 가능

In [24]:
array1d = np.arange(1,10)
array3 = array1d[array1d > 5]
print(array3)

[6 7 8 9]


In [25]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [26]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
print(array3)

[6 7 8 9]


In [28]:
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print(array4)

[6 7 8 9]


#### 행렬의 정렬 - sort(), argsort()
- np.sort() : 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬 반환
- ndarray.sort() : 원 행렬 자체 정렬한 형태로 변형, None 반환
- 기본 오름차순 정렬/[::-1] 적용 시 내림차순 정렬

In [30]:
org_array = np.array([3,1,9,5])
print(org_array)
sort_array1 = np.sort(org_array)
print('반환 행렬:',sort_array1)
print('원본 행렬:',org_array)

sort_array2 = org_array.sort()
print('반환 행렬:',sort_array2)
print('원본 행렬:',org_array)

[3 1 9 5]
반환 행렬: [1 3 5 9]
원본 행렬: [3 1 9 5]
반환 행렬: None
원본 행렬: [1 3 5 9]


In [31]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순 정렬:',sort_array1_desc)

내림차순 정렬: [9 5 3 1]


In [32]:
array2d = np.array([[8,12],
                   [7,1]])
sort_array2d_axis0 = np.sort(array2d, axis=0)
print('행 방향 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('열 방향 정렬:\n', sort_array2d_axis1)

행 방향 정렬:
 [[ 7  1]
 [ 8 12]]
열 방향 정렬:
 [[ 8 12]
 [ 1  7]]


#### 정렬된 행렬의 인덱스 반환
- np.argsort() : 정렬 행렬의 원본 행렬 인덱스를 ndarray형으로 반환

In [33]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [34]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)[::-1]
print(type(sort_indices))
print('행렬 내림차순 정렬 시 원본 행렬 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 내림차순 정렬 시 원본 행렬 인덱스: [2 3 0 1]


#### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

#### 행렬 내적(행렬 곱)
- np.dot()
- 왼쪽 행렬의 행과 오른쪽 행렬의 열의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값
- 왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산 가능

In [36]:
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[7,8],[9,10],[11,12]])
dot_product = np.dot(A,B)
dot_product

array([[ 58,  64],
       [139, 154]])

#### 전치 행렬
- 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬
- np.transpose()

In [38]:
A = np.array([[1,2],[3,4]])
transpose_mat = np.transpose(A)
A, transpose_mat

(array([[1, 2],
        [3, 4]]),
 array([[1, 3],
        [2, 4]]))

### 04.데이터 핸들링 - 판다스

- 2차원 데이터 : 인간이 가장 이해하기 쉬운 데이터 구조이면서 효과적으로 데이터를 담을 수 있는 구조
- 판다스 : 2차원 데이터 효율적으로 가공/처리할 수 있는 다양한 기능 제공
    - DataFrame : 2차원 데이터 담는 칼럼이 여러개인 데이터 구조체
    - Index : 개별 데이터를 고유하게 식별하는 Key 값
    - Series : 칼럼이 하나뿐인 데이터 구조체

**다양한 포맷의 파일 DataFrame으로 로딩할 수 있는 편리한 API 제공**
- read_csv() : 필드 구분 문자(Delimeter)가 콤마인 파일 포맷 변환 API
- read_table() : 필드 구분 문자(Delimeter)가 탭인 파일 포맷 변환 API   
    = read_csv(seq='\t')
- read_fwf() : 고정 길이 기반의 칼럼 포맷 변환 API

In [39]:
import pandas as pd

In [43]:
PATH = './titanic/'

In [74]:
titanic_df = pd.read_csv(PATH + 'train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [46]:
# 데이터프레임 행 열 크기 알아보기
print('DataFrame 크기 : ', titanic_df.shape) # 튜플 형태로 반환

DataFrame 크기 :  (891, 12)


In [49]:
# 칼럼 타입, Null 개수, 데이터 분포도 등 메티 데이터 조회
print(titanic_df.info())
print('\n')
# 숫자형 데이터의 n-percentile 분포도, 평균값, 최대값, 최소값
# 데이터의 분포를 알면 머신러닝 알고리즘 성능 향상에 도움이 됨(데이터가 왜곡되어있는지, 이상치 존재하는 지 판단 가능)
print(titanic_df.describe()) # object 타입의 칼럼은 출력에서 제외됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486

In [50]:
# value_counts() : 칼럼의 유형과 유형별 건수 확인 / Series 객체에만 정의된 메서드
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [51]:
# DataFrame의 []연산자 내붸 칼럼명 입력 시 해당 칼럼에 해당하는 Series 객체 반환
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [52]:
# Series : Index와 하나의 칼럼으로 구성된 데이터 세트
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [53]:
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts) # 고유한 칼럼값이 인덱스로 사용됨
# 인덱스는 숫자형뿐만 아니라 문자열도 가능하지만 반드시 고유성이 보장돼야함.

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


#### DataFrame과 리스트, 딕셔너리, ndarray 상호 변환

**ndarray, 리스트, 딕셔너리 → DataFrame으로 변환하기**
- DataFrame은 ndarray, 리스트, 딕셔너리와 달리 칼럼명을 가짐 → 칼럼명 지정 필요
- 지정하지 않으면 자동으로 할당됨.
- 2차원 이하의 데이터들만 DataFrame으로 변환 가능

In [54]:
# 1차원 형태 데이터 기반 
col_name1 = ['col1']
list1 = [1,2,3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)

df_list1 = pd.DataFrame(list1, columns=col_name1)
print(df_list1)

df_array1 = pd.DataFrame(array1, columns=col_name1)
print(df_array1)

array1 shape: (3,)
   col1
0     1
1     2
2     3
   col1
0     1
1     2
2     3


In [55]:
# 2차원 형태 데이터 기반
col_name2 = ['col1','col2','col3']
list2 = [[1,2,3],
        [11,12,13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape)

df_list2 = pd.DataFrame(list2, columns=col_name2)
print(df_list2)

df_array2 = pd.DataFrame(array2, columns=col_name2)
print(df_array2)

array2 shape: (2, 3)
   col1  col2  col3
0     1     2     3
1    11    12    13
   col1  col2  col3
0     1     2     3
1    11    12    13


In [56]:
# 딕셔너리 → 데이터프레임 / 키 → 칼럼명 , 값 → 키에 해당하는 칼럼 데이터
dict = {'col1':[1,11],'col2':[2,22],'col3':[3,33]}
df_dict = pd.DataFrame(dict)
df_dict

Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,22,33


#### DataFrame → ndarray, 리스트, 딕셔너리로 변환
- 많은 머신러닝 패키지가 기본 데이터 형으로 ndarray 사용
- 머신러닝 패키지의 입력 인자등에 적용하기 위해 데이터프레임을 ndarray로 변환하는 경우가 많음    
``데이터프레임.values``  ← 자주 사용되므로 기억하기 !

In [62]:
array3 = df_dict.values
print(type(array3),'\n',array3.shape)
array3

<class 'numpy.ndarray'> 
 (2, 3)


array([[ 1,  2,  3],
       [11, 22, 33]], dtype=int64)

In [63]:
list3 = df_dict.values.tolist()
print(type(list3),'\n',list3)

<class 'list'> 
 [[1, 2, 3], [11, 22, 33]]


In [65]:
dict3 = df_dict.to_dict('list') # 데이터프레임 → 딕셔너리로 변환 , 리스트 형으로 반환
print(type(dict3),'\n',dict3)

<class 'dict'> 
 {'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


#### DataFrame의 칼럼 데이터 세트 생성과 수정
- DataFrame [] 내 새로운 칼럼명 입력 후 값 할당

In [66]:
titanic_df['Age_0'] = 0 # 모든 데이터 값이 0으로 할당된 Series가 기존 DataFrame에 추가됨
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [67]:
#기존 칼럼 Series의 데이터 이용해 새로운 칼럼 Series 만들기
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [68]:
# 기존 칼럼 값 일괄적으로 업데이트
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


#### DataFrame 데이터 삭제
``DataFrame.drop(labels=None, axis=0, inplace=False, index=None, columns=None, level=None, errors='raise')``
- axis = 0 : 행방향(행 삭제) / axis=1 : 열방향(열 삭제) 
- labels : 원하는 컬럼 명 
- inplace : 원본 데이터프레임 수정 여부

In [69]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1) # 'Age_0'열 삭제
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [70]:
drop_result = titanic_df.drop(['Age_0','Age_by_10','Family_No'], axis=1, inplace=True) # 여러 열 삭제 시 리스트형태로 작성
print(drop_result) # 반환 값 = None 이므로 inplace=True로 설정한 반환값을 다시 자신의 데이터프레임 객체로 할당하면 안됨 ! 
titanic_df.head(3) 

None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [75]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',15)
# index 0,1,2 삭제
print('### before axis 0 drop ###')
print(titanic_df.head(3))
titanic_df.drop([0,1,2], axis=0, inplace=True)
print('### after axis 0 drop ###')
print(titanic_df.head(3))

### before axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
### after axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


#### Index 객체
- DataFrame, Series의 레코드를 고유하게 식별하는 객체   
``DataFrame.index, Series.index``속성을 통해 Index객체만 추출 가능

In [81]:
titanic_df = pd.read_csv(PATH+'train.csv')
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 array로 변환
print(indexes.values)

RangeIndex(start=0, stop=891, step=1)
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 

In [82]:
# Index 객체 : 1차원 array , 단일값 반환 및 슬라이싱 가능 / 변경 불가능
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes[6])
indexes[0] = 5

(891,)
[0 1 2 3 4]
6


TypeError: Index does not support mutable operations

In [85]:
# Series 객체는 Index 객체를 포함하지만 연산 시에는 제외함. Index는 오직 식별용으로만 사용됨
series_fare = titanic_df['Fare']
print('max:',series_fare.max())
print('min:',series_fare.min())
print('sum:',sum(series_fare))
print('+3\n',(series_fare+3).head(3))

max: 512.3292
min: 0.0
sum: 28693.949299999967
+3
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [86]:
# reset_index() : 연속 숫자 형을 새로운 인덱스로 할당하며 기존 인덱스는 'index'라는 새로운 칼럼명으로 추가
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [88]:
# index가 연속된 int 숫자형 데이터가 아닌 경우 연속 int 숫자형 데이터로 만들 때 주로 사용
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print(type(value_counts))
print('### after reset_index ###')
new_value_counts = value_counts.reset_index(inplace=False) # drop=True로 설정 시 기존 인덱스는 삭제됨
print(new_value_counts)
print(type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>
### after reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
<class 'pandas.core.frame.DataFrame'>


### 데이터 셀렉션 및 필터링
**DataFrame의 [ ] 연산자**
- 칼럼명 문자, 칼럼명 리스트 객체, 인덱스로 변환 가능한 표현식(슬라이싱,불린 인덱싱 등)이 들어갈 수 있음
- DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터 추출하는 방법은 사용하지 않는게 좋음(혼돈 방지)   

**Numpy [ ] 연산자**
- 행 위치, 열 위치, 슬라이싱 범위 등 지정해 데이터 가져올 수 있음

#### DataFrame ix[ ] 연산자
- ``ix[행 위치 지정, 열 위치 지정]`` 원하는 위치의 데이터 추출
    - 행 위치 : DataFrame 인덱스 값 입력
    - 열 위치 : 칼럼명, 칼럼 위치 값 지정
- 칼럼 명칭 기반 / 칼럼 위치 기반 인덱싱 모두 제공 → 코드에 혼돈을 주거나 가독성이 떨어져 현재 판다스에서 사라짐

In [89]:
titanic_df.ix[0,2]

AttributeError: 'DataFrame' object has no attribute 'ix'

#### 명칭 기반 인덱싱과 위치 기반 인덱싱
**명칭(Label) 기반 인덱싱**
- 칼럼의 명칭을 기반으로 위치 지정하는 방식
- loc[ ]
- 데이터프레임의 인덱스값 : 명칭 기반 인덱싱

**위치(Position) 기반 인덱싱**
- 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터 지정하는 방식
- iloc[ ]   

In [90]:
data = {'Name':['Chulmin','Eunkyung','Jinwoong','Soobeon'],
          'Year':[2011,2016,2015,2015], 'Gender':['Male','Female','Male','Male']}
data_df = pd.DataFrame(data, index=['one','two','three','four'])
# 새로운 숫자형 인덱스 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})
# 1부터 시작하는 새로운 인덱스 값 설정
data_df_reset.index = data_df_reset.index+1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeon,2015,Male


In [101]:
# iloc[] : 위치 기반 인덱싱만 허용하므로 integer 또는 integer형 슬라이싱, 팬시 리스트값 입력해야함.
data_df.iloc[0,0]

'Chulmin'

In [104]:
data_df_reset.iloc[0,1]

'Chulmin'

In [105]:
# loc[] : 명칭 기반 데이터 추출 / 행 위치에는 index 값, 열 위치에는 칼럼 명 입력
data_df.loc['one','Name']

'Chulmin'

In [106]:
data_df_reset.loc[1,'Name']

'Chulmin'

In [107]:
data_df_reset.loc[0,'Name'] # 오류 발생

KeyError: 0

In [110]:
# loc[]에 슬라이싱 기호 적용 시 종료값도 포함함(명칭 기반 인덱싱의 특성때문에 숫자형이 아닌 경우 -1 할 수 없기 때문)
print('위치 기반 iloc:\n',data_df.iloc[0:1,0])
print('명칭 기반 loc:\n', data_df.loc['one':'two','Name'])

위치 기반 iloc:
 one    Chulmin
Name: Name, dtype: object
명칭 기반 loc:
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


#### 불린 인덱싱
- 편리한 데이터 필터링 방식
- [ ],loc[ ] 에서 지원 / iloc[ ]는 정수형 값이 아닌 불린 값에 대해서는 지원하지 않으므로 불린 인덱싱 지원 X

In [114]:
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S


In [115]:
titanic_df[titanic_df['Age']>60][['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [116]:
# 나이가 60세 이상이고, 선실 등급이 1등급이며, 여성인 승객
titanic_df[(titanic_df['Age']>=60) & (titanic_df['Pclass'] ==1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs...",female,60.0,1,0,110813,75.25,D37,C
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [117]:
cond1 = titanic_df['Age'] >= 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs...",female,60.0,1,0,110813,75.25,D37,C
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


### 정렬, Aggregation 함수, GroupBy 적용

#### DataFrame, Series 정렬 - sort_values()
``sort_values(by= , ascending= , inplace=)``
- by : 해당 칼럼 기준으로 정렬 수행
- ascending : True면 오름차순, False면 내림차순
- inplace : 호출한 DataFrame 유지 여부

In [118]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [120]:
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'], ascending = False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


#### Aggregation 함수 적용
- min. max, sum, count 등 모든 칼럼에 적용하여 결과 반환

In [121]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [122]:
# 특정 칼럼에만 적용
titanic_df[['Age','Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

#### groupby() 적용
- by : 대상 칼럼 기준으로 groupby
- DataFrameGroupBy 라는 형태의 DataFrame 객체 반환

In [123]:
titanic_groupby = titanic_df.groupby(by='Pclass')
type(titanic_groupby)

pandas.core.groupby.generic.DataFrameGroupBy

In [124]:
# groupby() 결과에 집계 함수 적용 시 groupby() 대상 칼럼 제외한 모든 칼럼에 집계 함수 적용
titanic_groupby.count()

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [125]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId','Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [126]:
# 집계 함수 여러 개 사용 → agg() 내부 인자로 입력
titanic_df.groupby('Pclass')['Age'].agg([max,min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [127]:
agg_format = {'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


#### 결손 데이터(Missing Data) 처리하기
- 칼럼의 값이 NULL(존재하지 않는)인 경우
- 넘파이의 NaN으로 표기
- 평균,총합 등 함수 연산 시 제외됨
- isna() : NaN 여부 확인
- fillna() : NaN 값 대체

In [129]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [130]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000') # fillna()의 반환 값을 다시 할당하거나 inplace=True로 설정해야 변경됨
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [131]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

#### apply lambda 식으로 데이터 가공
- apply 함수에 lambda 식 결합해 레코드 별로 데이터 가공
- lambda 식 : 파이썬에서 함수형 프로그래밍 지원하기 위해 만들어짐

In [133]:
def get_square(a):
    return a**2
lambda_square = lambda x : x**2
print(get_square(3))
print(lambda_square(3))

9
9


In [136]:
# 여러 개의 값을 입력 인자로 사용 시 map()함수 사용
a = [1,2,3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [140]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [144]:
# lambda식에 if else 절 사용 / if 식보다 반환 값을 먼저 기술해야 함 (lambda 식 : 기호 오른편에 반환 값 있어야 함)
# if, else만 지원하고 else if는 지원하지 않음
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x: 'Child' if x < 15 else 'Adult')
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [145]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'Child' if x < 15 else ('Adult' if x < 60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      787
Child       78
Elderly     26
Name: Age_cat, dtype: int64

In [146]:
# 나이에 따라 세분화된 분류 수행하는 함수 생성
def get_category(age):
    cat = ''
    if age <= 5 : cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else: cat = 'Elderly'
        
    return cat

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: get_category(x))
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
