# 4강. Numpy, Pandas

#### 머신러닝을 위한 numpy와 pandas의 중요성

## 1. Numpy

### 1) Numpy
* Numerical Python, 파이썬의 고성능 과학 계산용 패키지
* Matrix와 Vector와 같은 Array 연산의 사실상 표준
* 일반 List에 비해 빠르고, 메모리 효율적
* 반복문 없이 데이터 배열에 대한 처리지원
* 선형대수 관련 다양한 기능제공
* C, C++, 포트란 등 언어와 통합가능

### 2) 넘파이 ndarray
* **ndarray** : N차원(Demension) 배열(Array) 객체
    <img src="4-1.png">
    
#### ① ndarray 생성
* numpy 모듈의 array() 함수로 생성
* 인자로 주로 파이썬 list 또는 ndarray 입력

In [3]:
#numpy 불러오기
import numpy as np

array1 = np.array([1,2,3])    #1차원 배열
array2 = np.array([[1,2,3],   #2차원 배열
                  [4,5,6]])

print(array1)
print(array2)

[1 2 3]
[[1 2 3]
 [4 5 6]]


#### ② ndarray 차원과 형태(shape)
* ndarray의 형태(shape)은 ndarray.shape의 속성으로, 차원은 ndarray.ndim 속성으로 알 수 있음

In [4]:
print(array1.shape)    #1차원 배열은 (x,)형식 = 열 자리를 비워놓음
print(array2.shape)

print(array1.ndim)
print(array2.ndim)

(3,)
(2, 3)
1
2


#### ③ ndarray 타입(type)
* ndarray 내의 데이터값은 숫자, 문자열, 불 값 모두 가능
* 숫자형의 경우 int형(8,16,32bit), unsigned int형(8,16,32bit), float형(16,32,64,128bit), 그리고 더 큰 숫자값이나 정밀도를 위해 complex 타입도 제공
* **ndarray 내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능. 즉, 한개의 ndarray 객체에 int와 float이 함께 있을 수 없음.**
* ndarray 내의 데이터 타입은 ndarray.dtype 속성으로 확인가능

In [5]:
int_ar = np.array([1,2,3])
float_ar = np.array([1.1, 2.1, 3.1])
string_ar = np.array(['홍길동', ' 임꺽정'])
logic_ar = np.array([True, False, True])

print(int_ar)
print(float_ar)
print(string_ar)
print(logic_ar)

int_float_ar = np.array([1,2,3.5])  #정수, 실수의 데이터가 함께 들어간 경우
print(int_float_ar)   #정수 데이터도 실수로 바뀜
print(int_float_ar.dtype)

int_string_ar = np.array([1, '정수'])  #정수, 문자열 데이터가 함께 들어간 경우
print(int_string_ar)   #정수 데이터가 문자열로 바뀜
print(int_string_ar.dtype)

float_logic_ar = np.array([1.5, True])  #실수, 불 값이 같이 들어간 경우
print(float_logic_ar)    #불 값이 실수로 바뀜
print(float_logic_ar.dtype)

int_logic_ar = np.array([1, True])  #정수, 불 값이 같이 들어간 경우
print(int_logic_ar)    #불 값이 정수로 바뀜
print(int_logic_ar.dtype)

logic_string_ar = np.array([False, '정수'])  #불 값, 문자열 데이터가 함께 들어간 경우
print(logic_string_ar)   #불 값이 문자열로 바뀜
print(logic_string_ar.dtype)

[1 2 3]
[1.1 2.1 3.1]
['홍길동' ' 임꺽정']
[ True False  True]
[1.  2.  3.5]
float64
['1' '정수']
<U11
[1.5 1. ]
float64
[1 1]
int32
['False' '정수']
<U5


* **ndarray type을 변환하기: astype() 함수에 변경 원하는 타입을 인자로 입력하면 가능**
* 대용량 데이터를 ndarray로 만들 때 메모리를 절약하기 위해 자주 사용. 0,1,2와 같이 크지 않은 범위의 숫자를 위해 float64보다는 int8 또는 16으로 변환하는 것이 훨씬 많은 메모리 절약.

In [6]:
array_type = np.array([0,1,2], dtype = np.float64)   #dtype으로 데이터 타입을 지정해줌
print(array_type.dtype)

array_type = array_type.astype('int')   #astype() 함수로 데이터 타입 정수로 변환
print(array_type.dtype)

float64
int32


#### ④ ndarray의 aixs(축)
* ndarray의 shape은 행,열,높이 단위가 아니라 axis0, axis1, axis2와 같이 aixs 단위로 부여됨
    <img src="4-2.png">
    
#### ⑤ ndarray 편리하게 생성하기: arange, zeros, ones
* 특정 크기와 차원을 가진 ndarray를 연속값, 0 또는 1로 초기화 생성해야할 경우 arange(), zeros(), ones() 함수를 이용할 수 있음
* 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화할 경우에 사용

In [7]:
a1 = np.arange(10)   #0부터 9까지 10개 벡터 만들기
a2 = np.zeros((3,2), dtype='int32')
a3 = np.ones((3,2), dtype='int')
#zeros()와 ones()모두 dtype 지정안해주면 float가 기본

print(a1)
print(a2)
print(a3)

[0 1 2 3 4 5 6 7 8 9]
[[0 0]
 [0 0]
 [0 0]]
[[1 1]
 [1 1]
 [1 1]]


#### ⑥ ndarray 차원의 크기를 변경하는 reshape()
* reshape()는 ndarray를 특정 차원 및 형태로 변환하며 변환 형태를 인자로 부여하면 됨.

In [8]:
print(a1)   #a1의 shape은 (10,)

print(a1.reshape(2,5))   #(2,5)로 변환

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]


* reshape(-1,5)와 같이 인자에 -1을 부여하면 -1에 해당하는 axis의 크기는 가변적으로, 나머지 인자는 해당 크기로 고정하여 shape을 반환하게 됨.

In [9]:
print(a1)

print(a1.reshape(-1,5))   #두 방법 모두 같은 결과
print(a1.reshape(2,-1))
#2차원 배열에서는 한 인자의 값이 정해지면 나머지 인자는 무조건 다른 하나의 값을 가질 수 밖에 없음

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


* reshape()은 reshape(-1,1), reshape(-1,)과 같은 형식으로 변환이 요구되는 경우가 많음
* 주로 머신러닝 API의 인자로 1차원 ndarray 내의 데이터 값을 모두 2차원 ndarray로 변환하거나, 반대의 경우가 있을 경우 reshape()을 이용하여 형태를 변환시켜줌

In [10]:
array1d = np.array([0,1,2,3,4])  #1차원 배열
print(array1d)
print(array1d.reshape(-1,1))  #컬럼 aixs 크기가 1로 고정된 2차원 배열로 형태 변환

array2d = np.array([[0], [1], [2], [3], [4]])
print(array2d)
print(array2d.reshape(-1,))

[0 1 2 3 4]
[[0]
 [1]
 [2]
 [3]
 [4]]
[[0]
 [1]
 [2]
 [3]
 [4]]
[0 1 2 3 4]


### 3) ndarray의 데이터셋 선택하기: 인덱싱(indexing)
|          인덱싱 유형          |                                                                                               설명                                                                                              |
|:-----------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|
|    특정 위치 단일값 추출    |                                                            원하는 위치의 인덱스 값을 []안에 넣어 지정하면 해당 위치의 데이터가 반환됨                                                           |
|       슬라이싱(slicing)       | 연속된 인덱스의 ndarray를 추출하는 방식. '시작인덱스:종료인덱스'의 형식으로 표시하면 시작위치부터 종료위치-1 까지의 ndarray를 반환함. 예를 들어 1:5는 1부터 4(5-1)까지에 해당하는 ndarray 반환. |
|  팬시 인덱싱(Fancy indexing)  |                                                일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정하고, 해당 위치에 있는 ndarray를 반환하는 방식                                               |
| 불린 인덱싱(Boolean indexing) |                                      특정 조건을 입력하면 해당 조건의 True/False 값을 인덱싱 집합으로 만들어 True에 해당하는 인덱스 위치의 ndarray를 반환함                                     |

#### ① 단일 값 추출 - 1차원 ndarray
* ndarray는 aixs를 기준으로 0부터 시작하는 위치 인덱스 값을 가지고 있음. 해당 인덱스 값을 []에 명시하여 단일 값을 추출할 수 있음.
* 마이너스가 인덱스 값으로 사용되면 맨 뒤에서 부터 위치를 지정함. 맨뒤는 array[-1], 그 다음은 array[-2], ...
    <img src="4-3.png">

In [11]:
array1 = np.array([1,2,3,4,5,6,7,8,9])
print(array1)

print(array1[0])   #1
print(array1[3])   #4
print(array1[8])   #9
print(array1[-1])  #위와 같이 9

[1 2 3 4 5 6 7 8 9]
1
4
9
9


#### ① 단일 값 추출 - 2차원 ndarray

In [12]:
array2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(array2d)

print(array2d[0,0])   #1
print(array2d[0,1])   #2
print(array2d[1,0])   #4
print(array2d[2,2])   #9
print(array2d[2,-1])  #위와 같은 결과

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
2
4
9
9


#### ② 슬라이싱(Slicing) - 1차원 ndarray
* 시작인덱싱:종료인덱싱-1(=종료위치)

In [13]:
print(array1[0:3])   #인덱싱 0부터 2까지 추출
print(array1[:3])    #위와 같은 결과
print(array1[4:9])   #인덱싱 4부터 8까지 추출
print(array1[:])     #모두 추출

[1 2 3]
[1 2 3]
[5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


#### ② 슬라이싱(Slicing) - 2차원 ndarray

In [14]:
print(array2d[0:2, 0:2])   #인덱싱 0,1행 0,1열 추출
print(array2d[1:3, 0:3])   #인덱싱 1,2행 0,1,2열 추출
print(array2d[1:3, :])     #위와 같은 결과
print(array2d[:, :])       #모두 추출
print(array2d[:2, 1:])     #인덱싱 0,1행 1,2열 추출
print(array2d[:2, 0])      #인덱싱 0,1행 0열 추출

[[1 2]
 [4 5]]
[[4 5 6]
 [7 8 9]]
[[4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[2 3]
 [5 6]]
[1 4]


#### ③ 팬시 인덱싱 - 1차원 ndarray
* 리스트나 ndarray로 인덱스 집합을 지정하면, 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 방식
 <img src="4-4.png">

In [15]:
print(array1)

#print(array1[2,4,7])     #에러남

index = np.array([2,4,7]) #index를 ndarray로 지정하고
print(array1[index])      #array1에서 index로 사용

print(array1[[2,4,7]])   #위와 같은 결과

[1 2 3 4 5 6 7 8 9]
[3 5 8]
[3 5 8]


In [16]:
#### ③ 팬시 인덱싱 - 2차원 ndarray

In [17]:
print(array2d)

print(array2d[[0,1],2])     #차원 깨짐 주의!
print(array2d[[0,1],2:])    #이렇게 해야 2차원 배열 유지

print(array2d[[0,1],0:2])   #행0,1, 열0,1 추출

print(array2d[[0,1]])       #행0,1, 열은 전체 추출
print(array2d[[0,1],])      #위와 같은 결과

#print(array2d[,[0,1]])     #에러남.. 행은 무적권 적어야 하나봄
print(array2d[:,[0,1]])     #이건 원하는대로 출력됨

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[3 6]
[[3]
 [6]]
[[1 2]
 [4 5]]
[[1 2 3]
 [4 5 6]]
[[1 2 3]
 [4 5 6]]
[[1 2]
 [4 5]
 [7 8]]


#### ④ 불린 인덱싱
* 불린 인덱싱은 조건 필터링과 검색을 동시에 할 수 있어 매우 자주 사용되는 방식
> Q. ndarray 내 값이 5보다 큰 ndarray를 추출하고자 한다면?

In [18]:
#불린 인덱싱을 사용하지 않은 경우
array1d = np.arange(start=1, stop=10)
target=[]

for i in range(0,9):    #0부터 9까지 10번 반복
    if array1d[i]>5:    #array1d에서 5보다 크면
        target.append(array1d[i])    #target에 붙이기
        
array_selected = np.array(target)   #target으로 ndarray만들기
print(array_selected)   #출력

#불린 인덱싱을 사용한 경우
print(array1[array1>5])   #한 줄로 가능

[6 7 8 9]
[6 7 8 9]


* **불린 인덱싱의 메커니즘**
<img src="4-5.png">
    
### 4) 배열의 정렬: sort(), argsort()

#### ① sort()
* Numpy sort() 유형
  * **np.sort(): 원 행렬은 유지, 정렬된 행렬을 새로 만들어서 반환
  * **ndarray.sort(): 원 행렬 자체를 정렬한 형태로 변환, 반환 값은 None
  * np.sort(), ndarray.sort() 모두 기본적으로 오름차순으로 행렬 내 원소를 정렬.
  * **내림차순**으로 정렬하려면 **np.sort() 뒤에 '[::-1]'** 을 붙이면 됨. **ndarray.sort()는** 반환 값이 없으므로 **'[::-1]' 사용불가.**

* 1차원 배열에서의 sort()

In [19]:
#np.sort()
print(array1)  #array1은 오름차순 정렬
print(np.sort(array1))  #오름차순 정렬 -> 변화 없음
array1 = np.sort(array1)[::-1]   #내림차순 정렬
print(array1)   # -> 9부터 1까지로 정렬됨

#.sort()
array1.sort()   # 오름차순으로 정렬
print(array1)   # -> 1부터 9까지로 정렬됨

[1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1]
[1 2 3 4 5 6 7 8 9]


* 2차원 배열에서 axis 기반의 sort()
<img src="4-6.png">

In [20]:
#2차원 배열A 생성
A = np.array([[8,12],
             [7,13]])
print(A)

print(np.sort(A, axis=0)) #axis=0, 행을 기준으로 위에서 아래로 오름차순 정렬
print(np.sort(A, axis=1)) #axis=1, 열을 기준으로 왼쪽에서 오른쪽으로 오름차순 정렬

print(np.sort(A, axis=0)[::-1])  #axis=0, 행을 기준으로 위에서 아래로 내림차순 정렬
print(np.sort(A, axis=1)[::-1])  #axis=1, 얘는 행의 위치를 바꾸고 왼쪽에서 오른쪽으로 오름차순 정렬(주의!!)

[[ 8 12]
 [ 7 13]]
[[ 7 12]
 [ 8 13]]
[[ 8 12]
 [ 7 13]]
[[ 8 13]
 [ 7 12]]
[[ 7 13]
 [ 8 12]]


In [21]:
B = np.array([[15,10,5],
             [9,6,3],
             [8,4,2]])
print(B)

print(np.sort(B, axis=0)) #axis=0, 행을 기준으로 위에서 아래로 오름차순 정렬
print(np.sort(B, axis=1)) #axis=1, 열을 기준으로 왼쪽에서 오른쪽으로 오름차순 정렬

print(np.sort(B, axis=0)[::-1])  #axis=0, 행을 기준으로 위에서 아래로 내림차순 정렬
print(np.sort(B, axis=1)[::-1])  #axis=1, 얘는 행의 위치를 바꾸고 왼쪽에서 오른쪽으로 오름차순 정렬

[[15 10  5]
 [ 9  6  3]
 [ 8  4  2]]
[[ 8  4  2]
 [ 9  6  3]
 [15 10  5]]
[[ 5 10 15]
 [ 3  6  9]
 [ 2  4  8]]
[[15 10  5]
 [ 9  6  3]
 [ 8  4  2]]
[[ 2  4  8]
 [ 3  6  9]
 [ 5 10 15]]


#### ② argsort()
* 원본 행렬 정렬 시, 정렬된 행렬의 원래 인덱스를 필요로 할 때 np.argsort()를 이용
* np.argsort()는 정렬 행렬의 **원본 행렬 인덱스를 ndarray형으로 반환**
<img src="4-7.png">

In [22]:
C = np.array([3,1,9,5])
print(C)

print(C.argsort())

[3 1 9 5]
[1 0 3 2]


### 5) 선형대수 연산

#### ① 행렬 내적 - np.dot(A,B)
<img src="4-8.png">

In [23]:
A = np.array([[1,2,3],
             [4,5,6]])
B = np.array([[7,8],
             [9,10],
             [11,12]])
np.dot(A,B)

array([[ 58,  64],
       [139, 154]])

#### ② 전치 행렬 - np.transpose(C)
* 원본 행렬 내 원소의 행과 열의 위치를 모두 바꾼 행렬: (x,y) -> (y,x)
<img src="4-9.png">

In [24]:
C = np.array([[1,2],
              [3,4]])
print(C)
print(np.transpose(C))

D = np.array([[1,2],
             [3,4],
             [5,6]])
print(D)
print(np.transpose(D))

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[[1 2]
 [3 4]
 [5 6]]
[[1 3 5]
 [2 4 6]]


### 넘파이 Summary
* **넘파이는 파이썬 머신러닝을 구성하는 핵심 기반, 반드시 이해가 필요함**
* 넘파이 API는 매우 넓은 범위를 다루고 있으므로 머신러닝 어플리케이션 작성시에 중요하게 활용되는 **핵심 개념 위주로 숙지**하는 것이 좋음
* 넘파이는 판다스에 비해 친절한 API를 제공하지 않으므로 **2차원 데이터의 경우 판다스를 이용하는 것이 효율적임**

## 2. Pandas

### 1) Pandas
* Panel data analysis 혹은 Python data analysis의 약자
* '관계형' 혹은 '테이블형' 데이터를 만들고 조작하기 위한 파이썬 라이브러리
* NumPy 라이브러리 기반으로 구축
* 오픈소스(<http://pnadas.pydata.org>)
* 판다스는 파이썬에서 데이터 처리를 위한 가장 인기있는 라이브러리임
  * 일반적으로 대부분의 데이터셋은 2차원 데이터로 엑셀 시트나 RDBMS의 Table 형태임
  * 행과 열의 2차원 데이터가 인기 있는 이유는 인간이 가장 이해하기 쉬운 데이터 구조이면서도, 효과적으로 데이터를 담을 수 있는 구조이기 때문임
  * 판다스는 행과 열로 이루어진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공함
* Pandas의 장점
>* CSV, EXCEL, Database(SQL), Json 등 다양한 소스에서 데이터를 가져오고 또한 해당 형식으로 데이터를 내보낼 수 있는 **입출력 기능**이 있음
>* 데이터의 삽입, 삭제, 병합, 결합, 슬라이싱, 인덱싱 등 **데이터를 필요한 대로 조작(manipulation)할 수 있음**
>* **누락 데이터 처리가 용이**함(무시, 0으로 변환, 평균값으로 변환 등)
>* **통계분석이나 머신러닝분석이 가능하도록 연구모델을 설정**할 수 있음
>* Statsmodel, SciPy 등 **다양한 데이터 분석 패키지와 쉽게 연동**되어 사용할 수 있음
>* NumPy처럼 **빠른 속도로 데이터를 처리**할 수 있음.

In [25]:
#Pandas 불러오기
import pandas as pd

### 2) Pandas의 주요 구성요소 - DataFrame, Series, Index
<img src="4-9.png">

### 3) 기본 API
* read_csv(): csv 파일 읽기 - pd.read_csv("파일이름.csv")
* head(): 상위 5줄 내용 출력 - df.head()
* shape: 행과 열의 수 - df.shape
* info(): **data frame의 전반적인 정보**, df을 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등 - df.info()
* describe(): 평균, 최대값, 최소값 등 **통계량** 출력 - df.describe()
* value_counts(): **개별 컬럼 내에 각각의 값이 나온 횟수를 출력** - df['변수명'].value_counts()
* sort_values(): **컬럼 기준으로 정렬 
* unique(): **유일한 값 출력

In [38]:
#read_csv() 함수로 파일 불러오기
titanic = pd.read_csv("titanic_train.csv")

#.head() 함수로 처음 5줄 확인하기
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [27]:
#.shape 속성으로 행, 열 개수 확인하기
print(titanic.shape)

#.columns 속성으로 컬럼명 확인하기
print(titanic.columns)

(891, 12)
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [28]:
#.info() 함수로 df 정보 출력하기
print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [29]:
#.describe() 함수로 요약 통계량 확인하기
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [30]:
#.value_counts() 함수로 한 컬럼 내 존재하는 값의 개수 출력
print(titanic['Pclass'].value_counts())
print(titanic['Pclass'].value_counts(normalize=True)) #normalize 활용하면 %로 표현 가능

3    491
1    216
2    184
Name: Pclass, dtype: int64
3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64


In [31]:
#.sort_values() 함수로 특정 컬럼기준으로 정렬하기
print(titanic['Pclass'].sort_values())  #Pclass를 기준으로 1부터 3까지 오름차순으로 정렬

445    1
310    1
309    1
307    1
306    1
      ..
379    3
381    3
382    3
371    3
890    3
Name: Pclass, Length: 891, dtype: int64


In [32]:
#unique() 함수로 개별 컬럼 내 값의 종류 출력하기
print(titanic['Parch'].unique())

[0 1 2 5 3 4 6]


### 4) DataFrame - 리스트 / 딕셔너리 / 넘파이 ndarray간 상호 변환
<img src="4-10.png">

### 5) DataFrame 데이터 삭제 - drop()
> **DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raisr')**

* axis: DataFrame의 로우를 삭제할 때는 axis=0, 컬럼을 삭제할 때는 axis=1로 설정
* 원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶을 때는 inplace=False로(디폴트가 False), 원본 DF에 드롭된 결과를 적용하고 싶을 때는 inplace=True 적용

In [33]:
titanic_copy = titanic  #titanic_copy 생성

titanic_drop = titanic_copy.drop('Age', axis=1, inplace=False) #Age 컬럼을 drop하여 titanic_drop에 저장
print(titanic_copy.columns)    #titanic_copy는 그대로 유지
print(titanic_drop.columns)  #titanic_drop의 Age 컬럼만 없어짐

titanic.drop("Age", axis=1, inplace=True)  #Age 컬럼을 drop하여 원본 df에 저장함
print(titanic_copy.columns)   #원본 df에 Age 컬럼이 사라짐

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


### 6) Index
* **판다스의 Index 객체는 RDBMS의 PK(Primary Key)와 유사**하게, **DataFrame, Series의 레코드(=Row=행)를 고유하게 식별하는 개체임
* DataFrame, Series에서 **Index 객체만 추출하려면 DataFrame.index 또는 Series.index 속성**을 통해 가능
* Series 객체는 Index 객체를 포함하지만, **Series 객체에 연산함수를 적용할 때 Index는 연산에서 제외되며 오로지 식별용으로만 사용**됨
* DataFrame 및 Series에 **reset_index() 함수**를 수행하면 **새롭게 인덱스를 연속 숫자형으로 할당하며, 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가**됨

#### ① []
* 컬럼 기반 필터링 또는 불린 인덱싱 필터링 제공

#### ② 데이터 셀렉션 및 필터링 - ix[], loc[], iloc[]
* 명칭/위치 기반 인덱싱 제공
* 명칭(Label)기반 인덱싱은 컬럼의 명칭(=컬럼명)을 기반으로 위치를 지정하는 방식
* 위치(Position)기반 인덱싱은 0을 출발점으로 행과 열의 위치(정수)를 기반으로 데이터를 지정하는 방식
> * ix[]: 명칭/위치 기반 인덱싱 함께 제공 => **기능 삭제됨**
> * loc[]: 명칭 기반 인덱싱
> * iloc[]: 위치 기반 인덱싱
<img src="4-11.png">

In [34]:
#print(titanic.ix[0,1])
#'DataFrame' object has no attribute 'ix' Error -> pandas 1.0.0 버전부터 deprecated 됨

print(titanic.loc[0,'Survived'])
print(titanic.iloc[0,1])   #위와 같은 결과

0
0


#### ③ 불린 인덱싱(Boolean indexing)
* 명칭/위치 기반 인덱싱을 사용할 필요 없이, 조건식을 []안에 기입하여 간편하게 필터링을 수행

In [39]:
titanic_boolean = titanic[(titanic['Age']>60)]
titanic_boolean

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


### 7) Aggregation 함수
* sum(), max(), min(), count() 등의 함수는 DataFrame/Series에서 집합(Aggregation)연산을 수행
* DataFrame에서 바로 aggregation을 호출할 경우 모든 컬럼에 적용함
* axis에 따른 Aggregation(디폴트는 axis=0)
<img src="4-12.png">

In [40]:
#sum()함수로 'Age', 'Fare' 칼럼의 값 더하기
titanic_aggre = titanic[['Age','Fare']].sum(axis=1)
print(titanic_aggre)

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888     23.4500
889     56.0000
890     39.7500
Length: 891, dtype: float64


#### DataFrame Group By
* DataFrame은 Group by 연산을 위해 groupby() 메소드 제공
* by 인자로 group by 하려는 컬럼명을 입력받으면 DataFrameGroupBy 객체를 반환
* 반환된 DataFrameGroupBy 객체에 aggregation 함수를 수행

In [41]:
#count() 함수로 'Survived' 컬럼 값별로 개수세기
titanic.groupby('Survived').count()

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,549,549,549,549,424,549,549,549,549,68,549
1,342,342,342,342,290,342,342,342,342,136,340


In [44]:
titanic.groupby('Pclass')['Survived'].sum()   #클래스별로 살아남은 사람 수

Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

In [None]:
#min(), max() 함수로 'Age' 컬럼 최소값, 최대값 구하기
col_age = titanic['Age']
print(col_age.min())
print(col_age.max())

### 8) 결손 데이터(MIssing Data) 처리하기
* isna(): DataFrame에서, 주어진 인자 값(컬럼)들이 NaN인지 True/False 값을 반환(Nan이면 True)
* fillna(): Missing 데이터를 주어진 인자 값으로 대체

In [None]:
print(col_age.isna())  #'Age' 컬럼에서 Nan값 찾기

col_age2 = col_age.fillna(col_age.mean())   #Nan값 'Age' 평균으로 채우기
print(col_age2)   #888번 로우가 평균으로 채워진 것 확인
print(round(col_age.mean(),6))

### 9) 판다스 apply lambda - 파이썬 lambda식 이해
* 판다스는 apply 함수에 lambda식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제공함
* 판다스의 경우 컬럼에 일괄적으로 데이터 가공을 하는 것이 속도 면에서 더 빠르나, 복잡한 데이터 가공이 필요한 경우 어쩔 수 없이 apply lambda를 이용함
<img src="4-13.png">

In [None]:
titanic['Name_len'] = titanic['Name'].apply(lambda x:len(x))
titanic.head()

### 판다스 Summary
* **2차원 데이터 핸들링을 위해서는 판다스를 사용하는 것이 좋음**
* 판다스는 매우 편리하고 다양한 데이터 처리 API(조인, 피벗/언피벗, SQL like API 등)를 제공하지만, 이를 다 알기에는 많은 시간과 노력이 필요
* 지금까지 언급된 핵심 사항에 집중하고, 데이터 처리를 직접 수행해보면서 실력을 더욱 향상 시킬 수 있음

### 전체 Summary
* **머신러닝이란, 어플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법**임
* **직관적인 문법, 많은 라이브러리, 뛰어난 생산성을 가지는 파이썬 언어를 기반으로 한 머신러닝 어플리케이션**은 **유연성, 통합성 등의 많은 장점**을 사용자에게 제공해 줌
* 파이썬 기반의 머신러닝을 이히기 위해서는 머신러닝 패키지 뿐만 아니라, **넘파이, 판다스, 시각화 등의 다양한 지원 패키지들도 같이 학습**되어야 함
* 단, 이들 지원 패키지를 익히기 위해서 많은 시간을 투자할 필요는 없으며, 기본 내용은 숙지하되 상세한 사용법은 **머신러닝 어플리케이션을 작성하면서 찾아가면서 구현**하는 것이 이들 지원 패키지를 빨리 익히는 데 더 도움될 것임