# numpy
- 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠른 배열 연산 속도를 보장한다.
- C/C++ 같은 저수준 언어 기반의 호환 API를 제공한다.
- 배열 기반의 연산은 물론 다양한 핸들링 기능을 제공한다.

In [1]:
import numpy as np

- as np를 추가해 약어로 모듈을 표현해주는 것이 관례다.
- 넘파이 기반 데이터 타입은 ndarray다.
- ndarray를 이용해 넘파이에서 다차원(Multi-dimension)배열을 쉽게 생성하고 다양한 연산을 수행할 수 있다.

In [8]:
# 1,2,3차원 배열 생성 및 차원 확인
arr1 = np.arange(8)
arr2 = arr1.reshape(2,4)
arr3 = arr1.reshape(2,2,2)
print(arr1,arr2,arr3,'\n')
print(f'{arr1.ndim}차원, {arr2.ndim}차원, {arr3.ndim}차원')

[0 1 2 3 4 5 6 7] [[0 1 2 3]
 [4 5 6 7]] [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]] 

1차원, 2차원, 3차원


## array() 함수
- 파이썬의 리스트와 같은 다양한 인자를 입력 받아 ndarray로 변환하는 기능을 수행한다.

In [143]:
# array 함수
# ndarray로 변환하는 기능 수행
array1 = np.array([1,2,3])
print('array1 type : ', type(array1))
print('array1 array 형태 : ', array1.shape)

array2 = np.array([[1,2,3],
                  [4,5,6]])
print('array2 type : ', type(array2))
print('array2 array 형태 : ',array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type : ', type(array3))
print('array3 arrary 형태 : ', array3.shape)

array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)
array2 type :  <class 'numpy.ndarray'>
array2 array 형태 :  (2, 3)
array3 type :  <class 'numpy.ndarray'>
array3 arrary 형태 :  (1, 3)


- np.array()사용시 class type이 numpy.ndarray로 나오는 것을 확인
- shape의 경우 차원과 크기를 튜플 형식으로 나타내준다.

## 차원 ndarray.ndim을 이용해 확인

In [144]:
# ndim 함수 사용해 arrary 차원 확인
print('arary1 : {:0}차원, array2 : {:1}차원, array3 : {:2}차원'.format(array1.ndim,
                                                                array2.ndim, array3.ndim))

arary1 : 1차원, array2 : 2차원, array3 :  2차원


- array()함수으 인자로는 파이썬 리스트 객체가 주로 사용된다.
- ndarray()내의 데이터값은 숫자 값, 문자열 값, 불린 값 등이 모두 가능하다.
    - int(8,16,32bit)
    - unsigned int(8,16,32bit)
    - float(16,32,64,128bit)
    - 이보다 큰 숫자 값이나 정밀도를 위해 complex 타입도 제공
- ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다.
    - int와 float이 같이 있을 수는 없다.

In [145]:
# 데이터 타입
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1)) # 리스트 형을 넣어도 numpy.ndarray로 변경
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [147]:
# 리스트 안에 문자열이 있을 경우
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

['1' '2' 'test'] <U21


## astype 메서드

In [141]:
# type 변경
print(arr1.dtype)
a1 = arr1.astype('float64')
a1, a1.dtype

int64


(array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.]), dtype('float64'))

In [142]:
# astype 메서드로 데이터값 타입 변경
array_int = np.array([1,2,3])
array_float = array_int.astype('float64') # float64형으로 변경
print(array_float, array_float.dtype)

[1. 2. 3.] float64


## arange() 함수
- 파이썬 표준 함수인 range()와 유사한 기능을 한다.
- array를 range()로 표현하는 것
- 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray의 데이터값으로 변환해준다.

In [35]:
# 과제(0913-1) arange, zeros, ones로 배열을 다양하게 생성하세요.

In [148]:
# arange() 함수
arr1 = np.arange(10)
print(arr1)
print(arr1.dtype, arr1.shape) # 데이터 타입, 형태

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [60]:
a = np.arange(10).reshape(2,5) # 2행 5열
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

## ones, zeros

In [57]:
print(np.zeros(10),'\n')      # 1차원
print(np.zeros((3,6)),'\n')   # 2차원
print(np.zeros((2,3,2)))      # 3차원 # 3행 2열 2개

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]] 

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]


In [59]:
np.ones((2,3,4)) # 3행 4열 2개

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [58]:
# zeros, ones

# 3행 2열
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape,'\n')

# ones
one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

# dtype을 지정하지 않으면 자동으로 float64로 설정

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2) 

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


## reshape()
- ndarray를 특정 차원 및 크기로 변환

In [55]:
# a1으로 1,2,3차원 배열을 만드세요.(reshape)
a1 = np.arange(25)
a2 = a1.reshape(5,5)
a3 = a1.reshape(5,5,1)
print(a1,'\n')
print(a2,'\n')
print(a3,'\n')

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24] 

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]] 

[[[ 0]
  [ 1]
  [ 2]
  [ 3]
  [ 4]]

 [[ 5]
  [ 6]
  [ 7]
  [ 8]
  [ 9]]

 [[10]
  [11]
  [12]
  [13]
  [14]]

 [[15]
  [16]
  [17]
  [18]
  [19]]

 [[20]
  [21]
  [22]
  [23]
  [24]]] 



In [149]:
# reshape()
array1 = np.arange(10)
print('arr1 : \n', array1)

array2 = array1.reshape(2,5)
print('arr2 : \n', array2)

array3 = array1.reshape(5,2)
print('arr3 : \n', array3)

arr1 : 
 [0 1 2 3 4 5 6 7 8 9]
arr2 : 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
arr3 : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [150]:
# reshape -1 활용
array1 = np.arange(10)
print('arr1 : \n', array1)

array2 = array1.reshape(2, -1)
print('arr2 : \n', array2.shape)

array3 = array1.reshape(5, -1)
print('arr3 : \n', array3.shape)

arr1 : 
 [0 1 2 3 4 5 6 7 8 9]
arr2 : 
 (2, 5)
arr3 : 
 (5, 2)


## tolist() 메서드
- ndarray → tolist() → 리스트 자료형

In [151]:
# reshape 차원 변경
array1 = np.arange(8)
array3d =array1.reshape((2,2,2)) # 2*2*2 = 8
print('array3d : \n', array3d.tolist())

array5 = array3d.reshape(-1,1)
print('array5 : \n', array5.tolist())
print('array5.shape : \n',array5.dtype)

array6 = array1.reshape(-1,1)
print('array6 : \n',array6.tolist())
print('array6 shape : \n',array6.shape)


array3d : 
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5 : 
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5.shape : 
 int64
array6 : 
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape : 
 (8, 1)


## 인덱싱(indexing)
1. 특정한 데이터만 추출 : 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환
2. 슬라이싱(slicing) : 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식.
    - ‘:’ 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스-1 위치에 있는 데이터의 ndarray를 반환한다.
3. 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray를 반환한다.
4. 불린 인덱싱(Boolean Indexing): 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환한다.

In [153]:
# 인덱싱(indexing)
# 2차원의 3x3 narray로 변환
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3) # 3행 3열
print(array2d)

print('(row=0, col=0) index 값 : ',array2d[0,0])
print('(row=0, col=1) index 값 : ',array2d[0,1])
print('(row=1, col=0) index 값 : ',array2d[1,0])
print('(row=1, col=1) index 값 : ',array2d[1,1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 값 :  1
(row=0, col=1) index 값 :  2
(row=1, col=0) index 값 :  4
(row=1, col=1) index 값 :  5


### 슬라이싱

1. ‘.’기호 앞에 시작 인덱스를 생략하면 자동으로 맨 처음 인덱스인 0으로 간주
2. ‘:’기호 뒤에 종료 인덱스를 생략하면 자동으로 맨 마지막 인덱스로 간주
3. ‘:’기호 앞/뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음 / 맨 마지막 인덱스로 간주

In [156]:
# 1차원 데이터 슬라이싱
array1 = np.arange(start=1, stop=10)# 1~9
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array1)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [157]:
# 2차원 데이터 슬라이싱

array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d : \n',array2d)

print('array2d[0:2, 0:2]\n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3]\n', array2d[1:3, 0:3])
print('array2d[1:3, :]\n', array2d[1:3, :])
print('array2d[:, :]\n', array2d[:, :])
print('array2d[:2, 1:]\n', array2d[:2, 1:])
print('array2d[:2, 0]\n', array2d[:2, 0])

array2d : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]
 [[4 5 6]
 [7 8 9]]
array2d[:, :]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]
 [[2 3]
 [5 6]]
array2d[:2, 0]
 [1 4]


### 팬시 인덱싱(Fancy Indexing)

- 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식

In [158]:
# 팬시 인덱싱

array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)

print('array2d : \n',array2d.tolist())
array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] => ', array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] => ', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] => ', array5.tolist())

array2d : 
 [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
array2d[[0,1], 2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


In [34]:
# 과제(0913-2) a1,a2,a3에서 원하는 원소값들을 다양한 방식으로 인덱싱하여 출력하세요.

In [None]:
# a1으로 1,2,3차원 배열을 만드세요.(reshape)
a1 = np.arange(25)
a2 = a1.reshape(5,5)
a3 = a1.reshape(5,5,1)
print(a1,'\n')
print(a2,'\n')
print(a3,'\n')

In [65]:
a1[4]

4

In [154]:
a2[0,0]

0

In [155]:
a3[0][0]

array([0])

### 불린 인덱싱(Boolean Indexing)

- 조건 필터링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방식

In [159]:
# 불린 인덱싱
array1d = np.arange(start=1, stop=10)

array2 = array1d[array1d > 6]

print('array1d > 5 불린 인덱싱 값 : ', array2)

array1d > 5 불린 인덱싱 값 :  [7 8 9]


In [19]:
# 불린 인덱싱
ar1d = np.arange(1,10)
ar1d

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
# 불린 인덱싱 : [6, 7, 8, 9] 추출하세요
ar = ar1d[ar1d > 5]
ar

array([6, 7, 8, 9])

In [24]:
# 일반 인덱싱
indexes = np.array([5,6,7,8])
ar = ar1d[indexes]
ar

array([6, 7, 8, 9])

## 행렬의 정렬
- np.sort()
- ndarray.sort()
- argsort() - 정렬된 행렬의 인덱스 반환

In [160]:
# 행렬의 정렬 - sort() 와 argsort()
# np.sort(), ndarray.sort()
# argsort()

org_array = np.array([3,1,9,5])
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬 : ',sort_array1)
print('np.sort() 호출 후 원본 행렬 : ',org_array)

sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬 : ',sort_array2)
print('org_array.sort() 호출 후 원본 행렬 : ',org_array)

np.sort() 호출 후 반환된 정렬 행렬 :  [1 3 5 9]
np.sort() 호출 후 원본 행렬 :  [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬 :  None
org_array.sort() 호출 후 원본 행렬 :  [1 3 5 9]


In [161]:
# 내림차순 정렬
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬 : ', sort_array1_desc)

# 로우,칼럼 방향으로 정렬
array2d = np.array([[8, 12],
                   [7, 1]])

sort_array2d_axis0 = np.sort(array2d, axis = 0)
print('로우 방향으로 정렬 : \n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis = 1)
print('칼럼 방향으로 정렬 : \n', sort_array2d_axis1)

내림차순으로 정렬 :  [9 5 3 1]
로우 방향으로 정렬 : 
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬 : 
 [[ 8 12]
 [ 1  7]]


In [28]:
# 정렬
# np.sort() 원본 미반영
ar = np.array([3,1,9,5])
s1 = np.sort(ar)
print(ar)
print(s1)
# ndarray.sort() 정렬, 원본 반영
s2 = ar.sort()
print(s2)
print(ar)

[3 1 9 5]
[1 3 5 9]
None
[1 3 5 9]


In [29]:
# 내림차순
s1[::-1]

array([9, 5, 3, 1])

In [162]:
# 과제(0913-3)
# ar2d를 로우 방향, 컬럼 방향으로 정렬하세요
ar2d = np.arange(9).reshape(3,3)
ar2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [101]:
ar2d_axis0 = ar2d.sort(axis=0)
print(ar2d_axis0)

None


In [163]:
sort_ar2d_axis0 = np.sort(ar2d, axis=0)
print(sort_ar2d_axis0)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [102]:
ar2d_axis1 = ar2d.sort(axis=1)
print(ar2d_axis1)

None


In [164]:
sort_ar2d_axis1 = np.sort(ar2d, axis=1)
print(sort_ar2d_axis1)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


## 인덱스 값 반환

In [166]:
# 정렬된 행렬의 인덱스를 반환

org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스 : ', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스 :  [1 0 3 2]


In [167]:
# 내림차순
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스 : ',sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스 :  [2 3 0 1]


In [107]:
# 과제(0913-4)
# 성적 오름차순으로 이름을 출력하세요.
name_array = np.array(['John','Mike','Sarah','Kate', 'Samuel'])
score_array = np.array([78,95,84,98,88])

In [108]:
# score_array의 정렬된 값에 해당하는 원본 행렬 위치 인덱스 반환하고 이를 이용하여 name_array에서 name값 추출.  
sort_indices = np.argsort(score_array)
print("sort indices:", sort_indices)

name_array_sort = name_array[sort_indices]

score_array_sort = score_array[sort_indices]
print(name_array_sort)
print(score_array_sort)

sort indices: [0 2 4 1 3]
['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
[78 84 88 95 98]


## 행렬 내적(행렬 곱)

- 행렬 내적은 행열 곱이며, 두 행렬 A와 B의 내적은 np.dot()을 이용해 계산이 가능하다.
- np.dot()

In [168]:
# 행렬 내적 행렬 곱 np.dot()
A = np.array([[1,2,3],
              [4,5,6]])

B = np.array([[7,8],
             [9,10],
             [11,12]])

print('행렬 내적 결과 : \n', np.dot(A,B))

행렬 내적 결과 : 
 [[ 58  64]
 [139 154]]


In [38]:
# 선형대수 연산 - 행렬 내적
a = np.arange(1,7).reshape(2,3)
b = np.arange(7,13).reshape(3,2)
dot_product = np.dot(a,b)
dot_product

array([[ 58,  64],
       [139, 154]])

## 전치 행렬

- 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬을 그 행렬의 전치 행렬이라고 한다.
- np.transpose(A)

In [169]:
# 전치 행렬
A1 = np.array([[1,2],
              [3,4]])
print('A1의 전치 행렬 : \n', np.transpose(A1))
print('A의 전치 행렬 : \n', np.transpose(A))
print('B의 전치 행렬 : \n', np.transpose(B))

A1의 전치 행렬 : 
 [[1 3]
 [2 4]]
A의 전치 행렬 : 
 [[1 4]
 [2 5]
 [3 6]]
B의 전치 행렬 : 
 [[ 7  9 11]
 [ 8 10 12]]


In [39]:
# 전치 행렬
print(a,'\n')
transpose_mat = np.transpose(a)
transpose_mat

[[1 2 3]
 [4 5 6]] 



array([[1, 4],
       [2, 5],
       [3, 6]])

# pandas
- 판다스의 핵심 개체는DataFrame이다.
    - DataFrame은여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체다.
- Index
    - Index는 RDBMS의 PK(Primary Key)처럼 개별 데이터를 고유하게 식별하는 Key 값이다.
    - Series와 DataFrame은 모두 Index를 key 값으로 가지고 있다.
- Series는 칼럼이 하나뿐인 데이터 구조체
- DataFrame은 칼럼이 여러 개인 데이터 구조체
    - DataFrame은 여러 개의 Series로 이뤄졌다고 할 수 있다.

In [1]:
import pandas as pd
tdf = pd.read_csv('titanic_train.csv')
tdf.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [2]:
tdf.shape

(891, 12)

In [3]:
tdf.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [4]:
tdf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [5]:
tdf.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
# value_counts() 메서드 해당 칼럼값의 유형과 건수 확인
vcounts = tdf['Pclass'].value_counts()
vcounts

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [175]:
# DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

- 기본적으로 DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등 다양한 데이터로부터 생성 가능
- DataFrame은 반대로 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등으로 변환될 수 있다.

In [109]:
# 과제(0913-5)
# 데이터프레임과 리스트, 딕셔너리, 배열(ndarray) 상호 변환사례를 작성하여 설명하세요.

In [134]:
# 리스트, 배열, 딕셔너리를 데이터프레임으로 변환
col_name = ['col1', 'col2', 'col3']
list = [[1,2,3],[11,12,13]]
array = np.array(list)
dict ={'col1':[1,11], 'col2':[2,22],'col3':[3,33]}

df_list = pd.DataFrame(list, columns=col_name)
df_dict = pd.DataFrame(dict)
df_array = pd.DataFrame(array, columns=col_name)

print('list로 만든 DataFrame','\n')
display(df_list)
print('딕셔너리로 만든 DataFrame','\n')
display(df_dict)
print('array로 만든 DataFrame','\n')
display(df_array)

list로 만든 DataFrame 



Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,12,13


딕셔너리로 만든 DataFrame 



Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,22,33


array로 만든 DataFrame 



Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,12,13


In [133]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
# DataFrame을 ndarray로 변환
array = df_array.values
print(array,'\n')

# DataFrame을 list로 변환
list = df_list.values.tolist()
print(list,'\n')

# DataFrame을 딕셔너리로 변환
dict = df_dict.to_dict('list')
print(dict)

[[ 1  2  3]
 [11 12 13]] 

[[1, 2, 3], [11, 12, 13]] 

{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


In [49]:
# 과제(0913-6)
# tdf를 전처리 및 탐색적 분석(시각화, 통계적 기법)을 통하여 분석용 데이터셋으로 만드세요.

In [38]:
import pandas as pd
tdf = pd.read_csv('titanic_train.csv')
tdf.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [39]:
tdf.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [None]:
#PassengerId : 
#survived : 탑승객 생존 유무 (0: 사망, 1: 생존)
#pclass : 등실의 등급
#name : 이름
#sex : 성별
#age : 나이
#sibsp : 함께 탐승한 형제자매, 아내, 남편의 수
#parch : 함께 탐승한 부모, 자식의 수
#ticket :티켓 번호
#fare : 티켓의 요금
#cabin : 객실번호
#embarked : 배에 탑승한 항구 이름

In [40]:
tdf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [41]:
# null값 확인
tdf.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [37]:
tdf['Age'].describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

In [43]:
# age 결측값은 중간값으로 채우기
tdf['Age'].fillna(tdf['Age'].median(), inplace=True)

In [44]:
tdf['Age'].isnull().sum()

0

In [None]:
# age category
0~18세: 0
19~25세: 1
26~35세: 2
36~60세: 3
61~100세: 4

In [46]:
# age 범주화
def age_category(x):
    y=0
    if x<19:
        y=0
    elif x<26:
        y=1
    elif x<36:
        y=2
    elif x<61:
        y=3
    else:
        y=4
    return y

tdf['Age_cat']=tdf['Age'].apply(age_category)

In [47]:
tdf['Age_cat'].value_counts()

2    373
3    195
1    162
0    139
4     22
Name: Age_cat, dtype: int64

In [48]:
tdf.drop(columns = ['Age'] , axis=1 , inplace = True)

In [49]:
tdf['Sex'].replace(['male','female'],[0,1],inplace=True)

In [50]:
# emabarked 값 체크
tdf.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [51]:
tdf['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [52]:
# 결측값은 최빈값으로 채우기
tdf['Embarked'] = tdf['Embarked'].fillna('S')

In [53]:
# family 묶어주기 (sibsp, parch)
tdf['Family'] = tdf['SibSp'] + tdf['Parch']

In [54]:
tdf.drop(columns=['SibSp'] , axis=1 , inplace = True)
tdf.drop(columns=['Parch'] , axis=1 , inplace = True)

In [55]:
# 불필요 컬럼 제거
tdf.drop(columns = ['Cabin'] , axis=1 , inplace = True)
tdf.drop(columns=['Ticket'] , axis=1 , inplace = True)
tdf.drop(columns=['Fare'] , axis=1 , inplace = True)

In [57]:
tdf.drop(columns=['Name'] , axis=1 , inplace = True)

In [58]:
tdf.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Embarked,Age_cat,Family
0,1,0,3,0,S,1,1
1,2,1,1,1,C,3,1
2,3,1,3,1,S,2,0
3,4,1,1,1,S,2,1
4,5,0,3,0,S,2,0
