# e-비즈니스학과 201721493 오지혜

## Numpy

Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지이다. 제공되는 기능은 다음과 같다.

- 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 관련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능

Numpy를 사용하기 위해서는 먼저 numpy 패키지를 import한다.

In [37]:
import numpy as np

### 다차원 배열(Arrays)
Numpy가 제공하는 ndarray(n-dimensional array)은 같은 종류의 데이터를 담을 수 있는 다차원 배열이며, 모든 원소는 같은 자료형이어야 한다. 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 type이라는 객체를 가진다. ndarray의 차원(dimension)은 rank라고 부른다.

In [38]:
# ndarray를 사용해보기 전에 비교를 위해 먼저 리스트를 실펴본다.
a = [1, 2, 3, 4, 5, 6]
print(a)
b = [[1, 2, 3], [4, 5, 6]] # 리스트로 2차원 행렬을 표현했을때의 모양
print(b)
c = [1, 'a', 3.5] # 리스트는 서로 다른 type의 데이터 저장이 가능
print(c)

[1, 2, 3, 4, 5, 6]
[[1, 2, 3], [4, 5, 6]]
[1, 'a', 3.5]


ndarray는 array 함수와 중첩된 리스트(list)를 이용하여 생성할 수 있으며, []를 이용하여 인덱싱(indexing)을 한다.

In [39]:
a = np.array([1, 2, 3])  # 1차원 배열 생성
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # 배열의 한 원소를 변경
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [40]:
b = np.array([[1,2,3],[4,5,6]])   # 2차원 배열 생성
print(b) #2차원 배열의 모양을 확인

[[1 2 3]
 [4 5 6]]


In [41]:
print(b.shape) #배열의 각 차원의 크기
print(b[0, 0], b[0, 1], b[1, 0]) #인덱싱 예제

(2, 3)
1 2 4


Numpy는 array 함수 외에도 배열을 생성하기 위한 다양한 방법을 제공한다.

In [42]:
a = np.zeros((2, 3))  # 값이 모두 0인 배열 생성, 매개변수는 원하는 shape
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [43]:
b = np.ones((3, 4))   # 값이 모두 1인 배열 생성
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [44]:
c = np.full((2, 4), 7) # 모든 원소가 원하는 값으로 초기화된 배열 생성
print(c)

[[7 7 7 7]
 [7 7 7 7]]


In [45]:
d = np.eye(4)        # 2x2의 단위행렬(identity matrix)을 생성
print(d)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [46]:
e = np.random.random((2,4)) # 무작위값으로 이루어진 배열 생성
print(e)

[[0.86565811 0.89338735 0.32467251 0.22698267]
 [0.71681354 0.43580515 0.23543279 0.55578895]]


### 배열 인덱싱(Array indexing)
슬라이싱(Slicing): 파이썬 리스트와 유사하게 배열도 슬라이싱이 가능하다. ndarray는 다차원 배열이므로 각 차원에 대해 슬라이싱을 할 수 있다.

In [47]:
import numpy as np

# shape가 (3, 4)이고 아래와 같은 값을 갖는 2차원 배열을 생성
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# 아래와 같은 일부를 뽑아내고 싶다면?
# [[2 3]
#  [6 7]]
#        0열 1열 2열 3열
# 0행 [[ 1   2   3   4]
# 1행  [ 5   6   7   8]
# 2행  [ 9  10  11  12]]

b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


주의할 점 : 배열의 슬라이스를 잘라서 만든 배열은 원래의 배열과 값을 공유하므로 수정할 경우 원래의 배열도 값이 변경된다.

In [48]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(b)
print(a)

2
[[77  3]
 [ 6  7]]
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


만일 값을 복사해서 새로운 배열을 만들고 싶으면 copy() 함수를 사용

In [49]:
c = b.copy()
c[0, 0] = 55
print(c)
print(b)

[[55  3]
 [ 6  7]]
[[77  3]
 [ 6  7]]


인덱싱과 슬라이싱을 섞어서 쓸 수 있다 (정확히는 정수 인덱싱과 슬라이스 인덱싱).:

In [50]:
# Create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, a.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] (3, 4)


정수 인덱싱과 슬라이싱을 섞어서 쓰는 경우 차원이 감소할 수 있다. 슬라이싱만 쓰는 경우는 차원 유지:

In [51]:
row_r1 = a[1, :]    # 차원이 감소되는 것에 주의  
print(row_r1, row_r1.shape)

[5 6 7 8] (4,)


In [52]:
row_r2 = a[1:2, :]  # 차원 유지됨
print(row_r2, row_r2.shape)

[[5 6 7 8]] (1, 4)


In [53]:
row_r3 = a[2, :]  # 차원 유지됨
print(row_r3, row_r3.shape)

[ 9 10 11 12] (4,)


In [54]:
# 컬럼만 잘라낼 때에도 마찬가지:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


정수 배열을 이용한 인덱싱: 슬라이싱을 사용하는 경우 결과는 항상 원래 배열의 서브 배열이 된다. 반면, 정수 배열을 이용하면 임의로 변경하는 것이 가능하다.

In [56]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, a.shape)

# 정수 배열 인덱싱의 예.
# 반환된 배열의 shape는 (3,) 
print(a[[0, 1, 2], [0, 1, 0]])

# 위 방식은 아래 방식과 동일한 결과를 만들어 냄:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[[1 2]
 [3 4]
 [5 6]] (3, 2)
[1 4 5]
[1 4 5]


In [57]:
# 정수 배열 인덱싱을 할 때, 같은 요소를 가져오게 될 수도 있음
print(a[[0, 0], [1, 1]])

# 아래 예제와 동일
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


정수 배열 인덱싱은 각각의 행/열에서 원하는 요소만 가져오고 싶을 때 유용하게 사용이 가능:

In [58]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [59]:
# np.arange는 range와는 달리 ndarray 형태로 모든 값을 생성
print(np.arange(4))
print(range(4))

[0 1 2 3]
range(0, 4)


In [60]:
# 정수 배열 선언
b = np.array([0, 2, 0, 1])

# b의 각 행에서 위 배열에 해당하는 열의 값을 가져오고 싶다면?
print(a[np.arange(4), b])

[ 1  6  7 11]


In [61]:
# b의 각 행에서 위 배열에 해당하는 열의 값에만 10을 더하고 싶다면?
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


불리안 배열 인덱싱: 불리안 배열을 이용하면 배열에서 원하는 요소들만 추출이 가능하다. 일반적으로 특정 조건을 만족하는 요소들만 골라내고자 하는 경우에 자주 사용된다.:

In [62]:
bb = np.array([1, 2, 3, 4, 5, 6])

# ndarray 중 벡터에 대한 비교연산자 적용 결과
bb > 3

array([False, False, False,  True,  True,  True])

In [63]:
# 벡터에 대한 불리안 인덱싱 결과

bb[bb > 3] # bb 값 중에서 3보다 큰 값만 반환 

array([4, 5, 6])

In [64]:
# 행렬에 대한 불리안 인덱싱 결과 확인
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # 배열의 개별적인 요소에 대해서 2보다 큰지를 True/False 배열로 반환

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [65]:
# 불리안 배열의 값이 true인 요소들만 반환
print(a[bool_idx])

# 아래와 같이 줄여서 사용 가능:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


### 데이터 타입
Numpy의 ndarray는 모두 같은 타입의 요소들로 이루어진다. 다양한 데이터 타입이 제공되며, 지정하지 않는 경우 Numpy는 타입을 자동으로 선택한다. 아래와 같이 데이터 타입을 명시적으로 선언하는 것도 가능하다:

In [66]:
x = np.array([1, 2])  # 자동으로 타입 선택
y = np.array([1.0, 2.0])  # 자동으로 타입 선택
z = np.array([1, 2], dtype=np.int64)  # 명시적으로 타입을 지정

print(x.dtype, y.dtype, z.dtype)

int32 float64 int64


In [67]:
z = np.array([1, 2], dtype=np.float32) #값은 정수인데 타입은 실수로 한 경우
z

array([1., 2.], dtype=float32)

데이터 타입에 대한 상세한 내용은 다음을 참조 documentation.

### 배열 연산
배열에 대한 수학 연산은 기본적으로 요소단위(elementwise)로 이루어지며, 연산자와 함수 둘 다 사용이 가능하다:

In [68]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [69]:
# 요소합(elementwise sum), 결과로 ndarray를 생성한다
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [70]:
# 요소차(Elementwise difference)
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [71]:
# 요소곱(Elementwise product)
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [72]:
# 요소 나눗셈(Elementwise division)
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [73]:
# Elementwise square root
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x)) #sqrt가 각 요소에 적용됨

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [None]:
import math
a = [1, 2, 3, 4]

math.sqrt(a) #sqrt()가 리스트에도 작동하는지 확인

벡터의 내적(inner product)은 dot 함수를 사용한다. dot 는 numpy 함수와 ndarray의 메소드 두 방식으로 사용이 가능하다:

In [75]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11,12])

print(x, x.shape)
print(y, y.shape)
print(v, v.shape)
print(w, w.shape)

[[1 2]
 [3 4]] (2, 2)
[[5 6]
 [7 8]] (2, 2)
[ 9 10] (2,)
[11 12] (2,)


In [76]:
# 벡터 내적(Inner product)
print(v.dot(w))
print(np.dot(v, w))

219
219


In [77]:
# 행렬과 벡터 간 곱셈(matrix / vector product)
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [78]:
# 행렬 곱셈(Matrix multiplication / product)
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy는 유용한 함수들을 제공한다. 그 중 하나가 sum으로 사용법은 아래와 같다:

In [79]:
x = np.array([[1,2],[3,4]])
print(x)

print(np.sum(x))  # 모든 요소의 합 "10"
print(np.sum(x, axis=0))  # 열(column)의 합을 계산 "[4 6]"
print(np.sum(x, axis=1))  # 행(row)의 합을 계산; prints "[3 7]"

[[1 2]
 [3 4]]
10
[4 6]
[3 7]


Numpy의 다른 함수들은 다음을 참조 documentation.

행렬연산에서 중요한 연산 중 하나는 전치행렬(transposed matrix)를 구하는 것이다. 아래와 같이 Numpy의 T 메소드를 이용해서 구한다:

In [80]:
x = np.array([[1,2,3],[4,5,6]])
print(x)
print(x.T)

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]


In [81]:
v = np.array([[1,2,3]])
print(v)
print(v.T)

[[1 2 3]]
[[1]
 [2]
 [3]]


### 브로드캐스팅(Broadcasting)
브로드캐스팅은 크기가 서로 다른 배열에 대해 연산을 하고자 하는 경우에 사용되는 강력한 메커니즘이다. 아래 예는 브로드캐스팅의 개념과 예제를 잘 보여준다:

In [82]:
# 벡터 v 를 행렬 x의 모든 행에 더하고자 함,
# 그 결과는 행렬 y에 저장
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print('x =\n', x)
v = np.array([1, 0, 1])
y = np.empty_like(x)   # x와 동일한 shape를 가진 빈 행렬을 생성

# 반복문을 이용해 x의 각 행에 v를 더함
for i in range(4):
    y[i, :] = x[i, :] + v

print('y =\n', y)

x =
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
y =
 [[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


작동은 하지만 행렬 x가 커지면 느려지고, 코딩도 귀찮다. 다음으로 생각할 수 있는 방법은 벡터 v를 반복해서 x와 같은 크기로 만들고 vv에 저장한 다음에 x아 vv의 요소합 (elementwise sum)을 하는 것이다:

In [83]:
vv = np.tile(v, (4, 1))  # x 행의 수만큼 v를 반복해서 vv를 생성
print(vv)                 # Prints "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [84]:
y = x + vv  # x와 vv를 요소합
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy가 제공하는 브로드캐스팅(broadcasting)을 이용하면 쉽게 구현이 가능:

In [85]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # x와 v의 shape이 다르기 때문에 자동으로 브로드캐스팅이 작동
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


y = x + v에서 x의 shape은 (4, 3) 이고 v의 shape은 (3,) 이므로 브로드캐스팅이 작동, v의 shape가 (4, 3)이 되도록 v를 복사한 후에, 요소합을 구하게 된다.

브로드캐스팅의 동작원칙은 다음과 같다:

1. 만일 두 배열의 차수가 다르면 차수가 적은 배열을 늘려서 shape를 맞춰서 연산을 한다.
2. 이 때 두 배열이 한 차원에서 크기가 동일하거나 다른 쪽의 크기가 1이면 호환가능(compatible)하다.
3. 두 배열이 모든 차원에서 호환가능하면 브로드캐스팅이 된다.
4. 한 배열의 어떤 차원의 크기가 1이고 다른 배열의 같은 차원의 크기가 1보다 크면 큰 쪽에 맞춰서 복사된다.

상세한 내용은 다음을 참조 documentation or this explanation.

브로드캐스팅을 지원하는 함수를 universal function이라고 한다. universal function의 모든 리스트는 다음을 참조 documentation.

브로드캐스팅의 다른 예제:

In [86]:
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# 위의 경우, v와 w의 shape이 다르므로 요소곱을 하는 경우 에러가 발생함
# 먼저 v를 열로 바꿔서 shape을 (3, 1)로 만든 후에 브로드캐스팅을 적용하면 v와 w가 (3, 2)로 확장되고
# 그 다음 요소곱을 실행
print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


In [87]:
# 벡터를 행렬의 각 행에 더하고자 하는 경우
x = np.array([[1,2,3], [4,5,6]])
print('x =\n', x)
# x는 (2, 3)이고 v는 (3,)이므로 v를 (2, 3)으로 브로드캐스트

print('result =\n', x + v)

x =
 [[1 2 3]
 [4 5 6]]
result =
 [[2 4 6]
 [5 7 9]]


In [88]:
# x의 각 행에 w를 더하고 싶다면?
# x는 (2, 3), w는 크기가 2인 벡터이므로 차원이 맞지 않음
# w를 reshape해서 (2, 1)로 바꾸면 브로드캐스팅이 가능
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


In [89]:
# x 행렬에 상수 곱을 하고 싶을 때
# Numpy는 스칼라를 shape ()로 취급;
# 따라서 x에 맞춰 스칼라를 shape (2, 3)으로 브로드캐스팅이 가능
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]


브로드캐스팅은 코드를 간략하게 할 뿐 아니라 속도도 향상되므로 가능하면 항상 사용하는 것이 바람직하다.

Numpy에 대한 상세한 내용은 다음을 참조 numpy reference

### Numpy ndarray 개요

In [1]:
import numpy as np

In [2]:
array1 = np.array([1,2,3])
print('array1 type:',type(array1))
print('array1 array 형태:',array1.shape)

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type:',type(array2))
print('array2 array 형태:',array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type:',type(array3))
print('array3 array 형태:',array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


In [3]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


In [4]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [5]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [6]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1= array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2= array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### ndarray를 편리하게 생성하기 - arange, zeros, ones

In [7]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [8]:
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### reshape

In [9]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n',array2)

array3 = array1.reshape(5,2)
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [None]:
array1.reshape(4,3)

In [11]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1,5)
print('array2 shape:',array2.shape)

array3 = array1.reshape(5,-1)
print('array3 shape:',array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


In [None]:
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

In [13]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n',array5.tolist())
print('array5 shape:',array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n',array6.tolist())
print('array6 shape:',array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


### indexing
* 단일값 추출

In [14]:
# 1에서 부터 9 까지의 1차원 ndarray 생성 
array1 = np.arange(start=1, stop=10)
print('array1:',array1)
# index는 0 부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[2]
print('value:',value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


In [15]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


In [16]:
array1[0] = 9
array1[8] = 0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


In [17]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0,col=0) index 가리키는 값:', array2d[0,0] )
print('(row=0,col=1) index 가리키는 값:', array2d[0,1] )
print('(row=1,col=0) index 가리키는 값:', array2d[1,0] )
print('(row=2,col=2) index 가리키는 값:', array2d[2,2] )

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0) index 가리키는 값: 1
(row=0,col=1) index 가리키는 값: 2
(row=1,col=0) index 가리키는 값: 4
(row=2,col=2) index 가리키는 값: 9


* Slicing

In [18]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [19]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [20]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n',array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [21]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape )

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


* fancy indexing

In [22]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] => ',array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] => ',array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] => ',array5.tolist())

array2d[[0,1], 2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


* Boolean indexing

In [23]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing을 적용 
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값 :', array3)

array1d > 5 불린 인덱싱 결과 값 : [6 7 8 9]


In [24]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [25]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과 :', array3)

불린 인덱스로 필터링 결과 : [6 7 8 9]


In [26]:
indexes = np.array([5,6,7,8])
array4 = array1d[ indexes ]
print('일반 인덱스로 필터링 결과 :',array4)

일반 인덱스로 필터링 결과 : [6 7 8 9]


### 행렬의 정렬 – sort( )와 argsort( )

* 행렬 정렬

In [28]:
org_array = np.array([ 3, 1, 9, 5]) 
print('원본 행렬:', org_array)
# np.sort( )로 정렬 
sort_array1 = np.sort(org_array)         
print ('np.sort( ) 호출 후 반환된 정렬 행렬:', sort_array1) 
print('np.sort( ) 호출 후 원본 행렬:', org_array)
# ndarray.sort( )로 정렬
sort_array2 = org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort( ) 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort( ) 호출 후 원본 행렬: [3 1 9 5]
org_array.sort( ) 호출 후 반환된 행렬: None
org_array.sort( ) 호출 후 원본 행렬: [1 3 5 9]


In [29]:
sort_array1_desc = np.sort(org_array)[::-1]
print ('내림차순으로 정렬:', sort_array1_desc) 

내림차순으로 정렬: [9 5 3 1]


In [30]:
array2d = np.array([[8, 12], 
                   [7, 1 ]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('컬럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


* 정렬 행렬의 인덱스 반환

In [31]:
org_array = np.array([ 3, 1, 9, 5]) 
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [32]:
org_array = np.array([ 3, 1, 9, 5]) 
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [33]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 – 행렬 내적과 전치 행렬 구하기

* 행렬 내적

In [34]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


* 전치 행렬

In [35]:
A = np.array([[1, 2],
              [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]


# Numpy 기초연습문제

In [230]:
import numpy as np #numpy 패키지 import

### 1. np.zeros를 이용하여 행이 3, 열이 4인 ndarray를 생성하시오. 이 때 생성된 ndarray의 이름은 a가 되도록 한다.

In [232]:
a = np.zeros((3, 4)) #np.zeros를 이용하여 행이 3, 열이 4인 ndarray를 생성한 후 a에 할당
a #a 출력

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 2. 위에서 생성한 ndarray a에 대하여, 다중 for 문을 이용하여 아래와 같은 값을 갖도록 초기화하시오.
```python
array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])
```

In [233]:
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i, j] = i*4 + j + 1 #다중 for문 이용하여 a 초기화하기
a #a 출력

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [234]:
num = 1
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i, j] =  num
        num += 1 #다중 for문 이용하여 a 초기화하기
a #a 출력

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

### 3. 초기화한 a로부터 값 7을 꺼내도록 인덱싱하시오.

In [235]:
a[1, 2] #a로부터 값 7 꺼내도록 인덱싱

7.0

### 4. a에서 아래와 같이 둘째 행을 꺼내도록 인덱싱하시오. 단 차원이 유지되어야 한다.
array([[5., 6., 7., 8.]])

In [236]:
a.shape

(3, 4)

In [237]:
a[[1], :] #a로부터 둘째행 꺼내도록 인덱싱

array([[5., 6., 7., 8.]])

### 5. a에서 아래와 같이 둘째 열과 셋째 열이 나오도록 인덱싱하시오.
```python
array([[ 2.,  3.],
       [ 6.,  7.],
       [10., 11.]])
```

In [266]:
a[:,[1, 2]] # a로부터 둘째열과 셋째열 꺼내도록 인덱싱

array([[ 2.,  3.],
       [ 6.,  7.],
       [10., 11.]])

### 6. 아래와 같이 a에서 6보다 작거나 같은 값들이 나오도록 불리안 인덱싱을 하시오.
```python
array([1., 2., 3., 4., 5., 6.])
```

In [239]:
result = np.asarray([a[i, j] for i in range(a.shape[0]) for  j in range(a.shape[1]) if a[i, j] <= 6]) #a로부터 6보다 작거나 같은 값들 꺼내도록 불리안 인덱싱
result

array([1., 2., 3., 4., 5., 6.])

In [240]:
a[a <= 6] 

array([1., 2., 3., 4., 5., 6.])

### 7. np.random 패키지를 이용하여 0에서 1사이의 값이 무작위로 생성된, 행이 3 열이 4인 ndarray를 생성하시오. 이 때 생성된 ndarray의 이름은 b가 되도록 한다.

In [241]:
b = np.random.random((3, 4)) #np.random 패키지를 이용하여 0에서 1 사이의 값이 무작위로 생성된, 행이 3 열이 4인 ndarray 생성한 후 b에 할당
b #b 출력

array([[0.11617165, 0.95433838, 0.24086894, 0.85085653],
       [0.60444367, 0.5799422 , 0.1150713 , 0.04825654],
       [0.18815564, 0.3271114 , 0.00515351, 0.83314479]])

### 8. a와 b의 요소곱을 하여 c에 저장하시오.

In [242]:
c = a * b #a와 b 요소곱하여 c에 할당
c #c 출력

array([[0.11617165, 1.90867675, 0.72260682, 3.40342612],
       [3.02221834, 3.4796532 , 0.80549908, 0.38605236],
       [1.69340072, 3.27111397, 0.05668856, 9.99773743]])

### 9. b의 전치행렬을 구하여 d에 저장하시오.

In [243]:
d = b.T #b의 전치행렬 구한후 d에 할당
d #d 출력

array([[0.11617165, 0.60444367, 0.18815564],
       [0.95433838, 0.5799422 , 0.3271114 ],
       [0.24086894, 0.1150713 , 0.00515351],
       [0.85085653, 0.04825654, 0.83314479]])

In [244]:
d.shape

(4, 3)

### 10. a와 d에 대하여 각 차원의 크기를 출력하시오.

In [245]:
print(a.shape, d.shape) #a,d 각 차원의 크기

(3, 4) (4, 3)


### 11. a와 d의 행렬곱을 계산하여 e에 저장하시오.

In [246]:
e = a.dot(d) #a와 d의 행렬곱 계산후 e에 할당
e #e 출력

array([[ 6.15088134,  2.30256814,  4.19041809],
       [14.79982331,  7.69342298,  9.60467939],
       [23.44876529, 13.08427783, 15.01894069]])

### 12. e에 대하여 각 열의 합을 계산하시오.

In [247]:
np.sum(e, axis=1) #e에 대하여 각 열의 합 계산

array([12.64386757, 32.09792569, 51.55198381])

# Pandas Tutorial

https://github.com/adeshpande3/Pandas-Tutorial/blob/master/Pandas%20Tutorial.ipynb 의 자료를 기반으로 작성함.

Panel data analysis 혹은 python data analysis의 약자

- 관계형”, 혹은 “테이블 형＂데이터를 만들고 조작하기 위한 파이썬 라이브러리
- NumPy 라이브러리 기반으로 구축
- 오픈소스(http://pandas.pydata.org)

Pandas의 장점

- CSV, 엑셀, Database(SQL), Json 등 다양한 소스에서 데이터를 가져오고 또한 해당 형식으로 데이터를 내보낼 수 있는 입출력 기능.
- 데이터의 삽입, 삭제, 병합, 결합, 슬라이싱, 인덱싱, 등 데이터를 필요한 대로 조작(manipulation)할 수 있다.
- 누락 데이터 처리가 용이(무시하거나, 0으로 변환하거나, 평균값에 맞추거나.. 등등)
- 통계분석이나 머신 러닝 분석이 가능하도록 연구모델을 설정할 수 있음.
- Statsmodel, SciPy 등 다양한 데이터 분석 패키지와 쉽게 연동되어 사용할 수 있음.
- NumPy처럼 빠른 속도로 데이터를 처리할 수 있음.

다음과 같이 import해서 쓴다.

In [90]:
import pandas as pd

## 시리즈(Series)와 데이터프레임(data frame)
Series: 인덱스(index)가 있는 1차원 배열

In [91]:
s = pd.Series([1, 3, 5, 7, 9])
print(s)
print(s[2]) #indexing

0    1
1    3
2    5
3    7
4    9
dtype: int64
5


In [92]:
# dictionary를 이용해 만들기
dic = {'a':1, 'b':3, 'c':5}
s = pd.Series(dic)
print(s)
print(s['b']) #indexing

a    1
b    3
c    5
dtype: int64
3


Series의 두 속성: index, values

In [93]:
print(s.values)
print(s.index)

[1 3 5]
Index(['a', 'b', 'c'], dtype='object')


index를 부여하는 다른 방법

In [94]:
s = pd.Series([1,3,5,7,9], index=['LGT','DOO','HWE','LOT','SKW'])
#print(s)
#print(s['LOT'])
print(s[:'LOT']) # 슬라이싱에서 어디까지 나오는지 주목

LGT    1
DOO    3
HWE    5
LOT    7
dtype: int64


데이터 프레임 만들기: 데이터 프레임은 우리에게 친숙한 2차원 표와 같은 형태로 생각하면 된다. 행(row)과 열(column)으로 이루어져 있으며, 각 열에는 name이 있고 행에는 index가 있다.

In [95]:
score={'학번':[201524213,201621223,201621233],
       '이름':['오지환','박용택','정성훈'],
       'Quiz':[15,20,10],
       '중간고사':[20,20,15]}

score_df= pd.DataFrame(score)
score_df

Unnamed: 0,학번,이름,Quiz,중간고사
0,201524213,오지환,15,20
1,201621223,박용택,20,20
2,201621233,정성훈,10,15


하나의 열은 Series이며 따라서 데이터 프레임은 index를 공유하는 열 혹은 Series의 집합이라고 생각할 수 있다.

In [96]:
print(type(score_df['학번']))
score_df['학번']

<class 'pandas.core.series.Series'>


0    201524213
1    201621223
2    201621233
Name: 학번, dtype: int64

## 데이터 프레임 다루기

In [97]:
d = {
    'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David','Andrew','Ajay','Teresa'],
   'Age':[26,27,25,24,31,27,25,33,42,32,51,47],
   'Score':[89,87,67,55,47,72,76,79,44,92,99,69]}
 
df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [98]:
df['Age']

0     26
1     27
2     25
3     24
4     31
5     27
6     25
7     33
8     42
9     32
10    51
11    47
Name: Age, dtype: int64

### 행과 열을 추출하기
두 개 이상의 열을 반환하고 싶으면 아래와 같이 리스트 형태로 인덱싱을 한다.

In [99]:
df[['Name', 'Age']]

Unnamed: 0,Name,Age
0,Alisa,26
1,Bobby,27
2,Cathrine,25
3,Madonna,24
4,Rocky,31
5,Sebastian,27
6,Jaqluine,25
7,Rahul,33
8,David,42
9,Andrew,32


인덱싱을 할 [] 안에 하나의 값을 쓰느냐, 아니면 리스트 형태를 쓰느냐에 따라 반환되는 값의 타입이 달라진다. 하나의 값을 쓰는 경우는 시리즈를, 리스트 형태를 쓰면 데이터프레임을 반환한다.

In [100]:
type(df['Name'])

pandas.core.series.Series

In [101]:
type(df[['Name']])

pandas.core.frame.DataFrame

[] 안에 열의 이름이 아닌 숫자를 쓰면 행을 반환하는 것이 가능하다. 단 이 경우는 슬라이싱만 가능하다.

In [102]:
df[0:3]  #df[2]는 에러 발생

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67


## loc, iloc을 이용한 인덱싱과 슬라이싱
loc과 iloc 모두 행(row)이나 열(column)을 인덱싱하기 위한 함수이다.

iloc은 numpy의 인덱싱과 유사하게 작동한다. 저장된 순서에 따라 0부터 정수로 인덱싱, 슬라이싱이 가능하다.

iloc[4]와 같이 값을 하나만 주는 경우에는 행을 대상으로 작동하고, iloc[:, 3]와 같이 사용하면 열에 대해 인덱싱이 가능하다.

loc은 데이터 프레임에 정의된 index에 대해 인덱싱이 작동한다.

슬라이싱의 경우 loc은 index 값의 크기와 무관하게 순서에 따라 슬라이싱이 작동한다.

iloc 과 loc의 차이를 더 자세히 보고 싶으면 다음을 참조: http://stackoverflow.com/questions/31593201/pandas-iloc-vs-ix-vs-loc-explanation.

iloc은 위치를 보고 loc은 라벨을 본다.

In [103]:
df=df.reindex([1,4,6,2,3,5,9,8,0,7,11,10]) # 일부러 순차가 아닌 인덱스를 부여
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [104]:
df.loc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76


iloc과 loc의 중요한 차이점 하나는, loc은 인덱싱하는 값을 포함하여 결과를 반환한다는 것이다.

In [105]:
df.iloc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72


In [106]:
# sort the pandas dataframe by index ascending
 
df1=df.sort_index()
df1

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [107]:
df1.loc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76


In [108]:
df1.iloc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72


In [109]:
# sort the pandas dataframe by index descending
 
df2=df.sort_index(ascending=False)
df2

Unnamed: 0,Name,Age,Score
11,Teresa,47,69
10,Ajay,51,99
9,Andrew,32,92
8,David,42,44
7,Rahul,33,79
6,Jaqluine,25,76
5,Sebastian,27,72
4,Rocky,31,47
3,Madonna,24,55
2,Cathrine,25,67


### loc와 iloc을 이용해 열(column) 추출하기

In [110]:
df2.iloc[:, 2]

11    69
10    99
9     92
8     44
7     79
6     76
5     72
4     47
3     55
2     67
1     87
0     89
Name: Score, dtype: int64

In [111]:
df2.loc[:, ['Name', 'Age']]

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,24
2,Cathrine,25


In [112]:
df2.iloc[:, :2]

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,24
2,Cathrine,25


In [113]:
df2.loc[:, :'Age']

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,24
2,Cathrine,25


## CSV 파일에서 읽어오기
CSV 파일은 데이터 분석에서 가장 많이 사용하는 데이터 파일 포맷으로 pandas에서 쉽게 읽어들이는 것이 가능하다.

미국대학농구(NCAA)의 1985부터 2016년 까지의 자료를 예제로 사용. CSV 파일로 되어 있으며 pd.read_csv() 를 이용하여 읽어들이면 dataframe 변수 형태로 내용을 반환한다.

In [118]:
df = pd.read_csv('RegularSeasonCompactResults.csv')

## 데이터 프레임 함수들
위 예에서 df는 데이터프레임을 가리키는 변수이다. 데이터프레임은 보통 많은 수의 행을 갖고 있으므로, 간단하게 첫 몇 줄(보통은 다섯 줄)만 보고 싶다면 head() 함수를 쓰고, 마지막 몇 줄을 보고 싶다면 tail() 함수를 아래와 같이 사용한다.

In [119]:
df.head()

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
0,1985,20,1228,81,1328,64,N,0
1,1985,25,1106,77,1354,70,H,0
2,1985,25,1112,63,1223,56,H,0
3,1985,25,1165,70,1432,54,H,0
4,1985,25,1192,86,1447,74,H,0


In [120]:
df.tail()

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
145284,2016,132,1114,70,1419,50,N,0
145285,2016,132,1163,72,1272,58,N,0
145286,2016,132,1246,82,1401,77,N,1
145287,2016,132,1277,66,1345,62,N,0
145288,2016,132,1386,87,1433,74,N,0


데이터프레임의 shape 속성은 행과 열의 수를 나타낸다.

In [121]:
df.shape

(145289, 8)

columns 속성과 tolist() 함수를 이용하면 열의 이름들을 리스트로 반환할 수 있다.

In [122]:
df.columns.tolist()

['Season', 'Daynum', 'Wteam', 'Wscore', 'Lteam', 'Lscore', 'Wloc', 'Numot']

각 열에 대해 평균, 최소값 등의 다양한 통계량을 보고 싶다면 describe() 함수를 사용한다.

In [123]:
df.describe()

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Numot
count,145289.0,145289.0,145289.0,145289.0,145289.0,145289.0,145289.0
mean,2001.574834,75.223816,1286.720646,76.600321,1282.864064,64.497009,0.044387
std,9.233342,33.287418,104.570275,12.173033,104.829234,11.380625,0.247819
min,1985.0,0.0,1101.0,34.0,1101.0,20.0,0.0
25%,1994.0,47.0,1198.0,68.0,1191.0,57.0,0.0
50%,2002.0,78.0,1284.0,76.0,1280.0,64.0,0.0
75%,2010.0,103.0,1379.0,84.0,1375.0,72.0,0.0
max,2016.0,132.0,1464.0,186.0,1464.0,150.0,6.0


max() 함수를 이용하면 원하는 열이나 전체 열의 최대값을 구할 수 있다.

In [124]:
df.max()

Season    2016
Daynum     132
Wteam     1464
Wscore     186
Lteam     1464
Lscore     150
Wloc         N
Numot        6
dtype: object

특정 열의 최대값을 구하고 싶으면 아래와 같이 쓴다. 여기서는 이긴 팀의 점수: Wscore.

In [125]:
df['Wscore'].max()

186

진 팀의 점수(Lscore) 평균을 구하고 싶다면 아래와 같이 쓴다.

In [126]:
df['Lscore'].mean()

64.49700940883343

이긴 팀의 점수가 최대인 행의 위치(index)를 알고 싶다면 아래와 같이 argmax() 함수를 사용한다.

In [127]:
df['Wscore'].argmax()

24970

향후에는 argmax 대신 idxmax를 쓰도록 친절하게 권장하므로 이후부터는 idxmax로 고쳐서 쓴다.

In [128]:
df.loc[24970] #반환된 index 값을 이용해 값을 출력

Season    1991
Daynum      68
Wteam     1258
Wscore     186
Lteam     1109
Lscore     140
Wloc         H
Numot        0
Name: 24970, dtype: object

In [129]:
df.loc[df['Wscore'].idxmax()] #위 과정을 하나로 합침

Season    1991
Daynum      68
Wteam     1258
Wscore     186
Lteam     1109
Lscore     140
Wloc         H
Numot        0
Name: 24970, dtype: object

유용하게 쓰이는 함수 중 하나는 value_counts() 함수로, 특정 열에 사용된 값들에 대해 횟수를 계산하여 보여준다. 아래 예에서는 Season 열에서 각 시즌(연도)의 값이 나타난 수를 연도 별로 보여준다.

In [130]:
df['Season'].value_counts()

2016    5369
2014    5362
2015    5354
2013    5320
2010    5263
2012    5253
2009    5249
2011    5246
2008    5163
2007    5043
2006    4757
2005    4675
2003    4616
2004    4571
2002    4555
2000    4519
2001    4467
1999    4222
1998    4167
1997    4155
1992    4127
1991    4123
1996    4122
1995    4077
1994    4060
1990    4045
1989    4037
1993    3982
1988    3955
1987    3915
1986    3783
1985    3737
Name: Season, dtype: int64

## 데이터프레임 값 추출
데이터프레임 변수에 열의 이름을 이용하여 인덱싱을 하면 특정 열의 값만을 추출할 수 있다. 이긴 팀의 점수만을 추출하고 싶다면 아래와 같이 인덱싱을 한다.

In [131]:
Wscore = df['Wscore']
Wscore.head() #갯수가 너무 많으므로 뒤에 head()함수를 써서 앞부분만 추출

0    81
1    77
2    63
3    70
4    86
Name: Wscore, dtype: int64

In [132]:
df.loc[[df['Wscore'].idxmax()]]

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
24970,1991,68,1258,186,1109,140,H,0


위 결과와 아래 결과의 차이를 비교.

In [134]:
df.loc[df['Wscore'].idxmax()]

Season    1991
Daynum      68
Wteam     1258
Wscore     186
Lteam     1109
Lscore     140
Wloc         H
Numot        0
Name: 24970, dtype: object

위 예에서 좀 더 나아가, 이긴 팀의 점수가 가장 높은 경기에서 진 팀의 점수만 가져오고 싶다면 아래와 같이 쓴다.

In [135]:
df.loc[[df['Wscore'].idxmax()]]['Lscore']

24970    140
Name: Lscore, dtype: int64

In [136]:
df.loc[df['Wscore'].idxmax()]['Lscore']

140

아래와 같이 loc에 행과 열을 동시에 인덱싱하는 것도 가능하다.

In [137]:
df.loc[df['Wscore'].idxmax(), 'Lscore']

140

출력되는 모양을 보면 데이터프레임인지 아니면 시리즈인지 알 수 있다. 위의 예는 Series 임을 알 수 있다. 보다 명확하게 데이터형을 알고 싶다면 아래와 같이 type() 함수를 써서 확인한다.

In [138]:
type(df.loc[[df['Wscore'].idxmax()]]['Lscore'])

pandas.core.series.Series

In [139]:
type(df.loc[[df['Wscore'].idxmax()]])

pandas.core.frame.DataFrame

## 정렬(Sorting)
진 팀의 점수에 따라 오름차순으로 정렬하고 싶다면 아래와 같이 sort_values() 함수를 사용한다.

In [140]:
df.sort_values('Lscore').head()

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
100027,2008,66,1203,49,1387,20,H,0
49310,1997,66,1157,61,1204,21,H,0
89021,2006,44,1284,41,1343,21,A,0
85042,2005,66,1131,73,1216,22,H,0
103660,2009,26,1326,59,1359,22,H,0


## 조건에 따라 행 추출
이긴 팀의 점수가 150보다 큰 행만 추출하기 위한 두 단계

1. 먼저 df['Wscore'] > 150 는 각 행에 대해 Wscore가 150보다 큰 지의 여부를 True/False Series로 반환한다.
2. 이 Series를 이용하여 df를 다음과 같이 인덱싱하면 시리즈에서 True인 행들만 추출할 수 있다:

    df[df['Wscore'] > 150].

In [141]:
print(type(df['Wscore'] > 150)) # True/False 시리즈로 반환되는지 확인
(df['Wscore'] > 150).head() # 시리즈의 앞부분을 확인

<class 'pandas.core.series.Series'>


0    False
1    False
2    False
3    False
4    False
Name: Wscore, dtype: bool

In [142]:
df[df['Wscore'] > 150].head() # Boolean Series를 이용해 조건이 True인 행들만 추출

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
5269,1986,75,1258,151,1109,107,H,0
12046,1988,40,1328,152,1147,84,H,0
12355,1988,52,1328,151,1173,99,N,0
16040,1989,40,1328,152,1331,122,H,0
16853,1989,68,1258,162,1109,144,A,0


아래와 같이 두가지 이상의 조건을 부여할 수 있다.

In [143]:
df[(df['Wscore'] > 150) & (df['Lscore'] < 100)]

Unnamed: 0,Season,Daynum,Wteam,Wscore,Lteam,Lscore,Wloc,Numot
12046,1988,40,1328,152,1147,84,H,0
12355,1988,52,1328,151,1173,99,N,0
25656,1991,84,1106,151,1212,97,H,0
28687,1992,54,1261,159,1319,86,H,0
35023,1993,112,1380,155,1341,91,A,0
52600,1998,33,1395,153,1410,87,H,0


## 그룹화(Grouping)
groupby() 는 특정 속성 별로 그룹화 함수를 적용할 수 있도록 한다. 예를 들어 df['Wscore'].mean()은 모든 행에 있는 Wscore의 평균을 계산하지만, Wteam 별로 Wscore의 평균을 구하고 싶다면, 다시 말해서 Wteam 값이 같은 행들에 대해 Wscore의 평균을 구하고 싶다면 groupby('Wteam')을 아래와 같이 사용한다.

In [144]:
df.groupby('Wteam')['Wscore'].mean().head()

Wteam
1101    78.111111
1102    69.893204
1103    75.839768
1104    75.825944
1105    74.960894
Name: Wscore, dtype: float64

아래는 이긴 팀 별로, home, away, neutral에서 각각 몇 번 이겼는지를 구하는 예이다.

In [145]:
df.groupby('Wteam')['Wloc'].value_counts().head(9)

Wteam  Wloc
1101   H        12
       A         3
       N         3
1102   H       204
       A        73
       N        32
1103   H       324
       A       153
       N        41
Name: Wloc, dtype: int64

values 속성은 데이터프레임의 값들을 Numpy 형태로 반환한다.

In [146]:
print(type(df.values))
print(df.values.shape)
df.values

<class 'numpy.ndarray'>
(145289, 8)


array([[1985, 20, 1228, ..., 64, 'N', 0],
       [1985, 25, 1106, ..., 70, 'H', 0],
       [1985, 25, 1112, ..., 56, 'H', 0],
       ...,
       [2016, 132, 1246, ..., 77, 'N', 1],
       [2016, 132, 1277, ..., 62, 'N', 0],
       [2016, 132, 1386, ..., 74, 'N', 0]], dtype=object)

따라서 values 속성은 Numpy ndarray와 동일한 방법으로 사용할 수 있다.

In [147]:
df.values[0, 0]

1985

## 데이터프레임 순환
iterrows() 함수를 사용하면 데이터프레임의 행 단위로 순환이 가능하다. 각 행은 시리즈 형태로 반환된다.

In [148]:
for index, row in df.iterrows():
    print('#Data type of row:', type(row))
    print(row)
    if index == 1:
        break

#Data type of row: <class 'pandas.core.series.Series'>
Season    1985
Daynum      20
Wteam     1228
Wscore      81
Lteam     1328
Lscore      64
Wloc         N
Numot        0
Name: 0, dtype: object
#Data type of row: <class 'pandas.core.series.Series'>
Season    1985
Daynum      25
Wteam     1106
Wscore      77
Lteam     1354
Lscore      70
Wloc         H
Numot        0
Name: 1, dtype: object


## 데이터 클리닝
데이터 처리에서 가장 지루하고 어려운 작업 중 하나는 데이터 클리닝이다. 대표적인 클리닝은 결측값(missing value)의 처리인데, pandas는 결측값 여부를 반환하는 isnull 함수가 있다. 아래와 같이 sum() 함수와 결합하면 각 열의 결측값 수를 알 수 있다:

In [149]:
df.isnull().sum()

Season    0
Daynum    0
Wteam     0
Wscore    0
Lteam     0
Lscore    0
Wloc      0
Numot     0
dtype: int64

## 기타 유용한 함수들
직접 검색해 보세요.

- drop() - This function removes the column or row that you pass in (You also have the specify the axis).
- agg() - The aggregate function lets you compute summary statistics about each group
- apply() - Lets you apply a specific function to any/all elements in a Dataframe or Series
- get_dummies() - Helpful for turning categorical data into one hot vectors.
- drop_duplicates() - Lets you remove identical rows


## 기타 참고 사이트
- http://pandas.pydata.org/pandas-docs/stable/10min.html
- https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
- http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/
- https://www.dataquest.io/blog/pandas-python-tutorial/
- https://drive.google.com/file/d/0ByIrJAE4KMTtTUtiVExiUGVkRkE/view
- https://www.youtube.com/playlist?list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y

### Pandas 시작- 파일을 DataFrame 로딩, 기본 API

In [152]:
import pandas as pd

In [153]:
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic 변수 type:',type(titanic_df))
titanic_df

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [154]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [155]:
print('DataFrame 크기: ', titanic_df.shape)

DataFrame 크기:  (891, 12)


In [156]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [157]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [158]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [159]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [160]:
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [161]:
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

* 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기

In [162]:
import numpy as np

col_name1=['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)

print('array1 shape:', array1.shape )
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [163]:
# 3개의 컬럼명이 필요함. 
col_name2=['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성 한 뒤 이를 DataFrame으로 변환. 
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape )
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [164]:
# Key는 컬럼명으로 매핑, Value는 리스트 형(또는 ndarray)
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


* DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기

In [165]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [166]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### DataFrame의 컬럼 데이터 셋 Access

In [167]:
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [168]:
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [169]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


### DataFrame 데이터 삭제

In [170]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1 )
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [171]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [172]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print(' inplace=True 로 drop 후 반환된 값:',drop_result)
titanic_df.head(3)

 inplace=True 로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [173]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0,1,2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


### Index 객체

In [175]:
# 원본 파일 재 로딩 
titanic_df = pd.read_csv('titanic_train.csv')
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 arrray로 변환 
print('Index 객체 array값:\n',indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [176]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [None]:
indexes[0] = 5

In [178]:
series_fair = titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n',(series_fair + 3).head(3) )

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [179]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [180]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:',type(value_counts))

new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:',type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


### 데이터 셀렉션 및 필터링
* DataFrame의 [ ] 연산자

In [181]:
print('단일 컬럼 데이터 추출:\n', titanic_df[ 'Pclass' ].head(3))
print('\n여러 컬럼들의 데이터 추출:\n', titanic_df[ ['Survived', 'Pclass'] ].head(3))
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 컬럼들의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

In [182]:
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [183]:
titanic_df[ titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


* DataFrame ix[] 연산자

In [None]:
print('컬럼 위치 기반 인덱싱 데이터 추출:',titanic_df.ix[0,2])
print('컬럼명 기반 인덱싱 데이터 추출:',titanic_df.ix[0,'Pclass'])

In [186]:
data = {'Name': ['Chulmin', 'Eunkyung','Jinwoong','Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one','two','three','four'])
data_df


Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [None]:
print("\n ix[0,0]", data_df.ix[0,0])
print("\n ix['one', 0]", data_df.ix['one',0])
print("\n ix[3, 'Name']",data_df.ix[3, 'Name'],"\n")

print("\n ix[0:2, [0,1]]\n", data_df.ix[0:2, [0,1]])
print("\n ix[0:2, [0:3]]\n", data_df.ix[0:2, 0:3])
print("\n ix[0:3, ['Name', 'Year']]\n", data_df.ix[0:3, ['Name', 'Year']], "\n")
print("\n ix[:] \n", data_df.ix[:])
print("\n ix[:, :] \n", data_df.ix[:, :])

print("\n ix[data_df.Year >= 2014] \n", data_df.ix[data_df.Year >= 2014])

In [None]:
print(data_df.ix[0:1 , 'Name'])

* 명칭 기반 인덱싱과 위치 기반 인덱싱의 구분

In [190]:
# data_df 를 reset_index() 로 새로운 숫자형 인덱스를 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})

# index 값에 1을 더해서 1부터 시작하는 새로운 index값 생성
data_df_reset.index = data_df_reset.index+1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [191]:
# 아래 코드는 오류를 발생합니다. 
data_df_reset.ix[0,1]

AttributeError: 'DataFrame' object has no attribute 'ix'

In [None]:
data_df_reset.ix[1,1]

* DataFrame iloc[ ] 연산자

In [193]:
data_df.iloc[0, 0]

'Chulmin'

In [194]:
# 아래 코드는 오류를 발생합니다. 
data_df.iloc[0, 'Name']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [195]:
# 아래 코드는 오류를 발생합니다. 
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [196]:
data_df_reset.iloc[0, 1]

'Chulmin'

* DataFrame loc[ ] 연산자

In [198]:
data_df.loc['one', 'Name']

'Chulmin'

In [199]:
data_df_reset.loc[1, 'Name']

'Chulmin'

In [200]:
# 아래 코드는 오류를 발생합니다. 
data_df_reset.loc[0, 'Name']

KeyError: 0

In [None]:
print('명칭기반 ix slicing\n', data_df.ix['one':'two', 'Name'],'\n')
print('위치기반 iloc slicing\n', data_df.iloc[0:1, 0],'\n')
print('명칭기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

In [202]:
print(data_df_reset.loc[1:2 , 'Name'])

1     Chulmin
2    Eunkyung
Name: Name, dtype: object


In [None]:
print(data_df.ix[1:2 , 'Name'])

* 불린 인덱싱

In [204]:
titanic_df = pd.read_csv('titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [205]:
titanic_df[titanic_df['Age'] > 60][['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [206]:
titanic_df.loc[titanic_df['Age'] > 60, ['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [207]:
titanic_df[ (titanic_df['Age'] > 60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [208]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'
titanic_df[ cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


### 정렬, Aggregation함수, GroupBy 적용

* DataFrame, Series의 정렬 - sort_values()

In [209]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [210]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


* Aggregation 함수 적용

In [211]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [212]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

* groupby() 이용하기

In [213]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [214]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [215]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [216]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [217]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### 결손 데이터 처리하기
* isna()로 결손 데이터 여부 확인

In [218]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [219]:
titanic_df.isna( ).sum( )

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

* fillna( ) 로 Missing 데이터 대체하기

In [220]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [221]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

### apply lambda 식으로 데이터 가공

In [222]:
def get_square(a):
    return a**2

print('3의 제곱은:',get_square(3))

3의 제곱은: 9


In [223]:
lambda_square = lambda x : x ** 2
print('3의 제곱은:',lambda_square(3))

3의 제곱은: 9


In [224]:
a=[1,2,3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [225]:
titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [226]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <=15 else 'Adult' )
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [227]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x<=15 else ('Adult' if x <= 60 else 
                                                                                  'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

In [228]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성. 
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else : cat = 'Elderly'
    
    return cat

# lambda 식에 위에서 생성한 get_category( ) 함수를 반환값으로 지정. 
# get_category(X)는 입력값으로 ‘Age’ 컬럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()
    

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult


# Pandas 기초연습문제

In [248]:
import pandas as pd #pandas 패키지 import

### 1. 딕셔너리를 이용하여 data frame을 생성하시오.

In [249]:
score={'학번':[201524213,201621223,201621233, 201611111, 201722222],
       '이름':['오지환','박용택','정성훈', '다니엘', '지민'],
       '학과':['경영정보','경영정보','경영정보','컴퓨터공학','컴퓨터공학'],
       'Quiz':[15,20,10,17,18],
       '중간고사':[20,20,15,18,16]} #딕셔너리 이용

df= pd.DataFrame(score) #data frame 생성
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
2,201621233,정성훈,경영정보,10,15
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16


In [250]:
df['학번'] #학번 추출

0    201524213
1    201621223
2    201621233
3    201611111
4    201722222
Name: 학번, dtype: int64

### 2. 위에서 생성한 데이터프레임으로부터 인덱싱을 이용하여 이름과 중간고사를 추출하시오.

In [251]:
df[['이름', '중간고사']] #인덱싱 이용하여 이름, 중간고사 추출

Unnamed: 0,이름,중간고사
0,오지환,20
1,박용택,20
2,정성훈,15
3,다니엘,18
4,지민,16


### 3. reindex를 이용하여 2, 0, 4, 1, 3 순으로 순서를 변경하시오.

In [252]:
df = df.reindex([2, 0, 4, 1, 3]) #reindex 이용하여 순서 변경
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
2,201621233,정성훈,경영정보,10,15
0,201524213,오지환,경영정보,15,20
4,201722222,지민,컴퓨터공학,18,16
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


### 4. iloc과 loc을 각각 이용하여 박용택 학생의 record를 추출하시오. (iloc으로 한번, loc으로 한번 수행)

In [253]:
print(df.iloc[3]) #iloc 이용하여 박용택 record 추출
print(df.loc[1]) #loc 이용하여 박용택 record 추출

학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object
학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object


### 5. iloc과 loc을 각각 이용하여 모든 학생의 이름과 중간고사 점수를 추출하시오. (iloc으로 한번, loc으로 한번 수행)

In [254]:
print(df.iloc[:, [1, 4]]) #iloc 이용하여 학생이름, 중간고사 점수 추출
print(df.loc[:, ['이름', '중간고사']]) #loc 이용하여 학생이름, 중간고사 점수 추출

    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18
    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18


### 6. 중간고사 점수의 평균을 구하시오.

In [255]:
df['중간고사'].mean() #중간고사 점수 평균

17.8

### 7. 중간고사 점수가 가장 낮은 학생의 index를 구하시오.

In [256]:
df['중간고사'].idxmin() #중간고사 점수가 가장 낮은 학생의 index

2

### 8. 퀴즈 점수가 가장 높은 학생의 학번을 구하시오.

In [257]:
df.loc[df['Quiz'].idxmax(), '학번'] #퀴즈 점수가 가장 높은 학생의 학번
#df.loc[df['Quiz'].idxmax()]['학번']

201621223

### 9. 위 데이터프레임의 각 열에 대해서 개수, 평균, 표준편차, 최소최대값 등의 다양한 통계량을 출력하시오.

In [258]:
df.describe() # 각 열에 대하여 통계량 출력

Unnamed: 0,학번,Quiz,중간고사
count,5.0,5.0,5.0
mean,201620000.0,16.0,17.8
std,70189.95,3.807887,2.280351
min,201524200.0,10.0,15.0
25%,201611100.0,15.0,16.0
50%,201621200.0,17.0,18.0
75%,201621200.0,18.0,20.0
max,201722200.0,20.0,20.0


### 10. 위 데이터프레임을 중간고사 점수에 따라 내림차순으로 정렬하시오.

In [259]:
df.sort_values('중간고사', ascending=False) # 중간고사 점수에 따라 내림차순 정렬

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16
2,201621233,정성훈,경영정보,10,15


### 11. 학생 중에서 퀴즈 점수가 평균 이상인 학생들의 이름을 출력하시오.

In [260]:
quiz_mean = df['Quiz'].mean()
df[df['Quiz'] > quiz_mean]['이름'] # 퀴즈 점수가 평균 이상인 학생 이름 출력

4     지민
1    박용택
3    다니엘
Name: 이름, dtype: object

### 12. 학생 중에서 퀴즈와 중간고사 점수 모두 평균 이상인 학생들의 record를 출력하시오.

In [261]:
quiz_mean = df['Quiz'].mean()
mid_mean = df['중간고사'].mean()
df[(df['Quiz'] > quiz_mean) & (df['중간고사'] > mid_mean)] #퀴즈, 중간고사 점수 모두 평균 이상인 학생 record 출력

Unnamed: 0,학번,이름,학과,Quiz,중간고사
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


### 13. value_counts를 이용하여 학과 별로 학생의 수를 구하시오.

In [262]:
df['학과'].value_counts() #value_counts 이용하여 학과 별 학생수 구하기

경영정보     3
컴퓨터공학    2
Name: 학과, dtype: int64

### 14. groupby를 이용하여 학과 별로 중간고사의 평균을 구하시오.

In [263]:
df.groupby('학과')['중간고사'].mean() #groupby 이용하여 학과 별 중간고사 평균 구하기

학과
경영정보     18.333333
컴퓨터공학    17.000000
Name: 중간고사, dtype: float64

In [264]:
df.mean()

학번      201620000.4
Quiz           16.0
중간고사           17.8
dtype: float64

In [265]:
list(df.groupby('학과'))

[('경영정보',
            학번   이름    학과  Quiz  중간고사
  2  201621233  정성훈  경영정보    10    15
  0  201524213  오지환  경영정보    15    20
  1  201621223  박용택  경영정보    20    20),
 ('컴퓨터공학',
            학번   이름     학과  Quiz  중간고사
  4  201722222   지민  컴퓨터공학    18    16
  3  201611111  다니엘  컴퓨터공학    17    18)]