## 파이썬 기본3

### Numpy, Pandas, Matplotlib

#### Numpy

넘파이(Numpy)

- 대수, 행렬, 통계 등 수학 및 과학 연산을 위한 라이브러리
- ndarray라는 다차원 배열을 데이터로 나타내고 처리하는데 특화
- **실행속도가 빠르고 짧고 간결한 코드 구현**이 가능
- Numpy는 외부 라이브러리이므로, 설치 후 사용 가능

Numpy 배열과 파이썬 리스트의 차이

- 파이썬 리스트는 배열에 실제 데이터의 주소가 담겨져 있음
- 이것으로 인해 서로 다른 데이터타입을 리스트 요소로 넣을 수 있음
- 반면 numpy 배열은 실제 데이터가 배열에 들어 있음
- 리스트는 데이터를 읽고 쓰기에 numpy 배열보다 2배의 시간이 걸림
- 대량의 배열 연산 또는 행렬 연산에는 numpy가 유리함

넘파이 배열(Numpy Array)

- 넘파이는 다차원 배열을 지원함 (1차원: Vector, 2차원: Matrix, 3차원 이상: Tensor)
- 넘파이 배열은 한 가지 자료형 데이터를 요소로 가짐

In [1]:
# 시작하기 전 패키지 실행
import numpy
from bs4 import BeautifulSoup

In [2]:
# numpy를 간결하게 별명 붙이기
import numpy as np

In [3]:
# 넘파이가 리스트보다 빠른지 확인

# 리스트 소요 시간
L = range(1000)
%timeit L2 = [i **2 for i in L]

# 넘파이 소요 시간
arr = np.arange(1000)
%timeit arr2 = arr**2

211 μs ± 849 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
917 ns ± 34.2 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


넘파이 배열 직접 생성
- 리스트 데이터를 넘파이 배열로 바꾸어 생성
> np.array(리스트)

In [4]:
num_list = [1, 2, 3, 4]
int_arr2 = np.array(num_list)
print(int_arr2)     # 넘파이 배열은 ',' 없이 공백으로 데이터 구분

[1 2 3 4]


배열의 범위를 지정하여 생성
- 시작 인덱스부터 시작하여 끝 인덱스 전까지, 간격만큼 더해 넘파이 배열 생성
> np.arange (시작 인덱스, 끝 인덱스, 간격)

In [5]:
arr1 = np.arange(0, 10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
arr2 = np.arange(0, 10, 2)
arr2

array([0, 2, 4, 6, 8])

In [7]:
arr3 = np.arange(5)
arr3

array([0, 1, 2, 3, 4])

넘파이 배열에 들어가는 자료형
- 한 가지 데이터 타입으로 통일되어 처리됨


In [8]:
list_data = [1, '2', 3]
arr = np.array(list_data)   # 문자열형으로 통일
print(arr)  

['1' '2' '3']


In [9]:
list_data = [1, 2., 3]
arr = np.array(list_data)    # 실수형으로 통일
print(arr)                   # 넘파이는 소수점 아래 0이 계속 되는 경우 이를 생략
                             # 소수점만 표시해 해당 원소가 실수형임을 알림

[1. 2. 3.]


In [10]:
# 실수 데이터를 정수 데이터로 변환
list_data = [1, 2. , 3]
arr = np.array(list_data, dtype='int')
print(arr)
print(arr.dtype)

[1 2 3]
int64


In [11]:
# 데이터 중간에 비우려면 Nan 삽입 (데이터가 없거나 알 수 없는 경우
# np.nan은 float 타입으로 전체가 실수형으로 변환
np.array([1, 2, np.nan, 4])

array([ 1.,  2., nan,  4.])

2차원 배열 생성
- 2차원 배열은 행렬(matrix)이라고 함
- 가로줄은 행(row), 세로줄은 열(column)

In [12]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])  # 중첩된 2차원 리스트
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


3차원 배열 생성
- 3차원 이상의 배열은 tensor이라고 함

In [13]:
arr = np.array([[[1, 2, 3, 4], [5, 6, 7, 8]], 
                [[9, 10, 11, 12], [13, 14, 15, 16]],
                [[17, 18, 19, 20], [21, 22, 23, 24]]])
print(arr)

[[[ 1  2  3  4]
  [ 5  6  7  8]]

 [[ 9 10 11 12]
  [13 14 15 16]]

 [[17 18 19 20]
  [21 22 23 24]]]


넘파이 배열의 차원
> 넘파이 배열명.ndim

In [14]:
arr = np.array([1, 2, 3, 4])    # 1차원 리스트

print(arr)
print(arr.ndim)    

[1 2 3 4]
1


In [15]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])  # 중첩된 2차원 리스트
print(arr)
print(arr.ndim) 

[[1 2 3 4]
 [5 6 7 8]]
2


넘파이 배열의 크기
> 넘파이 배열명.shape

In [16]:
arr = np.array([1, 2, 3, 4])    # 1차원 요소수가 4개

print(arr)
print(arr.shape) 

[1 2 3 4]
(4,)


In [17]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])  # 2차원 (2행 4열)
print(arr)
print(arr.shape) 

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


넘파이 배열의 차원 변경
> 넘파이 배열명.reshape(크기)

In [18]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(arr.ndim)
print(arr.shape)

arr2 = arr.reshape(2, 5)    # 2행 5열로 변경
print(arr2)
print(arr2.ndim)
print(arr2.shape)

1
(10,)
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
2
(2, 5)


In [19]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

arr2 = arr.reshape(2, -1)   # -1은 NumPy가 배열의 크기를 자동으로 계산(열의 수 자동 결정)
print(arr2)
print(arr2.ndim)
print(arr2.shape)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
2
(2, 5)


In [20]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

arr2 = arr.reshape(5, -1) 
print(arr2)
print(arr2.ndim)
print(arr2.shape)

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
2
(5, 2)


넘파이 연산
- shape이 같다면 덧셈, 뺄셈, 곱셈, 나눗셈 연산 가능

In [21]:
a = np.array([1, 2, 3])     # 동일한 인덱스끼리 연산
b = np.array([4, 5, 6])

print(a + b)
print(a - b)
print(a * b)
print(a / b)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


In [22]:
# 벡터화 연산 (모든 요소에 일괄적으로 연산 적용)
a = np.array([1, 2, 3])

print(a + 1)
print(a - 1)
print(a * 3)
print(a / 2)

[2 3 4]
[0 1 2]
[3 6 9]
[0.5 1.  1.5]


배열의 범위와 개수를 지정하여 생성
- 시작 인덱스부터 끝 인덱스까지 n개의 요소를 갖는 넘파이을 생성
> np.linspace(시작 인덱스, 끝 인덱스, 개수 n)

In [23]:
arr = np.linspace(1, 10, 10)

print(arr)
print(arr.dtype)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
float64


In [24]:
arr = np.linspace(0, np.pi, 10)     # 0부터 파이까지 동일한 간격으로 10개의 데이터 생성

print(arr)
print(arr.dtype)

[0.         0.34906585 0.6981317  1.04719755 1.3962634  1.74532925
 2.0943951  2.44346095 2.7925268  3.14159265]
float64


< 특별한 값을 갖는 배열 생성 >

np.zeros( ): 모든 요소가 0인 배열을 생성
> np.zeros(shape, dtype=float)

In [25]:
# np.zeros()
arr = np.zeros(10)
print(arr)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [26]:
arr = np.zeros(10, dtype = int)
print(arr)

[0 0 0 0 0 0 0 0 0 0]


In [27]:
arr = np.zeros((2, 5))
print(arr)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


np.ones( ): 모든 요소가 1인 배열을 생성
> np.ones(shape, dtype=float)


In [28]:
# np.ones()
arr = np.ones(10)
print(arr)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [29]:
arr = np.ones(10, dtype = int)
print(arr)

[1 1 1 1 1 1 1 1 1 1]


In [30]:
arr = np.ones((2, 5))
print(arr)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


np.eye( ): 단위 행렬을 생성
- 단위 행렬은 주 대각선의 요소가 1, 나머지 요소는 모두 0인 정사각 행렬
- 행렬 연산에서 곱셈의 항등원 역할
> np.eye(N, M=None, k=0, dtype=float)

N: 행의 개수  
M: 열의 개수, N과 동일하게 지정하면 정사각 행렬, 생략 가능  
k: 주 대각선의 위치를 지정, k=0이 기본값이며, k>0은 대각선을 위로, k<0은 아래로 이동시킴

In [31]:
# np.eye()
arr = np.eye(5)
print(arr)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [32]:
arr = np.eye(5, dtype = int)
print(arr)

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


Numpy 배열 연산하기

- 벡터화 연산(vectorized operation)을 지원
- 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리

In [33]:
# data의 값을 2배로 변경
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
x = np.array(data)
2*x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [34]:
data  = np.array([1, 4, 9, 16])

print(np.sqrt(data))    # 제곱근
print(np.exp(data))     # 지수함수
print(np.sum(data))     # 합
print(np.mean(data))    # 평균
print(np.std(data))     # 표준편차

[1. 2. 3. 4.]
[2.71828183e+00 5.45981500e+01 8.10308393e+03 8.88611052e+06]
30
7.5
5.678908345800274


In [35]:
# 도전하기
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

print(2 * a + b)
print(a == 2)
print(b > 10)
print((a == 2) & (b > 10))

[12 24 36]
[False  True False]
[False  True  True]
[False  True False]


In [36]:
# 2차원 배열 만들고 행과 열의 개수 구하기

c = np.array([[0, 1, 2], [3, 4, 5]])
print(c)
print(c.shape)

[[0 1 2]
 [3 4 5]]
(2, 3)


In [37]:
# 3차원 배열 만들고 깊이(차원),행과 열의 개수 구하기
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])

print(d)
print(d.shape)      # 3차원(차원, 행, 열)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]
(2, 3, 4)


In [38]:
# 배열의 차원과 크기 알아내기
a = np.array([1, 2, 3])
print(a.ndim)       # 배열의 차원
print(a.shape)      # 배열의 모양
print(a.size)       # 배열에 들어있는 총 요소의 개수

1
(3,)
3


In [39]:
# 배열의 차원과 크기 알아내기2
c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)
print(c.size)

2
(2, 3)
6


In [40]:
# 배열의 차원과 크기 알아내기3
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])

print(d.ndim)
print(d.shape)
print(d.size)

3
(2, 3, 4)
24


In [41]:
# 배열의 인덱싱
a = np.array([0, 1, 2, 3, 4])
print(a[2])
print(a[-1])

2
4


In [42]:
# 배열의 인덱싱2
# 0, 1, 5만 출력
a = np.array([[0, 1, 2], [3, 4, 5]])
print(a[0][0], a[0][1], a[1][2])

0 1 5


In [43]:
# 배열의 슬라이싱
# 0, 1, 2만 출력
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a[0, 0:3])

[0 1 2]


In [44]:
# 배열의 슬라이싱2
# 1, 5만 출력
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a[:, 1])
print(a[0:2, 1])

[1 5]
[1 5]


In [45]:
# 배열의 슬라이싱3
# 5, 6, 7 출력
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a[1, 1:4])

[5 6 7]


In [46]:
# 배열의 슬라이싱4
# 0, 1, 4, 5 출력
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a[0:2, 0:2])

[[0 1]
 [4 5]]


펜시 인덱싱(fancy indexing)
- 데이터베이스의 질의(Query) 기능을 수행
- 대괄호 안의 인덱스 정보로 숫자나 슬라이스가 아니라,  
  위치 정보를 나타내는 또 다른 ndarray 배열을 받을 수 있음
- 불리언(Boolean) 배열 방식과 정수 배열 방식

In [47]:
# 팬시 인덱싱
# 불리언 방식
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
               False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

In [48]:
# 팬시 인덱싱
# 조건문 연산을 사용하여 짝수인 원소만 출력
# 조건문 연산: 참, 거짓을 판단 (주로 논리, 비교 연산자)
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
even = a % 2 == 0
print(even)
print(a[even])

[ True False  True False  True False  True False  True False]
[0 2 4 6 8]


In [49]:
# 팬시 인덱싱
# 정수 배열 인덱싱
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

In [50]:
# 팬시 인덱싱
# 정수 배열 인덱싱2
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

In [51]:
# 팬시 인덱싱
# 1, 4, 5, 8, 9, 12 출력
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a[ : , [0,3]])


[[ 1  4]
 [ 5  8]
 [ 9 12]]


In [52]:
# 팬시 인덱싱
# 행 위치 변경
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a[[2, 0, 1]])

[[ 9 10 11 12]
 [ 1  2  3  4]
 [ 5  6  7  8]]


In [53]:
# 도전하기
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

# 3의 배수 출력
num1 = x % 3 == 0
print(x[num1])

# 4로 나누면 1이 남는 수
num2 = x % 4 == 1
print(x[num2])

# 3으로 나눠지고, 4로 나누면 1이 남는 수
num3 = num1 & num2
print(x[num3])

[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]


In [54]:
# 넘파이 자료형
x = np.array([1, 2, 3.0])
x.dtype

dtype('float64')

In [55]:
# 넘파이 자료형2
x = np.array([1, 2, 3.0])
x[0] + x[2]

np.float64(4.0)

In [56]:
# 배열의 내부 데이터는 그대로 둔 채 형태만 바꿀 때
a = np.arange(12)
a

b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [57]:
# 배열의 내부 데이터는 그대로 둔 채 형태만 바꿀 때2
a = np.arange(12)
a.reshape(3, -1)     # -1은 NumPy가 배열의 크기를 자동으로 계산(열의 수 자동 결정)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [58]:
# 배열의 내부 데이터는 그대로 둔 채 형태만 바꿀 때3
a = np.arange(12)
b = a.reshape(2, 2, -1)
b

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [59]:
# 배열의 내부 데이터는 그대로 둔 채 형태만 바꿀 때4
a = np.arange(12)
b = a.reshape(2, -1, 2)
b

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [60]:
# 배열의 내부 데이터는 그대로 둔 채 형태만 바꿀 때4
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [61]:
# 벡터화 연산
x = np.arange(1, 10001)
y = np.arange(10001, 20001)
z = np.zeros_like(x)    # x 배열과 동일한 형태와 자료형을 가진 배열 생성한 후 모든 요소는 0
 
for i in range(10000):
    z[i] = x[i] + y[i]
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [62]:
# 벡터화 연산2
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

z = x + y
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [63]:
# 벡터화 연산3
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

# for 루프 시간 측정
import time
start_time = time.time()

z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]
end_time = time.time()

print(f"For 루프 방식 실행 시간: {end_time - start_time:.6f} 초")

# 벡터화 연산 시간 측정
start_time = time.time()

z = x + y

end_time = time.time()
print(f"벡터화 연산 방식 실행 시간: {end_time - start_time:.6f} 초")

For 루프 방식 실행 시간: 0.002008 초
벡터화 연산 방식 실행 시간: 0.000000 초


In [64]:
# 벡터화 연산4
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

print(a == b)
print(a >= b)

[False  True False  True]
[False  True  True  True]


In [65]:
# 벡터화 연산5
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

print(np.all(a == b))
print(np.all(a == c))

False
True


In [66]:
# 벡터화 연산6
x = np.arange(5)
x + 1

array([1, 2, 3, 4, 5])

In [67]:
# 유니버셜 함수
x = np.array([1, 2, 3, 4])

print(x.sum())
print(x.min())
print(x.argmin())   # 배열 x에서 가장 작은 값의 인덱스 반환
print(x.mean())

10
1
0
2.5


* 여러가지 Numpy 구성요소

https://numpy.org/doc/stable/user/quickstart.html

< 함수 >

- np.zeros( ), np.ones( )	- 모든 요소가 0 또는 1인 배열 생성
- np.full( ) - 모든 요소가 특정 값인 배열 생성
- np.arange( ) - 간격(step)을 기준으로 연속된 값 생성
- np.linspace( )	- 개수(num)를 기준으로 균일한 간격 생성
- np.eye( ) - 단위 행렬 생성
- np.random.*( ) - 무작위 값을 가진 배열 생성

< 유니버설 함수 >

- np.add(x, y) -두 배열의 요소별 덧셈 수행 (x + y와 동일)
- np.subtract(x, y)	- 뺄셈 (x - y)
- np.multiply(x, y)	- 곱셈 (x * y)
- np.divide(x, y) - 나눗셈 (x / y)
- np.sqrt(x) - 각 요소의 제곱근 계산
- np.exp(x)	- 지수 함수(ex) 적용
- np.log(x), np.log10(x) - 자연로그(ln), 상용로그(log10) 게산
- np.sin(x), np.cos(x) - 사인, 코사인 등 삼각함수 적용
- np.maximum(x, y) - 두 배열의 같은 위치 요소 중 더 큰 값 선택
- np.sum(x)	- arr.sum( ) 메소드와 기능적으로 동일
- np.sort(x) - 배열을 정렬한 복사본을 반환 (원본 유지)

< 메소드 >

- sum( )	- 배열의 모든 요소의 합계, axis로 특정 축 지정 가능
- mean( ) - 배열의 모든 요소의 평균 계산
- std( ), var( ) - 표준편차(standard deviation), 분산(variance) 계산
- min( ), max( ) - 최솟값, 최댓값
- argmin( ), argmax( ) - 최솟값, 최댓값이 있는 곳의 인덱스 반환
- reshape(shape) - 원본 데이터는 유지한 채, 배열의 형태(shape) 변경
- sort( ) - 배열의 요소를 제자리에서(in-place) 정렬 (원본 변경)
- flatten( )	- 배열을 1차원으로 펼치며 복사본 반환 (원본 유지)
- T	- 배열의 행과 열을 바꾼 전치(Transpose) 배열 반환
- copy( ) - 배열의 완전한 복사본 생성 (원본과 독립)

#### 판다스(Pandas)

Pandas(Python Data Analysis Library)

- 데이터를 조작/분석하기 위한 라이브러리
- 다양한 데이터 분석 함수 제공
- 행과 열로 이루어진 데이터 객체를 만들고 다룸
- 판다스 공식 사이트 (https://pandas.pydata.org/)

Pandas 데이터 구조
- 시리즈(Series)와 데이터프레임(DataFrame)이 존재

**시리즈(Series)**
- 1차원 배열의 형태
- 한 가지 형의 데이터로 구성
- 인덱스는 문자로 지정 가능하고 특별히 지정하지 않으면 숫자 0부터 시작

**데이터프레임(DataFrame)**
- 2차원 배열의 형태(엑셀시트와 비슷)
- 인덱스와 컬럼이라는 두 가지 기준에 의해 표 형태처럼 데이터가 저장
- 시리즈가 합쳐진 형태
- 행은 axis = 1, 열은 axis = 0

데이터 프레임 생성
- 이중 리스트나 딕셔너리로 생성 가능
- 딕셔너리로 데이터 프레임을 만들면 키(key)가 컬럼명으로 지정되어 만들어짐

In [68]:
# 시작하기 전 패키지 실행
import pandas as pd

In [69]:
# 리스트로 데이터프레임 생성
# 컬럼명 지정 X
df = pd.DataFrame([['부산광역시','051','3364358'],
                ['전라남도', '061', '1840921'],
                ['강원도','033','1535530']])

df

Unnamed: 0,0,1,2
0,부산광역시,51,3364358
1,전라남도,61,1840921
2,강원도,33,1535530


In [70]:
# 딕셔너리로 데이터프레임 생성
# 컬럼명 지정
df = pd.DataFrame({'Division':['부산광역시', '전라남도', '강원도'],
                'Code':['051', '061', '033'],
                'Population':['3364358', '1840921', '1535530'] })

df

Unnamed: 0,Division,Code,Population
0,부산광역시,51,3364358
1,전라남도,61,1840921
2,강원도,33,1535530


데이터 프레임 칼럼명 지정
- 데이터프레임의 컬럼명 확인
> df.columns

- 데이터프레임의 컬럼명 지정
> df.columns = ['컬럼1 명', '컬럼2 명', ... '컬럼n 명']

In [71]:
df

Unnamed: 0,Division,Code,Population
0,부산광역시,51,3364358
1,전라남도,61,1840921
2,강원도,33,1535530


In [72]:
# 컬럼명 확인
df.columns

Index(['Division', 'Code', 'Population'], dtype='object')

데이터 프레임 인덱스 지정
- 데이터프레임의 인덱스 확인
> df.index
- 인덱스를 지정하지 않으면 자동으로 0부터 시작하는 숫자 인덱스가 생성  

- 데이터프레임의 인덱스 이름을 지정
> df.index = ['인덱스1 명', '인덱스2 명', ... '인덱스n 명']
<br>
- 데이터프레임의 특정 열(columns)을 인덱스로 지정
> df.index = df['컬럼명']   

> df.set_index('컬럼명') < - 원본 df는 두고, 새로운 df 반환

In [73]:
df

Unnamed: 0,Division,Code,Population
0,부산광역시,51,3364358
1,전라남도,61,1840921
2,강원도,33,1535530


In [74]:
# 인덱스 확인
df.index

RangeIndex(start=0, stop=3, step=1)

In [75]:
# 인덱스 지정
df.index = df['Division']
df

Unnamed: 0_level_0,Division,Code,Population
Division,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산광역시,부산광역시,51,3364358
전라남도,전라남도,61,1840921
강원도,강원도,33,1535530


In [76]:
# columns을 인덱스로 지정
new_df = df.set_index('Division')
new_df

Unnamed: 0_level_0,Code,Population
Division,Unnamed: 1_level_1,Unnamed: 2_level_1
부산광역시,51,3364358
전라남도,61,1840921
강원도,33,1535530


데이터 파일: CSV
- 하나의 파일로 관리 가능한 크기의 데이터라면 일반적으로 csv포맷을 활용
- 데이터가 콤마로 분리되어 저장
- 한글이 포함된 경우 인코딩 방식을 UTF-8로 해야 한글이 깨지지 않게 불러옴

CSV 데이터 파일 읽어오기
- 데이터 파일의 이름을 적어줄 때 같은 폴더 안에 위치하지 않다면 경로명까지 적어줌
- csv 파일을 읽어서 데이터프레임 객체로 만들어 반환 (보통 df라는 변수명 사용)
> pd.read_csv('파일 이름')

In [77]:
# csv 데이터 파일 불러오기
df = pd.read_csv('heroes.csv')
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [78]:
# 아라비아 숫자로 변경 (원본 변경 x)
pd.options.display.float_format = '{:.0f}'.format
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


데이터 정보 확인
> 데이터프레임명.info()  

- 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 요약하여 정보 출력

In [79]:
# 데이터 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      7 non-null      object 
 1   나이      7 non-null      int64  
 2   직업      7 non-null      object 
 3   국적      7 non-null      object 
 4   키       7 non-null      int64  
 5   재산      5 non-null      float64
dtypes: float64(1), int64(2), object(3)
memory usage: 464.0+ bytes


컬럼별 통계량
> 데이터프레임명.describe()

- 숫자형 변수에 대한 기초 통계량 출력

In [80]:
# 기초 통계량 출력
df.describe()

Unnamed: 0,나이,키,재산
count,7,7,5
mean,34,190,2300278000120
std,13,36,5142800956894
min,18,170,600
25%,26,172,50000000
50%,32,177,340000000
75%,39,184,1000000000
max,58,270,11500000000000


데이터 상위 일부 확인
> 데이터프레임명.head()     # 기본 5개

In [81]:
# 데이터 프레임 상위 일부 출력
df.head()

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0


데이터 하위 일부 확인
> 데이터프레임명.tail()

In [82]:
# 데이터 프레임 하위 일부 출력
df.tail()

Unnamed: 0,이름,나이,직업,국적,키,재산
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


데이터 프레임의 특정 컬럼의 고유한 값 출력
- 특정 컬럼의 데이터 중 중복을 제외한 고유한 값 
> 데이터프레임명.['컬럼명'].unique()

> 데이터 프레임명.['컬럼명'].value_counts()

In [83]:
# 데이터프레임 중 특정 컬럼만 출력
df['국적']

0       미국
1    아스가르드
2       미국
3    데미스키라
4       미국
5       미국
6      러시아
Name: 국적, dtype: object

In [84]:
# 특정 컬럼의 dtype 확인
type(df['국적'])

pandas.core.series.Series

In [85]:
# 특정 컬럼의 고유한 값 출력
df['국적'].unique()

array(['미국', '아스가르드', '데미스키라', '러시아'], dtype=object)

In [86]:
# 특정 컬럼의 고유한 값의 각각의 갯수 출력 (분포도 확인)
df['국적'].value_counts()

국적
미국       4
아스가르드    1
데미스키라    1
러시아      1
Name: count, dtype: int64

제일 큰 값 순서대로 보여주기
- 기준 컬럼으로 정렬했을 때 상위 몇 개까지 나타낼 지 지정
> 데이터프레임명.nlargest(n, 기준 컬럼)

In [87]:
# 나이를 높은 순으로 출력
df['나이'].nlargest()

0    58
1    45
4    33
6    32
3    27
Name: 나이, dtype: int64

In [88]:
# 나이를 높은 순으로 7개 출력
df.nlargest(7, '나이')

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
4,헐크,33,핵물리학자,미국,270,1000000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0
3,원더우먼,27,공주,데미스키라,178,
5,캡틴마블,25,파일럿,미국,170,340000000.0
2,스파이더맨,18,고등학생,미국,177,600.0


In [89]:
# 키가 큰 순으로 정렬
df.nlargest(7, '키')

Unnamed: 0,이름,나이,직업,국적,키,재산
4,헐크,33,핵물리학자,미국,270,1000000000.0
1,토르,45,신,아스가르드,190,
3,원더우먼,27,공주,데미스키라,178,
2,스파이더맨,18,고등학생,미국,177,600.0
0,아이언맨,58,CEO,미국,174,11500000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


데이터프레임명[컬럼명] : 컬럼 데이터 가져오기
- 하나의 칼럼 가져오기
> 데이터프레임명['컬럼명']
- 여러 개의 컬럼 가져오기: 조회하려는 컬럼명을 리스트로 만든 후 조회
> 데이터프레임명[['컬럼명1', '컬럼명2', ..., '컬럼명n']]

In [90]:
# 이름만 상위 5개 출력
df['이름'][:5]

0     아이언맨
1       토르
2    스파이더맨
3     원더우먼
4       헐크
Name: 이름, dtype: object

< 특정 데이터 조회해서 가져오기 >
1. > 데이터프레임명[ ]    &nbsp;&nbsp; # 간단히 사용하기 좋지만 간혹 헷갈릴 수 있음

In [91]:
# 데이터프레임명[행번호]
df[:3] 

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0


2. > 데이터프레임명.iloc[행 번호, 열 번호] &nbsp;&nbsp; # i는 번호(인덱스)로 접근, 위치 기반

In [92]:
# 0행 0번 출력
df.iloc[0, 0]

'아이언맨'

In [93]:
# 인덱스 1에서 3번까지 출력
df.iloc[1:4]

Unnamed: 0,이름,나이,직업,국적,키,재산
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,


In [94]:
# 데이터프레임명[인덱스명]
# 인덱스 1, 3, 6번 출력
df.iloc[[1, 3, 6]]

Unnamed: 0,이름,나이,직업,국적,키,재산
1,토르,45,신,아스가르드,190,
3,원더우먼,27,공주,데미스키라,178,
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [95]:
# 데이터프레임 5행 3열까지 출력
df.iloc[:5, :3]

Unnamed: 0,이름,나이,직업
0,아이언맨,58,CEO
1,토르,45,신
2,스파이더맨,18,고등학생
3,원더우먼,27,공주
4,헐크,33,핵물리학자


3. > 데이터프레임명.loc[인덱스 명, 컬럼명] &nbsp;&nbsp; # 라벨을 통한 인덱싱

In [96]:
# 2번 인덱스 출력
df.loc[2]

이름    스파이더맨
나이       18
직업     고등학생
국적       미국
키       177
재산      600
Name: 2, dtype: object

In [97]:
# 2번 인덱스의 국적 출력
df.loc[2, '국적']

'미국'

In [98]:
# 2~5번 인덱스 출력
df.loc[2:5]

Unnamed: 0,이름,나이,직업,국적,키,재산
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0


In [99]:
# 3번부터 끝까지 중 국적, 키, 재산 출력
df.loc[3:, '국적': '재산']

Unnamed: 0,국적,키,재산
3,데미스키라,178,
4,미국,270,1000000000.0
5,미국,170,340000000.0
6,러시아,170,50000000.0


In [100]:
# 처음부터 3번까지 중 이름, 직업 출력
df.loc[:2,['이름', '직업']]

Unnamed: 0,이름,직업
0,아이언맨,CEO
1,토르,신
2,스파이더맨,고등학생


데이터프레임에 값이 없는 데이터가 있는가?
- 빈 값에 True를 출력
> 데이터프레임명.isnull( )

In [101]:
# 데이터프레임에 빈 값이 있는지 확인
df.isnull()

Unnamed: 0,이름,나이,직업,국적,키,재산
0,False,False,False,False,False,False
1,False,False,False,False,False,True
2,False,False,False,False,False,False
3,False,False,False,False,False,True
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False


In [102]:
# 컬럼별로 null이 몇 개 있는 지 확인
df.isnull().sum()

이름    0
나이    0
직업    0
국적    0
키     0
재산    2
dtype: int64

값이 없는 데이터 가져오기
- 해당 컬럼에서 값이 null인 데이터들을 가져옴
> 데이터프레임명[컬럼명.isnull( )]

In [103]:
# 재산에 null값이 있는 데이터 출력
df[df['재산'].isnull()]

Unnamed: 0,이름,나이,직업,국적,키,재산
1,토르,45,신,아스가르드,190,
3,원더우먼,27,공주,데미스키라,178,


조건에 따른 데이터 출력: 불리언 인덱싱(필터링)
- 조건을 제시하고 조건이 True인 요소만을 조회
> 데이터프레임명[조건]

- 여러 개의 조건을 and연산(&) 하거나 or연산(|) 할 수 있음
- 조건식은 소괄호( ) 안에 넣어줌
> 데이터프레임명[(조건 1) [& , |] (조건 2)]

조건이 참인 행 중에 열에 해당하는 데이터 가져오기
> 데이터프레임명.loc[(조건식), 열]

In [104]:
# 나이가 30이상 인지 확인
df['나이'] > 30

0     True
1     True
2    False
3    False
4     True
5    False
6     True
Name: 나이, dtype: bool

In [105]:
# 나이가 30이상인 데이터프레임 출력
df[df['나이'] > 30]

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
4,헐크,33,핵물리학자,미국,270,1000000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [106]:
# 나이가 30이상 이거나 50미만인 데이터프레임 출력
df[(df['나이'] > 30) & (df['나이'] < 50)]

Unnamed: 0,이름,나이,직업,국적,키,재산
1,토르,45,신,아스가르드,190,
4,헐크,33,핵물리학자,미국,270,1000000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [107]:
# 키가 180 이상인 레코드의 이름과 나이 컬럼만 출력
df.loc[df['키'] >= 180, ['이름', '나이']]

Unnamed: 0,이름,나이
1,토르,45
4,헐크,33


컬럼별 정렬
- 컬럼의 값을 기준으로 데이터프레임 정렬
> 데이터프레임명.sort_values('컬럼명')

In [108]:
# 나이 오름차순 정렬
df.sort_values('나이')

Unnamed: 0,이름,나이,직업,국적,키,재산
2,스파이더맨,18,고등학생,미국,177,600.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
3,원더우먼,27,공주,데미스키라,178,
6,블랙위도우,32,스파이,러시아,170,50000000.0
4,헐크,33,핵물리학자,미국,270,1000000000.0
1,토르,45,신,아스가르드,190,
0,아이언맨,58,CEO,미국,174,11500000000000.0


In [109]:
# 나이 내림차순 정렬
df.sort_values('나이', ascending = False)

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
4,헐크,33,핵물리학자,미국,270,1000000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0
3,원더우먼,27,공주,데미스키라,178,
5,캡틴마블,25,파일럿,미국,170,340000000.0
2,스파이더맨,18,고등학생,미국,177,600.0


데이터 수정 및 추가
- 컬럼이 있다면 값이 수정
- 컬럼이 없다면 새로운 컬럼 추가

> 데이터프레임명['컬럼명'] = 데이터    &nbsp;&nbsp; # 새로운 컬럼 추가

> 데이터프레임명.index = ['인덱스1', ..., '인덱스n 명']    &nbsp;&nbsp; # 인덱스명 수정

> 데이터프레임명.columns = ['컬럼명1', ..., '컬럼명n']    &nbsp;&nbsp; # 컬럼명 수정

In [110]:
# 전투력 컬럼 추가
df['전투력'] = 98
df

Unnamed: 0,이름,나이,직업,국적,키,재산,전투력
0,아이언맨,58,CEO,미국,174,11500000000000.0,98
1,토르,45,신,아스가르드,190,,98
2,스파이더맨,18,고등학생,미국,177,600.0,98
3,원더우먼,27,공주,데미스키라,178,,98
4,헐크,33,핵물리학자,미국,270,1000000000.0,98
5,캡틴마블,25,파일럿,미국,170,340000000.0,98
6,블랙위도우,32,스파이,러시아,170,50000000.0,98


In [111]:
# 전투력 컬럼의 값 변경
df['전투력'] = df['전투력'] - 5
df

Unnamed: 0,이름,나이,직업,국적,키,재산,전투력
0,아이언맨,58,CEO,미국,174,11500000000000.0,93
1,토르,45,신,아스가르드,190,,93
2,스파이더맨,18,고등학생,미국,177,600.0,93
3,원더우먼,27,공주,데미스키라,178,,93
4,헐크,33,핵물리학자,미국,270,1000000000.0,93
5,캡틴마블,25,파일럿,미국,170,340000000.0,93
6,블랙위도우,32,스파이,러시아,170,50000000.0,93


데이터 삭제
- 데이터 행 삭제
> 데이터프레임명.drop(index=[삭제할 인덱스])

- 컬럼 삭제
> 데이터프레임명.drop(columns=[삭제할 컬럼명])

원본에서 삭제하려면 inplace 값을 True로 설정하거나 데이터프레임에 다시 할당

In [112]:
# 전투력 컬럼 삭제
df.drop(columns = ['전투력'])   # 임시로 삭제 (원본 삭제 x)

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [113]:
# 전투력 컬럼 원본에서 완전히 삭제
df.drop(columns = ['전투력'], inplace = True)
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


In [114]:
# 전투력 컬럼 원본에서 완전히 삭제2
df['전투력'] = 98
df = df.drop(columns = ['전투력'])
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000.0
1,토르,45,신,아스가르드,190,
2,스파이더맨,18,고등학생,미국,177,600.0
3,원더우먼,27,공주,데미스키라,178,
4,헐크,33,핵물리학자,미국,270,1000000000.0
5,캡틴마블,25,파일럿,미국,170,340000000.0
6,블랙위도우,32,스파이,러시아,170,50000000.0


결측치 삭제
- 빈 값이 있는 데이터가 있는 행 삭제 (axis=0이 기본값)
> 데이터프레임명.dropna()

- 빈 값이 있는 데이터가 있는 열 삭제 
> 데이터프레임명.dropna(axis = 1)

In [115]:
# 결측치 있는 지 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      7 non-null      object 
 1   나이      7 non-null      int64  
 2   직업      7 non-null      object 
 3   국적      7 non-null      object 
 4   키       7 non-null      int64  
 5   재산      5 non-null      float64
dtypes: float64(1), int64(2), object(3)
memory usage: 464.0+ bytes


In [116]:
# 재산에 있는게 결측치 인지 확인
df['재산'].isnull()

0    False
1     True
2    False
3     True
4    False
5    False
6    False
Name: 재산, dtype: bool

In [117]:
# 결측치가 총 몇 개인지 확인
df.isnull().sum()

이름    0
나이    0
직업    0
국적    0
키     0
재산    2
dtype: int64

In [118]:
# 재산의 결측치에 있는 데이터가 무엇인지 확인
df[df['재산'].isnull()]

Unnamed: 0,이름,나이,직업,국적,키,재산
1,토르,45,신,아스가르드,190,
3,원더우먼,27,공주,데미스키라,178,


In [119]:
# 결측치가 있는 행 삭제
df.dropna() # 임시로 삭제 (원본 삭제 x)

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000
2,스파이더맨,18,고등학생,미국,177,600
4,헐크,33,핵물리학자,미국,270,1000000000
5,캡틴마블,25,파일럿,미국,170,340000000
6,블랙위도우,32,스파이,러시아,170,50000000


결측치에 값 채우기
- 결측치에 어떤 값으로 채우기
> 데이터프레임명.fillna( )

In [120]:
# 결측값을 평균값으로 채우기
df['재산'].fillna(df['재산'].mean())    # (원본 x)

0   11500000000000
1    2300278000120
2              600
3    2300278000120
4       1000000000
5        340000000
6         50000000
Name: 재산, dtype: float64

In [121]:
# 결측치를 앞에 있는 값으로 채움
df.fillna(method = 'ffill')     # 원본 X

  df.fillna(method = 'ffill')     # 원본 X


Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000
1,토르,45,신,아스가르드,190,11500000000000
2,스파이더맨,18,고등학생,미국,177,600
3,원더우먼,27,공주,데미스키라,178,600
4,헐크,33,핵물리학자,미국,270,1000000000
5,캡틴마블,25,파일럿,미국,170,340000000
6,블랙위도우,32,스파이,러시아,170,50000000


In [122]:
# 결측치를 뒤에 있는 값으로 채움
df.fillna(method = 'bfill')     # 원본 X

  df.fillna(method = 'bfill')     # 원본 X


Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000
1,토르,45,신,아스가르드,190,600
2,스파이더맨,18,고등학생,미국,177,600
3,원더우먼,27,공주,데미스키라,178,1000000000
4,헐크,33,핵물리학자,미국,270,1000000000
5,캡틴마블,25,파일럿,미국,170,340000000
6,블랙위도우,32,스파이,러시아,170,50000000


In [123]:
# 결측치의 값을 앞의 값으로 완전히 채움
df = df.fillna(method = 'ffill')
df

  df = df.fillna(method = 'ffill')


Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000
1,토르,45,신,아스가르드,190,11500000000000
2,스파이더맨,18,고등학생,미국,177,600
3,원더우먼,27,공주,데미스키라,178,600
4,헐크,33,핵물리학자,미국,270,1000000000
5,캡틴마블,25,파일럿,미국,170,340000000
6,블랙위도우,32,스파이,러시아,170,50000000


In [124]:
# 결측치 생성
df.iloc[5, 1] = np.nan
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58.0,CEO,미국,174,11500000000000
1,토르,45.0,신,아스가르드,190,11500000000000
2,스파이더맨,18.0,고등학생,미국,177,600
3,원더우먼,27.0,공주,데미스키라,178,600
4,헐크,33.0,핵물리학자,미국,270,1000000000
5,캡틴마블,,파일럿,미국,170,340000000
6,블랙위도우,32.0,스파이,러시아,170,50000000


In [125]:
# 나이의 평균값으로 결측치 채움
df = df.fillna(df['나이'].mean())
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174,11500000000000
1,토르,45,신,아스가르드,190,11500000000000
2,스파이더맨,18,고등학생,미국,177,600
3,원더우먼,27,공주,데미스키라,178,600
4,헐크,33,핵물리학자,미국,270,1000000000
5,캡틴마블,36,파일럿,미국,170,340000000
6,블랙위도우,32,스파이,러시아,170,50000000


그룹별 데이터 집계
- 컬럼 데이터를 기준으로 데이터를 집계
> 데이터프레임명.groupby('컬럼명').통계함수( )

In [126]:
# 나라별 히어로들의 평균 나이
df.groupby('국적')['나이'].mean()

국적
데미스키라   27
러시아     32
미국      36
아스가르드   45
Name: 나이, dtype: float64

함수 적용
- 컬럼에 함수를 일괄 적용
> 데이터프레임명['컬럼명'].apply(함수명)

In [127]:
def add_cm(height):
    return str(height) + 'cm'

df['키']= df['키'].apply(add_cm)
df

Unnamed: 0,이름,나이,직업,국적,키,재산
0,아이언맨,58,CEO,미국,174cm,11500000000000
1,토르,45,신,아스가르드,190cm,11500000000000
2,스파이더맨,18,고등학생,미국,177cm,600
3,원더우먼,27,공주,데미스키라,178cm,600
4,헐크,33,핵물리학자,미국,270cm,1000000000
5,캡틴마블,36,파일럿,미국,170cm,340000000
6,블랙위도우,32,스파이,러시아,170cm,50000000
