In [2]:
import numpy as np
print(np.__version__)

1.21.0


### ndarray의 주요 속성
- 형태 : ndarray.shape
- 원소의 수 : ndarray.size
- 저장된 데이터의 타입 : ndarray.dtype
- 배열의 차원의 수 : ndarray.ndim

In [3]:
# ndarray 생성
data = [10,20,30]
arr = np.array(data)

# 생성한 ndarray의 속성 출력
print('\nCreate 1D Array')
print(arr)
print('type = ', type(arr))
print("shape: {}, size: {}, dtype: {}, dimension: {}"
.format(arr.shape, arr.size, arr.dtype, arr.ndim))


Create 1D Array
[10 20 30]
type =  <class 'numpy.ndarray'>
shape: (3,), size: 3, dtype: int64, dimension: 1


### np.array의 Parameters:
- object : ndarray에 저장할 데이터
- dtype : 배열의 데이터타입, 기본 값은 None, 생략가능

In [4]:
# 2차원 ndarray 생성
data = [[1,2,3], [4,5,6]]
arr = np.array(data)

# 생성한 ndarray의 속성 출력
print('\nCreate 2D Array')
print(arr)
print('type = ', type(arr))
print("shape: {}, size: {}, dtype: {}, dimension: {}".format(arr.shape, arr.size, arr.dtype, arr.ndim))


Create 2D Array
[[1 2 3]
 [4 5 6]]
type =  <class 'numpy.ndarray'>
shape: (2, 3), size: 6, dtype: int64, dimension: 2


In [5]:
# dtype = float로 지정
# 2차원 ndarray 생성
data = [[1,2,3], [4,5,6]]
arr = np.array(data, dtype = float)

# 생성한 ndarray의 속성 출력
print('\nCreate 2D Array')
print(arr)
print('type = ', type(arr))
print("shape: {}, size: {}, dtype: {}, dimension: {}".format(arr.shape, arr.size, arr.dtype, arr.ndim))


Create 2D Array
[[1. 2. 3.]
 [4. 5. 6.]]
type =  <class 'numpy.ndarray'>
shape: (2, 3), size: 6, dtype: float64, dimension: 2


### ndarray의 생성
- np.arange()
    - 파이썬의 range()와 동일하게 연속된 데이터를 생성하는 함수
    - range((start), stop, (step)) # stop-1까지 / start와 step은 생략가능
    - range(1,5), range(1, 5, 2), range(5.0)
- np.zeros()
    - 지정된 크기(shape)만큼 배열을 생성하고, 모든 요소를 0으로 초기화
    - 데이터 타입(dtype)은 입력하지 않으면 기본 float 타입으로 생성됨
    - Parameters:
        - shape : 생성할 ndarray의 크기로 튜플() 형태로 저장해야 함
        - dtype : 배열의 뎅이터 타입, 기본 값은 float, 생략가능
- np.ones()
- np.full()
- np.empty()
    - 초기화되지 않은 상태로 지정된 shape만큼의 ndarray 생성
    - 요소의 초기화 과정이 없어 배열 생성 비용이 가장 빠르고 저렴함
    - 생성된 배열의 각 요소는 임의의 값이 저장되어 있음

In [8]:
import numpy as np

def printinfo(arr):
    print(arr)
    print("shape: {}, size: {}, dtype: {}, dimension: {}"
    .format(arr.shape, arr.size, arr.dtype, arr.ndim))

# np.arange() 를 통한 ndarray 생성
arr = np.arange(2,10)
print('\n Create ndarray by np.arange()')
printinfo(arr)


 Create ndarray by np.arange()
[2 3 4 5 6 7 8 9]
shape: (8,), size: 8, dtype: int64, dimension: 1


In [9]:
# np.zeros()를 통한 ndarray 생성
arr = np.zeros(5)
print('\n Create ndarray by np.zeros()')
printinfo(arr)


 Create ndarray by np.zeros()
[0. 0. 0. 0. 0.]
shape: (5,), size: 5, dtype: float64, dimension: 1


In [11]:
# np.zeros() 를 통한 ndarray 생성
arr = np.zeros((3,4), dtype=int)
print('\n Create ndarray by np.zeros() ')
printinfo(arr)


 Create ndarray by np.zeros() 
[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]
shape: (3, 4), size: 12, dtype: int64, dimension: 2


In [10]:
# np.ones() 를 통한 ndarray 생성
arr = np.ones((3,4))
print('\n Create ndarray by np.ones()')
printinfo(arr)


 Create ndarray by np.ones()
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
shape: (3, 4), size: 12, dtype: float64, dimension: 2


In [12]:
# np.full() 를 통한 ndarray 생성
arr = np.full((3,4), 77)
print('\n Create ndarray by np.full()')
printinfo(arr)


 Create ndarray by np.full()
[[77 77 77 77]
 [77 77 77 77]
 [77 77 77 77]]
shape: (3, 4), size: 12, dtype: int64, dimension: 2


In [13]:
# sample 데이터 생성
data = [[1,2,3], [4,5,6]]
sample = np.array(data)
print('\n Sample')
printinfo(sample)


 Sample
[[1 2 3]
 [4 5 6]]
shape: (2, 3), size: 6, dtype: int64, dimension: 2


In [14]:
# ones_like() 를 통한 ndarray 생성
one_array = np.ones_like(sample)
print('\n Create ndarray by np.ones_like()')
printinfo(one_array)


 Create ndarray by np.ones_like()
[[1 1 1]
 [1 1 1]]
shape: (2, 3), size: 6, dtype: int64, dimension: 2


- np.int64 : (64비트)정수
- np.float64 : (64비트) 실수
- np.complex : 복소수
- np.bool : 불리언(True, False)
- np.object : 파이썬 객체
- np.str : 문자열

## 데이터 타입 변경
### 방법 1) ndarray 생성시 인자로 dtype 지정하는 방식

In [15]:
# 3차원 ndarray 생성
data = [[[1,2,3],[4,5,6]], [[3,2,1],[4,5,6]]]
arr = np.array(data, dtype = float)

In [16]:
import numpy as np

# dtype 인자 지정을 통한 데이터 타입 변경
data = [1,2,3]
cpx_arr = np.array(data, dtype=np.complex)
str_arr = np.array(data, dtype=np.str)

print('Complex: ', cpx_arr)
print('String: ', str_arr)

Complex:  [1.+0.j 2.+0.j 3.+0.j]
String:  ['1' '2' '3']
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  cpx_arr = np.array(data, dtype=np.complex)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  str_arr = np.array(data, dtype=np.str)


### 방법 2) ndarray.astype(dtype)
- ndarray 에 저장된 데이터를 주어진 dtype으로 변환해서 반환함
- Parameters:
    - dtype : 변경하고자 하는 배열의 데이터 타입

In [17]:
# 샘플 데이터 생성
origin = np.arange(1, 2, 0.2)
print('\n Original data')
print(origin)
print('dtype : ', origin.dtype)


 Original data
[1.  1.2 1.4 1.6 1.8]
dtype :  float64


In [18]:
# astype(dtype) 을 활용한 데이터 타입 변경
result = origin.astype(int)
print('\n Result of astype(int)')
print(result)

print('\n Original data')
print(origin)


 Result of astype(int)
[1 1 1 1 1]

 Original data
[1.  1.2 1.4 1.6 1.8]


### np.reshape(array, newshape)
- 기존 데이터는 유지하면서 차원과 shape 만을 바꾼 배열을 반환
- Parameters:
    - array : reshape 할 ndarray
    - newshape : 변경하고자 하는 shape 값(튜플 형태)

In [20]:
import numpy as np

# ndarray 속성 출력 함수
def printinfo(arr):
    print(arr)
    print("shape: {}, size: {}, dtype: {}, dimension: {}".format(arr.shape, arr.size, arr.dtype, arr.ndim))

# 샘플 데이터 생성
origin_arr = np.arange(15)
print('\n Original ndarray')
printinfo(origin_arr)


 Original ndarray
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
shape: (15,), size: 15, dtype: int64, dimension: 1


In [22]:
# reshape() 을 활용한 데이터 형상 변경
reshape_arr = np.reshape(origin_arr, (3,5))
print('\nReshape ndarray')
printinfo(reshape_arr)


Reshape ndarray
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
shape: (3, 5), size: 15, dtype: int64, dimension: 2


reshape(-1, N)
- 기존 데이터를 유지하면서, shape을 변경하는 방식
- shape은 주어진 N에 따라 자동으로 추정되어 변경됨
- -1 의 자리는 가변적

## Numpy 의 주요 특징
- 대규모의 고성능 수치 계산을 위한 python library
    -> 연산속도가 빠르고, 메모리를 효율적으로 사용
- N차원의 배열을 효율적으로 다룰 수 있는 라이브러리
    -> 반복문 작성 필요 없이 N차원의 데이터 배열을 바로 연산할 수 있음

### Numpy의 기본 연산
- 연산자를 이용해 직관적인 배열 연산 가능
- 모든 연산은 배열의 각 요소별로 적용됨(element-wise)
- 모든 산술 연산 함수는 Numpy 모듈에 구현되어 있음

### Numpy의 사칙 연산
- numpy.add() 또는 +연산자
- numpy.subtract() 또는 -연산자
- numpy.divide() 또는 /연산자
- numpy.multiply() 또는 *연산자

In [23]:
import numpy as np
import time

# 샘플 데이터 생성
a = np.arange(1,10).reshape(3,3)
print('\nA---')
print(a)

b = np.arange(9,0,-1).reshape(3,3)
print('\nB---')
print(b)


A---
[[1 2 3]
 [4 5 6]
 [7 8 9]]

B---
[[9 8 7]
 [6 5 4]
 [3 2 1]]


In [24]:
# np.add(x1, x2)
result = a + b
print('\nResult of A + B')
print(result)

result = np.add(a,b)
print('\nResult of np.add(a,b)')
print(result)


Result of A + B
[[10 10 10]
 [10 10 10]
 [10 10 10]]

Result of np.add(a,b
[[10 10 10]
 [10 10 10]
 [10 10 10]]


In [27]:
import numpy as np

# 샘플 데이터 생성
sample = np.arange(1,10).reshape(3,3)
print('Sample')
print(sample)

# axis=None 실습 (default)
# 대상 ndarray의 모든 요소가 연산 대상이 됨
# Default 값이므로 집계 함수 호출시 생략 가능
print('\n[CASE-1] axis=None')
print('sum : ', sample.sum())
print('mean: ', sample.mean())
print('std: ', sample.std())
print('max: ', sample.max())
print('min: ', sample.min())

Sample
[[1 2 3]
 [4 5 6]
 [7 8 9]]

[CASE-1] axis=None
sum :  45
mean:  5.0
std:  2.581988897471611
max:  9
min:  1


In [29]:
# axis=0 실습
print('\n[CASE-2] axis=0')
print('sum : ', sample.sum(axis=0))
print('mean: ', sample.mean(axis=0))
print('std: ', sample.std(axis=0))
print('max: ', sample.max(axis=0))
print('min: ', sample.min(axis=0))


[CASE-2] axis=0
sum :  [12 15 18]
mean:  [4. 5. 6.]
std:  [2.44948974 2.44948974 2.44948974]
max:  [7 8 9]
min:  [1 2 3]


In [30]:
# axis=1 실습
print('\n[CASE-3] axis=1')
print('sum : ', sample.sum(axis=1))
print('mean: ', sample.mean(axis=1))
print('std: ', sample.std(axis=1))
print('max: ', sample.max(axis=1))
print('min: ', sample.min(axis=1))


[CASE-3] axis=1
sum :  [ 6 15 24]
mean:  [2. 5. 8.]
std:  [0.81649658 0.81649658 0.81649658]
max:  [3 6 9]
min:  [1 4 7]


In [31]:
import numpy as np

# 1차원 샘플 데이터 생성
sample = np.arange(5,15)
print('1D-Array Sampe: ', sample)
print('sample[3] = ', sample[3])

1D-Array Sampe:  [ 5  6  7  8  9 10 11 12 13 14]
sample[3] =  8


In [33]:
# 3번째 인덱스 값 변경 후 출력
sample[3] = 0
print('1D-Array Sample : ', sample)

1D-Array Sample :  [ 5  6  7  0  9 10 11 12 13 14]


In [35]:
# 2차원 샘플 데이터 생성 및 [2,3] 조회
sample = np.arange(16).reshape((4,4))
print('\n2D-Array Indexing')
print(sample)
print('sample[2,3] = ', sample[2,3])

# 인덱싱 값 변경 후 출력
sample[2,3] = 0
print(sample)


2D-Array Indexing
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
sample[2,3] =  11
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10  0]
 [12 13 14 15]]


In [36]:
# 3차원 샘플 데이터 생성
sample = np.arange(16).reshape((4,2,2))
print('\n3D-Array Indexing')
print(sample)
print('sample[1,1,1] = ', sample[1,1,1])


3D-Array Indexing
[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]

 [[12 13]
  [14 15]]]
sample[1,1,1] =  7


In [38]:
import numpy as np

# 샘플 데이터 생성
sample = np.array([2,5,8,1])
print('1D-Array Sample')
print(sample)

1D-Array Sample
[2 5 8 1]


In [39]:
# np.sort() 정렬
result = np.sort(sample)
print('\n Result of np.sort')
print('Result : ', result)
print('Original : ', sample)


 Result of np.sort
Result :  [1 2 5 8]
Original :  [2 5 8 1]


np.sort(array)
- 기본적으로 오름차순 정렬만 지원함
- 정렬된 결과를 반환하지만, 원본 데이터는 변경하지 않음

### 원본 데이터를 변경하려면?
- ndarray.sort(): 원본 데이터를 변경하고 none값을 반환

np.sort(array, axis)
- 기본적으로 오름차순 정렬만 지원함
- 정렬된 결과를 반환하지만, 원본 데이터는 변경하지 않음
- 2차원 데이터의 정렬시에는 axis를 통해 집계 방향 결정됨

In [40]:
# 샘플 데이터 생성
sample = np.array([[9,11], [5,1]])
print('\n2D-Array Sample')
print(sample)


2D-Array Sample
[[ 9 11]
 [ 5  1]]


In [41]:
# 2차원 배열 정렬 by axis = 0
result = np.sort(sample, axis=0)
print('\nnp.sort(axis=0) : ')
print(result)


np.sort(axis=0) : 
[[ 5  1]
 [ 9 11]]


In [42]:
# 2차원 배열 정렬 by axis = 1
result = np.sort(sample, axis=1)
print('\nnp.sort(axis=2) : ')
print(result)


np.sort(axis=2) : 
[[ 9 11]
 [ 1  5]]


In [44]:
# 샘플 데이터 생성
name = np.array(['John', 'Samuel', 'Kate', 'Mike', 'Sarah'])
score = np.array([78,84,96,88,82])

### np.argsort(array)
- 오름차순 정렬된 배열의 인덱스 값만 반환하는 함수

In [46]:
# np.argsort() 를 통해 정렬된 인덱스 값만 반환
sort_indexes = np.argsort(score)
print('\nnp.argsort()')
print('sort indexes : ', sort_indexes)
# 인덱스 값을 통해 컬럼명 조회
print('sort values : ', name[sort_indexes])


np.argsort()
sort indexes :  [0 4 1 3 2]
sort values :  ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### Series 자료구조
- 1차원 배열의 자료구조
- 인덱스를 통한 데이터 접근 가능
- 동일한 데이터 타입의 값을 저장할 수 있음

In [50]:
import pandas as pd
print(pd.__version__)

1.2.5


### pd.Series(data)
- 리스트, 튜플, 딕셔너리 등의 파이썬 객체를 data 인자로 전달해 생성
- pd.Series() 호출 시 대문자 주의 필요

In [51]:
# 리스트 데이터로 Series 객체 생성
year = ['2019', '2020', '2021', '2022']
result = pd.Series(data=year)

print('\nType: ', type(result))
print(result)


Type:  <class 'pandas.core.series.Series'>
0    2019
1    2020
2    2021
3    2022
dtype: object


- 변수명.index : 개별 데이터를 고유하게 식별하는 일종의 key 값
- 변수명.values : Series 객체 내 모든 데이터 값
- 변수명.dtype : Series 객체에 저장된 데이터의 타입
- 변수명.shape : Series 객체의 모양

### Series의 생성
pd.Series(data, index, name)
- index : Series 객체 생성시 index 설정
- name : Series 객체 생성시 이름 지정

In [52]:
# 인덱스 추가하여 Series 객체 생성하기
year = ['2019', '2020', '2021', '2022']
idx = ['a', 'b', 'c', 'd']

result = pd.Series(data=year, index=idx, name='Year')
print(result)

a    2019
b    2020
c    2021
d    2022
Name: Year, dtype: object


In [53]:
# 딕셔너리 데이터로 Series 객체 생성
score = {'Kim' : 85, 'Han': 89, 'Lee':99, 'Choi' : 70}
result = pd.Series(data=score, name='Score')
print(result)

Kim     85
Han     89
Lee     99
Choi    70
Name: Score, dtype: int64


## DataFrame 자료구조
- 행과 열을 가진 2차원 자료 구조
- 데이터와 행/열에 대한 인덱스가 저장됨
- 각 칼럼은 서로 다른 데이터 타입으로 구성될 수 있음
- 1개의 칼럼은 Series 객체로 구성됨

### DataFrame 객체 생성
pd.DataFrame(data)
- 다양한 형태로 저장된 파이썬 객체를 전달해 DataFrame 생성
    - Series 객체
    - 중첩된 딕셔너리 객체
    - 딕셔너리의 리스트
    - 리스트, 튜플의 리스트
    - ndarray

In [54]:
# 파이썬 딕셔너리 객체를 이용해 DataFrame 객체 생성
import pandas as pd

score = {'name':['Jessi','Emma','Alex','Tom'],
'score':[100,95,80,85],
'grade':['A','A','B','B']}

df = pd.DataFrame(data=score)
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
    name  score grade
0  Jessi    100     A
1   Emma     95     A
2   Alex     80     B
3    Tom     85     B


In [55]:
# DataFrame 주요 속성 실습
print('-Index: ', df.index)
print('-Columns:', df.columns)
print('-Values:\n', df.values)

-Index:  RangeIndex(start=0, stop=4, step=1)
-Columns: Index(['name', 'score', 'grade'], dtype='object')
-Values:
 [['Jessi' 100 'A']
 ['Emma' 95 'A']
 ['Alex' 80 'B']
 ['Tom' 85 'B']]


In [56]:
print('-DTypes:\n', df.dtypes)
print('-Shape: ', df.shape)

-DTypes:
 name     object
score     int64
grade    object
dtype: object
-Shape:  (4, 3)


In [59]:
# index, columns 지정해 DataFrame 생성
score = {'name':['Jessi','Emma','Alex','Tom'],
'score':[100,95,80,85],
'grade':['A','A','B','B']}
i = ['a','b','c','d']
c = ['score', 'grade', 'name','email']

df = pd.DataFrame(data=score, index=i, columns=c)
print(df)

   score grade   name email
a    100     A  Jessi   NaN
b     95     A   Emma   NaN
c     80     B   Alex   NaN
d     85     B    Tom   NaN


### DataFrame 데이터 살펴보기
- df.info()
- df.head()
- df.tail()
- df.sample()

In [60]:
# 실습 데이터 생성
import pandas as pd

score = {'name':['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'],
'score':[100,95,80,85,97],
'grade':['A', 'A', 'B', 'B', 'A'],
'subject':['python', 'java', 'python', 'c', 'java']}

score_df = pd.DataFrame(data=score)
print(score_df)

    name  score grade subject
0  Jessi    100     A  python
1   Emma     95     A    java
2   Alex     80     B  python
3  Jessi     85     B       c
4    Tom     97     A    java


In [77]:
print(score_df.info())
print('\---------\n')
print(score_df.head(3))
print('\---------\n')
print(score_df.tail(3))
print('\---------\n')
print(score_df.sample())
print('\---------\n')
print(score_df.sample(2, random_state=10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   name     5 non-null      object
 1   score    5 non-null      int64 
 2   grade    5 non-null      object
 3   subject  5 non-null      object
dtypes: int64(1), object(3)
memory usage: 288.0+ bytes
None
\---------

    name  score grade subject
0  Jessi    100     A  python
1   Emma     95     A    java
2   Alex     80     B  python
\---------

    name  score grade subject
2   Alex     80     B  python
3  Jessi     85     B       c
4    Tom     97     A    java
\---------

    name  score grade subject
3  Jessi     85     B       c
\---------

    name  score grade subject
2   Alex     80     B  python
3  Jessi     85     B       c


df.sample(frac)
- 임의의 행 데이터 n개를 랜덤하게 반환해주는 함수
- frac 지정된 비중에 따라 일부 데이터를 반환함(fraction)
- frac 인자는 0~1 값으로 지정할 수 있음
- frac 과 n 인자는 동시에 사용할 수 없음

In [78]:
# .sample() 함수의 frac 인자 실습
print('\n <Return a random sample with frac 50%>')
print(score_df.sample(frac=0.5))


 <Return a random sample with frac 50%>
    name  score grade subject
2   Alex     80     B  python
3  Jessi     85     B       c


### 수치형(Numerical) 데이터
- 관측된 값이 수치로 측정되는 데이터로 '연속형' 데이터라고도 함
- 값의 평균, 중앙값, 표준편차 등과 같은 접근이 의미가 있는 데이터
### 범주형(Categorical) 데이터
- 범주 또는 항목의 형태로 표현되는 데이터

df.describe()
- 연산이 가능한 데이터에 대해서
- 기술 통계(descriptive statistics) 요약을 출력하는 함수
- 기술 통계란? 수집한 데이터의 특성을 표현하고 분석하는 통계 기법

In [81]:
# 실습 데이터 생성
import pandas as pd

score = {'name':['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'],
'age':[20,24,23,20,27],
'score':[100,95,80,85,97],
'grade':['A', 'A', 'B', 'B', 'A'],
'subject':['python', 'java', 'python', 'c', 'java']}

score_df = pd.DataFrame(data=score)
print(score_df)

    name  age  score grade subject
0  Jessi   20    100     A  python
1   Emma   24     95     A    java
2   Alex   23     80     B  python
3  Jessi   20     85     B       c
4    Tom   27     97     A    java


In [82]:
print("\n Generate Descriptive Statistics")
print(score_df.describe())


 Generate Descriptive Statistics
             age       score
count   5.000000    5.000000
mean   22.800000   91.400000
std     2.949576    8.502941
min    20.000000   80.000000
25%    20.000000   85.000000
50%    23.000000   95.000000
75%    24.000000   97.000000
max    27.000000  100.000000


In [83]:
print("\n Generate Descriptive Statistics for Categorical")
print(score_df[['grade', 'subject']].describe())


 Generate Descriptive Statistics for Categorical
       grade subject
count      5       5
unique     2       3
top        A    java
freq       3       2


In [84]:
print("\n Generate Descriptive Statistics")
print(score_df.describe(include='all'))


 Generate Descriptive Statistics
         name        age       score grade subject
count       5   5.000000    5.000000     5       5
unique      4        NaN         NaN     2       3
top     Jessi        NaN         NaN     A    java
freq        2        NaN         NaN     3       2
mean      NaN  22.800000   91.400000   NaN     NaN
std       NaN   2.949576    8.502941   NaN     NaN
min       NaN  20.000000   80.000000   NaN     NaN
25%       NaN  20.000000   85.000000   NaN     NaN
50%       NaN  23.000000   95.000000   NaN     NaN
75%       NaN  24.000000   97.000000   NaN     NaN
max       NaN  27.000000  100.000000   NaN     NaN


In [87]:
# df.unique() : 범주형 데이터의 고유한 종류 출력
print(score_df['subject'].unique())

# df.value_counts() : 범주형 데이터의 각 카테고리별 빈도수 출력
print(score_df['subject'].value_counts())

# df.value_counts(normalize=True) : 범주형 데이터의 각 카테고리별 빈도수를 비율로 출력
print(score_df['subject'].value_counts(normalize=True))

['python' 'java' 'c']
java      2
python    2
c         1
Name: subject, dtype: int64
java      0.4
python    0.4
c         0.2
Name: subject, dtype: float64


### DataFrame의 특정 열 데이터 조회
- 방법 1) 인덱싱 기법 사용 : DataFrame\['조회할 열의 인덱스명']
- 방법 2) .연산자 사용 : DataFrame.조회할 열의 인덱스명

In [103]:
# 실습 데이터 생성
import pandas as pd

score = {'name':['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'],
'age':[20,24,23,20,27],
'score':[100,95,80,85,97],
'grade':['A', 'A', 'B', 'B', 'A'],
'subject':['python', 'java', 'python', 'c', 'java']}
c = ['name', 'subject','score','grade','etc']
df = pd.DataFrame(data=score, columns=c)
print(score_df)

    name  age  score grade subject
0  Jessi   20    100     A  python
1   Emma   24     95     A    java
2   Alex   23     80     B  python
3  Jessi   20     85     B       c
4    Tom   27     97     A    java


In [99]:
print('\nColumns : name')
print(df['name'])
print('\nColumns : name')
print(df.name)


Columns : name
a    Jessi
b     Emma
c     Alex
d      Tom
Name: name, dtype: object

Columns : name
a    Jessi
b     Emma
c     Alex
d      Tom
Name: name, dtype: object


In [104]:
# DataFrame[['column1','column2']] : 여러 개의 열 데이터를 조회시에는 인덱스 값을 리스트 형태로 전달
print('\nColumns : name-subject-grade')
print(df[['name', 'subject', 'grade']])


Columns : name-subject-grade
    name subject grade
0  Jessi  python     A
1   Emma    java     A
2   Alex  python     B
3  Jessi       c     B
4    Tom    java     A


In [106]:
# etc 컬럼 데이터의 변경
print('\n Modify Column Data')
df['etc'] = 0
print(df)


 Modify Column Data
    name subject  score grade  etc
0  Jessi  python    100     A    0
1   Emma    java     95     A    0
2   Alex  python     80     B    0
3  Jessi       c     85     B    0
4    Tom    java     97     A    0


df.loc\[index]
- 행 데이터 조회를 위해 loc 프로퍼티를 사용
- 조회하고자 하는 행의 인덱스 값 전달하는 방식

In [107]:
print('\nRows-1')
print(df.loc[1])


Rows-1
name       Emma
subject    java
score        95
grade         A
etc           0
Name: 1, dtype: object


In [108]:
print('\nRows-0,2,4')
print(df.loc[[0,2,4]])


Rows-0,2,4
    name subject  score grade  etc
0  Jessi  python    100     A    0
2   Alex  python     80     B    0
4    Tom    java     97     A    0


In [109]:
# 특정 행 데이터 변경
print('\nModify Rows0')
df.loc[0] = ['Jessi', 'java', 70, 'C', 1]
print(df)


Modify Rows0
    name subject  score grade  etc
0  Jessi    java     70     C    1
1   Emma    java     95     A    0
2   Alex  python     80     B    0
3  Jessi       c     85     B    0
4    Tom    java     97     A    0


In [110]:
# 행과 열의 조건을 동시에 지정해 조회하기
row_idx = [1,2,4]
col_idx = ['name', 'subject', 'grade']
print('\nRows & Columns')
print(df.loc[row_idx, col_idx])


Rows & Columns
   name subject grade
1  Emma    java     A
2  Alex  python     B
4   Tom    java     A


In [111]:
# 실습 데이터 생성
import pandas as pd

score = {'name':['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'],
'age':[20,24,23,20,27],
'score':[100,95,80,85,97],
'grade':['A', 'A', 'B', 'B', 'A'],
'subject':['python', 'java', 'python', 'c', 'java']}
c = ['name', 'subject','score','grade','etc']
df = pd.DataFrame(data=score, columns=c)
print(score_df)

    name  age  score grade subject
0  Jessi   20    100     A  python
1   Emma   24     95     A    java
2   Alex   23     80     B  python
3  Jessi   20     85     B       c
4    Tom   27     97     A    java


In [113]:
# Series 객체 생성해 추가하기
semester_data = pd.Series(['20-01', '20-01', '20-02', '20-01'])
df['semester'] = semester_data

print('\nAdd Columns : semester')
print(df)


Add Columns : semester
    name subject  score grade  etc semester
0  Jessi  python    100     A  NaN    20-01
1   Emma    java     95     A  NaN    20-01
2   Alex  python     80     B  NaN    20-02
3  Jessi       c     85     B  NaN    20-01
4    Tom    java     97     A  NaN      NaN


In [114]:
# 연산 이용해 열 데이터 추가
df['high_score'] = df['score'] > 90
print('\nAdd Columns : high_score')
print(df)


Add Columns : high_score
    name subject  score grade  etc semester  high_score
0  Jessi  python    100     A  NaN    20-01        True
1   Emma    java     95     A  NaN    20-01        True
2   Alex  python     80     B  NaN    20-02       False
3  Jessi       c     85     B  NaN    20-01       False
4    Tom    java     97     A  NaN      NaN        True


In [115]:
# 행 데이터 추가하기
df.loc[6] = ['Jina', 'python', 100,'A',1,'20-02',True]

print('\nAdd Row 6')
print(df)


Add Row 6
    name subject  score grade  etc semester  high_score
0  Jessi  python    100     A  NaN    20-01        True
1   Emma    java     95     A  NaN    20-01        True
2   Alex  python     80     B  NaN    20-02       False
3  Jessi       c     85     B  NaN    20-01       False
4    Tom    java     97     A  NaN      NaN        True
6   Jina  python    100     A    1    20-02        True


In [116]:
# df.drop(index) : drop()함수는 기본적으로 행 데이터를 삭제
df.drop(6)
print('\nDelete Row : 6')
print(df)


Delete Row : 6
    name subject  score grade  etc semester  high_score
0  Jessi  python    100     A  NaN    20-01        True
1   Emma    java     95     A  NaN    20-01        True
2   Alex  python     80     B  NaN    20-02       False
3  Jessi       c     85     B  NaN    20-01       False
4    Tom    java     97     A  NaN      NaN        True
6   Jina  python    100     A    1    20-02        True


df.drop(index)
- drop() 함수는 기본적으로 행 데이터를 삭제
- 삭제된 상태의 객체를 반환할 뿐, 원본 데이터는 삭제하지 않음
- 삭제된 객체는 새로운 변수에 저장해 사용 권장
- 열 데이터 삭제시 columns 인자에 삭제할 열의 인덱스 지정
- inplace=True인자를 추가하면 원본 데이터의 변경이 발생

### csv 파일 읽기
pd.read_csv(filepath or url)
- csv 포맷의 파일을 읽어 DataFrame 으로 변환하는 함수
- filepath or url : 경로가 포함된 파일명 또는 URL

In [118]:
import pandas as pd
# titanic_train.csv 파일 읽기
url = 'https://storage.googleapis.com/tf-datasets/titanic/train.csv'
titanic_df = pd.read_csv(url)
print(type(titanic_df))

<class 'pandas.core.frame.DataFrame'>


In [119]:
# dataframe에 저장된 데이터셋에 대한 설명 출력
print('\n Summary of DataFrame')
print(titanic_df.info())


 Summary of DataFrame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 627 entries, 0 to 626
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   survived            627 non-null    int64  
 1   sex                 627 non-null    object 
 2   age                 627 non-null    float64
 3   n_siblings_spouses  627 non-null    int64  
 4   parch               627 non-null    int64  
 5   fare                627 non-null    float64
 6   class               627 non-null    object 
 7   deck                627 non-null    object 
 8   embark_town         627 non-null    object 
 9   alone               627 non-null    object 
dtypes: float64(2), int64(3), object(5)
memory usage: 49.1+ KB
None


In [120]:
# df.head(n) : dataframe에 저장된 데이터에서 처음 n개의 행 데이터 출력
print('\n Return the first n rows')
print(titanic_df.head(5))


 Return the first n rows
   survived     sex   age  n_siblings_spouses  parch     fare  class     deck  \
0         0    male  22.0                   1      0   7.2500  Third  unknown   
1         1  female  38.0                   1      0  71.2833  First        C   
2         1  female  26.0                   0      0   7.9250  Third  unknown   
3         1  female  35.0                   1      0  53.1000  First        C   
4         0    male  28.0                   0      0   8.4583  Third  unknown   

   embark_town alone  
0  Southampton     n  
1    Cherbourg     n  
2  Southampton     y  
3  Southampton     n  
4   Queenstown     y  


pd.read_excel(filepath or url)
- 엑셀 파일을 읽어서 DataFrame으로 반환하는 함수
- filepath or url : 경로가 포함된 파일명 또는 URL

In [122]:
# students_score.xlsx이 저장된 url
url = 'https://codepresso-online-platform-public.s3resource/python-data-analysis/students_score.xlsx'

# 엑셀 파일에서 데이터 읽기
print('\n Read students_score.xlsx')
sample_df = pd.read_excel(url)
print(sample_df)


 Read students_score.xlsx


URLError: <urlopen error [Errno 8] nodename nor servname provided, or not known>

pd.read_excel(filepath or url, header=None)

1. header=None 옵션을 통해 컬럼 지정하지 않는 상태로 DataFrame 생성

2. df.columns를 통해 컬럼명 임의로 지정하기

In [123]:
# 1) header=none 옵션으로 컬럼 없이 데이터 읽기
# 2) df.columns에 새로운 컬럼명 저장하기
sample_df = pd.read_excel(url, header=None)
sample_df.columns = ['name', 'age', 'score', 'grade', 'subject']

print('\n Read Excel by header=none')
print(sample_df)

URLError: <urlopen error [Errno 8] nodename nor servname provided, or not known>

In [None]:
# 'students' sheet에 있는 데이터 읽기
print('\n Read Excel on students sheet')
student_df = pd.read_excel(url, sheet_name='students')
print(student_df)