In [1]:
# numpy & pandas 설치
# %pip install numpy
# %pip install pandas

In [2]:
# numpy & pandas 임포트
import numpy as np
import pandas as pd

In [3]:
# 시퀀스 데이터로부터 배열을 생성
# 리스트나 튜플 타입 모두 사용 가능하며 리스트 데이터를 주로 이용
data1 = [1,2,3,4,5]
a1 = np.array(data1)
a1

array([1, 2, 3, 4, 5])

In [4]:
# 정수와 실수가 혼합된 데이터라면 모두 실수로 반환
data2 = [1,2.2,3,4.4,5]
a2 = np.array(data2)
a2
# 간결하게 표시하기 위해 끝에 불필요한 0은 생략
# 데이터의 가독성을 높이기 위해 각 요소의 폭을 균일하게 맞춤

array([1. , 2.2, 3. , 4.4, 5. ])

In [5]:
# 배열의 속성을 확인하려면 ndarray.dtype으로 작성해서 확인
print(a1.dtype)
print(a2.dtype)
# 배열을 생성할 떄 데이터 타입을 명시적으로 지정할 수 있으며 지정하지 않으면 numpy에서 적합한 기본 타입을 선택함
# int32와 int64는 시스템 아키텍처에 따라 기본적으로 설정됨

int32
float64


In [6]:
# np.array()에 리스트 데이터를 직접 넣어서 배열 객체를 생성 가능
np.array([1,2,3,4,5])
# 1차원 외에 다차원 배열도 생성 가능함
np.array([[1,2,3],[4,5,6],[7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
# np.arange([start],stop,[step])으로 범위를 지정해 배열 생성 가능
np.arange(1,20,3)
# [step]이 1인 경우 생략 가능하며, [start]가 0인 경우에도 생략 가능
np.arange(5)

array([0, 1, 2, 3, 4])

In [8]:
# 1차원 배열에 .reshape(m,n)을 추가하면 m x n 형태의 2차원 배열로 변경함
# 여기서 배열의 원소 개수와 reshape의 m x n의 개수가 같아야함
c1 = np.arange(1,21)
c1.reshape(4,1,5)

array([[[ 1,  2,  3,  4,  5]],

       [[ 6,  7,  8,  9, 10]],

       [[11, 12, 13, 14, 15]],

       [[16, 17, 18, 19, 20]]])

In [9]:
# 이미 만들어진 배열의 형태를 알기 위해서는 .shape()을 실행
c1.reshape(2,2,5).shape
# 1차원 배열은 (n, )의 형식, 2차원 배열은 (n, m) 형식으로 출력력

(2, 2, 5)

In [10]:
# np.linspace(start, stop, [num])은 start부터 stop까지 num개의 Numpy 배열 생성
# num을 지정하지 않으면 기본값은 50
a4 = np.linspace(2,100)
a4

array([  2.,   4.,   6.,   8.,  10.,  12.,  14.,  16.,  18.,  20.,  22.,
        24.,  26.,  28.,  30.,  32.,  34.,  36.,  38.,  40.,  42.,  44.,
        46.,  48.,  50.,  52.,  54.,  56.,  58.,  60.,  62.,  64.,  66.,
        68.,  70.,  72.,  74.,  76.,  78.,  80.,  82.,  84.,  86.,  88.,
        90.,  92.,  94.,  96.,  98., 100.])

In [11]:
# np.zeros(n), np.ones(n) 으로 0과 1로만 구성된 배열 생성가능
a5 = np.zeros((2,3))
a6 = np.ones((2,3))
print(a5)
print(a6)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]


In [12]:
# 정사각형 행렬에서 주 대각선이 모두 1이고 나머지는 0인 단위행렬을 생성하려면 np.eye(n)을 사용
a7 = np.eye(5, dtype=int)
a7

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

In [13]:
# 문자열도 데이터 타입으로 가질 수 있음
a8 = np.array(["10","20","30","40","5000"])
# <U1은 데이터 형식이 유니코드이며 문자의 수는 최대 1개라는 것
a8

array(['10', '20', '30', '40', '5000'], dtype='<U4')

In [14]:
# 배열의 형 변환은 astype()
print(a8.astype(int))
print(a8.astype(float))
# 문자열(정수)를 실수로 변환할 수 있지만 문자열(실수)를 정수로 변환하는건 불가능
# 하지만 실수를 정수로 변환하는 것은 가능
a9 = np.array([1.2,3.4,5.6,7.8,9])
print(a9.dtype)
print(a9.astype(int))
# 여기서 소수점 이하를 무조건 버림처리(truncate)

[  10   20   30   40 5000]
[  10.   20.   30.   40. 5000.]
float64
[1 3 5 7 9]


In [15]:
# 실수로 난수 배열 생성은 rand()
b1 = np.random.rand(2,3)
b1

array([[0.22589313, 0.25290824, 0.61572356],
       [0.39928859, 0.79445636, 0.63903885]])

In [16]:
# 지정한 범위에 해당하는 정수로 난수 배열을 생성은 randint()
b2 = np.random.randint(1, 20, size=(3,4))
b2
# randint는 시스템과 상관없이 int32를 기본으로 설정(범위 충분 및 메모리 절약)

array([[14,  9, 18,  1],
       [ 2,  5,  9,  4],
       [10,  1, 13, 18]])

In [17]:
# np.shape의 결과가 같은 형태가 같은 두 배열의 연산
b3 = np.array([1,2,3])
b4 = np.array([7,8,9])
print(b3 + b4)
print(b3 - b4)
print(b3 * 2)
print(b3 ** 2)
print(b3 * b4)
print(b3 / b4)
# 외에도 배열의 복합 연산 및 비교 연산도 가능
print(b3 / (b4 ** 2))
print(b3 > 20)

[ 8 10 12]
[-6 -6 -6]
[2 4 6]
[1 4 9]
[ 7 16 27]
[0.14285714 0.25       0.33333333]
[0.02040816 0.03125    0.03703704]
[False False False]


In [18]:
# 통계를 위한 연산
# 배열의 합 : sum()
print(b3.sum())
# 배열의 평균 : mean()
print(b3.mean())
# 배열의 표준편차 : std()
# 데이터가 모두 동일하면 흩어져있지 않으므로 0
# 데이터가 많이 흩어져있을 수록 커짐, 무한대까지도 가능
print(b3.std())
# 배열의 분산 : var()
print(b3.var())
# 배열의 최솟값 및 최댓값 : min(), max()
print(b3.min(), b3.max())
# 데이터를 요약할 때 평균에서 얼마나 벗어나 있는지 확인 가능
# 분산은 수학적으로 더 분석하는데 쓰이는 중간과정 : 제품의 크기, 무게등이 얼마나 일관되게 만들어지는 확인할 때 사용
# 둘 모두 얼마나 변동이 있는지를 파악하는 도구

6
2.0
0.816496580927726
0.6666666666666666
1 3


In [19]:
# 누적 합 : cumsum()
print(b4.cumsum())
# 누적 곱 : cumprod()
print(b4.cumprod())

[ 7 15 24]
[  7  56 504]


In [20]:
# 선형대수란 벡터와 행렬을 사용해 데이터를 표현하고 계산하는 수학의 한 분야
# 그래픽(3D 모델), 머신러닝(신경망 학습), 물리학/공학 등에서 사용

# 행렬 곱
print(b3.dot(b4))
print(np.dot(b3,b4))
# 1 * 7 + 2 * 8 + 3 * 9 = 50
A = np.array([0, 1, 2, 3]).reshape(2,2)
B = np.array([3, 2, 0, 1]).reshape(2,2)
print(A)
print(B)
C = A.dot(B)
print(C)
# 0 * 3 + 1 * 0 = 0
# 0 * 2 + 1 * 1 = 1
# 2 * 3 + 3 * 0 = 6
# 2 * 2 + 3 * 1 = 7

50
50
[[0 1]
 [2 3]]
[[3 2]
 [0 1]]
[[0 1]
 [6 7]]


In [21]:
# 전치 행렬
# 행과 열을 교환한 행렬
# 기하학, 통계 등에서 사용
print(C)
print(np.transpose(C))
print(C.transpose())
print(C.T)

[[0 1]
 [6 7]]
[[0 6]
 [1 7]]
[[0 6]
 [1 7]]
[[0 6]
 [1 7]]


In [22]:
# 역행렬
# 행렬 곱했을 때 단위 행렬이 되는 행렬
# 원래의 행렬을 뒤집어 놓고, 그 결과를 다시 원래 상태로 돌려놓을 수 있는 행렬
# 방정식 풀이, 제어 시스템
print(np.linalg.inv(C))

[[-1.16666667  0.16666667]
 [ 1.          0.        ]]


In [23]:
A1 = np.array([[2, 3], [4, 5]])
B1 = np.array([8, 12])

# 역행렬 계산
A1_inv = np.linalg.inv(A1)

# 방정식 풀기
X = np.dot(A1_inv, B1)
print(X)


[-2.  4.]


In [24]:
# 행렬식
# 행렬의 크기(스칼라 값)
# 행렬식은 행렬에 대해 하나의 숫자(스칼라 값)를 계산하는 방법
# 이 숫자는 그 행렬이 "얼마나" 퍼져 있는지, 또는 그 행렬이 풀 수 있는 선형 방정식이 있는지 등을 알려줌
# 선형 독립성, 공간의 면적/부피 계산
print(np.linalg.det(C))

-6.0


In [88]:
import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b = a[0:2,0:2] >= 5
c = np.where(a[0:2,0:2] >= 5, '크다', '작다')
print(b)
print(c)

[[False False]
 [False  True]]
[['작다' '작다']
 ['작다' '크다']]


In [98]:
import numpy as np

# 3x3x2 배열 생성 (3개의 행, 3개의 열, 각 위치에 2개의 값)
a = np.array([[[1, 2], [3, 4], [5, 6]],
              [[7, 8], [9, 10], [11, 12]],
              [[13, 14], [15, 16], [17, 18]]])

print(a)


[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]

 [[13 14]
  [15 16]
  [17 18]]]


In [108]:
a[0,1,1],a[1,0,1],a[2,2,1]

(4, 8, 18)

In [110]:
a[[0,1,2],[1,0,2],[1,1,1]]

array([ 4,  8, 18])

In [128]:
import pandas as pd
s1 = pd.Series([10,20,30,40,50])
print(s1,"\n",s1.index,"\n",s1.values)

0    10
1    20
2    30
3    40
4    50
dtype: int64 
 RangeIndex(start=0, stop=5, step=1) 
 [10 20 30 40 50]


In [130]:
s2 = pd.Series(['a','b','c',1,2,3])
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [132]:
s3 = pd.Series([np.nan,10,30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

In [134]:
index_date = ['2018-08-07','2018-10-08','2018-10-09','2018-10-10']
s4 = pd.Series([200, 195, np.nan, 205], index = index_date)
s4

2018-08-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

In [136]:
s5 = pd.Series({'국어': 100, '영어': 95, '수학': 90})
s5

국어    100
영어     95
수학     90
dtype: int64

In [138]:
pd.date_range(start='2019-01-01',end='2019-01-07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

# 과제

## 구글 드라이브 : 미니프로젝트 폴더 내 데이터 
 - 인풋 데이터 : notExercise.xls
 - 프로세스 전처리
 - 아웃풋 데이터
    운동을 안하는 이유 (타이틀, 퍼센트, 레이블 포함)
   1. 파이 그래프 성별별 4
   2. 파이 그래프 연령별 3
   3. 파이 그래프 학력별 2