# 1. 라이브러리 설치

- 1. anaconda prompt(혹은 terminal) 에서 가상환경을 실행한 뒤, `pip install pandas numpy matplotlib`를 입력하여 설치합니다.
- 2. 아래의 코드 실행 : `"!"` 를 코드 앞에 입력하면 anaconda prompt(terminal)에서 실행하는 것과 같은 명령입니다.

In [1]:
!pip install pandas numpy matplotlib

Collecting pandas
  Downloading https://files.pythonhosted.org/packages/61/c7/f943fceb712579bc538700e2c157dc4972e16abfe29bd4969149bad98c74/pandas-0.24.2-cp37-cp37m-win_amd64.whl (9.0MB)
Collecting numpy
  Downloading https://files.pythonhosted.org/packages/ce/61/be72eee50f042db3acf0b1fb86650ad36d6c0d9be9fc29f8505d3b9d6baa/numpy-1.16.4-cp37-cp37m-win_amd64.whl (11.9MB)
Collecting matplotlib
  Downloading https://files.pythonhosted.org/packages/3b/52/17dbb82ca36937dd4d0027fe1945c3c78bdb465b4736903d0904b7f595ad/matplotlib-3.1.0-cp37-cp37m-win_amd64.whl (9.1MB)
Collecting pytz>=2011k (from pandas)
  Downloading https://files.pythonhosted.org/packages/3d/73/fe30c2daaaa0713420d0382b16fbb761409f532c56bdcc514bf7b6262bb6/pytz-2019.1-py2.py3-none-any.whl (510kB)
Collecting pyparsing!=2.0.4,!=2.1.2,!=2.1.6,>=2.0.1 (from matplotlib)
  Downloading https://files.pythonhosted.org/packages/dd/d9/3ec19e966301a6e25769976999bd7bbe552016f0d32b577dc9d63d2e0c49/pyparsing-2.4.0-py2.py3-none-any.whl (62kB)
Co

-----

# 2. Pandas 사용법
- 더욱 자세한 사용법은 https://pandas.pydata.org/pandas-docs/stable/index.html 에서 살펴볼 수 있습니다.

In [4]:
import pandas as pd
import numpy as np

In [22]:
# Pandas의 Dataframe을 생성합니다.
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20190613'),
                   'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                   'D': np.array([1,2,3,4], dtype='int32'),
                   'E': pd.Categorical(["test", "train", "test", "train"]),
                   'F': 'foo'})

In [23]:
# 데이터프레임의 상단 부분을 출력합니다.
df.head()

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-06-13,1.0,1,test,foo
1,1.0,2019-06-13,1.0,2,train,foo
2,1.0,2019-06-13,1.0,3,test,foo
3,1.0,2019-06-13,1.0,4,train,foo


In [24]:
# 데이터프레임 열들의 타입을 출력합니다.
df.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [25]:
# 데이터프레임의 인덱스 정보입니다.
df.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [26]:
# 데이터프레임의 열 정보입니다.
df.columns

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

In [27]:
# 데이터프레임의 요약 통계 정보입니다.
df.describe()

Unnamed: 0,A,C,D
count,4.0,4.0,4.0
mean,1.0,1.0,2.5
std,0.0,0.0,1.290994
min,1.0,1.0,1.0
25%,1.0,1.0,1.75
50%,1.0,1.0,2.5
75%,1.0,1.0,3.25
max,1.0,1.0,4.0


In [29]:
# 데이터프레임의 간략한 정보를 출력합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 6 columns):
A    4 non-null float64
B    4 non-null datetime64[ns]
C    4 non-null float32
D    4 non-null int32
E    4 non-null category
F    4 non-null object
dtypes: category(1), datetime64[ns](1), float32(1), float64(1), int32(1), object(1)
memory usage: 260.0+ bytes


In [30]:
# 데이터프레임을 numpy array(2d-array) 타입으로 변환합니다.
df.to_numpy()

array([[1.0, Timestamp('2019-06-13 00:00:00'), 1.0, 1, 'test', 'foo'],
       [1.0, Timestamp('2019-06-13 00:00:00'), 1.0, 2, 'train', 'foo'],
       [1.0, Timestamp('2019-06-13 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2019-06-13 00:00:00'), 1.0, 4, 'train', 'foo']],
      dtype=object)

In [31]:
# 데이터프레임의 하나의 열을 선택합니다.
df['B']

0   2019-06-13
1   2019-06-13
2   2019-06-13
3   2019-06-13
Name: B, dtype: datetime64[ns]

In [32]:
# 0~3 번째 인덱스를 선택합니다.
df[0:3]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2019-06-13,1.0,1,test,foo
1,1.0,2019-06-13,1.0,2,train,foo
2,1.0,2019-06-13,1.0,3,test,foo


In [34]:
# D 열이 2보다 큰 데이터를 선택합니다.
df[df['D'] > 2]

Unnamed: 0,A,B,C,D,E,F
2,1.0,2019-06-13,1.0,3,test,foo
3,1.0,2019-06-13,1.0,4,train,foo


In [35]:
# 데이터프레임에서의 평균값을 계산합니다.
df.mean()

A    1.0
C    1.0
D    2.5
dtype: float64

-----

# 3. Numpy 사용법
- 더욱 자세한 사용법은 https://www.numpy.org/ 에서 살펴볼 수 있습니다.

In [51]:
import numpy as np

In [52]:
a = np.arange(15).reshape(3, 5)

In [53]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [54]:
a.shape

(3, 5)

In [60]:
a.dtype

dtype('int32')

In [56]:
a.size

15

In [57]:
type(a)

numpy.ndarray

In [58]:
b = np.array([6, 7, 8])

In [61]:
b

array([6, 7, 8])

In [63]:
b.shape

(3,)

In [66]:
c = np.zeros((3,4))

In [67]:
c

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [68]:
c.shape

(3, 4)

In [69]:
d = np.ones((2,3,4), dtype=np.int16)  

In [70]:
d

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [71]:
d.shape

(2, 3, 4)

In [72]:
e = np.arange(6) 

In [73]:
e

array([0, 1, 2, 3, 4, 5])