# 1. Numpy
- 과학 연산을 쉽고 빠르게 할 수 있게 만든 패키지
- `import numpy as np`

In [2]:
import numpy as np

### (1) 배열 생성 : np.array(data)
- data로 인자를 받아 numpy의 배열 객체 생성
- 배열의 모든 원소가 데이터 타입이 같아야함

In [3]:
data1 = [0,1,2,3,4,5]
a1 = np.array(data1)
a1

array([0, 1, 2, 3, 4, 5])

In [4]:
# 정수와 실수가 있는 경우 ㅡ> 모두 실수로 변환

data2 = [0,1.3,4,6,7.2]
a2 = np.array(data2)
a2

array([0. , 1.3, 4. , 6. , 7.2])

In [5]:
# data타입 확인

a1.dtype, a2.dtype

(dtype('int32'), dtype('float64'))

In [6]:
# 형태 확인
a1.shape

(6,)

In [7]:
a3 = np.array([1,3,5,7])
a3

array([1, 3, 5, 7])

In [8]:
# 다차원 배열도 생성할 수 있다

a4 = np.array([[1,2,3],[4,5,6],[7,8,9]])
a4

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [9]:
a4.shape

(3, 3)

### (2) 여러가지 배열 생성 방법
- `np.arange(start, stop,s tep)` : 범위를 지정해 배열 생성
    - `.reshape(m,n)` : 2차원배열 생성
- `np.linspace(start, stop, num)` : 범위의 시작과 끝을 지정하고 데이터의 개수를 지정해 배열 생성
    - start부터 stop까지 동일한 간격으로 나눈 num개의 데이터 생성
    - num을 지정하지 않으면 50으로 간주
- `np.zeros(n)` : 모든 원소가 0
    - np.zeros((m,n))
- `np.ones(n)` : 모든 원소가 1
    - np.ones((m,n))
- `np.eye(n)` : 단위 행렬 생성

##### np.arange()

In [10]:
arr_obj = np.arange(0,12,2)
arr_obj

array([ 0,  2,  4,  6,  8, 10])

In [11]:
# 2차원 배열

b1 = np.arange(12).reshape(3,4)
b1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [12]:
# 형태 확인
b1.shape

(3, 4)

##### np.linspace()

In [13]:
np.linspace(1,10,5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [14]:
# 0부터 파이까지 동일한 간격으로 나눈 20개의 데이터 생성

np.linspace(0,np.pi, 20)

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

##### np.zeros(), np.ones()

In [15]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [16]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
np.ones(3)

array([1., 1., 1.])

In [18]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

##### np.eye()

In [19]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### (3) 배열의 데이터 타입 변환 : astype()


In [20]:
str_a1 = np.array(['1.5','0.62','2','3.14'])
str_a1.dtype  # 데이터 형식이 유니코드이며 문자의 수는 최대 4개라는 뜻

dtype('<U4')

In [21]:
# 형 변환

num_a1 = str_a1.astype(float)
num_a1

array([1.5 , 0.62, 2.  , 3.14])

In [22]:
num_a1.dtype

dtype('float64')

In [23]:
str_a2 = np.array(['1','3','5'])
num_a2 = str_a2.astype(int)
print(str_a2.dtype)
print(num_a2, num_a2.dtype)

<U1
[1 3 5] int32


In [24]:
f1 = np.array([1.3, 5,44, 1.7])
f2 = f1.astype(int)
f2, f2.dtype

(array([ 1,  5, 44,  1]), dtype('int32'))

### (4) 난수 배열의 생성 
- `np.random.rand()` : 0~1 사이의 실수를 요소로 갖음
    - `np.random.rand(m,n)` : m,n 형태
- `np.random.randint(low, high, size)` : low 이상, high 미만 정수를 요소로 갖음
    - low 입력되지 않으면 0으로 간주
    - high 입력되지 않으면 1로 간주

##### rand

In [25]:
np.random.rand()

0.7747934753309873

In [26]:
np.random.rand(2,3)

array([[0.06731091, 0.99841838, 0.79205055],
       [0.25855698, 0.90260324, 0.89174214]])

In [27]:
np.random.rand(2,3,4)

array([[[0.40652499, 0.69900735, 0.51907075, 0.95638533],
        [0.80148461, 0.83386232, 0.26612991, 0.68748121],
        [0.90456511, 0.62514334, 0.98005501, 0.02480243]],

       [[0.32504302, 0.72525265, 0.52585217, 0.87672233],
        [0.043242  , 0.4888345 , 0.79931418, 0.57264071],
        [0.68963795, 0.12963926, 0.85227671, 0.90402774]]])

##### randint

In [28]:
np.random.randint(10,size=(3,4))

array([[6, 7, 5, 8],
       [9, 3, 5, 7],
       [2, 2, 8, 7]])

In [29]:
np.random.randint(1,30)

7

### (5) 배열의 연산
- 기본 연산 가능 

In [30]:
arr1 = np.array([1,2,3,4])
arr2 = np.array([5,6,7,8])

In [31]:
arr1 + arr2

array([ 6,  8, 10, 12])

In [32]:
arr2 - arr1

array([4, 4, 4, 4])

In [33]:
arr1 * 2

array([2, 4, 6, 8])

In [34]:
arr1 * arr2

array([ 5, 12, 21, 32])

In [35]:
arr2/ arr1

array([5.        , 3.        , 2.33333333, 2.        ])

In [36]:
arr2 / (arr1 **2)

array([5.        , 1.5       , 0.77777778, 0.5       ])

In [37]:
arr1 > 3

array([False, False, False,  True])

### (6) 통계를 위한 연산
- sum() : 합
- mean() : 평균
- std() : 표준편차
- var() : 분산
- min(), max() : 최소값, 최대값
- cumsum() : 누적합
- cumprod() : 누적곱

In [38]:
r1 = np.arange(1,5)
r1

array([1, 2, 3, 4])

##### sum, mean

In [39]:
print('합 : {}, 평균 :{}'.format(r1.sum(), r1.mean()))

합 : 10, 평균 :2.5


##### std(), var()

In [40]:
print('표준편차 : {}, 분산 :{}'.format(r1.std(), r1.var()))

표준편차 : 1.118033988749895, 분산 :1.25


##### min, max

In [41]:
print('최소값 : {}, 최대값 : {}'.format(r1.min(), r1.max()))

최소값 : 1, 최대값 : 4


##### cumsum, cumprod

In [42]:
print('누적합 : {}, 누적곱 : {}'.format(r1.cumsum(), r1.cumprod()))

누적합 : [ 1  3  6 10], 누적곱 : [ 1  2  6 24]


### (7) 행렬 연산
- `a.dot(b)` : a 행렬에 b행렬을 곱한것
- `np.transpose(a)` : a행렬의 전치행렬
- `np.linalg.inv(a)` : a행렬의 역행렬
- `np.linalg.det(a)` : a행렬의 행렬식

In [43]:
a = np.array([0,1,2,3]).reshape(2,2)
b = np.array([3,2,0,1]).reshape(2,2)

a,b

(array([[0, 1],
        [2, 3]]),
 array([[3, 2],
        [0, 1]]))

##### 행렬곱

In [44]:
a.dot(b)

array([[0, 1],
       [6, 7]])

##### 전치행렬

In [45]:
np.transpose(a)

array([[0, 2],
       [1, 3]])

##### 역행렬

In [46]:
np.linalg.inv(a)

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

##### 행렬식

In [47]:
np.linalg.det(a)

-2.0

### (8) 인덱싱과 슬라이싱
- 인덱싱 : 배열의 위치나 조건을 지정해 배열의 원소를 선택
- 슬라이싱 : 범위를 지정해 배열의 원소를 선택    

##### 인덱싱

In [48]:
a1 = np.arange(0,60,10)
a1

array([ 0, 10, 20, 30, 40, 50])

In [49]:
a1[0]

0

In [50]:
a1[4]

40

In [51]:
# 원소 변경 가능

a1[5] = 70
a1

array([ 0, 10, 20, 30, 40, 70])

In [52]:
# 여러개의 위치에서도 가져올 수 있다

a1[[1,3,4]]

array([10, 30, 40])

In [53]:
# 2차원 배열 생성

a2 = np.arange(10,100,10).reshape(3,3)
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [54]:
# m행, n열 원소 가져오기 : 행렬[m,n]

a2[0,2]

30

In [55]:
# n행 가져오기

a2[2]

array([70, 80, 90])

In [56]:
# 2차원 배열의 원소 변경
 
a2[0,2] = 100
a2

array([[ 10,  20, 100],
       [ 40,  50,  60],
       [ 70,  80,  90]])

In [57]:
# n행의 원소 전체를 바꿀때

a2[1] = np.array([45,55,66])
a2

array([[ 10,  20, 100],
       [ 45,  55,  66],
       [ 70,  80,  90]])

In [58]:
a2[0] = [0,1,2]
a2

array([[ 0,  1,  2],
       [45, 55, 66],
       [70, 80, 90]])

In [59]:
# 2차원 배열에서 여러개 가져오기

a2[[0,2],[1,1]]

array([ 1, 80])

In [60]:
# 조건 지정
# 3보다 큰 원소만 가져오는 조건

a = np.array([1,2,3,4,5,6])
a[a>3]

array([4, 5, 6])

In [61]:
# 짝수인 원소만 가져오는 조건

a[a % 2 == 0]

array([2, 4, 6])

##### 슬라이싱

In [62]:
b1 = np.array([0,10,20,30,40,50])

In [63]:
b1[1:4]

array([10, 20, 30])

In [64]:
b1[:3]

array([ 0, 10, 20])

In [65]:
# 원소 변경

b1[2:5] = np.array([25,35,45])
b1

array([ 0, 10, 25, 35, 45, 50])

In [66]:
b1[4:] = 60
b1

array([ 0, 10, 25, 35, 60, 60])

In [67]:
b2 = np.arange(10,100,10).reshape(3,3)
b2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [68]:
# 2행2열부터 3행3열까지 가져오기 : 행렬[행시작위치: 행끝위치 , 열시작위치:열끝위치]

b2[1:3,1:3]

array([[50, 60],
       [80, 90]])

In [69]:
b2[1:,1:]

array([[50, 60],
       [80, 90]])

In [70]:
# 2행의 1열부터 2열까지 가져올때

b2[1][0:2]

array([40, 50])

In [71]:
# 값 변경

b2[0:2,1:3] = np.array([[25,35],[55,65]])
b2

array([[10, 25, 35],
       [40, 55, 65],
       [70, 80, 90]])

# 2. Pandas
- 다량의 데이터를 쉽게 처리할 수 있음
- `import pandas as pd`

In [72]:
import pandas as pd

### (1) Series를 활용한 데이터 생성 :pd.Series(data)
- 원소의 데이터 타입이 달라도 된다

In [73]:
s1 = pd.Series([10,20,30,40,50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [74]:
# index

s1.index

RangeIndex(start=0, stop=5, step=1)

In [75]:
# values

s1.values

array([10, 20, 30, 40, 50], dtype=int64)

In [76]:
s2 = pd.Series(['a','b','c',1,2,3])
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [77]:
s3 = pd.Series([np.nan, 10,30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

In [78]:
# 인덱스 지정

index_date = ['2018-10-07','2018-10-08','2018-10-09','2018-10-10']
s4 = pd.Series([200,195,np.nan, 205], index = index_date)
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

In [79]:
# 딕셔너리 데이터로 데이터 생성
# key -> index로, value -> values로 들어감

dict1 = {'국어':100, '영어':90, '수학':95}
s5 = pd.Series(dict1)
s5

국어    100
영어     90
수학     95
dtype: int64

### (2) 날짜 자동 생성 : pd.date_range()
- `pd.date_range(start= , end= , peroids=, freq='D'`
    - start : 시작 날짜. 반드시 필요
    - end : 마지막 날짜. 안써줘도 됨
    - periods : 날짜 데이터 생성 기간
    - freq : 날짜 데이터 생성 주기. 입력하지 않으면 'D'옵션이 자동 설정되서 하루씩 증가

In [80]:
pd.date_range(start='2019-01-01',end='2019-01-07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [81]:
# periods 이용
# 시작 날짜부터 7개의 날짜 생성

pd.date_range(start='2019-01-01', periods=7)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [82]:
# 2일씩 날짜를 증가 : freq = '2D'

pd.date_range(start='2019-01-01',periods=4,freq='2D')

DatetimeIndex(['2019-01-01', '2019-01-03', '2019-01-05', '2019-01-07'], dtype='datetime64[ns]', freq='2D')

In [83]:
# 달력의 요일을 기준으로 일주일씩 증가하는 날짜를 생성 : freq = 'W'
# 날짜 4개 생성

pd.date_range(start='2019-01-01',periods=4,freq='W')

DatetimeIndex(['2019-01-06', '2019-01-13', '2019-01-20', '2019-01-27'], dtype='datetime64[ns]', freq='W-SUN')

In [84]:
# 2개월 월말 주기로 날짜 생성 : freq = '2BM'
# 12개의 날짜 생성

pd.date_range(start='2019-01-01',periods=12,freq='2BM')

DatetimeIndex(['2019-01-31', '2019-03-29', '2019-05-31', '2019-07-31',
               '2019-09-30', '2019-11-29', '2020-01-31', '2020-03-31',
               '2020-05-29', '2020-07-31', '2020-09-30', '2020-11-30'],
              dtype='datetime64[ns]', freq='2BM')

In [85]:
# 분기 시작일 기준으로 날짜 생성 : freq = 'QS'
# 3개의 날짜 생성

pd.date_range(start='2019-01-01', periods = 3, freq='QS')

DatetimeIndex(['2019-01-01', '2019-04-01', '2019-07-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [86]:
# 연도의 첫날을 기준으로 1년 주기로 날짜 생성 : freq = 'AS'
# 3개의 날짜 생성

pd.date_range(start='2019-01-01', periods = 3, freq='AS')

DatetimeIndex(['2019-01-01', '2020-01-01', '2021-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

##### 시간 생성
- freq의 속성으로 만들 수 있다

In [87]:
# 1시간 주기로 생성 : freq = 'H'
# 10개의 시간 생성

pd.date_range(start='2019-01-01 08:00', periods=10, freq='H')

DatetimeIndex(['2019-01-01 08:00:00', '2019-01-01 09:00:00',
               '2019-01-01 10:00:00', '2019-01-01 11:00:00',
               '2019-01-01 12:00:00', '2019-01-01 13:00:00',
               '2019-01-01 14:00:00', '2019-01-01 15:00:00',
               '2019-01-01 16:00:00', '2019-01-01 17:00:00'],
              dtype='datetime64[ns]', freq='H')

In [88]:
# 9시~16시에서 1시간 주기로 시간 생성 : freq = 'BH'
# 10개의 시간 생성

pd.date_range(start='2019-01-01 08:00', periods = 10, freq='BH')

DatetimeIndex(['2019-01-01 09:00:00', '2019-01-01 10:00:00',
               '2019-01-01 11:00:00', '2019-01-01 12:00:00',
               '2019-01-01 13:00:00', '2019-01-01 14:00:00',
               '2019-01-01 15:00:00', '2019-01-01 16:00:00',
               '2019-01-02 09:00:00', '2019-01-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [89]:
# 30분 단위로 시간 생성 : freq = '30T' 또는 freq = '30min'

pd.date_range(start='2019-01-01 10:00', periods = 4, freq='30min')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:30:00',
               '2019-01-01 11:00:00', '2019-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [90]:
pd.date_range(start='2019-01-01 10:00', periods = 4, freq='30T')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:30:00',
               '2019-01-01 11:00:00', '2019-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [91]:
# 10초 단위로 증가하면서 시간 생성 : freq = '10S'

pd.date_range(start = '2019-01-01 10:00:00', periods = 4, freq='10S')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:00:10',
               '2019-01-01 10:00:20', '2019-01-01 10:00:30'],
              dtype='datetime64[ns]', freq='10S')

In [92]:
# date_range를 이용해 index를 지정

index_date = pd.date_range(start='2019-03-01', periods=5)
pd.Series([51,62,55,49,58], index = index_date)

2019-03-01    51
2019-03-02    62
2019-03-03    55
2019-03-04    49
2019-03-05    58
Freq: D, dtype: int64

### (3) DataFrame을 활용한 데이터 생성 : pd.DataFrame
- `pd.DataFrame(data, index = index_data, columns = columns_data)`

In [93]:
pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


##### ㅡNumpy 배열을 이용해 DataFrame 생성

In [94]:
data_list = np.array([[10,20,30], [40,50,60], [70,80,90]])
pd.DataFrame(data_list)

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [95]:
# index , columns 지정

data = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
index_date = pd.date_range('2019-09-01', periods = 4)
columns_list = ['A','B','C']

pd.DataFrame(data, index=index_date, columns = columns_list)

Unnamed: 0,A,B,C
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


##### ㅡ딕셔너리 데이터로 DataFrame 생성
- key -> columns
- value -> values

In [102]:
table_data = {'연도': [2015,2016,2016,2017,2017],
             '지사': ['한국','한국','미국','한국','미국'],
             '고객수' : [200,250,450,300,500]}

df = pd.DataFrame(table_data)

In [103]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [104]:
df.columns

Index(['연도', '지사', '고객수'], dtype='object')

In [105]:
df.values

array([[2015, '한국', 200],
       [2016, '한국', 250],
       [2016, '미국', 450],
       [2017, '한국', 300],
       [2017, '미국', 500]], dtype=object)

In [106]:
# 열을 바꿀수 도 있다

df = pd.DataFrame(table_data, columns = ['지사', '연도', '고객수'])

df

Unnamed: 0,지사,연도,고객수
0,한국,2015,200
1,한국,2016,250
2,미국,2016,450
3,한국,2017,300
4,미국,2017,500


In [107]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [108]:
df.columns

Index(['지사', '연도', '고객수'], dtype='object')

In [109]:
df.values

array([['한국', 2015, 200],
       ['한국', 2016, 250],
       ['미국', 2016, 450],
       ['한국', 2017, 300],
       ['미국', 2017, 500]], dtype=object)

##### ㅡ데이터 연산

In [110]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([10,20,30,40,50])

In [111]:
s1 + s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [112]:
s1 - s2

0    -9
1   -18
2   -27
3   -36
4   -45
dtype: int64

In [113]:
s1 * s2

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [114]:
s2 / s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [115]:
# 크기가 다른 데이터끼리도 연산 가능

s3 = pd.Series([1,2,3,4])
s4 = pd.Series([10,20,30,40,50])

In [116]:
s3 + s4

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [117]:
s4 - s3

0     9.0
1    18.0
2    27.0
3    36.0
4     NaN
dtype: float64

In [118]:
s3 * s4

0     10.0
1     40.0
2     90.0
3    160.0
4      NaN
dtype: float64

In [119]:
s4 / s3

0    10.0
1    10.0
2    10.0
3    10.0
4     NaN
dtype: float64

In [120]:
# dataframe()으로 생성한 데이터끼리도 사칙연산 할 수 있다.

In [121]:
table_data1 = ({'A':[1,2,3,4,5],
             'B':[10,20,30,40,50],
             'C':[100,200,300,400,500]})
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [122]:
table_data2 = {'A':[6,7,8],
              'B':[60,70,80],
              'C':[600,700,800]}

df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [123]:
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [124]:
df2 - df1

Unnamed: 0,A,B,C
0,5.0,50.0,500.0
1,5.0,50.0,500.0
2,5.0,50.0,500.0
3,,,
4,,,


### (4) 통계를 위한 연산
- 통계메서드 
    - sum() : 합
    - mean() : 평균
    - std() : 표준편차
    - var() : 분산
    - min(), max() : 최소값, 최대값
    - cumsum() : 누적합
    - cumprod() : 누적곱
    - describe() : 평균, 표준편차, 최대값, 최소값
- axis
    - axis = 0 : 열별로 연산(생략하면 0으로 인식)
    - axis = 1 : 행별로 연산

In [127]:
table_data3 = {'봄' : [256.5, 264.3, 215.9, 223.2, 312.8],
               '여름' : [770.6, 567.5, 599.8, 387.1, 446.2],
               '가을' : [363.5, 231.2, 293.1, 247.7, 381.6],
               '겨울' : [139.3, 59.9, 76.9, 109.1, 108.1]}

columns_list = ['봄','여름','가을','겨울']
index_list = ['2012','2013','2014', '2015','2016']

In [130]:
df3 = pd.DataFrame(table_data3, columns = columns_list, index = index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [131]:
# 평균

df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [132]:
# 표준편차

df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [133]:
# 연도별 평균

df3.mean(axis=1)

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64

In [134]:
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


### (5) 데이터를 원하는 대로 선택
- df.head(n) : 처음부터 n개의 행 반환
- df.tail(n) : 마지막 n개의 행 반환
    - n 생략시 5가 지정
- df[행시작위치 : 행끝위치]
- df.loc(index_name) : 데이터에서 행의 이름이 index_name인 행 데이터 반환
    - loc(시작하는 index_name : 끝나는 index_name)
- df[column_name] : 데이터에서 열의 이름이 column_name인 열 데이터 반환
- 열과 행을 모두 지정 하고 싶을때
    - df[column_name][시작하는 index_name: 끝나는 index_name]
    - df[column_name][시작하는 index위치 : 끝나는 index위치]
- 전치 : df.T

In [135]:
KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
col_list = ['경부선 KTX','호남선 KTX','경전선 KTX','전라선 KTX','동해선 KTX']
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

In [136]:
df_ktx = pd.DataFrame(KTX_data, columns = col_list, index = index_list)
df_ktx

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [139]:
df_ktx.columns

Index(['경부선 KTX', '호남선 KTX', '경전선 KTX', '전라선 KTX', '동해선 KTX'], dtype='object')

In [140]:
df_ktx.index

Index(['2011', '2012', '2013', '2014', '2015', '2016', '2017'], dtype='object')

In [141]:
df_ktx.values

array([[39060.,  7313.,  3627.,   309.,    nan],
       [39896.,  6967.,  4168.,  1771.,    nan],
       [42005.,  6873.,  4088.,  1954.,    nan],
       [43621.,  6626.,  4424.,  2244.,    nan],
       [41702.,  8675.,  4606.,  3146.,  2395.],
       [41266., 10622.,  4984.,  3945.,  3786.],
       [32427.,  9228.,  5570.,  5766.,  6667.]])

##### head

In [142]:
df_ktx.head()

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [143]:
df_ktx.head(2)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,


##### tail

In [146]:
df_ktx.tail()

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [147]:
df_ktx.tail(3)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


##### [시작 행 : 끝 행]

In [148]:
df_ktx[1:2]

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2012,39896,6967,4168,1771,


In [149]:
df_ktx[2:5]

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


##### loc : 원하는 행의 데이터 가져오기

In [150]:
df_ktx.loc['2013']

경부선 KTX    42005.0
호남선 KTX     6873.0
경전선 KTX     4088.0
전라선 KTX     1954.0
동해선 KTX        NaN
Name: 2013, dtype: float64

In [152]:
df_ktx.loc['2013':'2014']

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,


In [156]:
# 원하는 행에서 원하는 열의 데이터만 가져오기

df_ktx.loc['2013':'2014']['경전선 KTX']

2013    4088
2014    4424
Name: 경전선 KTX, dtype: int64

##### 원하는 열의 데이터 가져오기

In [153]:
df_ktx['경부선 KTX']

2011    39060
2012    39896
2013    42005
2014    43621
2015    41702
2016    41266
2017    32427
Name: 경부선 KTX, dtype: int64

In [155]:
# 원하는 열에서 원하는 행의 데이터 가져오기

df_ktx['호남선 KTX']['2013':'2015']

2013    6873
2014    6626
2015    8675
Name: 호남선 KTX, dtype: int64

##### 원하는 행, 열의 데이터 가져오기

In [157]:
# 2016년의 호남선 KTX 값만 가져오기

In [158]:
df_ktx['호남선 KTX']['2016']

10622

In [159]:
df_ktx['호남선 KTX'][5]

10622

In [160]:
df_ktx['호남선 KTX'].loc['2016']

10622

In [161]:
df_ktx.loc['2016']['호남선 KTX']

10622.0

In [162]:
df_ktx.loc['2016', '호남선 KTX']

10622

##### T : 전치

In [163]:
df_ktx.T

Unnamed: 0,2011,2012,2013,2014,2015,2016,2017
경부선 KTX,39060.0,39896.0,42005.0,43621.0,41702.0,41266.0,32427.0
호남선 KTX,7313.0,6967.0,6873.0,6626.0,8675.0,10622.0,9228.0
경전선 KTX,3627.0,4168.0,4088.0,4424.0,4606.0,4984.0,5570.0
전라선 KTX,309.0,1771.0,1954.0,2244.0,3146.0,3945.0,5766.0
동해선 KTX,,,,,2395.0,3786.0,6667.0


### (7) 데이터 통합
- 세로방향으로 통합 : df1.append(df2, ignore_index)
    - ignore_index = True : df2에 순서대로 새로운 index가 할당
    - ignore_index 입력 X : df2 기존의 데이터의 index가 그대로 유지
- 가로방향으로 통합 : df1.join(df2)
- 특정열을 기준으로 통합 : df1.merge(df2)
    - 공통된 열이 있을때 그 열을 기준으로 데이터가 통합
    - 일부만 공통된 값을 갖는 경우 : df1.merge(df2, how, on)
        - how : 특정열을 기준으로 통합 방법을 지정
            - left : 왼쪽의 데이터 기준으로 통합
            - right : 오른쪽의 데이터 기준으로 통합
            
            - outer : 데이터가 전부 나오도록
            - inner : 같은 데이터가 있는 데이터만 나오도록
        - on : 통합하려는 기준이 되는 특정 열의 라벨이름 입력
            - 생략시 공통된 열이 선택

In [167]:
df1 = pd.DataFrame({'Class1' : [95,92,98,100],
                   'Class2' : [91, 93, 97, 99]})

df2 = pd.DataFrame({'Class1' : [87,89],
                   'Class2' : [85,90]})

In [168]:
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [169]:
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


##### append

In [170]:
df1.append(df2)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,90


In [171]:
df1.append(df2, ignore_index=1)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [172]:
df3 = pd.DataFrame({'Class1' : [96,83]})

df3

Unnamed: 0,Class1
0,96
1,83


In [173]:
df1.append(df3)

Unnamed: 0,Class1,Class2
0,95,91.0
1,92,93.0
2,98,97.0
3,100,99.0
0,96,
1,83,


##### join

In [180]:
df4 = pd.DataFrame({'Class3' : [96,83,85,77]})

df4

Unnamed: 0,Class3
0,96
1,83
2,85
3,77


In [181]:
df1.join(df4)

Unnamed: 0,Class1,Class2,Class3
0,95,91,96
1,92,93,83
2,98,97,85
3,100,99,77


In [182]:
# index명 추가

index_name = ['a','b','c','d']

df1a = pd.DataFrame({'Class1' : [95,92,98,100],
                   'Class2' : [91, 93, 97, 99]},
                   index = index_name)

df4a = pd.DataFrame({'Class3' : [96,83,85,77]},
                   index = index_name)

In [183]:
df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
a,95,91,96
b,92,93,83
c,98,97,85
d,100,99,77


In [184]:
df5 = pd.DataFrame({'Class4' : [100,89]})

df1.join(df5)

Unnamed: 0,Class1,Class2,Class4
0,95,91,100.0
1,92,93,89.0
2,98,97,
3,100,99,


##### merge

In [187]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})

df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [188]:
df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [189]:
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [190]:
# 일부만 공통값을 가지고 있을때

df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]})
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]})

In [191]:
df_left.merge(df_right)

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


In [192]:
df_left.merge(df_right, how = 'left', on = 'key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [193]:
df_left.merge(df_right, how = 'right', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [194]:
df_left.merge(df_right, how = 'outer', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [195]:
df_left.merge(df_right, how = 'inner', on = 'key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


### (8) 데이터 파일을 읽고 쓰기
- 파일 읽기 : pd.read_csv(file_name, options)
- 파일 쓰기 : df.to_csv(file_name, options

##### 표 형식의 파일 읽기

In [196]:
%%writefile sea_rain1.csv
연도,동해,남해,서해,전체
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178

Writing sea_rain1.csv


In [197]:
pd.read_csv('sea_rain1.csv')

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [208]:
# 특정열을 index로 지정하려면

pd.read_csv('sea_rain1.csv', index_col = '연도')

Unnamed: 0_level_0,동해,남해,서해,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178


In [201]:
pd.read_csv('sea_rain1_from_notepad.csv')

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [202]:
# 구분자가 콤마가 아닌 경우

In [203]:
%%writefile sea_rain1_space.txt
연도 동해 남해 서해 전체
1996 17.4629 17.2288 14.436 15.9067
1997 17.4116 17.4092 14.8248 16.1526
1998 17.5944 18.011 15.2512 16.6044
1999 18.1495 18.3175 14.8979 16.6284
2000 17.9288 18.1766 15.0504 16.6178

Writing sea_rain1_space.txt


In [204]:
pd.read_csv('sea_rain1_space.txt', sep = " ")

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


##### 표 형식의 데이터를 파일로 쓰기

In [210]:
df_WH = pd.DataFrame({'Weight':[62, 67, 55, 74],
                      'Height':[165, 177, 160, 180]},
                       index=['ID_1', 'ID_2', 'ID_3', 'ID_4'])
df_WH.index.name = 'User'
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [211]:
bmi = df_WH['Weight']/(df_WH['Height']/100)**2

In [212]:
bmi

User
ID_1    22.773186
ID_2    21.385936
ID_3    21.484375
ID_4    22.839506
dtype: float64

In [216]:
df_WH['bmi'] = bmi

df_WH

Unnamed: 0_level_0,Weight,Height,bmi
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


In [217]:
df_WH.to_csv('save_DataFrame.csv')

In [219]:
!cat save_DataFrame.csv

User,Weight,Height,bmi
ID_1,62,165,22.77318640955005
ID_2,67,177,21.38593635289987
ID_3,55,160,21.484374999999996
ID_4,74,180,22.839506172839506


In [220]:
pd.read_csv('save_DataFrame.csv')

Unnamed: 0,User,Weight,Height,bmi
0,ID_1,62,165,22.773186
1,ID_2,67,177,21.385936
2,ID_3,55,160,21.484375
3,ID_4,74,180,22.839506


In [222]:
# 구분자를 다른걸로

df_WH.to_csv('save_DataFrame2.csv', sep = " ")

In [223]:
!cat save_DataFrame2.csv

User Weight Height bmi
ID_1 62 165 22.77318640955005
ID_2 67 177 21.38593635289987
ID_3 55 160 21.484374999999996
ID_4 74 180 22.839506172839506
