In [1]:
import time

In [2]:
def log_formatter(msg):
    def log_message():
        time_str = time.strftime('%c', time.localtime(time.time()))
        print(time_str, end='')
        print('--->', end='')
        print(msg)
        
    return log_message

In [3]:
test_log_msg = log_formatter('test log')
runtime_log_msg = log_formatter('runtime log')

In [4]:
test_log_msg()
runtime_log_msg()

Mon Aug 23 09:25:37 2021--->test log
Mon Aug 23 09:25:37 2021--->runtime log


In [37]:
def log_decorator(param_func):
    def log_message():
        time_str = time.strftime('%c', time.localtime(time.time()))
        print(time_str, end='')
        print('--->', end='')
        return param_func()
        
    return log_message

In [12]:
def  test_log_msg():
    print('This is test log message')

In [13]:
def runtime_log_msg():
    print('This is runtime log message')

In [14]:
test_log = log_decorator(test_log_msg)
runtime_log = log_decorator(runtime_log_msg)

In [15]:
test_log()

Mon Aug 23 09:29:16 2021--->This is test log message


In [16]:
runtime_log()

Mon Aug 23 09:29:16 2021--->This is runtime log message


In [17]:
def get_double(a):
    return a * 2

In [23]:
def print_line():
    print('=' * 30)

In [24]:
print_line()



In [25]:
def print_line():
    return #  -->  여기서 함수를 끝내버리란 뜻(return이 넘겨주란뜻도 있지만, 아무것도 안쓰면 함수가 그냥 여기서 종료야)
    print('=' * 30)

In [26]:
print_line()

In [33]:
@log_decorator # -> 파이썬에서 함수 이름 앞에 골뱅이@ 를 붙이면 데코레이터
def  test_log_msg():
    print('This is test log message')

@log_decorator
def runtime_log_msg():
    print('This is runtime log message')

# 위의 test_log = log_decorator(test_log_msg)
# runtime_log = log_decorator(runtime_log_msg) 와 비교 -> 출력 똑같이 나옴 

In [31]:
test_log_msg()
runtime_log_msg()

Mon Aug 23 09:41:35 2021--->This is test log message
Mon Aug 23 09:41:35 2021--->This is runtime log message


In [34]:
@log_decorator  #  서버에 log_msg를 넘긴다고 가정을 하고
def runtime_log_msg(host, ip):
    print(f'This is runtime log message from {host}:{ip}')

In [35]:
runtime_log_msg('localhost', '192.168.1.23')  # 실행하면 에러남 ->  log_message가 아무것도 안받는데 -> 2개를 받았음
# 아래 참고

TypeError: log_message() takes 0 positional arguments but 2 were given

In [36]:
#실행 안함, 참고용, 위, 아래와 비교용
def log_decorator(param_func):  #  -> 얘는 인자를 2개를 받았는데
    def log_message():
        time_str = time.strftime('%c', time.localtime(time.time()))
        print(time_str, end='')
        print('--->', end='')
        return param_func()  # -> 얘는 아무것도 없이 실행함  -> 이럴땐  packing변수를 활용 (아래의 *, ** 참고)
        
    return log_message

In [38]:
def log_decorator(param_func):  #  -> 얘는 인자를 2개를 받았는데
    def log_message(*args, **kargs):
        time_str = time.strftime('%c', time.localtime(time.time()))
        print(time_str, end='')
        print('--->', end='')
        return param_func(*args, **kargs)  # -> 얘는 아무것도 없이 실행함  -> 이럴땐  packing변수를 활용 (아래의 *, ** 참고)
        
    return log_message

In [39]:
@log_decorator
def test_log_msg():
    print(f'This is runtime log message')

@log_decorator
def runtime_log_msg(host, ip):
    print(f'This is runtime log message from {host}:{ip}')

In [40]:
test_log_msg()

Mon Aug 23 10:06:32 2021--->This is runtime log message


In [41]:
runtime_log_msg('localhost', '192.168.1.23')

Mon Aug 23 10:06:43 2021--->This is runtime log message from localhost:192.168.1.23


### Generator

In [57]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i * i)
        
    return result

In [58]:
my_nums = square_numbers([1, 2, 3, 4, 5])
print(my_nums)

[1, 4, 9, 16, 25]


In [59]:
def square_numbers(nums):
    for i in nums:
        yield i * i

In [60]:
my_nums = square_numbers([1, 2, 3, 4, 5])
print(my_nums)

<generator object square_numbers at 0x0000024170D72B30>


In [51]:
print(next(my_nums))

1


In [52]:
print(next(my_nums))

4


In [53]:
print(next(my_nums))

9


In [54]:
print(next(my_nums))

16


In [55]:
print(next(my_nums))

25


In [56]:
print(next(my_nums))  # 더 없으므로 에러

StopIteration: 

In [48]:
my_nums = square_numbers([1, 2, 3, 4, 5])
for num in my_nums:
    print(num)

1
4
9
16
25


In [61]:
my_nums = [x * x for x in [1, 2, 3, 4, 5]] # -> 리스트 컴프레이션(?) 기법을 양 끝 괄호를 소괄호로 바꾸면() 바로  제너레티어로 만들어짐

In [62]:
print(my_nums)

[1, 4, 9, 16, 25]


In [63]:
for num in my_nums:
    print(num)

1
4
9
16
25


In [64]:
my_nums = (x * x for x in [1, 2, 3, 4, 5])   # 굳이 함수로 안만들어도 제너레이터로 생성 가능 -> 이러면 바로 for문 생성 가능
print(my_nums)

<generator object <genexpr> at 0x0000024170D72DD0>


In [65]:
for num in my_nums:
    print(num)

1
4
9
16
25


In [67]:
my_nums = (x * x for x in [1, 2, 3, 4, 5])
print(list(my_nums))

[1, 4, 9, 16, 25]


### Type Annotation

In [68]:
def add(a, b):
    return a + b

In [71]:
print(add(10, 5))
print(add([1, 2], [3]))

15
[1, 2, 3]


In [72]:
print(add('hi', 'there'))

hithere


In [74]:
print(add(10, 'five'))  # 숫자와 문자를 더하는건 파이썬에서 지원하지 않음

# 내가 짜면 괜찮은데, 남이 짠거는 int인지, str인지 모를 수 있음.
# 그래서 이 소스코드 분석을 쉽게 하기 위해 등장한것이 아래.

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [78]:
def add(a:int, b:int)->int:  # 화살표 -> 뜻 = retrun타입이 뭔지 지정하는 것.  (파이썬 3.3인가 3.5인가부터 지원함)
    return a + b

In [79]:
print(add(10, 5))
print(add([1, 2], [3]))

15
[1, 2, 3]


In [82]:
print(add(10, 'five'))  # 잘못을 막아주진 않음 / 단지 보기 편하게 해준것

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [84]:
from typing import List
Vector = List[float]

In [85]:
def scale(scalar: float, vector:Vector)->Vector:
    return [scalar * num for num in vector]

In [89]:
def add_vector(v1, v2):
    return [v + w for v, w in zip(v1, v2)]

In [90]:
print(add_vector([1, 2, 3], [1, 1, 1]))

[2, 3, 4]


In [91]:
def add_vector(v1:Vector, v2:Vector)->Vector:
    assert len(v1) == len(v2), "vectors must be the same length"
    return [v + w for v, w in zip(v1, v2)]

### mypy

In [92]:
# mypy: 타입을 정해놓고, 검사해서 다른 타입이 들어오면 에러를 나타내줌

# 가상환경 설치 (쑤업의 메모장 참조)  -> base 환경 그대로 쓰면 설치 안해도 됨. 이미 있음. -> 가상환경 만들어 쓰면 설치해야함
# conda install numpy
# ( yes)

# (난 해당 env 실행시키고 설치함)
# anaconda로 powershell 새로 키고 -> cd d:gil:program:python_teacher_2_jupyternotebook
# conda env list
# conda activate python-env    -> (여기에 설치함)

In [93]:
import numpy as np

In [94]:
data1 = [0, 1, 2, 3, 4, 5]
a1 = np.array(data1)
print(data1)
print(a1)

[0, 1, 2, 3, 4, 5]
[0 1 2 3 4 5]


In [95]:
print(type(data1))
print(type(a1))

<class 'list'>
<class 'numpy.ndarray'>


In [96]:
data2 = [0, 1, 5, 4, 12, 0.5]
a2 = np.array(data2)
print(a2)

[ 0.   1.   5.   4.  12.   0.5]


In [97]:
data3 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
a3 = np.array(data3)

In [98]:
print(data3)

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


In [99]:
a4 = np.arange(0, 10, 2)
a5 = np.arange(1, 10)
a6 = np.arange(5)

In [100]:
print(a4)
print(a5)
print(a6)

[0 2 4 6 8]
[1 2 3 4 5 6 7 8 9]
[0 1 2 3 4]


In [101]:
a7 = np.arange(12).reshape(4, 3)  # 0부터 12까지 numpy 배열로 만듬
print(a7)

# 파이썬으로 하려면 일일이 다 쳐야하는데, 넘파이쓰면 아주 간단함

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [102]:
print(a7.shape)

(4, 3)


In [103]:
a7 = np.arange(12).reshape(4, -1)
print(a7)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [104]:
a7 = np.arange(12).reshape(-1, 3)
print(a7)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [106]:
a8 = np.arange(11).reshape(4, 3)  # 항목이 11개인데 4,3은 안된다 -> 갯수 모자라면 에러남

ValueError: cannot reshape array of size 11 into shape (4,3)

In [107]:
a1 = np.linspace(1, 10, 10)
print(a1)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


In [108]:
a2 = np.linspace(1, 10, 8)
print(a2)

[ 1.          2.28571429  3.57142857  4.85714286  6.14285714  7.42857143
  8.71428571 10.        ]


In [109]:
a3 = np.linspace(0, np.pi, 20)
print(a3)

[0.         0.16534698 0.33069396 0.49604095 0.66138793 0.82673491
 0.99208189 1.15742887 1.32277585 1.48812284 1.65346982 1.8188168
 1.98416378 2.14951076 2.31485774 2.48020473 2.64555171 2.81089869
 2.97624567 3.14159265]


In [110]:
a1 = np.zeros(10, int)  # 10개를 정수로
print(a1)

[0 0 0 0 0 0 0 0 0 0]


In [111]:
a2 = np.zeros((3, 4), int)
print(a2)

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


In [112]:
a3 = np.ones(5)
print(a3)

[1. 1. 1. 1. 1.]


In [113]:
a4 = np.ones((3, 5))
print(a4)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [114]:
a5 = np.eye(3)
print(a5)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [115]:
print(a2.dtype)  # 각 항목들의 타입

int32


In [116]:
print(type(a2))  # 파이썬에서 제공하는 타입 확인 -> 넘파이의 배열객체다 라고 알려줌

<class 'numpy.ndarray'>


In [117]:
print(a5.dtype)  # 위 2개 햇갈리지 말것

float64


In [118]:
a1 = np.array(['abc', 'whoami', 'chemistry'])
print(a1)

['abc' 'whoami' 'chemistry']


In [119]:
print(a1.dtype)  # 제일 긴게 9개다 라는 뜻

<U9


In [120]:
a1 = np.array(['1.567', '0.123', '5.232', '5', '8'])
print(a1.dtype)

<U5


In [121]:
a2 = a1.astype(float)
print(a2.dtype)

float64


In [122]:
print(a2)

[1.567 0.123 5.232 5.    8.   ]


In [124]:
a1_f = np.array([10, 20, 0.345, 5.87, 9.12])
print(a1_f)
print(a1_f.dtype)   # float 타입 -> 얘를 int 로 바꿔보면

[10.    20.     0.345  5.87   9.12 ]
float64


In [125]:
a1_i = a1_f.astype(int)
print(a1_i)     # 반올림을 안하고 잘라버림
print(a1_i.dtype)

[10 20  0  5  9]
int32


In [126]:
a1 = np.random.rand()  # 0~1 사이의 난수
print(a1)

0.5181331396586725


In [127]:
a2 = np.random.rand(2, 3)  # 2~3 사이의 난수가 아니라,  2 by 3 으로 난수를 만드를 것
print(a2)

[[0.2152128  0.79622251 0.05508869]
 [0.35773509 0.30180244 0.52698998]]


In [128]:
a3 = np.random.rand(2, 3, 4)  # 3 by 4 를 2개
print(a3)

[[[0.06635605 0.04161842 0.68871548 0.26691714]
  [0.09901662 0.33003127 0.14658662 0.54920078]
  [0.95435637 0.60171838 0.58104998 0.74556497]]

 [[0.09778679 0.78761662 0.27144834 0.20793555]
  [0.56198394 0.44126512 0.33618902 0.95895015]
  [0.94216731 0.91499067 0.90220822 0.86824293]]]


In [129]:
a1 = np.random.randint(10, size=(3, 4))    # (3, 4) size  의 int 0~10의 값 (난수*10 을 int로 뽑은듯)
print(a1)

[[3 7 2 4]
 [5 5 1 8]
 [3 8 8 8]]


In [130]:
a2 = np.random.randint(1, 30)  # 1~29 사이의 값
print(a2)   # 사이즈를 안줬으니 1개만 나옴

13


In [131]:
a1 = np.random.randint(20, size=(3, 4))
print(a1)

[[ 0 19  6 17]
 [16 13  7  3]
 [14 18 17  8]]


In [132]:
a2 = np.random.randint(1, 30)
print(a2)

13


In [133]:
l1 = [10, 20, 30, 40]
l2 = [1, 2, 3, 4]
print(l1 + l2)  # 파이썬에서 배열끼리 더하면 그냥 합쳐버림

[10, 20, 30, 40, 1, 2, 3, 4]


In [134]:
a1 = np.array([10, 20, 30, 40])
a2 = np.array([1, 2, 3, 4])
print(a1 + a2)  # numpy는 더하면 값을 더해줌

[11 22 33 44]


In [135]:
print(a1 * 2)

[20 40 60 80]


In [136]:
print(a1 ** 2)  # numpy는 모든 산술연산을 해줌

[ 100  400  900 1600]


In [137]:
print(a1 / a2)

[10. 10. 10. 10.]


In [138]:
print(a1 > 20)   # 항목별로 계산해줌

[False False  True  True]


In [139]:
print(l1 > 20)

TypeError: '>' not supported between instances of 'list' and 'int'

In [140]:
a1 = np.arange(1, 6)
print(a1)

[1 2 3 4 5]


In [141]:
print(a1.sum())  # 넘파이 안에 있는 값을 싸그리 더해줌

15


In [142]:
print(a1.mean())  # 평균값

3.0


In [143]:
print(a1.std())

# 옛날엔 이런거 하려면 R이 필요했는데, 요즘은 왠만한건 파이썬에서 다 지원함

1.4142135623730951


In [144]:
print(a1.var())

2.0


In [145]:
print(a1.min())

1


In [146]:
print(a1.max())

5


In [147]:
print(a1.cumsum())    #  1, 1+2, 1+2+3, 1+2+3+4, 1+2+3+4+5  -> 누적 합

[ 1  3  6 10 15]


In [148]:
print(a1)

[1 2 3 4 5]


In [149]:
print(a1.cumprod())

[  1   2   6  24 120]


In [151]:
n = np.arange(1, 7).reshape(2, 3)
print(n)

[[1 2 3]
 [4 5 6]]


In [152]:
print(n.sum())

21


In [153]:
print(n.sum(axis=0))

[5 7 9]


In [154]:
print(n.sum(axis=1))

[ 6 15]


In [157]:
a = np.array([0, 1, 2, 3]).reshape(2, 2)
print(a)

[[0 1]
 [2 3]]


In [158]:
b = np.array([3, 2, 0, 1]).reshape(2, 2)
print(b)

[[3 2]
 [0 1]]


In [159]:
print(a.dot(b))

[[0 1]
 [6 7]]


In [160]:
print(np.dot(a, b))

[[0 1]
 [6 7]]


In [161]:
print(a.transpose())

[[0 2]
 [1 3]]


In [162]:
print(np.transpose(a))

[[0 2]
 [1 3]]


In [163]:
print(a.T)

[[0 2]
 [1 3]]


In [165]:
b = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8]).reshape(3, 3)
print(b)
print(b.T)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 3 6]
 [1 4 7]
 [2 5 8]]


In [169]:
print(np.linalg.inv(a))

[[-1.5  0.5]
 [ 1.   0. ]]


In [171]:
print(np.linalg.det(a))

-2.0


In [172]:
# 이건 중요, 앞으로 데이터 처리할때 많이 쓰는 것
a = np.array([0, 10, 20, 30, 40, 50])
print(a)

[ 0 10 20 30 40 50]


In [173]:
print(a[0])
print(a[4])

0
40


In [174]:
a[5] = 90
print(a)

[ 0 10 20 30 40 90]


In [175]:
a = np.array([0, 10, 20, 30, 40, 50])
print(a)

[ 0 10 20 30 40 50]


In [176]:
print(a[[1, 3, 4]])

[10 30 40]


In [177]:
b = np.arange(10, 100, 10).reshape(3, 3)
print(b)

[[10 20 30]
 [40 50 60]
 [70 80 90]]


In [178]:
print(b[0, 2])  # b[row, column]

30


In [179]:
print(b[1])

[40 50 60]


In [181]:
b[1] = np.array([45, 55, 65])
print(b)

[[10 20 30]
 [45 55 65]
 [70 80 90]]


In [182]:
print(b[[0, 2], [0, 1]])   # row:0, column:0   /  row:2, column:1

[10 80]


In [183]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a)

[1 2 3 4 5 6]


In [184]:
print(a[a > 3])

[4 5 6]


In [188]:
print(a[if a % 2 == 0])
# print(a[if a % 2 == 0])  -> Error  (X)
# print(a[a if a % 2 == 0])  -> Error  (X)

[2 4 6]


In [189]:
a = np.array([0, 10, 20, 30, 40, 50])
print(a)

[ 0 10 20 30 40 50]


In [190]:
print(a[1:4])

[10 20 30]


In [191]:
print(a[:3])

[ 0 10 20]


In [192]:
print(a[2:])

[20 30 40 50]


In [194]:
a = np.arange(10, 100, 10).reshape(3, 3)   # step 10
print(a)

[[10 20 30]
 [40 50 60]
 [70 80 90]]


In [195]:
print(a[1:3, 1:3])

[[50 60]
 [80 90]]


In [196]:
print(a[:3, 1:])   #  첫번째가 줄 수, 2반째가 칸 수  /  0,1,2-> 3줄 , 1,2-> 2칸(0x 1o 2o)

[[20 30]
 [50 60]
 [80 90]]


In [197]:
print(a[1][0:2])

[40 50]


In [198]:
print(a[1:2][0:2])  #  [1:2]에서 처음(1)은 포함, 끝(2)은 미포함=바로전(1)

[[40 50 60]]


In [199]:
print(a[1:2, 0:2])   #  시작은 1, 끝은 2 바로 전=1 -> 둘이 같은 수를 나타냄

[[40 50]]


In [200]:
print(a[1:2])

[[40 50 60]]


In [201]:
print(a[1, 0:2])

[40 50]


In [202]:
# pandas 설치
# conda install pandas
# 데이터 처리할때 pandas 없는건 생각을 못할 정도로 많이 쓰임

In [203]:
import pandas as pd

In [204]:
s1 = pd.Series([10, 20, 30, 40, 50])
print(s1)  # pandas 의 series 객체

# pandas.Series 객체의 특징 :  index를 자동으로 붙여줌

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [205]:
# index만 출력 가능
print(s1.index)

RangeIndex(start=0, stop=5, step=1)


In [206]:
print(s1.values)  # 근데 얘는 list가 아님

[10 20 30 40 50]


In [207]:
print(type(s1.values))

<class 'numpy.ndarray'>


In [209]:
# pandas.series 의 특징은 numpy 배열과 다름  :  pandas.Series는 타입이 섞여도 됨(다 수용함)  -> 다 수용해야하므로object로 type이 나옴
s2 = pd.Series(['a', 'b', 'c', 1, 2, 3])
print(s2)

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object


In [211]:
s3 = pd.Series([np.nan, 1, 2])   # nan ( Not A Number)  -> 넘버거 아니다 -> 아무것도 없을때, nan으로 비워줄 수 있다.
print(s3)

# 중간에 자리는 차지하지만 값은 없을때 사용 가능

0    NaN
1    1.0
2    2.0
dtype: float64


In [212]:
index_date = ['2021-03-20', '2021-03-22', '2021-03-23']  # 이렇게 미리 만들어 놓고
s4 = pd.Series([200, 187, np.nan, 210])  # 일단 data를 넣어주고, 여기에다가 index args에다가  <- 저렇게 넣어주고 출력하면
print(s4)

0    200.0
1    187.0
2      NaN
3    210.0
dtype: float64


In [215]:
index_date = ['2021-03-20', '2021-03-21', \
              '2021-03-22', '2021-03-23']  # 이렇게 미리 만들어 놓고
s4 = pd.Series([200, 187, np.nan, 210], index = index_date)  # 일단 data를 넣어주고, 여기에다가 index args에다가  <- 저렇게 넣어주고 출력하면
print(s4)

2021-03-20    200.0
2021-03-21    187.0
2021-03-22      NaN
2021-03-23    210.0
dtype: float64


In [216]:
# dict를 이용하면, index, value값 동시에 넣어줄 수 있음 (pd.Series에)
s5 = pd.Series({'국어':100, '영어':95, '수학':100})
print(s5)

국어    100
영어     95
수학    100
dtype: int64


In [217]:
# 이렇게 수동이 아니라, 판다스에 날짜를 자동으로 만들어주는 기능이 있음. -> 많이 쓰임
p = pd.date_range(start='2021-08-01', end='2021-08-31')   #  8월 1일 부터 8월 31일까지 -> DatetimeIndex값을 자동으로 생성해줌
print(p)

DatetimeIndex(['2021-08-01', '2021-08-02', '2021-08-03', '2021-08-04',
               '2021-08-05', '2021-08-06', '2021-08-07', '2021-08-08',
               '2021-08-09', '2021-08-10', '2021-08-11', '2021-08-12',
               '2021-08-13', '2021-08-14', '2021-08-15', '2021-08-16',
               '2021-08-17', '2021-08-18', '2021-08-19', '2021-08-20',
               '2021-08-21', '2021-08-22', '2021-08-23', '2021-08-24',
               '2021-08-25', '2021-08-26', '2021-08-27', '2021-08-28',
               '2021-08-29', '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='D')


In [219]:
p = pd.date_range(start='2021/08/01', end='2021.08.31')  # 날짜를 꼭 짝대기가 아니라, 슬레시/ 나 점. 으로도 입력 할 수 있지만
print(p)   # 출력은 항상 짝대기 ( - ) 로 나옴

DatetimeIndex(['2021-08-01', '2021-08-02', '2021-08-03', '2021-08-04',
               '2021-08-05', '2021-08-06', '2021-08-07', '2021-08-08',
               '2021-08-09', '2021-08-10', '2021-08-11', '2021-08-12',
               '2021-08-13', '2021-08-14', '2021-08-15', '2021-08-16',
               '2021-08-17', '2021-08-18', '2021-08-19', '2021-08-20',
               '2021-08-21', '2021-08-22', '2021-08-23', '2021-08-24',
               '2021-08-25', '2021-08-26', '2021-08-27', '2021-08-28',
               '2021-08-29', '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='D')


In [220]:
# 넣을때 day-month-year 로 넣어줘도 알아서 판단함
p = pd.date_range(start='01-08-2021', end='31.08.2021')
print(p)

DatetimeIndex(['2021-01-08', '2021-01-09', '2021-01-10', '2021-01-11',
               '2021-01-12', '2021-01-13', '2021-01-14', '2021-01-15',
               '2021-01-16', '2021-01-17',
               ...
               '2021-08-22', '2021-08-23', '2021-08-24', '2021-08-25',
               '2021-08-26', '2021-08-27', '2021-08-28', '2021-08-29',
               '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', length=236, freq='D')


In [221]:
p = pd.date_range(start='2021-08-10', periods=7) # periods argument를 이용해서 7일, 이렇게도 가능 -> end= <-안넣고도 가ㅡㅇ
print(p)

# pandas만 잘써도, exel 데이터 같은거 pandas에 넣기 편해짐

# freq='D' -> day 옵션.  -> 전부 뒤에 이게 오는데 -> 하루 하루 나오는 것.

# pandas의 공식 옵션
# https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases
# 굉장히 많음.  몇가지만 실습,.

DatetimeIndex(['2021-08-10', '2021-08-11', '2021-08-12', '2021-08-13',
               '2021-08-14', '2021-08-15', '2021-08-16'],
              dtype='datetime64[ns]', freq='D')


In [222]:
p = pd.date_range(start='2021-08-01', periods=4, freq='2D')  #  freq='2D'   옵션 - > 이러면 2일씩 나옴(1, 3, 5, 7)
print(p)

DatetimeIndex(['2021-08-01', '2021-08-03', '2021-08-05', '2021-08-07'], dtype='datetime64[ns]', freq='2D')


In [223]:
p = pd.date_range(start='2021-08-18', periods=5, freq='W')   #  W -> week
print(p)  # 8월 18일 기준으로 W(week) 7일씩 5개 찍는데, freq='W-SUN'  이라 일요일만 찍음

DatetimeIndex(['2021-08-22', '2021-08-29', '2021-09-05', '2021-09-12',
               '2021-09-19'],
              dtype='datetime64[ns]', freq='W-SUN')


In [224]:
p = pd.date_range(start='2021-08-18', periods=5, freq='W-Mon')  # freq='W-Mon' ->  월요일만 출력
print(p)

DatetimeIndex(['2021-08-23', '2021-08-30', '2021-09-06', '2021-09-13',
               '2021-09-20'],
              dtype='datetime64[ns]', freq='W-MON')


In [225]:
p = pd.date_range(start='2021-07-23', periods=12, freq='2BM')   # 2개월씩 맨 마지막 -> 토, 일요일 빠짐
print(p)

DatetimeIndex(['2021-07-30', '2021-09-30', '2021-11-30', '2022-01-31',
               '2022-03-31', '2022-05-31', '2022-07-29', '2022-09-30',
               '2022-11-30', '2023-01-31', '2023-03-31', '2023-05-31'],
              dtype='datetime64[ns]', freq='2BM')


In [228]:
p = pd.date_range(start='2021-01-04', periods=4, freq='QS')  #  2021-01-04를 기준으로 분기의 시작일 출력
print(p)

DatetimeIndex(['2021-04-01', '2021-07-01', '2021-10-01', '2022-01-01'], dtype='datetime64[ns]', freq='QS-JAN')


In [229]:
p = pd.date_range(start='2021-02-01', periods=3, freq='AS')  # AS = Annual Start = 매년 시작일
print(p)

DatetimeIndex(['2022-01-01', '2023-01-01', '2024-01-01'], dtype='datetime64[ns]', freq='AS-JAN')


In [230]:
# 날짜 말고 시간도 만듭니다 얘가.
p = pd.date_range(start='2021-01-01 08:00', periods=10, freq='H')   # freq='H' -> Hour = 시간(1시간) 기준 10개 출력
print(p)

DatetimeIndex(['2021-01-01 08:00:00', '2021-01-01 09:00:00',
               '2021-01-01 10:00:00', '2021-01-01 11:00:00',
               '2021-01-01 12:00:00', '2021-01-01 13:00:00',
               '2021-01-01 14:00:00', '2021-01-01 15:00:00',
               '2021-01-01 16:00:00', '2021-01-01 17:00:00'],
              dtype='datetime64[ns]', freq='H')


In [231]:
p = pd.date_range(start='2021-01-01 08:00', periods=10, freq='BH')   #  얘들은 17시에 퇴근하나봐. 17시 안나오고
print(p)   # 17:00 빼고 총 10개

DatetimeIndex(['2021-01-01 09:00:00', '2021-01-01 10:00:00',
               '2021-01-01 11:00:00', '2021-01-01 12:00:00',
               '2021-01-01 13:00:00', '2021-01-01 14:00:00',
               '2021-01-01 15:00:00', '2021-01-01 16:00:00',
               '2021-01-04 09:00:00', '2021-01-04 10:00:00'],
              dtype='datetime64[ns]', freq='BH')


In [232]:
# 우리나라에 맞게 고침
cbh = pd.offsets.CustomBusinessHour(start='09:00'
                                   , end='18:00'
                                ,weekmask='Mon Tue Wed Thu Fri')
print(cbh)

# 이러면 CustomBusinessHour 객체가 만들어짐

<CustomBusinessHour: CBH=09:00-18:00>


In [234]:
p = pd.date_range(start='2021-01-01 08:00', periods=10, freq=cbh)   # freq에 우리가 만든 chh 객체를 넣어줌
print(p)  # 이러면 17시까지 나옴

DatetimeIndex(['2021-01-01 09:00:00', '2021-01-01 10:00:00',
               '2021-01-01 11:00:00', '2021-01-01 12:00:00',
               '2021-01-01 13:00:00', '2021-01-01 14:00:00',
               '2021-01-01 15:00:00', '2021-01-01 16:00:00',
               '2021-01-01 17:00:00', '2021-01-04 09:00:00'],
              dtype='datetime64[ns]', freq='CBH')


In [235]:
p = pd.date_range(start='2021-01-01', periods=4, freq='30min')
print(p)

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-01 00:30:00',
               '2021-01-01 01:00:00', '2021-01-01 01:30:00'],
              dtype='datetime64[ns]', freq='30T')


In [236]:
p = pd.date_range(start='2021-01-01', periods=4, freq='10S')
print(p)

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-01 00:00:10',
               '2021-01-01 00:00:20', '2021-01-01 00:00:30'],
              dtype='datetime64[ns]', freq='10S')


In [239]:
# 이제 직접 넣어보자
index_date = pd.date_range(start='2021-08-01', periods=5,\
                          freq='D')
p = pd.Series([51, 63, 59, 48, 60], index=index_date)
print(p)

# pd.Series는 여기까지 하고 이제 dataframe 들어감(pd.DataFrame -> 중요)

2021-08-01    51
2021-08-02    63
2021-08-03    59
2021-08-04    48
2021-08-05    60
Freq: D, dtype: int64


In [240]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(df)

# 왼쪽에 있는건(0 1 2) index, 위쪽에 있는건 컬럼=Column(0 1 2)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [242]:
data_list = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data_list)
print(df)

# numpy data를 만들어 놓고, 그걸 pandas에 대입.  자주 쓰임

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [243]:
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
index_date = pd.date_range('2021-08-01', periods=4)
columns_list = ['A', 'B', 'C']
df = pd.DataFrame(data, index=index_date, columns=columns_list)
print(df)

             A   B   C
2021-08-01   1   2   3
2021-08-02   4   5   6
2021-08-03   7   8   9
2021-08-04  10  11  12


In [244]:
data = {'연도':[2015, 2016, 2016, 2017, 2017], \
       '지사':['서울', '서울', '부산', '서울', '부산'], \
       '고객 수': [200, 250, 150, 300, 200]}
df = pd.DataFrame(data)
print(df)

     연도  지사  고객 수
0  2015  서울   200
1  2016  서울   250
2  2016  부산   150
3  2017  서울   300
4  2017  부산   200


In [245]:
data = {'연도':[2015, 2016, 2016, 2017, 2017], \
       '지사':['서울', '서울', '부산', '서울', '부산'], \
       '고객 수': [200, 250, 150, 300, 200]}
df = pd.DataFrame(data, columns=['지사', '연도', '고객 수'])  #  columns에서 순서를 바꿀 수 있음
print(df)

   지사    연도  고객 수
0  서울  2015   200
1  서울  2016   250
2  부산  2016   150
3  서울  2017   300
4  부산  2017   200


In [246]:
# 각각을 따로 따로 볼 수 도 있다
print(df.index)
print(df.columns)
print(df.values)

RangeIndex(start=0, stop=5, step=1)
Index(['지사', '연도', '고객 수'], dtype='object')
[['서울' 2015 200]
 ['서울' 2016 250]
 ['부산' 2016 150]
 ['서울' 2017 300]
 ['부산' 2017 200]]


In [247]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([10, 20, 30, 40, 50])
print(s1 + s2)
print(s2 / s1)

0    11
1    22
2    33
3    44
4    55
dtype: int64
0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64


In [248]:
# 항목의 개수가 다르면
s3 = pd.Series([1, 2, 3, 4])
s4 = pd.Series([10, 20, 30, 40, 50])
print(s3 + s4)

# 에러는 안뽑고 최대한 할 수 있는대까진 해줌. 그러나 마지막은 갯수가 모자라서 NaN으로 출력함.

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64


In [249]:
# dataframe 으로 연산
data1 = {'A':[1, 2, 3, 4, 5], 'B':[10, 20, 30, 40, 50], \
        'C':[100, 200, 300, 400, 500]}
df1 = pd.DataFrame(data1)
print(df1)

   A   B    C
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400
4  5  50  500


In [250]:
data2 = {'A':[6, 7, 8], 'B':[60, 70, 80], 'C':[600, 700, 800]}
df2 = pd.DataFrame(data2)
print(df2)

   A   B    C
0  6  60  600
1  7  70  700
2  8  80  800


In [251]:
# df1은 row3 column5,  df2는 row3 column3 인데 계산을 해줌, 안맞는 부분은 NaN으로 처리
print(df1 + df2)

      A      B       C
0   7.0   70.0   700.0
1   9.0   90.0   900.0
2  11.0  110.0  1100.0
3   NaN    NaN     NaN
4   NaN    NaN     NaN


In [252]:
# 우리나라 기상청 실제 통계

table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8],
              '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
              '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
              '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2012', '2013', '2014', '2015', '2016']

In [254]:
df3 = pd.DataFrame(table_data3, columns=columns_list, \
                  index=index_list)
print(df3)  # 2012~2016 강수량 측계

          봄     여름     가을     겨울
2012  256.5  770.6  363.5  139.3
2013  264.3  567.5  231.2   59.9
2014  215.9  599.8  293.1   76.9
2015  223.2  387.1  247.7  109.1
2016  312.8  446.2  381.6  108.1


In [255]:
print(df3.mean())   # 평균 (Axis 0 으로 평균)

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64


In [256]:
# 연도별 평균
print(df3.mean(axis=1))

2012    382.475
2013    280.725
2014    296.425
2015    241.775
2016    312.175
dtype: float64


In [258]:
print(df3.std())   # Axis 0 -> 계절별 평균

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64


In [259]:
print(df3.std(axis=1))

2012    274.472128
2013    211.128782
2014    221.150739
2015    114.166760
2016    146.548658
dtype: float64


In [260]:
print(df3.describe())

                봄          여름          가을          겨울
count    5.000000    5.000000    5.000000    5.000000
mean   254.540000  554.240000  303.420000   98.660000
std     38.628267  148.888895   67.358496   30.925523
min    215.900000  387.100000  231.200000   59.900000
25%    223.200000  446.200000  247.700000   76.900000
50%    256.500000  567.500000  293.100000  108.100000
75%    264.300000  599.800000  363.500000  109.100000
max    312.800000  770.600000  381.600000  139.300000


In [261]:
# 코레일, KTX 이용자 수(2011~2017)
KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
col_list = ['경부선 KTX','호남선 KTX','경전선 KTX','전라선 KTX','동해선 KTX']
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

In [262]:
df_KTX = pd.DataFrame(KTX_data, columns=col_list, index=index_list)
print(df_KTX)

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2011    39060     7313     3627      309      NaN
2012    39896     6967     4168     1771      NaN
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0
2016    41266    10622     4984     3945   3786.0
2017    32427     9228     5570     5766   6667.0


In [263]:
# head() -> data의 앞의 5줄을 보여줌 -> 데이터의 일부를 보고싶을때 사용
print(df_KTX.head())

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2011    39060     7313     3627      309      NaN
2012    39896     6967     4168     1771      NaN
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0


In [265]:
print(df_KTX.head(7))  # head의 default는 5줄이지만, 7줄과 같이 원하는 숫자로 사용 가능

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2011    39060     7313     3627      309      NaN
2012    39896     6967     4168     1771      NaN
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0
2016    41266    10622     4984     3945   3786.0
2017    32427     9228     5570     5766   6667.0


In [266]:
print(df_KTX.info())   # 총괄적인 정보가 나오는 것 = info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 2011 to 2017
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   경부선 KTX  7 non-null      int64  
 1   호남선 KTX  7 non-null      int64  
 2   경전선 KTX  7 non-null      int64  
 3   전라선 KTX  7 non-null      int64  
 4   동해선 KTX  3 non-null      float64
dtypes: float64(1), int64(4)
memory usage: 336.0+ bytes
None


In [267]:
print(df_KTX.tail())

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0
2016    41266    10622     4984     3945   3786.0
2017    32427     9228     5570     5766   6667.0


In [268]:
print(df_KTX[1:2])

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2012    39896     6967     4168     1771      NaN


In [269]:
print(df_KTX[2:5])

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0


In [274]:
# 실제 인덱스 이름으로 지정할 수 있음
print(df_KTX.loc['2011'])   # 실제 index 이름을 쓸 때는 loc 을 사용

경부선 KTX    39060.0
호남선 KTX     7313.0
경전선 KTX     3627.0
전라선 KTX      309.0
동해선 KTX        NaN
Name: 2011, dtype: float64


In [276]:
# 슬라이스 할 때도 마찬가지
print(df_KTX.loc['2013':'2016'])

      경부선 KTX  호남선 KTX  경전선 KTX  전라선 KTX  동해선 KTX
2013    42005     6873     4088     1954      NaN
2014    43621     6626     4424     2244      NaN
2015    41702     8675     4606     3146   2395.0
2016    41266    10622     4984     3945   3786.0


In [277]:
print(df_KTX['경부선 KTX'])

2011    39060
2012    39896
2013    42005
2014    43621
2015    41702
2016    41266
2017    32427
Name: 경부선 KTX, dtype: int64


In [281]:
print(df_KTX['경부선 KTX']['2012':'2014'])

2012    39896
2013    42005
2014    43621
Name: 경부선 KTX, dtype: int64


In [282]:
print(df_KTX['경부선 KTX'][1:4])

2012    39896
2013    42005
2014    43621
Name: 경부선 KTX, dtype: int64


In [284]:
print(df_KTX.loc['2016']['호남선 KTX'])  # 2016년 호남선 KTX 이용 고객 수

10622.0


In [285]:
print(df_KTX.loc['2016', '호남선 KTX'])

10622


In [286]:
print(df_KTX['호남선 KTX']['2016'])

10622


In [288]:
print(df_KTX['호남선 KTX'][5])

10622


In [289]:
print(df_KTX['호남선 KTX'].loc['2016'])

10622


In [290]:
print(df_KTX.T)

            2011     2012     2013     2014     2015     2016     2017
경부선 KTX  39060.0  39896.0  42005.0  43621.0  41702.0  41266.0  32427.0
호남선 KTX   7313.0   6967.0   6873.0   6626.0   8675.0  10622.0   9228.0
경전선 KTX   3627.0   4168.0   4088.0   4424.0   4606.0   4984.0   5570.0
전라선 KTX    309.0   1771.0   1954.0   2244.0   3146.0   3945.0   5766.0
동해선 KTX      NaN      NaN      NaN      NaN   2395.0   3786.0   6667.0


In [293]:
print(df_KTX[['동해선 KTX', '전라선 KTX', '경전선 KTX', \
            '호남선 KTX', '경부선 KTX']])  #  column이 list로 들어감 -> 괄호 2개 [[,, , ]]

      동해선 KTX  전라선 KTX  경전선 KTX  호남선 KTX  경부선 KTX
2011      NaN      309     3627     7313    39060
2012      NaN     1771     4168     6967    39896
2013      NaN     1954     4088     6873    42005
2014      NaN     2244     4424     6626    43621
2015   2395.0     3146     4606     8675    41702
2016   3786.0     3945     4984    10622    41266
2017   6667.0     5766     5570     9228    32427


In [294]:
# log데이터라던지,  데이터 2개를 가져와서 붙일 경우
# 다 많이 쓰인다는데 사실 다 많이 쓰임

df1 = pd.DataFrame({'Class1':[95, 92, 98, 100], 
                   'Class2':[91, 93, 97, 99]})
print(df1)

   Class1  Class2
0      95      91
1      92      93
2      98      97
3     100      99


In [295]:
df2 = pd.DataFrame({'Class1':[87, 89], 'Class2':[85, 90]})
print(df2)

   Class1  Class2
0      87      85
1      89      90


In [296]:
print(df1.append(df2))

   Class1  Class2
0      95      91
1      92      93
2      98      97
3     100      99
0      87      85
1      89      90


In [297]:
print(df1.append(df2, ignore_index=True))  # True -> 얘가 index 새로 구성함

   Class1  Class2
0      95      91
1      92      93
2      98      97
3     100      99
4      87      85
5      89      90


In [298]:
df3 = pd.DataFrame({'Class1':[96, 83]})
print(df3)

   Class1
0      96
1      83


In [299]:
print(df2.append(df3, ignore_index=True))

   Class1  Class2
0      87    85.0
1      89    90.0
2      96     NaN
3      83     NaN


In [301]:
df4 = pd.DataFrame({'Class3':[93, 91, 95, 98]})   # dataFrame 등 소문자 쓰면(대문자 안맞추면) Error 발생
print(df4)

   Class3
0      93
1      91
2      95
3      98


In [302]:
print(df1)

   Class1  Class2
0      95      91
1      92      93
2      98      97
3     100      99


In [303]:
# df1에다가 df4를 옆으로 붙일 것
print(df1.join(df4))   # 동인한 index 넘버를 기준으로 옆으로 갖다 붙임

# append는 아래로 붙이는거, join은 옆으로 붙이는거 (단, index 기준)

   Class1  Class2  Class3
0      95      91      93
1      92      93      91
2      98      97      95
3     100      99      98


In [305]:
index_label = ['a', 'b', 'c', 'd']
df1a = pd.DataFrame({'Class1':[95, 92, 98, 100],
                   'Class2':[91, 93, 97, 99]}, index=index_label)
df4a = pd.DataFrame({'Class3':[93, 91, 95, 98]}, index=index_label)
print(df1a)

   Class1  Class2
a      95      91
b      92      93
c      98      97
d     100      99


In [306]:
print(df4a)

   Class3
a      93
b      91
c      95
d      98


In [307]:
print(df1a.join(df4a))   # index 이름만 동일하면 됨

   Class1  Class2  Class3
a      95      91      93
b      92      93      91
c      98      97      95
d     100      99      98


In [309]:
# index 번호가 다를때 join
df5 = pd.DataFrame({'Class4':[82, 92]})
print(df5)

   Class4
0      82
1      92


In [310]:
print(df1)

   Class1  Class2
0      95      91
1      92      93
2      98      97
3     100      99


In [311]:
print(df1.join(df5))   # 부족한 부분은 NaN으로 채워줌

   Class1  Class2  Class4
0      95      91    82.0
1      92      93    92.0
2      98      97     NaN
3     100      99     NaN


In [312]:
df_A_B = pd.DataFrame({'판매월':['1월', '2월', '3월', '4월'], \
                      '청소기':[100, 150, 200, 130], \
                      '세탁기':[90, 110, 140, 170]})
print(df_A_B)

  판매월  청소기  세탁기
0  1월  100   90
1  2월  150  110
2  3월  200  140
3  4월  130  170


In [313]:
df_C_D = pd.DataFrame({'판매월':['1월', '2월', '3월', '4월'], \
                      '냉장고':[112, 141, 203, 134], \
                      '에어컨':[90, 110, 150, 160]})
print(df_C_D)

  판매월  냉장고  에어컨
0  1월  112   90
1  2월  141  110
2  3월  203  150
3  4월  134  160


In [314]:
# 공통된 요소 = 판매월 -> 이걸로 붙임
# 공통된 column이 있을 경우는 merge 사용    <->   없을 경우는 join
print(df_A_B.merge(df_C_D))

  판매월  청소기  세탁기  냉장고  에어컨
0  1월  100   90  112   90
1  2월  150  110  141  110
2  3월  200  140  203  150
3  4월  130  170  134  160


In [316]:
df_left = pd.DataFrame({'key':['A', 'B', 'C'], \
                       'left':[1, 2, 3]})
print(df_left)

  key  left
0   A     1
1   B     2
2   C     3


In [317]:
df_right = pd.DataFrame({'key':['A', 'B', 'D'], \
                        'right':[4, 5, 6]})
print(df_right)

# 공통된 column인 'key'가 존재하지만, 데이터가 상이함

  key  right
0   A      4
1   B      5
2   D      6


In [318]:
print(df_left.merge(df_right))  # 공통된 데이터일 경우만 merge해서 출력

  key  left  right
0   A     1      4
1   B     2      5


In [319]:
print(df_left.merge(df_right, how='left', on='key'))  # 기존거는 출력, 붙이는쪽은 NaN 으로 출력

  key  left  right
0   A     1    4.0
1   B     2    5.0
2   C     3    NaN


In [320]:
print(df_left.merge(df_right, how='right', on='key'))  # how -> left, right로 어느쪽의 데이터를 출력할건지 정함.
                                                        # ( on=key <- 얘가 기준column값)

  key  left  right
0   A   1.0      4
1   B   2.0      5
2   D   NaN      6


In [327]:
# 그럼 양쪽 다 기준은?  ->  how='outer'
print(df_left.merge(df_right, how='outer', on='key'))

  key  left  right
0   A   1.0    4.0
1   B   2.0    5.0
2   C   3.0    NaN
3   D   NaN    6.0


In [328]:
print(df_left.merge(df_right, how='inner', on='key'))   # 양쪽에서 공통으로 있는 것만

  key  left  right
0   A     1      4
1   B     2      5


In [329]:
data = {'연도': [2015, 2016, 2016, 2017, 2017], 
        '지사': ['서울', '서울', '부산', '서울', '부산'],
        '고객 수': [200, 250, 150, 300, 200]}
df = pd.DataFrame(data, columns=['지사','연도', '고객 수'])
print(df)

   지사    연도  고객 수
0  서울  2015   200
1  서울  2016   250
2  부산  2016   150
3  서울  2017   300
4  부산  2017   200


In [330]:
row = ['대전', 2018, 500]

In [331]:
df = df.append(pd.Series(row, index=df.columns), \
              ignore_index=True)
print(df)

   지사    연도  고객 수
0  서울  2015   200
1  서울  2016   250
2  부산  2016   150
3  서울  2017   300
4  부산  2017   200
5  대전  2018   500
