## numpy
 - 파이썬의 대표적인 수치해석 라이브러리
 - 벡터, 행렬등의 최적화된 data structure와 다양한 연산 제공
 - 다른 많은 machine learnig, 혹은 data analysis 패키지들에서 많이 사용 됨

* **numpy 모듈**
  - 모듈 설치 
    - pip install numpy
  - 모듈 임포트
    - import numpy as np (관례적으로 np 사용)

In [None]:
import numpy as np
print(np.__version__)

* **ndarray**
 - numpy의 기본 타입
 - n dimentional array를 의미
 - vector, matrix를 표현
 - numpy.array([])로 생성

In [None]:
arr1 = np.array([1, 3, 4, 6]) # 1차원 벡터 생성
arr2 = np.array([[0, 1, 2], [2, 4, 6]]) # 2차원 행렬 생성

print(arr1, type(arr1))
print(arr2, type(arr2))

In [None]:
pure_arrary = range(10)
np_array = np.array([[1, 2], [3, 4]])
np_array
np_array.shape

* **arange**
 - 내장 함수 range()와 동일한 기능을 수행함
 - ndarray 반환

In [None]:
arr3 = np.arange(1, 11)
print(arr3, type(arr3))
arr3.shape

* **linspace**
 - start, end를 n-1개의 균일한 간격으로 분할

In [None]:
# 0 - 10의 범위를 n-1 등분 한다는 이야기
arr4 = np.linspace(0, 10, 100)
print(arr4)

* **zeros**
 - 전달된 tuple 사이즈 행렬 반환
 - 0으로 채워짐

In [None]:
print(np.zeros((2, 4)))
print(np.zeros(4))

print(np.zeros((2, 2, 2)))

* **ones**
 - 전달된 tuple 사이즈 행렬 반환
 - 1로 채워짐

In [None]:
print(np.ones((3, 3, 2, 7, 8)))
#print np.ones(3)

* **random sub package**
  - 다양한 확률 분포를 이용한 랜덤 숫자로 채워진 ndarray 혹은 단일 값을 생성할 때 주로 사용

In [2]:
print(np.random.rand(3, 2)) # [0, 1) 사이 출력
print(np.random.randn(3)) # 정규분포 normal distribution

[[0.31043216 0.10173166]
 [0.15839393 0.03149757]
 [0.67441319 0.0817198 ]]
[ 0.75759491  0.98177156 -0.06146685]


In [None]:
a = np.random.rand(3, 2, 2)
a

In [7]:
# 임의의 정수 한개 생성 [1, 100)
np.random.randint(1, 10)

5

In [None]:
# 임의의 정수 tensor 생성 
np.random.randint(1, 100, size=(4, 3))

In [None]:
# 범위 지정을 원할 경우 uniform 함수 이용
np.random.uniform(low=1.0, high=2.0, size=(4))

In [None]:
# 각 확률분포에 해당하는 함수가 존재
np.random.binomial(10, 0.9)

In [None]:
# choice함수를 이용하여 샘플링 가능
np.random.choice(range(10), size=40, replace=True)

* **연습문제)**
 1. 20 - 30 사이의 임의의 정수 4개를 출력하시오(중복 허용)
 2. 20 - 30 사이의 임의의 정수 4개를 출력하시오(중복 x)
 3. 20 - 30 사이의 임의의 실수 4개를 출력하시오
 4. 0.01 - 1 사이의 임의의 실수 4개를 출력하시오 

In [None]:
np.random.randint(20, 31, size=4)

In [None]:
np.random.choice(np.arange(20, 31), size=4, replace=False)

In [None]:
np.random.uniform(20, 30, size=4)

In [None]:
np.random.uniform(0.01, 1, size=4)

In [None]:
n = np.random.uniform(0, 2, size=4)
10 ** -n

* ** seed ** 
 - 실험, 분석 등을 할 때, 랜덤 값 생성 시, 해당 값을 추후에 또 사용해야 할 경우가 필요
 - 해당 경우에는 seed함수를 미리 호출하여 랜덤한 값을 동일 한 값으로 유지 할 수 있음
 - seed() 함수 호출 시, 정수를 전달

In [None]:
np.random.seed(100)
print(np.random.rand(2, 3))

In [None]:
np.random.randint(1, 101, 10)

In [None]:
np.random.seed(0) # 랜덤한 값을 계속 유지하고 싶을 때 사용
print(np.random.rand())

np.random.seed(2) # 랜덤한 값을 계속 유지하고 싶을 때 사용
print(np.random.rand())

* **slicing**
 - 리스트, 문자열 slicing과 동일함
 - 단, ndarray의 차원이 높을 경우에는, 각 차원별로 slicing, indexing 가능

In [None]:
arr1 = np.array([1, 3, 4, 6])
arr2 = np.array([[0, 1, 3], [2, 4, 6], [3, 7, 8]])

In [None]:
print(arr1[0])
print(arr1[1:-1])

In [None]:
arr2

In [None]:
print(arr2[1, :1])
print(arr2[1, 0])

In [None]:
arr2 = np.array([[0, 1, 3], [2, 4, 6]])

print(arr2[0])
print(arr2[0, 1])
print(arr2[1:, :2])
print(arr2[:, 2])
print(arr2[:, 1:])

* **Boolean selection**
  - bool 리스트로 해당 값이 True인 조건만 필터링

In [None]:
arr = np.array([1, 2, 4, 8, 9, 6, 12, 13])
lst = [1, 2, 4, 8, 9, 6, 12, 13]

print(arr % 2 == 0)

In [None]:
even_mask = (arr % 2 == 0)
print(arr[even_mask])

print(arr[arr % 2 == 0])

* multiple conditions
 - and, or, not 키워드 사용 불가
 - & - AND 
 - | - OR 

In [None]:
arr[(arr > 7) | (arr <= 5)]

In [None]:
arr[(arr % 2 == 0) & (arr <= 8)]

* **ndarray operations**
  - scala와의 연산은 전체 원소에 대해 적용
  - 다른 ndarray와의 연산은 element-wise로 적용

In [None]:
arr = np.arange(1, 7) * 5
print(arr)

In [None]:
arr2 = arr ** 4
print(arr2)
print(arr2 ** 0.5)

In [None]:
arr1 = np.arange(0, 30, 3) + 3
arr2 = np.arange(1, 11)
print(arr1, arr2)

print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 * arr1)
#print arr1 ^2 
print(arr1 ** 2)

In [None]:
arr1 = np.array([[1, 1], [1, 1]])
arr2 = np.array([[2, 2], [2, 2]])

print(arr1 * arr2)  # 원소끼리의 곱
print(arr1.dot(arr2)) # 행렬 곱

* **logical operator**
  - all()
    - 모든 원소가 조건을 만족 시키면 True, 아니면 False
  - any()
    - 어떤 원소라도 조건을 만족 시키면 True, 아니면 False

In [None]:
arr = np.random.randint(1, 10, size = (4,4))
print(arr)

In [None]:
print(np.all(arr < 7))

In [None]:
print(np.any(arr == 9))

* **ravel**
  - 다차원배열을 1차원으로 변경

In [None]:
arr = np.array([np.arange(1, 6), np.arange(10, 15)])
print(arr)

In [None]:
print(arr.ravel())

* **flatten**
 - 다차원 배열을 1차원으로 변경
 - copy를 생성하여 변경함

In [None]:
print(arr.flatten())

In [None]:
print(arr.flatten('F')) # column을 우선으로 변경

In [None]:
# ravel vs flatten
f_arr = arr.flatten() # copy를 반환
r_arr = arr.ravel() # 원본 ndarray와 메모리 공유

r_arr[0] = 60

print(f_arr)
print(r_arr)
print(arr)

* **reshaping**
 - array의 shape을 재정렬
 - 이때, 서로의 전체 원소 개수가 맞아야 가능
 - 데이터 정제에 가장 많이 사용
   e.g) 이미지의 경우, 2차원 픽셀로 표현되나, 이것을 ml library로 전달하기 위해 reshape하여 사용

In [4]:
np.arange(1, 17)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

In [5]:
np.arange(1, 17).reshape(4, 2, 2, order='F')

array([[[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]],

       [[ 4, 12],
        [ 8, 16]]])

In [6]:
arr = np.arange(1, 16)
print(arr)
arr2 = arr.reshape(3, 5)
print(arr2)
print(arr)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]


* **자주 쓰는 numpy 함수**

In [8]:
print(arr)
print(np.min(arr))
print("\n")
print(np.mean(arr))
print(np.median(arr))
print("\n")
print(np.max(arr))
print(np.maximum(arr, np.array([99, 1, 2, 3, 4, 5, 6, 7, 8, 9, 20, 21, 22, 23, 24])))
print("\n")
print(np.std(arr))
print(np.argmin(arr)) # return index 
print("\n")
print(np.argmax(arr))
print(np.sum(arr))
print("\n")
print(np.sqrt(arr))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
1


8.0
8.0


15
[99  2  3  4  5  6  7  8  9 10 20 21 22 23 24]


4.320493798938574
0


14
120


[1.         1.41421356 1.73205081 2.         2.23606798 2.44948974
 2.64575131 2.82842712 3.         3.16227766 3.31662479 3.46410162
 3.60555128 3.74165739 3.87298335]


* **axis**
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

In [9]:
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(np.sum(arr2))

21


In [10]:
# 1차원 적용
arr2 = np.array([1, 2, 3])
print(np.sum(arr2, axis=0))

6


In [11]:
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2)

[[1 2 3]
 [4 5 6]]


In [12]:
# 2차원 적용

print(np.sum(arr2, axis=0))
print(np.sum(arr2, axis=1))

[5 7 9]
[ 6 15]


In [None]:
# 3차원 적용
arr2 = np.array([[[1, 2, 3], [4, 5, 6]], 
                 
                 [[1, 1, 1], [2, 2, 2]]] )
print(np.sum(arr2, axis=0))
print(np.sum(arr2, axis=1))
print(np.sum(arr2, axis=2))

 * **numpy broadcasting**
  - 연산시, 차원이 맞지 않은 경우, 적은 차원의 ndarray를 상위 차원으로 broadcast하여 연산 진행

In [None]:
arr = np.arange(10)
arr2 = np.arange(2, 12)
arr3 = np.arange(10).reshape(2, 5)

arr + arr2 # 기본적으로 element-wise 연산

In [None]:
arr + 1

In [None]:
2 ** arr 

In [None]:
arr ** 2

In [None]:
arr3

In [None]:
arr3 + arr[1:6]

In [None]:
arr3.shape, arr[1:6].shape

In [None]:
arr3 + 3

* **where 함수**
 - condition에 따라 x, y선별적으로 선택

In [None]:
a = np.array([1, 2, 4, 9, 10])
b = np.array([0, 4, 9, 8, 7])
a, b

In [None]:
# 조건이 참이면 a, 거짓이면 b에서 선택
np.where(a > 7, a, b) 

In [None]:
np.where([True, False, True, True, True], a, b)

In [None]:
# 조건이 참이면 a, 거짓이면 1로 선택
np.where(a > 7, a, 1)

* **연습문제**
 1. np.random.randn(5, 5)로 생성된 행렬에서 음수값을 0으로 변경하세요
 2. numpy를 이용하여 Math.pi 값을 다시 구해봅시다.
 3. python 기본 리스트 객체로 만든 두 행렬을 곱하는 코드를 작성하시오.

In [None]:
a = np.random.randn(5, 5)
a, np.where(a > 0, a, 0)

In [None]:
total = int(1e7)
point_sum = np.sum(np.random.rand(total, 2) ** 2, axis=1)
4.0 * np.sum(point_sum <= 1) / total

In [None]:
[0] * 4
[[0] * 4 for _ in range(3)]

In [None]:
a = [[2, 3, 2], [1, 2, 2]]
b = [[2, 2], [1, 3], [2, 1]]

def mat_mult(a, b):
    if len(a[0]) != len(b):
        raise Exception("invalid operation")
    
    m, n, l = len(a), len(a[0]), len(b[0])
    rs = [[0] * l for _ in range(m)]
    
    for i in range(m):
        for j in range(l):
            for k in range(n):
                rs[i][j] += a[i][k] * b[k][j]
                
    return rs

mat_mult(a, b)
        

### **linear regression 실습**

* **generate random data**
 - random package 활용하여 feature와 target 생성

In [None]:
x = np.random.randn(100)
x.shape, x

In [None]:
y = 4 * x + 30 + 1.1 * np.random.randn(100)
y.shape, y

* **plot data**
  - matplotlib package 
  - %matplotlib inline - visualization 결과가 notebook 내에 포함 됨

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline 

In [None]:
plt.scatter(x, y, c='r', marker='o')

* **create a model**
 - 각 알고리즘을 수행하는 객체 생성 후, fit 함수를 이용하여 model training

In [None]:
x = x.reshape(100, 1)

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x, y)

* **check coefficient, bias(intercept)**
 - coefficient와 bias값 확인

In [None]:
w = model.coef_
b = model.intercept_

w, b

* **plot data with our model**

In [None]:
plt.scatter(x, y, c='r', marker='o')
plt.plot(x, w * x + b, 'g-')
plt.plot(x, 2 * x + 30, 'b-')

* **pandas**
  - http://pandas.pydata.org/
  - Opensource python 고성능 데이터 분석 라이브러리
  - DataFrame, Series 객체가 가장 많이 사용
  - ML library인 scikit-learn과 함께 ML 분석에 많이 사용 됨
  - pip install pandas로 설치
  - 관례적으로 pd 로 임포트

In [None]:
import numpy as np
import pandas as pd

 * **Series**
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성
  - 같은 타입의 0개 이상의 데이터를 가질 수 있음

In [None]:
s1 = pd.Series([1, 2, 20])
print(s1)

In [None]:
# indexing 가능
print(s1[0])

In [None]:
s2 = pd.Series(list(range(1, 6)))
print(s2)

 * **값 및 인덱스 접근**
  - 각가 values, index 속성

In [None]:
print(s2.values)

In [None]:
print(s2.index)

* **index 지정하기**

In [None]:
s3 = pd.Series(list(range(1, 4)), 
               index = [chr(i) for i in range(97, 100)])
print(s3)
print(s3.values)
print(s3.index)

* ** chr, ord 함수**
 - chr : unicode point -> 문자
 - ord : 문자 -> unicode point

In [None]:
chr(97), chr(65), chr(48)

In [None]:
ord('a'), ord('A'), ord('0')

In [None]:
# 인덱스를 새로 지정한 경우, 기본 인덱스도 동시에 사용 가능
# 단, 지정한 인덱스가 정수인 경우에는, 해당되지 않음
print(s3[1], s3['b']) 
print(s3['c'])

In [None]:
s4 = pd.Series(range(1, 4), index=[100, 101, 102])

print(s4[100])
print(s4[0])

* **index가 없는 경우**

In [None]:
print(s3['d'])
print(s3[4])

* **index 재사용**
 - 기존 series나 dataframe의 인덱스를 재사용 가능
 - .index 속성 이용

In [None]:
s4 = pd.Series(2, index = s3.index)
print(s4)

In [None]:
s5 = pd.Series(np.random.randn(5), index=np.arange(10, 15))
print(s5)

In [None]:
s6 = pd.Series(np.arange(1, 6), s5.index)
print(s6)

In [None]:
s7 = pd.Series({'a' : 100, 'b' : 1000, 'c' : 2, 'd' : 6})
print(s7)
print(s7['b'])

s8 = pd.Series(np.arange(4), index=s7.index)
print(s8)

* **Series size, shape, unique, count, value_counts**
 - size : 개수 반환
 - shape : 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환 

In [None]:
s = pd.Series([0, 1, 1, 2, 3, 4, 5, 6, 7, np.nan])
print(s)

In [None]:
print(len(s))

In [None]:
print(s.size)

In [None]:
print(s.shape)

In [None]:
print(s.count()) # NaN을 제외한 값을 카운팅

In [None]:
print(s.unique())

In [None]:
print(s.value_counts()) # NaN 제외하고 값들을 카운팅 함
type(s.value_counts()) # value_counts의 타입 역시 pd.Series

* **head, tail, take**
 - head : 상위 n개 출력 기본 5개
 - tail : 하위 n개 출력 기본 5개
 - take : 주어진 인덱스 리스트와 매칭되는 원소만 추출

In [None]:
s.head() # 상위 5개 출력

In [None]:
s.head(n = 3)

In [None]:
s.tail()

In [None]:
s.tail(n = 2)

In [None]:
print(s)
print()
print(s.take([0, 4, 3, 9]))

In [None]:
s = pd.Series(np.arange(1, 4), index = ['x', 'y', 'z'])
s.take([0, 2])
#s.take(['x', 'z']) #0 - based index만 가능

 * **single value accessing**
  - 인덱스를 이용하여 값 접근 가능
  - 문자열 인덱스가 주어진 경우, 0-based index도 사용 가능
  

In [None]:
print(s['x']) # 인덱스로 가능

In [None]:
print(s[1]) # 숫자 인덱스도 가능

In [None]:
s = pd.Series(np.arange(1, 4), index = [100, 101, 102])
print(s[100])
print(s[0]) # 에러

* **multiple values accessing**
 - 인덱스 리스트, ndarray로 여러 값에 접근 가능

In [None]:
print(s[100])
print(s[[100, 102]])

* **loc , iloc**
  - loc[] : index로 값 접근
  - iloc[] : 0 based index로 값 접근

In [None]:
print(s)

In [None]:
print(s.loc[100])

In [None]:
print(s.iloc[0])

In [None]:
print(s.loc[[100, 102]])

In [None]:
print(s.iloc[[0, 2]])

* ** index값이 없는 경우**
 - loc : NaN으로 대체
 - iloc : 에러 발생

In [None]:
s.loc[[100, 102, 104, 105]]

In [None]:
# 에러 발생
# 인덱스 4가 없기 때문
s.iloc[[0, 2, 1, 4]] 

* **index를 기준으로 더하기**

In [None]:
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s1)

In [None]:
s2 = pd.Series([4, 3, 2, 1], index=['d', 'c', 'b', 'a'])
s2

In [None]:
print(s1 + s2)

* numpy와 비교
 - index 지정이 불가한 numpy는 0-based index로 연산

In [None]:
a1 = np.array([1, 2, 3, 4])
a2 = np.array([4, 3, 2, 1])
a1 + a2

* **산술연산**
 - Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
 - Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
   - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN 

In [None]:
print(s1)

In [None]:
print(s1 ** 2)

In [None]:
exp = pd.Series(2, s1.index)
print(s1 ** exp)

* **index pair가 안맞는 경우**
 - 해당 index에 대해선 NaN 값 생성

In [None]:
s1 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 5})
s2 = pd.Series({'b': 6, 'c': 7, 'd': 9, 'e': 10})

print(s1 + s2)

 * **NaN (Not a Number)**
  - numpy와 비교

In [None]:
nda = np.array([1, 2, 3, 4, 5])

# 일반적으로 np 모듈의 함수나 Series혹은 DataFrame의 멤버함수 중 하나를 사용
nda.mean(), np.mean(nda)


In [None]:
# NaN이 있는 경우, 연산 불가능
nda = np.array([1, 2, 3, 4, np.NaN])
nda.mean()

In [None]:
# Series는 NaN을 무시하고 연산
s = pd.Series([1, 2, 3, 4, np.NaN])
print(s.mean())
print(s.mean(skipna=False))

 * **Boolean selection**
  - boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨

In [None]:
s = pd.Series(np.arange(1, 10))
s

In [None]:
my_logic = s.index > 5
print(my_logic)

In [None]:
print(s[my_logic])

In [None]:
# 한번에!
print(s[s.index > 5])
print(s[s > 5])

In [None]:
#print s > 5 and s < 8
#print s[s > 5 and s < 8]
print(s[(s > 5) & (s < 8)]) # & and , | or

* 연습문제) 아래 연산의 각가의 결과는?

In [None]:
s

In [None]:
print(s[s >= 7].sum())
print((s >= 7).sum())

* **Series 값 변경**
  - 인덱스를 이용하여 변경  


In [None]:
s = pd.Series([1, 10, 100], index = ['a', 'b', 'c'])

s['d'] = 1000
print(s)

s['d'] = 10000
print(s)

In [None]:
del s['a']
print(s)

* **Slicing**
 - 리스트, ndarray와 동일하게 적용

In [None]:
s.value_counts()

In [None]:
s = pd.Series(np.arange(100, 110), index=np.arange(10, 20))
print(s[0:5], '\n')
print(s[:5], '\n')
print(s[5:], '\n')
print(s[-3:], '\n')

* **DataFrame**
  - Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼
  - Excel spreadsheet이라고 생각하면 이해하기 쉬움
  - 2차원이기 때문에 인덱스가 row, column로 구성됨
  - Data Analysis, Machine Learning에서 data 변형을 위해 가장 많이 사용

In [None]:
df = pd.DataFrame(np.array([[10, 11], [20, 22]]))
print(df)

In [None]:
df = pd.DataFrame(np.array([2, 1, 2, 3]))
print(df)

type(df)

* **shape**
 - row, column

In [None]:
df1 = pd.DataFrame([pd.Series(np.arange(10, 15)) ,
                pd.Series(np.arange(20, 25)),             
                pd.Series(np.arange(20, 25))])
print(df1, '\n')
print(df1.shape) # dataframe의 경우 항상 크기가 2인 튜플

* ** dataframe 살펴보기**
 - shape           : row, column 개수 확인
 - head(), tail()  : 데이터 확인
 - describe()      : 각 column별 간략한 통계정보 
 - info()          : 각 column별 타입 정보

In [None]:
df.shape

In [None]:
len(df) # row 갯수

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
df.info()

* **column 초기화**
 - Series의 경우 1차원 타입이기 때문에 index만 존재
 - Dataframe의 경우, index와 column을 모두 명시

In [None]:
df = pd.DataFrame(np.array([[10, 20], [20, 30]]), 
                  columns = ['Age', 'Height'], index = ['d1', 'd2'])
print(df)
df.index, df.columns

In [None]:
df = pd.DataFrame(np.array([[10, 20], [20, 30]]), 
                  columns = ['a', 'b'])
print(df.columns)
print(df, '\n')

df.columns = ['t1', 't2']
print(df)

* **Series dictionary로 부터 생성**

In [None]:
s1 = pd.Series(np.arange(1, 6, 1))
s2 = pd.Series(np.arange(6, 11, 1))
df = pd.DataFrame({'c1': s1, 'c2': s2})

print(df)

* **csv 데이터로 부터 dataframe 생성**
  - 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
  - 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성

* 각 제품별 가격에 관한 정보 데이터

In [2]:
sample_file = 'data/sample.csv'

In [3]:
sample_df = pd.read_csv(sample_file)
sample_df.head()

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,177.12,2.53,22.77,7.78,19.34,134.0,177.79,107.43,8.57,3.52,9.04,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,41.89,2.55,25.79,1.62,14.1,36.0,51.74,61.54,4.4,2.98,2.93,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie,Health Care,64.16,3.6,19.29,3.33,2.87,45.45,71.6,103.77,10.3,4.31,22.09,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ACN,Accenture plc,Information Technology,115.11,1.94,19.45,5.92,11.45,88.43,120.78,71.66,5.42,2.17,9.84,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ATVI,Activision Blizzard,Information Technology,41.29,0.64,37.06,1.11,11.31,24.04,41.32,30.48,1.59,6.16,3.57,http://www.sec.gov/cgi-bin/browse-edgar?action...


In [None]:
sample_df.info()

In [None]:
sample_df = pd.read_csv(sample_file, usecols = [0, 1, 2, 3, 7])
sample_df.head()

In [None]:
sample_df = pd.read_csv(sample_file, index_col = 'Symbol', 
                        usecols = [0, 1, 2, 3, 7])
sample_df.head()

In [None]:
sample_df = pd.read_csv(sample_file, index_col = 'Symbol', 
                        usecols=['Name', 'Symbol', 'Price'])
sample_df.head()

* **dataframe slicing**
  - dataframe의 경우 기본적으로 [] 연산자가 **column 선택**에 사용
  - 따라서 [0], ['some val'] 과 같이 하면 column 레벨의 데이터 추출
  - 하지만, 유일하게 slicing은 row 레벨로 지원

In [None]:
apple_df = pd.read_csv('data/apple.csv')
apple_df.head()

In [None]:
# header = None으로 .csv 파일의 header가 없다는 것을 명시
apple_df = pd.read_csv('data/apple.csv', header = None)
apple_df.head()

In [None]:
apple_df['Open']

In [None]:
apple_df[:6]

In [None]:
apple_df[3:7]

* **연습문제** 
 - 아래 코드의 결과는?

In [None]:
apple_df[0]

In [None]:
apple_df[[1, 2]]

In [None]:
apple_df['Date'], apple_df['Open']

* **column 선택하기**
  - 기본적으로 **[ ]는 column을 추출 **
  - 컬럼 이름일 경우 이름만 사용 가능
  - 컬럼 인덱스일 경우 인덱스의 리스트 사용 가능

In [None]:
# 숫자 인덱스로 컬럼 셀렉션 확인 할 것 
apple_df[['Date', 'Close', 'Volume']] # 인덱스로도 가능

In [None]:
print(type(apple_df[['Date']]))
print(type(apple_df[['Date', 'Close']]))
print(type(apple_df['Date']))

* **row 선택하기**
  - Seires의 경우 []로 row 선택이 가능하나, **DataFrame의 경우는 기본적으로 column을 선택하도록 설계**
  - [:10]과 같이 slicing의 경우에는 row 선택 가능
  - **.loc, .iloc함수**로 row 선택 가능

In [None]:
sample_df = pd.read_csv('data/sample.csv', index_col='Symbol')
sample_df.head()

In [None]:
# slicing을 사용하면 row선택
print(sample_df[1:10])

In [None]:
print(sample_df.loc['ABT'])

In [None]:
sample_df.iloc[0]

In [None]:
sample_df.loc[['MMM', 'MSFT']][['Name', 'Price']]

In [None]:
print(sample_df.iloc[[0, 1, 2]])
print(type(sample_df.iloc[[0, 1, 2]]))

print()

print(sample_df.iloc[0]) 
print(type(sample_df.iloc[0]))

* **boolean selection으로 row 선택하기**

In [None]:
print(sample_df['Price'] > 100)

In [None]:
sample_df[(sample_df['Price'] > 100) & (sample_df['EBITDA'] > 5)]

In [None]:
# selection 결과에 다시 column선택하기
sample_df[sample_df['Price'] > 100][['Name', 'Price']]

* **새 column 추가하기**

In [None]:
# 새로운 dataframe 생성
copy = sample_df.copy()
copy.head()

In [None]:
# 새로 생성된 프레임에 새로운 컬럼 추가 (기존 컬럼 이용)
copy['TwicePrice'] = copy['Price'] * 2
copy.head()

In [None]:
copy['ratio'] = copy['Price'] / copy['Book Value']
copy.head()

In [None]:
# insert 함수를 이용하여 원하는 컬럼 위치에 삽입 가능
copy.insert(1, 'TriplePrice', sample_df['Price'] * 3)
copy.head()

 * **column 삭제하기**

In [None]:
# del 키워드로 삭제
del copy['TriplePrice']
copy.head()

 * **row 추가/삭제하기**

In [None]:
df1 = copy.iloc[0:3].copy()
print(df1)

# append 함수 사용
copy = copy.append(df1)
print(copy.tail())

In [None]:
# drop 함수를 사용하여 해당 row 제거
copy = copy.drop(['ABBV'])
copy.tail()