### Lecture48 Mar/16/2020

# 분석용 DataSet 만들기

## 데이터 구조 - 수집 - 입출력 - 전처리 - 통계적 탐색 - 시각화 - 응용


- 데이터 구조 : 데이터 구조에 대한 이해 / 자료구조, 인덱스, 행렬 다루기, 연산

- 입출력 : 데이터 생성, 파일 데이터, RDMBS, Web Crawling, Open API / Internal Data Building, CSV, Excel, JSON, Web Scrapping, Open API
  
  * 데이터 수집의 기준 : 과제의 목적이 가장 중요

- 전처리 : 생성, 행렬 선택, 추가, 변환, 연산처리, Numpy, Pandas, Scikit-learn / 분석용 data set을 위한 전처리

  * python에는 array 없고 list, Numpy에서 array 기능 제공

- 통계적 탐색 : 기술통계분석, 가설과 검증, 상관분석, 분산분석, PCA, 변수중요도(RF) / 통계적 접근을 통한 데이터 특징 파악, 중요 변수 및 파생변수 도출, 모델링 진행 방안 연계

  * 표준 편차가 좁은 집단이 분석에 용이; outlier 의 평균 왜곡 문제

- 시각화 : Matplotlib, Seaborn / 시각적 탐색을 통한 데이터 특징, 중요 변수 및 파생변수 도출


# Python의 외장 `random`과 Numpy의 `np.random`

## Python 외장 `random`

In [1]:
import random
print ('0 ~ 1 사이 float\t', random.random())
print ('1 ~ 10 사이 integer\t', random.randint(1, 10))
print ('10 ~ 20 사이 float\t', random.uniform(10, 20))
print ('0 ~ 10사이 integer\t', random.randrange(10))
print ('list 내부에서 randomly choice\t', random.choice([1,2,3,4,5]))

0 ~ 1 사이 float	 0.26052110974799103
1 ~ 10 사이 integer	 4
10 ~ 20 사이 float	 14.261449409677883
0 ~ 10사이 integer	 5
list 내부에서 randomly choice	 4


In [2]:
list = [1,2,3,4,5]
random.shuffle(list)
print (list)

[3, 4, 5, 2, 1]


In [3]:
print ('list 중 k개 선택', random.sample([1,2,3,4,5], k=2))

list 중 k개 선택 [2, 4]


## Numpy의 `np.random`

Numpy의 random 서브패키지에는 난수 생성하는 다양한 명령 제공

- rand : 0~1까지 균일 분포
- randn : 가우시안 표준 정규 분포, 평균 = 0 , 표준편차 = 1
- randint : 균일 분포의 정규 난수

In [4]:
import numpy as np

print ('seed를 통한 난수 생성\t', np.random.seed)
print ('균일분포의 정수 난수 1개 생성\t', np.random.randint)
print ('0~1 사이 균일분포에서 난수 matrix array 생성\t', np.random.rand)
print ('가우시안 표준 정규 분포에서 난수 matrix array\t', np.random.randn)
print ('기존 데이터의 순서 바꾸기\t', np.random.shuffle)
print ('기존 데이터에서 sampling\t', np.random.choice)
print ('', np.random.uniform)

print ('다차원 array 형태로 정규분포로부터 무작위 샘플 생성\t', np.random.normal(size=(2,3,4)))
print ('head 또는 tail이 n=1 나올 확률이 각 50%인 동전 던지기를 20번\t', np.random.binomial(n=1, p=0.5, size=20))

print ('중복되지 않은 값의 리스트 출력\t', np.unique)
print ('발생하지 않은 사건에 대해서도 카운트\t', np.bincount)

seed를 통한 난수 생성	 <built-in method seed of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
균일분포의 정수 난수 1개 생성	 <built-in method randint of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
0~1 사이 균일분포에서 난수 matrix array 생성	 <built-in method rand of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
가우시안 표준 정규 분포에서 난수 matrix array	 <built-in method randn of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
기존 데이터의 순서 바꾸기	 <built-in method shuffle of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
기존 데이터에서 sampling	 <built-in method choice of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
 <built-in method uniform of numpy.random.mtrand.RandomState object at 0x7f3798d19888>
다차원 array 형태로 정규분포로부터 무작위 샘플 생성	 [[[ 0.90843449 -0.10093245 -0.89307565 -0.13747437]
  [ 1.38950019  0.54561366 -0.2527389  -2.23388092]
  [-1.00433867  1.08661374  1.32401387 -1.02617236]]

 [[ 0.42618818  1.88106954  0.60552292 -0.47003406]
  [-1.6187108  -0.4207404 

In [5]:
# random.seed 를 통해 rand의 값이 일정하게 나오도록 고정
np.random.seed(0)
print (np.random.rand(5))
print (np.random.rand(3, 2))
print (np.random.randn(3, 2))

[0.5488135  0.71518937 0.60276338 0.54488318 0.4236548 ]
[[0.64589411 0.43758721]
 [0.891773   0.96366276]
 [0.38344152 0.79172504]]
[[ 2.54520078  1.08081191]
 [ 0.48431215  0.57914048]
 [-0.18158257  1.41020463]]


### Syntax : `numpy.random.randint (low, high=None, size=None)`

In [6]:
print ('0~5 : ', np.random.randint(6))
print ('1~19 : ', np.random.randint(1, 20))
print (np.random.randint(10, size=10))
print (np.random.randint(10, 20, size=10))
print (np.random.randint(10, 20, size=(3,5)))

0~5 :  3
1~19 :  15
[7 0 1 9 9 0 4 7 3 2]
[17 12 10 10 14 15 15 16 18 14]
[[11 14 19 18 11]
 [11 17 19 19 13]
 [16 17 12 10 13]]


In [7]:
print (np.random.rand(0))

[]


In [8]:
# 5 이하, 정수 5개, choice 방식과 shuffle 방식 비교
print (np.random.choice(5,5,replace=False))

list = [1,2,3,4,5]
np.random.shuffle(list)
print (list)

[3 0 2 1 4]
[2, 5, 3, 1, 4]


In [9]:
a = np.array([11,11,2,2,34,34,2,11])
index, count = np.unique(a, return_counts=True)
# unique한 elements만 출력
print (index)
# unique elements의 개수 출력
print (count)

[ 2 11 34]
[3 3 2]


In [10]:
# 0부터 (minlength-1)까지 숫자에 대해 각각 카운트
print (np.bincount([1,1,2,2,2,3], minlength=6))

[0 2 3 1 0 0]


In [11]:
# 1.0~2.0 사이 숫자 3개 반환
print (np.random.uniform(1.0,2.0,3))

[1.65279032 1.63505887 1.99529957]


In [12]:
mt1 = np.random.uniform(0.0, 1.0, (2,3))
mt2 = np.random.random_sample((2,3))
print (mt1)
print (mt2)

[[0.58185033 0.41436859 0.4746975 ]
 [0.6235101  0.33800761 0.67475232]]
[[0.31720174 0.77834548 0.94957105]
 [0.66252687 0.01357164 0.6228461 ]]


In [13]:
import pandas as pd
np.random.seed(0)
index = [np.arange(5)]
print (index,'\n')
columns = ['A','B','C','D','E']
df = pd.DataFrame(np.arange(25).reshape(5,5), index, columns=columns)
print (df)

[array([0, 1, 2, 3, 4])] 

    A   B   C   D   E
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24


## 모의 dataset 만들기 : 
### 선형 회귀 `make_regression`

나중에 다시 하는 부분

https://scikit-learn.org/stable/

In [0]:
# # from sklearn.datasets import make_regression
# features, target, coefficients = make_regression(n_samples = 100,
#                                                  n_features = 3,
#                                                  n_informative = 3,
#                                                  n_redundant = 0,
#                                                  n_classes = 2,
#                                                  weights = [.25,.75]
#                                                  ....)


### 군집 `make_blobs`

## Sample data set 생성하기

In [17]:
a = np.arange(10)+1
sr_a = pd.Series(a, name='ID')
b = np.random.randint(1,10,size=10)
sr_b = pd.Series(b,name='Prod')
c = np.random.rand(10)*1000
sr_c = pd.Series(c,name='Price')
df = pd.concat([sr_a, sr_b, sr_c], axis=1)
print (df)

   ID  Prod       Price
0   1     4  216.550354
1   2     8  135.218173
2   3     1  324.141008
3   4     2  149.674867
4   5     1  222.321388
5   6     5  386.488981
6   7     8  902.598476
7   8     4  449.949990
8   9     3  613.063458
9  10     8  902.348583


### 고객 구매데이터 sample 생성하기

id, 성별, 연령, 지역, 상품, 가격, 구매시간

In [15]:
import numpy as np
import pandas as pd

np.random.seed(0)
ids = np.arange(1, 21)
print (ids)
gen = pd.DataFrame([np.random.randint(0, 2) for i in range(20)])
print (gen)
loca = pd.DataFrame(np.random.randint(10, 30, size = 20))
print (loca)


[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
    0
0   0
1   1
2   1
3   0
4   1
5   1
6   1
7   1
8   1
9   1
10  1
11  0
12  0
13  1
14  0
15  0
16  0
17  0
18  0
19  1
     0
0   16
1   17
2   24
3   27
4   15
5   23
6   18
7   19
8   29
9   26
10  29
11  15
12  25
13  25
14  10
15  28
16  13
17  27
18  29
19  29
