# 파이썬 기초
## 데이터 사이언스 스쿨(https://datascienceschool.net) 을 기초로 합니다.

### 난수 발생과 카운팅
* 난수 (random number)
   * numpy.random 패키지 활용
   * SEED 설정
      * 컴퓨터 알고리즘을 설정을 활용한 난수 설정
      
 -------

In [1]:
import numpy as np

* SEED 설정 : np.random.seed
* 0-1 사이 난수 생성 : np.random.rand

In [2]:
np.random.seed(0)

In [3]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [4]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [5]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

In [6]:
np.random.seed(0)

In [7]:
np.random.rand(10)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [8]:
np.random.rand(10) # 같음

array([0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606,
       0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215])

### 데이터의 순서 바꾸기
* shuffle

In [9]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.random.shuffle(x)
x

array([7, 6, 9, 4, 5, 8, 1, 0, 3, 2])

### 데이터 샘플링
![image.png](attachment:image.png)
* choice

In [11]:
np.random.choice(x,len(x),replace=False) # shuffle과 

array([4, 1, 5, 8, 9, 2, 0, 3, 6, 7])

In [12]:
np.random.choice(5,3,replace=False) # 5 = arange(5)

array([1, 4, 0])

In [13]:
np.random.choice(5, 10) # 반복 추출

array([0, 0, 4, 0, 4, 1, 4, 1, 2, 2])

In [14]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 석택 확률 = 확률은 합해서 1이 나와야 함

array([3, 3, 0, 3, 3, 2, 2, 3, 3, 2], dtype=int64)

### 난수 생성
* rand : 0-1 균일 분포
* randn : Gaussian 분포
* randint : 균일 분포 & 정수 난수

In [15]:
np.random.rand(3, 5) # shape(3, 5)

array([[0.03842543, 0.63427406, 0.95894927, 0.65279032, 0.63505887],
       [0.99529957, 0.58185033, 0.41436859, 0.4746975 , 0.6235101 ],
       [0.33800761, 0.67475232, 0.31720174, 0.77834548, 0.94957105]])

In [16]:
np.random.rand(3, 5).shape

(3, 5)

In [17]:
np.random.randn(3, 5)

array([[ 0.33053441, -1.43582841,  0.02752832,  1.12060466, -0.22403878],
       [-0.42018339,  0.99982969,  0.43103415, -0.65091287, -1.49874039],
       [-1.23063497,  0.19400719, -0.99838235, -0.3676376 ,  1.73719932]])

* randint : 균일분포 & 정수
![image.png](attachment:image.png)

In [18]:
np.random.randint(10, size=10)

array([0, 8, 8, 3, 8, 2, 8, 4, 3, 0])

In [19]:
np.random.randint(10, 20, size=10)

array([14, 13, 16, 19, 18, 10, 18, 15, 19, 10])

### 정수 데이터 카운팅
* np.unique & np.bincount
* numpy 명령어 / random 패키지 x 
    * unique : 중복값 제거 후 리스트 출력 = R 언어
       * return_counts : 인수=True, 각 값의 갯수도 출력      

In [20]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [21]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [22]:
print(index)
print(count)

['a' 'b' 'c']
[2 2 1]


* unique는 데이터 없을 경우 값을 0 으로 카운팅 X
* bincount : 0 ~ (minlength-1) 까지의 범위로 카운팅

In [23]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6) # 0 ~ 5

array([0, 2, 3, 1, 0, 0], dtype=int64)