# 난수 생성 함수

In [1]:
import numpy as np

In [2]:
a = np.random.rand(2, 2) # 0 ~ 1 사이의 값 랜덤
print(a)

[[0.29683843 0.92386619]
 [0.92822779 0.98519301]]


In [6]:
b = np.random.randn(2, 2) # 평균이 0, 분산이 1 : 표준 정규 분포
print(b)

[[-0.97427205 -0.91975207]
 [ 0.43358752  0.96414324]]


In [8]:
c = np.random.randint(0, 10, size = 5)
print(c)

[2 7 3 2 6]


In [33]:
c2 = np.random.randint(0, 10, size = (5, 5)) # 랜덤한 정수값 생성
print(c2)

[[1 4 8 1 7]
 [6 5 5 3 9]
 [1 8 6 4 0]
 [4 8 0 2 5]
 [0 9 7 2 1]]


In [39]:
d = np.arange(10)
np.random.shuffle(d) # 복사본 생성 X 원본 값이 변함

print(d)

[9 6 5 2 7 0 4 3 1 8]


In [38]:
d = np.arange(10)

print(d)

[0 1 2 3 4 5 6 7 8 9]


In [41]:
# 중복을 허용
choice = np.random.choice(d, 5)

print(choice)

[7 9 4 8 4]


In [42]:
# 중복을 허용 하지 않음
choice = np.random.choice(d, 5, replace = False)

print(choice)

[1 5 0 7 4]


In [84]:
# 각 값이 나올 확률 지정
e = np.arange(5)

choice = np.random.choice(e, 2, p = [0.3, 0.1, 0.1, 0.4, 0.1])

print(choice)

[0 2]


In [66]:
# permutation 순열
a = np.arange(10)
a_p = np.random.permutation(a)

print('a', a)
print('a_p', a_p)

a [0 1 2 3 4 5 6 7 8 9]
a_p [9 5 3 8 0 4 2 6 7 1]


In [62]:
# 정규분포를 따르는 난수 생성
# a = np.random.normal('평균', '표준편차', '갯수')
a = np.random.normal(0, 1, 3)
print(a)

[ 0.38691751 -0.24315726 -0.82505654]


# 판다스(Pandas)

- 데이터 자체를 분석, 파악
- 표 
- 데이터 다루는데 초점
- 정렬, 필터링, 그룹화, 집계


- 데이터 로딩 및 저장
- 데이터 인덱싱 및 슬라이싱
- 결측치 처리
- 데이터 변환
- 데이터 집계 및 그룹화
---
- 시계열 데이터 처리
- 데이터 시각화

## 1. Series(시리즈)

- 인덱스를 지정할 수 있음


In [88]:
import pandas as pd

In [93]:
s = pd.Series([1, 2, 3, 4]) # 리스트
print(s)

0    1
1    2
2    3
3    4
dtype: int64


In [94]:
s2 = pd.Series({'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}) # 딕셔너리
print(s2)

a    1
b    2
c    3
d    4
dtype: int64


In [96]:
s3 = pd.Series(5, index = [0, 2, 4]) # 스칼라
print(s3)

0    5
2    5
4    5
dtype: int64


In [97]:
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
series = pd.Series(data, index = index)
print(series)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [98]:
s = pd.Series(data)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [103]:
series[:4]

a    1
b    2
c    3
d    4
dtype: int64

#### Boolean Indexing

In [104]:
print(series[series < 2]) # a[a조건]

a    1
dtype: int64


In [106]:
# 5보다 작은 시리즈 만들기

print(series[series < 5])

a    1
b    2
c    3
d    4
dtype: int64


#### Series 산술연산

In [108]:
print(series + 100)
print(series - 100)
# 곱하기: *, 제곱 : **, 나누기 : /, 나머지 : %, 몫 : //
print(series * 100)
print(series ** 2)
print(series / 2)
print(series % 2)
print(series //2)

a    101
b    102
c    103
d    104
e    105
dtype: int64
a   -99
b   -98
c   -97
d   -96
e   -95
dtype: int64
a    100
b    200
c    300
d    400
e    500
dtype: int64
a     1
b     4
c     9
d    16
e    25
dtype: int64
a    0.5
b    1.0
c    1.5
d    2.0
e    2.5
dtype: float64
a    1
b    0
c    1
d    0
e    1
dtype: int64
a    0
b    1
c    1
d    2
e    2
dtype: int64


## Series 객체에 접근
- keys -> index
- values

In [109]:
print(series.keys)

<bound method Series.keys of a    1
b    2
c    3
d    4
e    5
dtype: int64>


In [110]:
print(series.values)

[1 2 3 4 5]


In [111]:
series.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [112]:
print(series.keys())

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [113]:
# items

print(series.items()) # zip ->순회가 가능, 쌍으로 이루어짐


<zip object at 0x7f3efabc88c0>


In [116]:
for index, value in series.items():
    print(f'인덱스 : {index}, 데이터 {value}')

인덱스 : a, 데이터 1
인덱스 : b, 데이터 2
인덱스 : c, 데이터 3
인덱스 : d, 데이터 4
인덱스 : e, 데이터 5


In [117]:
series[0]

1

In [126]:
series.values[0]

1

In [119]:
s = pd.Series([10, 20, 30, 40], index = ['a', 'b', 'c', 'd'])

In [120]:
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [123]:
print(s.loc['b']) # loc : 행에 접근 -> 레이블(특정 인덱스)에 접근하기 위해서

print(s.loc['b':'d']) 

20
b    20
c    30
d    40
dtype: int64


In [127]:
print(s.iloc[1]) # (행에 기반한 : )열에 접근

20


In [129]:
print(s.iloc[1:4])

b    20
c    30
d    40
dtype: int64


In [130]:
print(s.at['a']) # at loc 비슷. 하나의 값만 가져올 때

10


In [132]:
print(s.iat[0])  # at에 기반

10


In [135]:
print(s.get('e'))  # 없는 값에 대한 처리 방법 / 에러가 나지 않고 없다는 걸 알려줌

None


In [137]:
print(s.get('e', default = -1))

-1


## 결측값 (Nan, None)

- isna()
- isnull()

Nan(Not a number) -> float
None -> none

In [138]:
data = [1, 2, 3,  None]

print(np.array(data))

[1 2 3 None]


In [139]:
print(pd.Series(data))

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


In [142]:
s = pd.Series(data) # isna(), isnull()

print(s.isna())

0    False
1    False
2    False
3     True
dtype: bool


In [143]:
print(s.isnull())

0    False
1    False
2    False
3     True
dtype: bool


In [144]:
print(s.notnull().sum())

3


결측치 제거

In [145]:
s.dropna()

0    1.0
1    2.0
2    3.0
dtype: float64

결측치를 0으로 치환

In [147]:
s.fillna(0)

0    1.0
1    2.0
2    3.0
3    0.0
dtype: float64

## Series 함수

In [150]:
s = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13])

In [151]:
s.count() # 카운트 함수

13

In [153]:
s.min() # 최소값

1

In [154]:
s.max() # 최대값

13

In [155]:
print(s.mean())
print(s.median())
print(s.std())
print(s.var())

7.0
7.0
3.8944404818493075
15.166666666666666


In [156]:
s.describe() # 기초 통계 내용

count    13.00000
mean      7.00000
std       3.89444
min       1.00000
25%       4.00000
50%       7.00000
75%      10.00000
max      13.00000
dtype: float64