In [113]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt

In [114]:
# 데이터 재구조화 함수: pivot -> pivot table, stack, unstack, melt, crosstab 등,
# crosstab: 요인별로 교차분석 -> 행, 열 요인 기준 별로 빈도수 -> 도수분포표 / 교차표 생성

In [115]:
data = pd.DataFrame({
    'id':['id1','id1','id1','id2','id2','id3'],
    'f1':['a','a','a','b','b','b'],
    'f2':['d','d','d','c','c','d']
})
data

Unnamed: 0,id,f1,f2
0,id1,a,d
1,id1,a,d
2,id1,a,d
3,id2,b,c
4,id2,b,c
5,id3,b,d


In [116]:
pd.crosstab(data.f1,data.f2)

f2,c,d
f1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0,3
b,2,1


In [117]:
pd.crosstab(data.id,data.f1)

f1,a,b
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id1,3,0
id2,0,2
id3,0,1


In [118]:
# 다중 인덱스, 다중 레벨 교차표 생성
pd.crosstab(data.id,[data.f1,data.f2])

f1,a,b,b
f2,d,c,d
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,3,0,0
id2,0,2,0
id3,0,0,1


In [119]:
pd.crosstab(data.id,[data.f1,data.f2],rownames=['id_num'], colnames = ['col1','col2'])

col1,a,b,b
col2,d,c,d
id_num,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,3,0,0
id2,0,2,0
id3,0,0,1


In [120]:
pd.crosstab(data.id,[data.f1,data.f2],margins=True)

f1,a,b,b,All
f2,d,c,d,Unnamed: 4_level_1
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id1,3,0,0,3
id2,0,2,0,2
id3,0,0,1,1
All,3,2,1,6


In [121]:
# 구성비율
pd.crosstab(data.id,[data.f1,data.f2],normalize=True)

f1,a,b,b
f2,d,c,d
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,0.5,0.0,0.0
id2,0.0,0.333333,0.0
id3,0.0,0.0,0.166667


In [122]:
seri = pd.Series([0,1,2,3,4])
seri

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [123]:
# seri의 평균보다 크거나 같은 값 추출
seri[seri>=seri.mean()]

2    2
3    3
4    4
dtype: int64

In [124]:
df = pd.DataFrame({
    'c1':[0,1,2,3],
    'c2':[4,5,6,7],
    'c3':[8,9,10,np.nan]},
    index = ['r1','r2','r3','r4']
)
df

Unnamed: 0,c1,c2,c3
r1,0,4,8.0
r2,1,5,9.0
r3,2,6,10.0
r4,3,7,


In [125]:
# df에서 r1과 r3를 추출하여 새로운 데이터 프레임 생성
df_r1r3 = pd.DataFrame(df, index=['r1','r3'])

In [126]:
# df에서 c1과 c3를 추출하여 새로운 데이터 프레임 생성
df_c1c3 = pd.DataFrame(df, columns=['c1','c3'])

In [127]:
# df에서 행: r1,r3, 열: c1,c3 추출 -> 데이터프레임 생성
pd.DataFrame(df, index=['r1','r3'],columns = ['c1','c3'])

Unnamed: 0,c1,c3
r1,0,8.0
r3,2,10.0


In [128]:
# df에 c4열 추가 = c1 * c2
df['c4'] = df['c1']*df['c2']
df['c4']

r1     0
r2     5
r3    12
r4    21
Name: c4, dtype: int64

In [129]:
df = df.assign(c5 = df['c1']*df['c2'])


In [130]:
df.assign(c6=lambda x: x.c1*x.c2)

Unnamed: 0,c1,c2,c3,c4,c5,c6
r1,0,4,8.0,0,0,0
r2,1,5,9.0,5,5,5
r3,2,6,10.0,12,12,12
r4,3,7,,21,21,21


In [131]:
# drop(), del: 데이터프레임 컬럼 제거
# drop(): 원본 데이터에서는 제거가 안됨.
# del: 원본 데이터에서 제거됨.
df45 = df.drop(['c4','c5'],axis = 1)
df45

Unnamed: 0,c1,c2,c3
r1,0,4,8.0
r2,1,5,9.0
r3,2,6,10.0
r4,3,7,


In [132]:
df

Unnamed: 0,c1,c2,c3,c4,c5
r1,0,4,8.0,0,0
r2,1,5,9.0,5,5
r3,2,6,10.0,12,12
r4,3,7,,21,21


In [133]:
del df['c4'] # 원본 데이터프레임에서 컬럼 제거
df

Unnamed: 0,c1,c2,c3,c5
r1,0,4,8.0,0
r2,1,5,9.0,5
r3,2,6,10.0,12
r4,3,7,,21


In [134]:
# df에서 c2열의 값이 5보다 크거나 같은 모든 데이터 추출
df[df['c2']>=5]

Unnamed: 0,c1,c2,c3,c5
r2,1,5,9.0,5
r3,2,6,10.0,12
r4,3,7,,21


In [135]:
arr1 = np.array([1,2,3,4,5])
arr1

array([1, 2, 3, 4, 5])

In [136]:
arr1.dtype
arr1.shape

(5,)

In [137]:
a = np.asarray([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [138]:
# array / asarray 
# 공통점: 배열을 만든다
# 다른점: asarray는 기존에 메모리에 array가 있다면 새로 생성하지 않고, 기존 메모리에 있는 array 사용.
a = [1,2,3]
a = np.array(a)
print(type(a))
b = [1,2,3]
b = np.array(b)
print(type(b))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [139]:
'''
딥러닝 프레임웍?
딥러닝? 인공신경망(머신러닝)을 여러 계층(deep)으로 쌓아 머신러닝 학습을 수행하는 방법
프레임웍? 응용프로그램을 개발하기 위한 라이브러리(모듈)를 효율적으로 사용할 수 있도록
하나로 묶어놓은 일종의 패키지
딥러닝 프레임웍?딥러닝을 위한 프레임웍, 검증된 다수의 라이브러리와 
pre-trained(사전 학습) 완료된 딥러닝 알고리즘을 제공 -> 개발자가 빠르고 쉽게 사용할 수 있음

머신러닝 종류?
1.theano:인기가 없음, 범용적으로 쓰이긴 함, 수치 연산이 강함
2.tensorflow(텐서플로):가장 인기가 있음. 2015년~, 속도가 느림, c/c++제작
3.keras(케라스): 쉽게(Sequential(조립식 건물 건축도) 모델 제작, 직접 모델(개인 시공) 제작하는 경우에는 어려움 있음.
4.Torch(토치): 루아(Lua) 언어를 기반으로 만든 프레임웍, 모델 제작 쉽다
=> 강화 학습(자율주행차, 로버어드바이저)을 위한 라이브러리 제공...
5.DL4J:(딥러닝 for Java): 자바로 딥러닝 프레임웍 지원
'''

'\n딥러닝 프레임웍?\n딥러닝? 인공신경망(머신러닝)을 여러 계층(deep)으로 쌓아 머신러닝 학습을 수행하는 방법\n프레임웍? 응용프로그램을 개발하기 위한 라이브러리(모듈)를 효율적으로 사용할 수 있도록\n하나로 묶어놓은 일종의 패키지\n딥러닝 프레임웍?딥러닝을 위한 프레임웍, 검증된 다수의 라이브러리와 \npre-trained(사전 학습) 완료된 딥러닝 알고리즘을 제공 -> 개발자가 빠르고 쉽게 사용할 수 있음\n\n머신러닝 종류?\n1.theano:인기가 없음, 범용적으로 쓰이긴 함, 수치 연산이 강함\n2.tensorflow(텐서플로):가장 인기가 있음. 2015년~, 속도가 느림, c/c++제작\n3.keras(케라스): 쉽게(Sequential(조립식 건물 건축도) 모델 제작, 직접 모델(개인 시공) 제작하는 경우에는 어려움 있음.\n4.Torch(토치): 루아(Lua) 언어를 기반으로 만든 프레임웍, 모델 제작 쉽다\n=> 강화 학습(자율주행차, 로버어드바이저)을 위한 라이브러리 제공...\n5.DL4J:(딥러닝 for Java): 자바로 딥러닝 프레임웍 지원\n'

In [140]:
x = np.array([0.000000001, 1, 2, 4 ,10, 100]) 

In [141]:
# np.exp -> e의 x승으로 변환!
np.exp(x)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 5.45981500e+01,
       2.20264658e+04, 2.68811714e+43])

In [142]:
# 로그 밑이 e인 log
np.log(x)

array([-20.72326584,   0.        ,   0.69314718,   1.38629436,
         2.30258509,   4.60517019])

In [143]:
# 로그 함수 밑이 10
np.log10(x)

array([-9.        ,  0.        ,  0.30103   ,  0.60205999,  1.        ,
        2.        ])

In [144]:
# 지수함수, 로그함수
# cost function / soft max,
# 정규분포로 변환(로그변환)

# 로그변환: 오른쪽으로 크게 치우쳐진 멱함수 분포들 -> 정규분포로 변환
# 멱함수(power law): 한 수가 다른 수의 거듭제곱으로 표현되는 두 수의 함수적 관계

# 음성 쪽(주파수) -> 삼각함수!! sin, 함수 내적에서 cos함수 , 푸리에 변환-> cos 유사도를 통해 가장 유사한 결과물 선정.
# degree: 원을 360도로 변환
# radian: 부채꼴 호의 길이와 반지름의 길이가 같을때 각도 1radian
#         180/pi = 1 radian        / 1degree = pi radian / 180

In [145]:
np.sin(np.array((0,30,45,60,90))*np.pi/180)

array([0.        , 0.5       , 0.70710678, 0.8660254 , 1.        ])

In [146]:
x=np.arange(0,2*np.pi)
x

array([0., 1., 2., 3., 4., 5., 6.])

In [147]:
y=np.sin(x)

In [148]:
plt.plot(x,y)

AttributeError: module 'matplotlib' has no attribute 'plot'

In [None]:
'''
삼각함수의 역함수
1/sin = csc
1/cos = sec
1/tan = cot
'''

In [149]:
x = np.array([-100,1,4])
np.abs(x)

array([100,   1,   4])

In [151]:
np.fabs(x) # Faster than abs(x)

array([100.,   1.,   4.])

In [155]:
# mod # 7을 4로 나눈 나머지
np.mod(7,4)
7%4

3

In [156]:
x = np.array([3.5,7.8,-10,1])

In [159]:
np.modf(x) # 나머지 부분, 정수부분 구분.

(array([ 0.5,  0.8, -0. ,  0. ]), array([  3.,   7., -10.,   1.]))

In [161]:
# 양수:1, 음수: -1, 0: 0으로 출력!
np.sign(x)

array([ 1.,  1., -1.,  1.])

In [164]:
x=np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [168]:
np.ravel(x,order='c')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [169]:
np.ravel(x,order='f')

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

In [170]:
# 배열 연결
a = np.array([1,2,3])
b = np.array([4,5,6])

In [174]:
# 두 배열을 좌, 우로 연결
np.r_[a,b]
np.hstack([a,b])
np.concatenate((a,b)) # defalut: axis = 0

array([1, 2, 3, 4, 5, 6])

In [177]:
# 두 배열을 위 아래로 연결
np.r_[[a],[b]] # a, b [] 사용 -> 1차원 배열 -> 연결
np.vstack([a,b])


AttributeError: module 'numpy' has no attribute 'concatencate'

In [179]:
a = np.array([[0,1],[2,3]])
b = np.array([[1,2],[3,4]])

In [181]:
# 두 배열을 위 아래로 연결
np.concatenate((a,b),axis = 1)

array([[0, 1, 1, 2],
       [2, 3, 3, 4]])

In [182]:
np.c_[a,b]

array([[0, 1, 1, 2],
       [2, 3, 3, 4]])

In [183]:
a = np.array([1,2,3])
b = np.array([4,5,6])

In [185]:
# 두 1차원 배열이 컬럼으로 연결 -> 2차원 배열
np.c_[a,b]

array([[1, 4],
       [2, 5],
       [3, 6]])

In [188]:
a = np.array([[0,1],[2,3]])
b = np.array([[1,2],[3,4]])
np.concatenate((a,b),axis = 1)

array([[0, 1, 1, 2],
       [2, 3, 3, 4]])

In [189]:
# 정렬된 결과에 대한 복사본
x = np.array([4,2,6,3,9,5,10])
np.sort(x)
x

array([ 4,  2,  6,  3,  9,  5, 10])

In [190]:
# 원본 정렬
x.sort()
x

array([ 2,  3,  4,  5,  6,  9, 10])

In [193]:
# 배열을 거꾸로 정렬하는 방법
x = np.array([4,2,6,3,9,5,10])
np.sort(x)[::-1] # 큰 숫자부터 출력

array([10,  9,  6,  5,  4,  3,  2])

In [198]:
print(x)
np.argsort(x) # index 출력
x[np.argsort(x)] # 오름차순 출력

[ 4  2  6  3  9  5 10]


array([ 2,  3,  4,  5,  6,  9, 10])

In [201]:
np.argsort(-x) #역순
x[np.argsort(x)] # 내림차순 출력

array([ 2,  3,  4,  5,  6,  9, 10])

In [203]:
x=np.array([[2,1,6],
           [0,7,4],
          [5,3,2]])

In [204]:
np.sort(x)

array([[1, 2, 6],
       [0, 4, 7],
       [2, 3, 5]])

In [205]:
np.sort(x,axis=1)

array([[1, 2, 6],
       [0, 4, 7],
       [2, 3, 5]])

In [207]:
np.sort(x,axis=0) # columns 쪽으로 정렬!!

array([[0, 1, 2],
       [2, 3, 4],
       [5, 7, 6]])

In [209]:
np.sort(x, axis=0)[::-1] # columns 쪽으로 오름차순 정렬!

array([[5, 7, 6],
       [2, 3, 4],
       [0, 1, 2]])

In [None]:
# 데이터 프레임: 데이터프레임.sort_values()
# 튜플, 리스트: 리스트.sort(), sorted(리스트 or 튜플)