In [1]:
# 사이킷런에 내장 되어 있는 data를 적재
from sklearn import datasets

### skelarn.datasets 모듈 아래에 있는 함수들은 파이썬 딕셔너리와 유사한 Bunch 클래스 객체를 반환

In [4]:
# 숫자 데이터셋을 적재합니다.
digits = datasets.load_digits()
#print(digits)

In [6]:
# 특성 행렬을 만듭니다.
features = digits.data
#print(features[0])
# 첫 번째 샘플을 확인합니다.
features[0]

array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

In [7]:
# 타깃 벡터를 만듭니다.
target = digits.target
print(target)

[0 1 2 ... 8 9 8]


In [9]:
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

In [10]:
digits['DESCR'][:70]

'.. _digits_dataset:\n\nOptical recognition of handwritten digits dataset'

In [11]:
import numpy as np
X, y = datasets.load_digits(n_class =5, return_X_y =True)

print(np.unique(y))
### return_X_y 를 True 로 설정하면 Bunch 클래스 객체가 아닌 특성 X, 타킷 y로 반환 

[0 1 2 3 4]


### 모의 Dataset 만들기!

In [12]:
# 라이브러리를 임포트합니다. - 선형회귀에 사용할 데이터셋
from sklearn.datasets import make_regression

# 특성 행렬, 타깃 벡터, 정답 계수를 생성합니다.
features, target, coefficients = make_regression(n_samples = 100,
                                                 n_features = 3,
                                                 n_informative = 3,
                                                 n_targets = 1,
                                                 noise = 0.0,
                                                 coef = True,
                                                 random_state = 1)

# 특성 행렬과 타깃 벡터를 확인합니다.
print('특성 행렬\n', features[:3])
print('타깃 벡터\n', target[:3])

특성 행렬
 [[ 1.29322588 -0.61736206 -0.11044703]
 [-2.793085    0.36633201  1.93752881]
 [ 0.80186103 -0.18656977  0.0465673 ]]
타깃 벡터
 [-10.37865986  25.5124503   19.67705609]


In [13]:
# 라이브러리를 임포트합니다. - 분류
from sklearn.datasets import make_classification

# 특성 행렬과 타깃 벡터를 생성합니다.
# weights로 샘플 비율 조정
# n_informative : 타겟 벡터를 생성하는데 사용할 특성 수를 결정
features, target = make_classification(n_samples = 100,
                                       n_features = 3,
                                       n_informative = 3,
                                       n_redundant = 0,
                                       n_classes = 2,
                                       weights = [.25, .75],
                                       random_state = 1)

# 특성 행렬과 타깃 벡터를 확인합니다.
print('특성 행렬\n', features[:3])
print('타깃 벡터\n', target[:3])

특성 행렬
 [[ 1.06354768 -1.42632219  1.02163151]
 [ 0.23156977  1.49535261  0.33251578]
 [ 0.15972951  0.83533515 -0.40869554]]
타깃 벡터
 [1 0 0]


In [15]:
# 라이브러리를 임포트합니다. - 군집 알고리즘
from sklearn.datasets import make_blobs

# 특성 행렬과 타깃 벡터를 생성합니다.
features, target = make_blobs(n_samples = 100,
                              n_features = 2,
                              centers = 3,
                              cluster_std = 0.5,
                              shuffle = True,
                              random_state = 1)

# 특성 행렬과 타깃 벡터를 확인합니다.
print('특성 행렬\n', features[:3])
print('타깃 벡터\n', target[:3])

특성 행렬
 [[ -1.22685609   3.25572052]
 [ -9.57463218  -4.38310652]
 [-10.71976941  -4.20558148]]
타깃 벡터
 [0 1 1]


### csv 파일 적재하기 !

In [17]:
# 라이브러리를 임포트합니다.
import pandas as pd
url = 'https://tinyurl.com/simulated-data'
dataframe = pd.read_csv(url)
dataframe.head(2)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0


In [18]:
# 1~10번째 행을 건너 뛰고 한 행을 읽습니다.
# skiprows 를 활용하여 일부 row skip 가능, header 매개변수를 이용하여 컬럼명을 가져올지 안가져올지 정할 수 있음 
dataframe = pd.read_csv(url, skiprows=range(1, 11), nrows=1)
dataframe.head(2)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:10,0


In [19]:
dataframe = pd.read_csv(url, header = None, nrows=1)
dataframe.head(2)

Unnamed: 0,0,1,2
0,integer,datetime,category


### 엑셀 파일 적재

In [20]:
# sheet_name 매개 변수의 차이. sheet_name 매개 변수는 시트 이름 문자열이나 시트의 위치를 나타내는 정수를 모두 받을 수 있음 
# sheet_name =0 : 첫번쨰 시트 가져오기
import pandas as pd
url = 'https://tinyurl.com/simulated-excel'
dataframe = pd.read_excel(url, sheet_name=0, header=1)
dataframe.head(2)

Unnamed: 0,5,2015-01-01 00:00:00,0
0,5,2015-01-01 00:00:01,0
1,9,2015-01-01 00:00:02,0


### JSON 파일 적재하기!

In [21]:
# orient : 어떤 매개변수값이 맞는지, 확인이 필요 (split, records, index, columns, values)
# column : JSON 파일이 {열 : {인덱스 : 값,,,}} 의 구조를 가졌을때
# split : {"인덱스" : [엔덱스,,,], "columns": [열,,,], "data" : [값,,,]}
# records : [{열, 값},,, {열, 값}]
# index : {인덱스 : {열 : 값,,,}}
# values : [값,,,,]
import pandas as pd
url = 'https://tinyurl.com/simulated-json'
dataframe = pd.read_json(url, orient='columns')
dataframe.head(2)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0


### SQL 데이터 베이스로부터 적재!

In [23]:
# 라이브러리를 임포트합니다.
import pandas as pd
from sqlalchemy import create_engine
database_connection = create_engine('sqlite:///sample.db')
#dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)
#dataframe.head(2)

In [24]:
dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

OperationalError: (sqlite3.OperationalError) no such table: data
[SQL: SELECT * FROM data]
(Background on this error at: http://sqlalche.me/e/e3q8)