# How to load data

# 0. Example dataset
## Pima Indians Dataset
- A population of women who were at least 21 years old, of Pima Indian heritage and living near Phoenix, Arizona, was tested for diabetes according to World Health Organization criteria.
- The data were collected by the US National Institute of Diabetes and Digestive and Kidney Diseases.
- https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes

# 1. Read the data file in local

## Using pandas

In [None]:
import numpy as np
import pandas as pd

In [None]:
# Using pandas.read_csv()
# Pandas는 여러 형태의 파일을 불러들일 수 있습니다.

# 파일에 변수 이름이 같이 있는 경우, header = TRUE를 통해 한 번에 변수명을 불러들일 수 있음.
data = pd.read_csv('./data/pima-indians-diabetes.data', header = None)

In [None]:
# Data의 개략적 형태 확인
# pandas를 이용하였기 때문에, 읽힌 데이터가 DataFrame임을 확인할 수 있음
data.head()

In [None]:
# Data의 포인트 수와 변수의 수를 확인
data.shape

In [None]:
# Data의 변수명을 정의하는 방법
variables = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data.columns = variables

In [None]:
data.head()

In [None]:
# pandas.read_csv()에서 미리 변수명을 호출하는 방법도 있음
data2 = pd.read_csv('./data/pima-indians-diabetes.data', names = variables)
data2.head()

## Using numpy

In [None]:
# numpy.loadtxt를 이용
# delimiter를 정의하여 데이터를 불러들임
raw_data = open('./data/pima-indians-diabetes.data', 'r')
data = np.loadtxt(raw_data, delimiter=',')

# 가급적 open을 한 데이터는 close하는 것이 좋음
raw_data.close()

In [None]:
# numpy를 이용해 읽은 데이터는 array임.
data

In [None]:
data.shape

# 2. Read the data file from a URL

## Using pandas 

In [None]:
# pandas는 매우 쉽게 url로부터 데이터를 읽어들임
url = "https://goo.gl/vhm1eU"
data = pd.read_csv(url, header = None)

In [None]:
data.head()

In [None]:
data.shape

## Using numpy 

In [None]:
# urllib.request.urlopen을 통해 url의 데이터를 읽을 수 있음
import urllib
raw_data = urllib.request.urlopen(url)
data = np.loadtxt(raw_data, delimiter=',')
raw_data.close()

In [None]:
data

In [None]:
data.shape