# 1. Components of tidy data

Four things you shoud have
1. The raw data
    - 측정 기계에서 뽑아내는 이상한 이진 파일
    - 계약한 회사에서 보내주는 형식을 갖추지 않은 엑셀 파일
    - 트위터 API로부터 받아온 JSON 데이터
    - 직접 관찰하여 손으로 쓴 숫자
    
2. A tidy data set
    - 측정한 각 변수는 하나의 열에 있어야 한다
    - 그 변수의 서로 다른 관측치는 서로 다른 행에 있어야 한다
    - 또한 첫 번째 행에는 변수의 이름을 써준
    - 비슷한 종류의 변수로 하나의 테이블을 구성한다
    - 테이블이 여러개라면, 서로 연결이 되도록 하는 하나의 열을 포함해야 한다
    - 일반적으로, 테이블마다 하나의 파일에 장한다
    
3. A code book describing each variable and its values in the tidy data set
    - 깔끔한 데이터셋에 포함되지 않은 변수에 관한 정보 (메타데이터)
    - 요약에 관한 정보
    - 실험 설계에 관한 정보
    - 보통 워드/텍스트 파일로 작성된다
    - 데이터를 어떻게 수집했는지 보여주는 "Study Design" 항목이 있어야 한다
    - 각 변수와 단위를 설명해주는 "Code book" 항목이 있어야 한다
    
4. An explicit and exact recipe you used to go from 1 -> 2,3.
    - 보통 컴퓨터 스크립트이다 (R / Python)
    - 인풋은 raw data
    - 아웃풋은 가공된, tidy data
    - 스크립트에 전달되는 인자는 없다
    - 하나의 스크립트로 모든 단계를 표현할 수 없을 때는, 자세히 명시해준다
    

# 2. Reading Data

- `getwd()` , `setwd()`
- `file.exists("directoryName")` : 디렉토리가 존재하는지 확인한다
- `dir.create("directoryName")` : 존재하지 않는다면 디렉토리를 만든다
- `list.files("directory")` : 지정 디렉토리의 파일을 출력


In [None]:
if (!file.exists("data")) {
    dir.create("data")
} else {
    print("Already Exist")
}
list.files(".")

### 1) Downloading Files

- `download.file(fileURL, destfile, method)`
    - 인터넷에서 파일을 다운로드한다
    - 중요한 인자는 `url, destfile, method` 이다
    - tab-delimited, csv등 여러 파일에 적합하다

https://data.baltimorecity.gov/Transportation/Baltimore-Fixed-Speed-Cameras/dz54-2aru

위 사이트에서 데이터를 불러오자.

In [None]:
fileURL <- "https://data.baltimorecity.gov/api/views/dz54-2aru/rows.csv?accessType=DOWNLOAD"
download.file(fileURL, destfile = "./data/cameras.csv", method="curl")
list.files("./data")

In [None]:
dateDownloaded <- date()
dateDownloaded

### 2) Reading Local Flat Files


- `read.table()`
    - R에서 데이터를 불러오는 주요 함수이다
    - 유연하면서 잘 들어맞는다. 하지만 인자를 많이 필요로한다
    - 데이터를 RAM으로 불러들인다 - 너무 데이터가 크면 오류가 날 수 있다
    - 주요 파라미터 : `file, header, sep, row.names, nrows`
    - 연관된 함수 : `read.csv(), read.csv2()`
    - 추가적인 파라미터
        - `quote` : quote=""는 따옴표가 없다는 것을 의미
        - `na.strings` : 사라진 값을 나타내는 문자열을 정함
        - `nrows` : 몇 줄을 읽을 것인지
        - `skip` : 몇 줄을 건너뛰고 읽을 것인지

In [None]:
cameraData <- read.table("./data/cameras.csv")
    # read.table은 기본적으로 tab delimited이다

In [None]:
# read.table
cameraData <- read.table("./data/cameras.csv", sep=",", header=TRUE)
head(cameraData)

In [None]:
# read.csv
cameraCSV <- read.csv("./data//cameras.csv")
head(cameraCSV)

### 3) Reading Excel Files

엑셀은 아마 데이터를 공유하는데 가장 널리 쓰이는 형식일 것이다.

- `read.xlsx(), read.xlsx2()` : xlsx 패키지
- `write.xlsx()` : 엑셀 파일을 작성한다
- `XLConnect, XLConnect vignette` : 추가적인 엑셀 관련 패키지

In [16]:
fileURL <- "https://data.baltimorecity.gov/api/views/dz54-2aru/rows.csv?accessType=DOWNLOAD&bom=true&format=true"
download.file(fileURL, destfile="./data/cameras.xlsx", method = "curl")
list.files("./data/")

In [13]:
library(xlsx)

In [21]:
cameraXlsx <- read.xlsx("./data/cameras.xlsx", sheetIndex=1, header=TRUE)
head(cameraXlsx)

address,direction,street,crossStreet,intersection,Location.1
S CATON AVE & BENSON AVE,N/B,Caton Ave,Benson Ave,Caton Ave & Benson Ave,"(39.2693779962, -76.6688185297)"
S CATON AVE & BENSON AVE,S/B,Caton Ave,Benson Ave,Caton Ave & Benson Ave,"(39.2693157898, -76.6689698176)"
WILKENS AVE & PINE HEIGHTS AVE,E/B,Wilkens Ave,Pine Heights,Wilkens Ave & Pine Heights,"(39.2720252302, -76.676960806)"
THE ALAMEDA & E 33RD ST,S/B,The Alameda,33rd St,The Alameda & 33rd St,"(39.3285013141, -76.5953545714)"
E 33RD ST & THE ALAMEDA,E/B,E 33rd,The Alameda,E 33rd & The Alameda,"(39.3283410623, -76.5953594625)"
ERDMAN AVE & N MACON ST,E/B,Erdman,Macon St,Erdman & Macon St,"(39.3068045671, -76.5593167803)"


In [23]:
colIndex <- 2:3
rowIndex <- 1:4
cameraDataSubset <- read.xlsx("./data/cameras.xlsx", sheetIndex =1,
                             colIndex=colIndex, rowIndex=rowIndex)
cameraDataSubset

direction,street
N/B,Caton Ave
S/B,Caton Ave
E/B,Wilkens Ave


### 4) Reading XML Files

- eXtensible Markup Language의 약자이다
- 구조화된 데이터를 저장하는데 사용된다
- 인터넷에서 많이 사용된다
- 대부분 웹 스크래핑에서 XML이 자주 사용된다
- 데이터는 두 부분으로 구성된다
    - Markup : 텍스트 구조를 가르는 라벨
    - Content : 문서의 실제 내용
    
[아주 유용한 웹사이트](https://www.stat.berkeley.edu/~statcur/Workshop2/Presentations/XML.pdf)

In [24]:
library(XML)

In [42]:
fileURL <- "https://www.w3schools.com/xml/simple.xml"
download.file(fileURL, "./data/XMLexample.xml", method='curl')
doc <- xmlTreeParse("./data/XMLexample.xml", useInternal=TRUE)
doc

<?xml version="1.0" encoding="UTF-8"?>
<breakfast_menu>
  <food>
    <name>Belgian Waffles</name>
    <price>$5.95</price>
    <description>Two of our famous Belgian Waffles with plenty of real maple syrup</description>
    <calories>650</calories>
  </food>
  <food>
    <name>Strawberry Belgian Waffles</name>
    <price>$7.95</price>
    <description>Light Belgian waffles covered with strawberries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>Berry-Berry Belgian Waffles</name>
    <price>$8.95</price>
    <description>Light Belgian waffles covered with an assortment of fresh berries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>French Toast</name>
    <price>$4.50</price>
    <description>Thick slices made from our homemade sourdough bread</description>
    <calories>600</calories>
  </food>
  <food>
    <name>Homestyle Breakfast</name>
    <price>$6.95</price>
    <description>Two eggs, bacon or s

In [44]:
rootNode <- xmlRoot(doc)
xmlName(rootNode)

In [50]:
# 첫번째 원소에 접근
rootNode[[1]]

<food>
  <name>Belgian Waffles</name>
  <price>$5.95</price>
  <description>Two of our famous Belgian Waffles with plenty of real maple syrup</description>
  <calories>650</calories>
</food> 

In [54]:
# 추출하기
# 모든 노드를 돌면서 값을 추출한다
xmlSApply(rootNode, xmlValue)

##### `XPath` : 아주 유용한 XML 패키지의 메서드
- `/node` : Top level node
- `//node` : Node at any level
- `node[@attr-name]` : Node with an attribute name
- `node[@attr-name="bob"]` : Node with an attribute name attr-name='bob'

In [58]:
# 태그가 'name'인 노드를 반환
xpathSApply(rootNode, "//name", xmlValue)

In [59]:
# 태그가 'price'인 노드를 반환
xpathSApply(rootNode, "//price", xmlValue)

In [85]:
fileURL <- "http://www.espn.com/nfl/team/_/name/bal/baltimore-ravens"
doc <- htmlTreeParse(fileURL, useInternal=T)
scores <- xpathSApply(doc, "//div[@class='score']", xmlValue)
teams <- xpathSApply(doc, "//div[@class='game-info']", xmlValue)
scores
teams