## ■ R을 활용한 ML 2장
### 3장부터 시작할 머신러닝 데이터 분석을 위해 데이터를 보는 방법과 머신러닝을 위해 데이터를 볼 때 필요한 함수들을 소개

### □ 소목차
#### 1. R의 자료구조의 종류
#### 2. R에서 데이터를 로드하는 4가지 방법
#### 3. 데이터의 전반적인 관찰(평균, 중앙, 최빈, 표준편차, 분산)
#### 4. 수치형 데이터 살펴보기(히스토그램, 정규분포)
#### 5. 범주형 데이터 살펴보기(산포도 그래프)
#### 6. CrossTable(이원교차표)
#### 7. 데이터 분석을 편하게 -> shiny 자동화 스크립트 개선2

## ◆ 1. R의 자료구조의 종류
    1. 벡터(vector)
    2. 행렬(matrix)
    3. 배열(array)
    4. 데이터프레임(dataFrame)
    5. 리스트(list)

### ◇ 1. 벡터(vector)
    같은 데이터 타입을 갖는 1차원 배열구조
    c() 를 이용해서 구조 생성 가능

In [3]:
a<-c(1,2,3,4,5)
print(a)
str(a)

[1] 1 2 3 4 5
 num [1:5] 1 2 3 4 5


### ※ 문제165. 아래의 숫자들을 출력하는 vector들을 생성하시오
    1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16 ... 20

In [7]:
v<-c(1:20)
print(v)

 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20


### ※ 문제166. 아래의 숫자들을 출력하는 vector들을 생성하시오
    1 1 1 1 1  2 2 2 2 2 2  3 3 3 3 3 3 3 3  4 4 4 4 4 4

In [10]:
v2<-c(rep(1,5),rep(2,6),rep(3,8),rep(4,6))
print(v2)

 [1] 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4


### ※ 문제167. 아래와 같이 출력하시오
    jones jones jones jones king king king scott

In [13]:
v3<-c(rep('jones',4),rep('king',3),'scott')
print(v3)

[1] "jones" "jones" "jones" "jones" "king"  "king"  "king"  "scott"


In [14]:
table(v3)

v3
jones  king scott 
    4     3     1 

### ※ 문제168. 위의 결과에서 scott을 제외하고 출력하시오

In [22]:
x<-table(v3)
x[-3]

v3
jones  king 
    4     3 

#### ※ factor = vector + level, 순위 데이터를 모델링하는 머신러닝 알고리즘은 순서 factor를 기대

In [25]:
f1<-c('middle','low','high')
str(f1)

 chr [1:3] "middle" "low" "high"


In [26]:
f2<-factor(f1) # vector를 factor로 변환
str(f2) 
# Factor w/ 3 levels "high","low","middle": 3 2 1 <- 알파벳 순으로 level이 자동 지정

 Factor w/ 3 levels "high","low","middle": 3 2 1


In [31]:
f3<-factor(f1, order=T, level=c('low','middle','high')) # level을 지정하여 순위 부여가 가능
str(f3)

 Ord.factor w/ 3 levels "low"<"middle"<..: 2 1 3


In [34]:
print(max(f3))
print(min(f3))

[1] high
Levels: low < middle < high
[1] low
Levels: low < middle < high


### ※ 문제169. 위에서 만든 f3의 factor의 요소를 출력하는데 아래와 같이 정렬되게해서 출력하시오 ! 
    high middle low
    low middle high

In [39]:
print(f3[order(f3,decreasing=T)])
print(f3[order(f3,decreasing=F)])

[1] high   middle low   
Levels: low < middle < high
[1] low    middle high  
Levels: low < middle < high


### 팩터 (factor)
```
   1. 범주(값의 목록) 을 갖는 vector 
   2. factor() 함수를 통해서 생성 
   3. factor 는 nominal(범주) , ordinal(순서) 형식 2가지가 존재한다. 
   4. nominal은 level 순서의 값이 무의미하며 알파벳 순서로 정의
   5. ordinal은 level 순서의 값을 직접 정의해서 원하는 순서를 정할 수 있다.
   ```

#### 팩터를 이용했을 때 장점 2가지
    1. 레벨을 지정할 수  있기 때문에 데이터 목록을 전부 확인할 수 있다.
    2. 순서를 지정할 수 있어서 크고 작음을 나타낼 수 있다. 

In [41]:
blood <- factor( c("O","AB","A"), levels=c("A","B","AB","O"))
print(blood[1:2])

[1] O  AB
Levels: A B AB O


In [46]:
symptoms <- factor( c("SEVERE","MILD","MODERATE"),
                    levels=c("MILD","MODERATE","SEVERE"),
                    ordered = TRUE) 
print(symptoms)
print(symptoms>"MODERATE")

[1] SEVERE   MILD     MODERATE
Levels: MILD < MODERATE < SEVERE
[1]  TRUE FALSE FALSE


### ◇ 리스트(list)
```
    - 서로 다른 데이터 구조(vector, data frame, array, list)의 중첩된 구조 
    - list() 함수를 이용해서 데이터 구조를 중첩할 수 있다.
    ```
```
    백터는 모든 항목이 같은 타입이어야 하는 반면, 
    리스트는 수집될 항목이 다른 타입이어도 된다. 
    이런 유연함 때문에 리스트는 다양한 타입의 입출력 데이터와 머신러닝 모델의 설정 파라미터 집합을 저장하는데 자주 사용된다.
  ```

※ 예제
```
    성별   카드유무   리뷰유무   급여   구매여부(정답)
     남       Y         Y       280      Y
     여       Y         N       300      N
```
#### 머신러닝 모델을 토대로 학습

### ◇ 데이터 프레임(Data Frame)
    - 각기 다른 데이터 타입을 갖는 컬럼으로 이루어진 2차원 테이블  구조 
    - 데이터의 행과 열을 갖고 있기 때문에 스프레드시트나 데이터베이스와 유사한 구조이다. 
    - data.frame()  함수를 이용하여 생성하며 각 컬럼, 행의 이름을 지정할 수 있다.

### ※ 문제170. 데이터 시각화 자동화 구현 코드에 데이터 프레임을 볼 수 있는 코드를 추가하고 실행하시오
```
사이드 바에 추가
  menuItem("Table",
             menuSubItem('Tableformat',tabName='tableformat') ),

ui 쪽에 body 에
  tabItems(
    ##### table_format
    tabItem(tabName = "tableformat",
            mainPanel(
              DT::dataTableOutput("table")
            )
    )
 ),

서버쪽에 
  ####table_format
  output$table <- DT::renderDataTable(DT::datatable({
    req(input$file1)
    file1 = input$file1
    data1 = read.csv(file1$datapath)
  }))
  ```

In [52]:
k1<-data.frame(x=c(1,2,3,4,5),y=c(2,3,4,5,10))
k1

x,y
1,2
2,3
3,4
4,5
5,10


### ※ 문제171. 위의 k1 데이터프레임에서 맨 아래쪽행인 5 10 을 출력하시오

In [54]:
k1[5,1:2]

Unnamed: 0,x,y
5,5,10


### ※ 문제172. 위의 k1 데이터프레임에서 10만 출력하시오

In [56]:
print(k1[5,2])

[1] 10


```
  책 76페이지  data frame 구성시 옵션중에 stringAsFactors=FALSE 라는 옵션이 있는데 만약 이 옵션을 명시하지 않는다면 
  R 은 모든 문자 백터를 팩터로 자동 변환한다. 
  전부 factor 로 변환할 필요는 없고 변환이 필요한 컬럼만 변환하면 되기 때문에 
  stringAsFactors를 false 로 지정할 필요가 있다.
  ```

In [63]:
emp<-read.csv("emp3.csv",head=T)
dept<-read.csv('dept.csv',head=T)
str(emp)
str(dept)

'data.frame':	14 obs. of  9 variables:
 $ index   : int  1 2 3 4 5 6 7 8 9 10 ...
 $ empno   : int  7839 7698 7782 7566 7654 7499 7844 7900 7521 7902 ...
 $ ename   : Factor w/ 14 levels "ADAMS","ALLEN",..: 8 3 4 7 9 2 13 6 14 5 ...
 $ job     : Factor w/ 5 levels "ANALYST","CLERK",..: 4 3 3 3 5 5 5 2 5 1 ...
 $ mgr     : int  NA 7839 7839 7839 7698 7698 7698 7698 7698 7566 ...
 $ hiredate: Factor w/ 13 levels "1980-12-09 0:00",..: 9 5 6 4 8 2 7 10 3 10 ...
 $ sal     : int  5000 2850 2450 2975 1250 1600 1500 950 1250 3000 ...
 $ comm    : int  NA NA NA NA 1400 300 0 NA 500 NA ...
 $ deptno  : int  10 30 10 20 30 30 30 30 30 20 ...
'data.frame':	4 obs. of  3 variables:
 $ deptno: int  10 20 30 40
 $ dname : Factor w/ 4 levels "ACCOUNTING","OPERATIONS",..: 1 3 4 2
 $ loc   : Factor w/ 4 levels "BOSTON","CHICAGO",..: 4 3 2 1


### ◇ 행렬(matrix)
     - 같은 데이터 타입을 갖는 2차원 배열구조 
     - matrix() 함수를 사용해서 vector 값과 표시할 행과 열을 지정 

In [64]:
matrix( c(1:9), nrow=3, ncol=3 ) 
matrix( c(1:9), nrow=3, ncol=3, byrow=T) 

0,1,2
1,4,7
2,5,8
3,6,9


0,1,2
1,2,3
4,5,6
7,8,9


### ※ 문제173. 아래의 행렬합을 구현하시오 !
$$ \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    7 & 8 & 9 \\
\end{pmatrix}+
\begin{pmatrix}
    1 & 4 & 7 \\
    2 & 5 & 8 \\
    3 & 6 & 9 \\
    \end{pmatrix}$$

In [65]:
a<-matrix(c(1:9),nrow=3, ncol=3, byrow=T)
b<-matrix(c(1:9),nrow=3, ncol=3)
a+b

0,1,2
2,6,10
6,10,14
10,14,18


### ※ 문제174. 아래의 행렬곱을 구현하시오 !
$$ \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    7 & 8 & 9 \\
\end{pmatrix}+
\begin{pmatrix}
    1 & 4 & 7 \\
    2 & 5 & 8 \\
    3 & 6 & 9 \\
    \end{pmatrix}$$

In [66]:
a*b

0,1,2
1,8,21
8,25,48
21,48,81


### ※ 문제175. 아래의 행렬의 내적을 출력하시오
$$ \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    7 & 8 & 9 \\
\end{pmatrix}◎
\begin{pmatrix}
    1 & 4 & 7 \\
    2 & 5 & 8 \\
    3 & 6 & 9 \\
    \end{pmatrix}$$

In [67]:
a%*%b

0,1,2
14,32,50
32,77,122
50,122,194


### ◇ 배열(array)
    - 같은 데이터 타입을 갖는 다차원 배열 구조 
    - matrix 는 2차원 행렬이고  array 는 다차원 행렬 
    - array() 함수를 이용해서 다차원 배열을 생성할 수 있다.

In [69]:
array( c(1:12) , dim=c(3,4) )   # 2차원 
array( c(1:12) , dim=c(2,2,3) )  # 3차원 
array( c(1:12) , dim=c(2,2,2,2) ) # 4차원 

0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


## ◆ 1. R의 자료구조의 종류
    1. 벡터(vector) --> factor(순서를 갖는 벡터)
    2. 행렬(matrix)
    3. 배열(array)
    4. 데이터프레임(dataFrame)
    5. 리스트(list)