## R데이터 객체
### 통계 데이터의 유형
+ 양적 데이터(숫자형 데이터)


+ 질적 데이터(범주형 데이터)
+ 1.명목형 데이터
+ 2.순서형 데이터

### 통계 data set : 데이터가 행과 열의 2차원 형태로 배열된 상태
+ 열 : 변수. 하나의 열에는 같은 유형의 데이터만이 올 수 있음
+ 행 : 동일한 대상에 대한 여러 변수의 관찰값

### R 데이터 유형
+ 숫자형(numeric), 문자형(character),논리형(logical) 등등

### 다양한 구조의 데이터 객체
+ 벡터 : 1차원 구조
+ 요인 : 범주형 데이터를 표현하는 구조. 1차원 구조
+ 행렬 : 2차원 구조. 구성요소는 모두 동일한 유형의 데이터
+ 배열 : 2차원 이상의 구조. 동일 유형의 데이터로 구성
+ 데이터 프레임 : 2차원구조. 여러 유형의 데이터로 구성. 통계 데이터 세트에 가장 적합한 구조
+ tibble : 개선된 형태의 데이터 프레임. tidyverse에서 공통적으로 사용되는 데이터 프레임의 형태

## 벡터
+ 숫자형
+ 문자형
+ 논리형

### 벡터의 기본 특성
+ 벡터의 생성 : 함수 c()

In [1]:
x <- c(TRUE, FALSE, TRUE)
y1 <- c(1L, 3L, 5L)
y2 <- c(1.1, 3.5, 10.4)
z <- c("one", "two", "three")

+ 벡터의 구성요소 : 모두 같은 유형의 데이터 

In [3]:
typeof(x)
typeof(y1)
typeof(y2)
typeof(z)

### 벡터의 길이(length)
+ 벡터를 구성하고 있는 요소 개수
+ 확인 : 함수 length()

In [5]:
y1
length(y1)

+ 스칼라(길이가 1인 벡터)의 생성
+ 함수 c()를 사용하지 않아도 됨

In [7]:
a <- 1; a # ; 은 양쪽으로 두개로 구분시켜준다

+ 다른 유형의 데이터가 뒤섞여 입력된 경우
+ 문자형 데이터가 하나라도 포함되면 문자형 벡터가 됨 : 문자형이 가장 복잡한 형태의 구조

In [8]:
c(1, "1", TRUE)

+ 숫자형과 논리형이 함께 있으면 숫자형 벡터가 됨 : 논리형이 가장 단순한 형태

In [9]:
c(3, TRUE, FALSE)

### 벡터의 구성 요소에 이름 붙이기

In [13]:
# 처음 입력할 때
c(Seoul=9930, Busan=3497, Inchon=2944, Suwon=1194) 

In [14]:
# 이미 생성된 벡터
pop <- c(9930,3497,2944,1194)
names(pop) <- c("Seoul","Busan","Inchon","Suwon")
pop

In [12]:
names(pop)

### 함수 scan()에 의한 벡터 생성
+ 외부 파일의 입력 및 자판에서 직접 데이터 객체 생성이 가능한 함수
+ scan()을 실행하면 프롬프트가 '>' 기호에서 '1:'기호로 바뀌는데 이어서 데이터를 직접 입력하거나 복사된 것을 붙여 놓을 수 있다.

In [22]:
# 숫자형 벡터 입력
x <- scan()

x

In [23]:
y <- scan(what="character")
y
# 자료에 인용부호 사용 불필요
# 빈 칸이 자료에 포함된 경우에는 인용부호 사용

### 다양한 형태를 갖는 벡터의 생성
+ 벡터에 데이터 추가 및 벡터의 결합
+ 일정한 구조를 갖는 벡터의 생성

### 벡터에 데이터 추가 및 벡터들의 결합:

In [28]:
# 함수 c()
x <- c(11,12,13,14)
c(x,15)
y <- c(16,17,18)
c(x,y)
# 함수 append() : 추가되는 스칼라 혹은 벡터의 위치 조절 가능
append(x,15)
append(x, 15, after=2)
append(x, y)
append(x, y, after=3)

### 일정한 구조를 갖는 벡터의 생성

In [29]:
1:5
-3:3
1.5:5.4
5:0

+ a:b
+ a를 시작점으로 b를 초과하지 않을 때까지 1씩 증가하는 수열
+ a > b이면 1씩 감소하는 수열

### 함수 seq()에 의한 수열 생성

In [31]:
seq(from=0,to=5) # seq(0,5)
seq(from=0,to=5,by=2) #  seq(0,5, by=2)
seq(from=0,to=5,length=3) #  seq(0,5, len=3)
seq(from=0,by=2,length=3) #  seq(0,by=2,len=3)

+ 한 숫자만 입려된 경우 : 1을 시작점, 1씩 증가(감소), 지정된 숫자를 끝점

In [33]:
seq(3)
seq(-3)

### 함수 rep()에 의한 반복된 패턴이 있는 데이터 생성

In [34]:
rep(1, times=3)
rep(1:3, times=2)
rep(c("M","F"), times=c(2,3))

+ times에 하나의 숫자 지정 : 데이터 전체를 숫자만큼 반복
+ times에 벡터 지정 : 반복 대상 데이터와 일대일 대응

In [35]:
# 옵션 each의 활용
rep(1:3, each=2)
# 옵션 each와 times의 활용
rep(1:3, each=2, times=2)

+ 데이터 각 요소가 each번 반복, 전체를 times번 반복
+ each가 먼저 작동

In [37]:
# 옵션 length의 활용
rep(1:3, length=6)
# 옵션 each와 length의 활용
rep(1:3, each=2, length=8)

+ 길이가 length가 될 때까지 데이터 전체가 반복
+ 각 요소가 each번 반복되는 과정을 길이가 length가 될 때까지 반복