# <font color="steelBlue">R
- `options(digits=자리수)`와 같이 기본 설정을 할 수 있다.

### 자료구조
- vector: 동질적이게 동일한 type의 데이터만 담을 수 있는 배열
- factor: 범주형 데이터를 담은 vector
  - 범주형 데이터의 고유값은 level이라 한다.
- matrix: 차원을 가진 vector
  - `t`(전치행렬), `solve`(역행렬), `%*%`(행렬곱) 등 행렬에만 적용하는 함수들이 있다.
  - 다른 변수와 연산될 때 데이터크기가 맞지 않을 경우 Recycling Rule에 의해 원소들이 재활용되어 연산된다.
- dataframe: list가 한 열을 이뤄 여러 열이 나열된 데이터집합
  - `data.table`패키지의 data.table()은 특정 열을 index로 해 grouping이 빠르며 간결한 코딩으로 dataframe보다 유용하게 사용한다.

In [None]:
# vector 생성1)직접 데이터 입력하기
vec1 <- c(원소1, 원소2, ...)

# vector 생성2)수열 이용하기
vec2 <- 1:5    # = seq(1,5,by=1) = seq(1,5,length.out=5) = c(1,2,3,4,5)
    
# vector 생성3)반복 이용하기
vec3 <- rep(1,3, time=2)  # = c(1,2,3,1,2,3)
vec4 <- rep(1,3, each=2)  # = c(1,1,2,2,3,3)

In [None]:
# matrix 생성1)matrix(데이터, n_row, n_col)로 선언하기
mat <- matrix(1:8, 2, 4)

# matrix 생성2)데이터를 선언한 후 dim(변수)로 행렬의 차원 지정하기
data <- 1:8
dim(data) <- c(2,4)

In [None]:
# dataframe 생성1)data.frame(열1=데이터1, 열2=데이터2, ...)로 선언하기
df <- data.frame('a'=1:4, 'b'=seq(8,5))

# dataframe 생성2)기존의 dataframe을 rbind(df1,df2, ..), cbind(df1, df2, ...)로 병합하기
#                 rbind는 pd.concat()과 cbind는 pd.concat(axis=1)과 같다.
df_r <- data.frame('a'=seq(5,8), 'b'=4:1) 
df_c <- data.frame('c'=seq(10,50,by=10))
df_8by2 <- rbind(df, df_r)    # df$a, df$b
df_4by3 <- cbind(df, df_c)    # df$a, df$b, df$c

# dataframe 생성3)기존의 dataframe 내 공통열로 merge(df1, df2, by=공통열)로 병합하기
#                 merge는 pd.merge와 동일하다.
df_m <- data.frame('a'=seq(1,4,by=2), 'k'=c(100,200))
df_2by3 <- merge(df, df_m, by='a')  # df$a에는 1,3값만 df$b에는 8,6, df$k에는 100,200이 있게 된다.

In [None]:
# index명은 vector와 factor은 names(변수)로, matrix와 dataframe은 rownames(변수), colnames(변수)로 설정할 수 있다.
names(VECTOR|FACTOR) <- c(이름1, 이름2, ...)

rownames(MATRIX|DATAFRAME) <- c(행명1, 행명2, ...)
colnames(MATRIX|DATAFRAME) <- c(열명1, 열명2, ...)

### 파일 읽기
- `read.csv("파일이름.csv"/"URL.csv", na.strings, header, stringsASFactor)`: csv 파일 읽기
- `read.table("파일이름.txt"/"URL.txt", na.strings, header, stringsASFactor)`: txt 파일 읽기

### Indexing&Slicing
- index는 1부터 시작한다.
- $-$을 붙여 해당 index만 선택하지 않을 수 있다.
- 한 원소만 추출할 때 vector와 factor는 `[]`를 사용하고 list, matrix, dataframe은 `[[]]`을 사용한다.

In [None]:
# vector, factor indexing
vec <- 1:4
names(vec) <- c('가','나','다','라')
vec[2]  # = vec['나'] = vec[c(2)] = vec[-c(1,3,4)] = 2

# list, matrix, dataframe indexing
df <- data.frame('a'=1:4, 'b'=seq(8,5))
df[1] # = df[['a']] = df$a = df[c(1)] = df[[-b]] = 1:4

### Conditional Extraction
조건에 맞는 데이터를 추출하는 방법으로 주로 matrix, dataframe에 적용한다.
- `변수[조건식]`: 변수 내 조건을 만족하는 행 출력
- `subset(변수, select=±이름/컬럼명/c(컬럼명1, 컬럼명2 …), subset=조건식)`: 변수 내 조건을 만족하는 행의 select열 값 출력<br>
   예시) df[df$컬럼=4], subset(df, select=컬럼, subset=컬럼>4)

In [None]:
# 방법1) 변수[조건식]으로 추출한다. pandas에서와 유사하다.
df <- data.frame('a'=1:4, 'b'=seq(8,5))
df[df$a %% 2 == 0]  # 조건: a 내 짝수

# 방법2)subset(변수, select=±이름/열명/c(열명1, 열명2, ...), subset=조건식)으로 추출한다.
subset(df, select='a', subset=(a%%2==0)) # 조건: a 내 짝수

### Operator
- `%/%`(나눗셈 몫), `%%`(나눗셈 나머지)
- 이외는 프로그래밍 언어와 무관히 동일한 연산자들이다.

### Function
- 기본 함수
  - `rm`(변수삭제), `length`(원소수)
  - `nchar`(문자길이), `paste('문자1', '문자2' … , sep='연결고리')`(문자 붙이기), <br>
    `substr('문자', start=시작인덱스, stop=끝인덱스)`(문자 추출), `strsplit('문자', 구분자)`(문자 분리)
- 통계 함수
  - `summary`(통계요약)
  - `sd`(분산), `stdev`(표준편차), `cor`(상관계수)  
- 사용자 정의 함수<br>
  \> `function(매개변수1, 매개변수2 … ){지역변수1, 지역변수2 …}`<br>
  ※ 지역변수로는 조건문, 반복문, 전역변수(ex|global <<$-$ 전역변수값)이 가능하다.

In [None]:
# 문자 추출 예시
substr(c('종로3가', '종로5가'), 1,2)  # '종로','종로'

### Apply Function
데이터에 함수를 적용하여 변환할 때 사용한다. **pd.Series|DataFrame.apply**와 유사하다.
- R 기본제공
  - `apply(MATRIX, 1(행)/2(열), 함수)`: 행렬의 특정 방향으로 함수를 적용한다.
  - `lapply(변수, 함수)`: 변수의 모든 원소에 함수를 적용한 뒤 list로 반환한다.
  - `sapply(변수, 함수)`: 변수의 모든 원소에 함수를 적용한 뒤 vector, matrix로 반환한다.
  - dataframe 전체에 apply를 적용할 경우 dataframe 내 데이터가 동질적이어야 한다.
  - 예시) apply(mtx, 1, sum)
- plyr package
  - `ddply(DATAFRAME, 열, 함수)`: dataframe$열에 함수를 적용한 뒤 dataframe으로 반환한다.
- Reshape package<br>
  **pd.pivot_table**과 유사하게 데이터 재정렬, 함수 적용이 가능하다.
  - **`melt(데이터, id=c(인덱스열1,인덱스열2 …), na.rm=T)`**<br>
    :인덱스열들로 나열된 dataframe을 반환한다.
  - **`cast(데이터, 인덱스열/인덱스열1+인덱스열2 … ~ 컬럼열/컬럼열1+컬럼열2 …, 함수)`**<br>
    :인덱스열들의 컬렴열들에 함수를 적용한 dataframe을 반환한다.