# R programming 기본 내용 정리

## 0. 들어가며
- R programming은 입문자 관점에서 기초적인 변수할당, 파일 읽기, 기본 데이터 전처리기능 정도만 사용하면 나머지는 패키지를 쓰면 됨
- 패키지 사용부터는 각 패키지의 가이드를 보면 되고, 유명 패키지는 포스팅이 한국에도 많으니 사용에 문제가 없음
- 엄밀하게 따지면 지엽적으로 설명한 내용도 있음
- 본 마크다운은 그동안 만든 개인용+교육용+정리용 코드를 아무렇게나 정리한 문서임
- 설명과 코드 퀄리티의 수준이 매우 낮으니 참고용 자료로 쓰고 사용이 편해지면 정식 가이드나 프로들의 코드를 참고하자!

## 1. 기초 함수와 객체

### 1-1. 변수 할당

- 다른 언어에서 사용하는 '='을 '<-'으로 사용가능

In [2]:
a = 1
b <- 2
print(a)
print(b)

[1] 1
[1] 2


* 하지만 우선 우선 순위가 있어서 섞어서 사용하면 순서가 중요함
* '<-'가 '='보다 연산순위가 높으므로, case4에서는 a<-b가 먼저 실행되지만 b에 할당된 값이 없으므로 오류 발생
* 결론적으로 섞어서 사용할 일이 거의 없고, 섞어서 사용하면 헷갈리니 그냥 하나로 통일해서 사용할 것

In [34]:
print('case1 : 가능')
a = b = 100
print(a)
print(b)
cat('\n')

print('case2 : 가능')
a <- b <- 200
print(a)
print(b)
cat('\n')

print('case3 : 가능')
a = b <- 300
print(a)
print(b)
cat('\n')

print('case4 : 불가능')
a <- b = 400
print(a)
print(b)

[1] "case1 : 가능"
[1] 100
[1] 100

[1] "case2 : 가능"
[1] 200
[1] 200

[1] "case3 : 가능"
[1] 300
[1] 300

[1] "case4 : 불가능"


ERROR: Error in a <- b = 400: 함수 "<-<-"를 찾을 수 없습니다


### 1-2. 기본연산

- 다른 언어와 크게 다른게 없음

In [32]:
a = 10
b = 5

print('더하기')
print(a+b)
cat('\n')

print('빼기')
print(a-b)
cat('\n')

print('곱하기')
print(a*b)
cat('\n')

print('나누기')
print(a/b)
cat('\n')

print('거듭제곱')
print(a**b)
print(a^b)
cat('\n')

print('제곱근')
print(sqrt(a))
print(a^(1/2))

[1] "더하기"
[1] 15

[1] "빼기"
[1] 5

[1] "곱하기"
[1] 50

[1] "나누기"
[1] 2

[1] "거듭제곱"
[1] 1e+05
[1] 1e+05

[1] "제곱근"
[1] 3.162278
[1] 3.162278


### 1-3. 객체 만들기

- 변수나 변수들의 묶음을 객체라고 생각하면 됨
- 그리고 객체에 변수가 하나거나 여러개여도 차이없이 모두 벡터로 취급함
- 객체든 벡터든 이해 안되면 일단 넘어가자

In [41]:
a = 1
b = '객체'
c = 123.57378

print('정수도 벡터인가?')
print(is.vector(a))
cat('\n')

print('문자도 벡터인가?')
print(is.vector(b))
cat('\n')

print('실수도 벡터인가?')
print(is.vector(c))
cat('\n')

[1] "정수도 벡터인가?"
[1] TRUE

[1] "문자도 벡터인가?"
[1] TRUE

[1] "실수도 벡터인가?"
[1] TRUE



- 파이썬의 리스트(list)처럼 "여러개의 변수"가 있는 "객체"를 만들어보자

In [44]:
a = c(1, 2, 3, 4, 5)
print(a)

[1] 1 2 3 4 5


- 그리고 여러개의 벡터가 있는 객체도 물론 벡터다

In [45]:
print('여러개의 벡터를 묶은 객체도 벡터인가?')
print(is.vector(a))
cat('\n')

[1] "여러개의 벡터를 묶은 객체도 벡터인가?"
[1] TRUE



## 2. 데이터테이블(data table) 사용

- 대충 기본 사용법은 위에 있는 것만 알면 된다.
- 사실 R에서는 어떤 데이터를 불러와서 어떻게 분석하느냐가 중요하다.
- 위의 기본 개념을 가지고 데이터테이블으로 전처리하는 기본적인 과정을 익히자

### 2-1. 작업 폴더 설정

- 현재 작업폴더를 확인해보면 기본 설정 위치가 지정되어 있다

In [50]:
getwd()

- 자신이 원하는 폴더로 변경하려면 아래와 같다.
- 상하위 폴더 구분은 '/'를 사용한다.

In [56]:
setwd("E:/kaggle_korea/R_pract")
getwd()

- 하지만 Rstudio를 사용하면 상단 메뉴인 Session -> Set Working Directory -> Choose Directory를 누르면 쉽게 설정이 가능하다.
- 분석 중 작업폴더를 바꾸는 과정이 없다면 메뉴에서 한 번 설정하는 방법이 훨씬 간편하다.

### 2-2. 데이터 불러오기

- 데이터 파일의 형식은 많지만 기초단계에서는 csv 빼고 볼 일이 없다.
- 그리고 사용에 익숙해지면 다른 형식의 파일을 불러 오는 것은 명령어가 조금 다르거나 패키지가 조금 다르다.
- 여기서는 기본적인 불러오기에서 발생할 수 있는 문제를 몇가지 설명한다.

In [124]:
tmp = read.csv('titanic_test.csv')
tmp

PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.225,,S
898,3,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q
899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0,,S
900,3,"Abrahim, Mrs. Joseph (Sophie Halaut Easu)",female,18.0,0,0,2657,7.2292,,C
901,3,"Davies, Mr. John Samuel",male,21.0,2,0,A/4 48871,24.15,,S


- 엄청나게 유명한 타이타닉 csv파일을 read.csv로 불러왔다.
- 그럼 read.table로 불러보자

In [138]:
tmp = read.table('titanic_test.csv', header = TRUE, sep = ',')
tmp

PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.225,,S
898,3,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q
899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0,,S
900,3,"Abrahim, Mrs. Joseph (Sophie Halaut Easu)",female,18.0,0,0,2657,7.2292,,C
901,3,"Davies, Mr. John Samuel",male,21.0,2,0,A/4 48871,24.15,,S


- read.table은 read.csv와 달리 csv 파일에 header(제일 윗줄에 있는 데이터 정보를 나타내는 행)가 있다고 명시해야하고, 열의 구분은 ','로 된다고 sep에 명시해야한다.
- csv에 한정해서는 read.csv가 일반적으로 보기 편한 테이블형식으로 데이터를 불러온다.
- 하지만 파일 인코딩 문제, 다른 포멧의 파일 불러오기, 기타 세부설정 등이 필요하면 read.table을 써야한다.

In [141]:
tmp = read.csv('test1_ANSI.csv')
tmp

이름,성별,나이,혈액형,키
김일번,남,15,A,164
박이번,여,64,O,180
김삼번,남,52,A,162
김사번,남,97,A,184
최오번,여,88,B,158
이육번,여,33,AB,156
이칠번,여,16,AB,172
김팔번,남,52,O,168
이구번,여,24,A,177
최십번,여,23,O,169


- 위의 파일은 인코딩이 ANSI 형식으로 read.csv로 어렵지 않게 불러올 수 있다.
- 하지만 아래의 UTF-8 형식의 동일한 파일은 불러올 수 있을까?

In [142]:
tmp = read.csv('test1_UTF.csv')
tmp

ERROR: Error in make.names(col.names, unique = TRUE): 유효하지 않은 멀티바이트 문자열 1입니다


- 안된다.
- 그럼 인코딩 설정을 붙여보자

In [158]:
tmp = read.csv('test1_UTF.csv', encoding='UTF-8')
tmp

ERROR: Error in type.convert.default(data[[i]], as.is = as.is[i], dec = dec, : '<eb><82><a8><2c>52'에서 유효하지 않은 멀티바이트 문자열이 있습니다


- 여전히 안된다.
- 에러 메세지 중에 '<eb><82><a8><2c>52라고 써있는 게 Byte Order Mark인 것 같다.(뭔지 모르겠으면 그냥 그런게 있구나하고 넘어가자)
- 그럼 BOM을 제거하고 자료를 보여주는 인코딩 설정인 UTF-8-BOM 붙여보자

In [149]:
tmp = read.csv('test1_UTF.csv', encoding='UTF-8-BOM')
tmp

ERROR: Error in make.names(col.names, unique = TRUE): 유효하지 않은 멀티바이트 문자열 1입니다


- 여전히 문제가 발생한다.
- 이쯤되면 세부 설정이 가능한 read.table을 써보자

In [155]:
tmp = read.table('test1_UTF.csv', header=TRUE, sep=',', fileEncoding = 'UTF-8-BOM')
tmp

이름,성별,나이,혈액형,키
김일번,남,15,A,164
박이번,여,64,O,180
김삼번,남,52,A,162
김사번,남,97,A,184
최오번,여,88,B,158
이육번,여,33,AB,156
이칠번,여,16,AB,172
김팔번,남,52,O,168
이구번,여,24,A,177
최십번,여,23,O,169


- read.table로 하니까 잘 읽힌다.
- 하지만 위의 상황은 매우 특수한 상황으로 깨끗한 데이터셋에서는 보통 저런 문제가 발생하지 않는다.
- 하지만 전처리하지 않은 데이터는 파일 인코딩부터 별별 문제가 다 생기니 참고하자.
- 국내에서 제공하는 공공데이터나 기업데이터는 레거시코드 등의 문제 때문에 인코딩 보통 통일돼서 제공되지 않는다.
- 일반적으로 한국어 데이터가 있으면 enconding 또는 fileEncoding에서 "ANSI, UTF-8, UTF-8-BOM, EUC-KR, CP949" 중 하나로 해결된다.
- 다양하게 적용해보거나, 이런 문제를 해결해주는 R 패키지를 쓰는 것도 방법이다.
- 구글링을 열심히 하면 방법을 찾아낼 수 있다. 국내 블로그 뿐만 아니라 해외 사이트인 Stack Overflow를 애용하자.

### 2-3. 불러온 데이터의 값, 행, 열 불러오기

- 데이터를 불러오면 하나의 값, 행, 열을 선택해서 보는 기능이 제일 기본이 된다.
- 실습은 익숙한 한글 데이터셋을 사용한다.

In [160]:
tmp = read.csv('test1_ANSI.csv')
tmp

이름,성별,나이,혈액형,키
김일번,남,15,A,164
박이번,여,64,O,180
김삼번,남,52,A,162
김사번,남,97,A,184
최오번,여,88,B,158
이육번,여,33,AB,156
이칠번,여,16,AB,172
김팔번,남,52,O,168
이구번,여,24,A,177
최십번,여,23,O,169


- 값을 하나 선택해보자

In [162]:
tmp[1,1]

In [164]:
tmp[5,3]

- 불러온 테이블의 원소는 "객체명[행, 열]"로 불러오는 것을 알 수 있다.
- 이번엔 행과 열을 불러와 보자

In [166]:
tmp[2,]

Unnamed: 0,이름,성별,나이,혈액형,키
2,박이번,여,64,O,180


In [167]:
tmp[,3]

- 행과 열 중에서 한쪽을 비워두면 입력한 행과 열의 전체 값을 모두 불러온다.
- 이번엔 행과 열을 선택하고 일부 값만 불러오는 것을 해보자.

In [170]:
tmp[2,1:3]

Unnamed: 0,이름,성별,나이
2,박이번,여,64


In [171]:
tmp[2,c(1,2,3)]

Unnamed: 0,이름,성별,나이
2,박이번,여,64


In [172]:
tmp[2,seq(1,3)]

Unnamed: 0,이름,성별,나이
2,박이번,여,64


- 2번 행 중에서 1~3열에 해당하는 값만 불러왔다.
- 위의 3가지 방식은 사용 결과가 모두 동일하다.
- 열에서 사용해도 동일하니 생략!