# 변수와 자료형

### 변수
분석에 필요한자료를 일시적으로 저장하거나 처리결과를 담을 수 있는 기억장소를 지정해주는 역할<br>
변수 이름은 값을 지정하는 메모리 영역의 이름으로 할당.<br><br>
(1) 변수 이름의 작성 규칙
- 첫자는 영문으로 시작.
- 첫자를 제외하고 숫자, under bar, dot을 사용할 수 있음.
- 대문자와 소문자를 구분해야 함.
- 변수 이름은 의미를 파악할 수 이름으로 지정하는 것이 좋다.
- 두 단어를 포함한 변수 이름을 지정할 결우 camel이나 snake 기법을 사용해야 가독성이 좋다.

In [None]:
# 벡터와 함수 사용 (list)
sum(iris$Sepal.Length[1:50])

sum(iris$Sepal.Length[1:50]) # Setosa
sum(iris$Sepal.Length[51:100]) # Versicolor
sum(iris$Sepal.Length[101:150]) # Virginica

In [None]:
# Vector 변수의 사용
num2 <- c(10,20,30)
num2[1]
num2[2]
num2[3]

num3 <- 1:3

sum(num2,num3)

In [None]:
# NA(결측치) / 이상치
# NA을 유추(근사값)하여 제거해야함
sum(10,20,30,NA,na.rm = 'TRUE')

### 자료형 확인

In [None]:
# 수치형
is.numeric(iris$Sepal.Length)
# 정수형
is.integer(iris$Sepal.Length)
# 실수형
is.double(iris$Sepal.Length)
# 논리형
is.logical(iris$Sepal.Length)
# data.frame 확인
is.data.frame(iris)
# matrix 확인
is.matrix(iris)
# 숫자와 문자의 값을 보유
is.factor(iris$Species)
# NA 확인
sum(is.na(iris))
# 쉽게 확인
class(iris$Sepal.Length)
class(iris)
class(iris$Species)

In [None]:
var1 <- "apple"
var1
class(var1)

### data.frame : matrix
- data.frame : 자료형 상관 X
- matrix : 자료형 통일해야 함.

### 자료구조 확인
- head,tail 확인 후 자료구조 확인
- str() : 내부 구조

In [None]:
str(iris)

In [None]:
# 자료형 확인
num1 <- c(1,2,3,"4")
num1
is.numeric(num1)
class(num1)

## 자료형 변환
- as.numeric(x) : 수치형
- as.integer(x) : 정수형
- as.logical(x) : 논리형
- as.double(x) : 실수형
- as.data.frame(x)
- as.factor(x)
- as.Date(x)

### Data
수집 -> 정제 -> 분석 -> ML<br>
Collection -> Cleaning -> Analysis -> Machine Leaning

In [None]:
num2 <- as.numeric(num1)
class(num1)
class(num2)

sum(num2)

### 요인형(범주형) 변환
요인(factor)는 동일한 값의 목록을 범주로 갖는 벡터 자료,<br>
요인형 변수는 문자와 숫자를 동시에 가지고 있어서 계산에도 사용이 된다.<br>
범주는 변수가 가질 수 있는 범위()

In [None]:
gender <- c("man","woman","woman","man","man")
gender
class(gender)

In [None]:
# 빈도 수 확인
table(gender)

In [None]:
# 문자열 데이터를 factor로 변환
Ngender <- as.factor(gender)
Ngender
table(Ngender)

par(bg = 'white')
plot(Ngender)

# 날짜형 변환

In [None]:
date1 <- "20/8/3"
date1

In [None]:
# 문자데이터를 날짜데이터로 변환
# %y : 2자리만 인식 ex) 16-10-18
# %Y : 2자리,4자리 인식 ex) 17-05-12 OR 2022-02-02
as.Date(date1)
as.Date("20/08/03","%y/%m/%d")
as.Date("20-08-03","%y-%m-%d")

as.Date("2020/08/03","%Y/%m/%d")

In [None]:
datas <- c("02/08/17","02/29/17","03/01/18")
as.Date(datas,"%m/%d/%y")

In [None]:
# 날짜 계산
myDates <- as.Date(c("2023-11-20", "2024-03-04"))
myDates[2] - myDates[1]

In [None]:
# 요일 출력
weekdays(myDates)

In [1]:
# 언어 설정
Sys.setlocale(category = "LC_ALL", locale = "ko_KR.UTF-8")

weekdays(myDates)

ERROR: Error in eval(expr, envir, enclos): 객체 'myDates'를 찾을 수 없습니다


In [None]:
# 현재 일자 기준으로 날짜 계산하기
# 현재 일자
Sys.Date()
class(Sys.Date())
Sys.Date() - as.Date("2016/10/18")

------------
# Vector 자료 구조
벡터는 R에서 가장 기본이 되는 자료구조
- 1차원 선형 자료 구조 형태
- 구성 : 변수[첨자] 형태로 구성, 첨자는 1부터 시작 (index)
- 동일한 자료형의 데이터만 저장 할 수 있다.
- 벡터 생성 함수 : c(), :, seq(), rep(), .....
- 벡터 처리 함수 : sum(), mean(), sd(), union(), .....

In [None]:
# iris의 Sepal.Length 컬럼의 내용을 1차원 벡터로 만들기
irisSepalLength <- iris$Sepal.Length
irisSepalLength

# Vector인지 확인
is.vector(irisSepalLength)

In [None]:
# irisSepalLength의 합계 구하기
sum(irisSepalLength)

# irisSepalLength의 평균 구하기
mean(irisSepalLength)

# irisSepalLength의 최댓값 구하기
max(irisSepalLength)

# irisSepalLength의 최솟값 구하기
min(irisSepalLength)

In [None]:
# irisSepalLength의 범위값
range(irisSepalLength)

In [None]:
# irisSepalLength의 표준편차
sd(irisSepalLength)

In [None]:
# 필요한 데이터만 확인
# irisSepalLength의 1번 데이터만 보기
irisSepalLength[1]

# irisSepalLength의 1번, 10번, 11번 데이터만 보기
irisSepalLength[c(1,10,11)]

In [None]:
# irisSepalLength 1,10,11번 데이터의 합계 구하기
sum(irisSepalLength[c(1,10,11)])

num1 <- c(1,10,11)
sum(irisSepalLength[num1])

# irisSepalLength의 1~10번지 합계 구하기
sum(irisSepalLength[c(1:10)])

# irisSepalLength의 1~20번지, 30번지, 40번지의 합계 구하기
sum(irisSepalLength[c(1:20,30,40)])

In [None]:
# 벡터형 자료의 일부를 변경
x <- c(10,20,30,40,50)
x
y <- replace(x,c(2,4),c(200,400))
y

In [None]:
# 초기값, 최종값, 증가값으로 구성되는 벡터 생성
seq(from = 1, to = 10, by = 0.5)

In [None]:
# 1~10 까지의 홀수, 1~10, 50, 60의 합계 구하기
sum(c(1:10,50,60,seq(1,10,2)))

In [None]:
# 반복
rep(1:3, 3)
c(rep("red", 3), "blue")

rep(1:3,each=3)

In [None]:
# 1 ~ 20 까지의 숫자 중 짝수만 2번 반복하여 합계
sum(rep(seq(2,20,2),2))

In [None]:
# 합집합
union(x,y)

# 교집합
intersect(x,y)

# 차집합
setdiff(x,y) # x-y
setdiff(y,x) # y-x

In [None]:
# 벡터 자료 정렬 : 정렬이 되어있어야 ML 학습 용이
# sample : 기본값이 중복 불가(replace)
sample(1:10, 2, replace = FALSE, prob = NULL) 
sample(1:45, 6, replace = TRUE, prob = NULL)
# sort : 오름차순 정렬, decreasing = TRUE, 내림차순 정렬
sort(sample(1:10, 10, replace = FALSE, prob = NULL))
sort(sample(1:10, 10, replace = FALSE, prob = NULL), decreasing = TRUE)

In [None]:
# 벡터의 집합 연산
x <- sort(sample(1:99,9))
y <- sort(sample(3:60,10))

# 같은 집합인가?
setequal(x,y)

# 12는 x에 포함 되었는가?
is.element(12,x)

# 벡터의 길이
length(x)
length(y)

In [None]:
# iris의 Sepal.Length와 Petal.Length의 교집합의 갯수?
length(intersect(iris$Sepal.Length,iris$Petal.Length))

In [None]:
# 벡터에 이름 설정하기
age <- c(30,35,50)
age
names(age) <- c("원도현","이천영","박지환")
age

### 문자열 벡터

In [None]:
x <- rep(c('a','b','c'),4)
x

In [None]:
# 중복값을 제외하고 보기
unique(x)

In [None]:
# iris의 품종이 몇 종류인지 확인
length(unique(iris$Species))

In [None]:
name <- c("Apple","Computer",'Samsung','Communication')

# name에서 Co를 가지고 있는 단어의 번지수
grep('Co', name)

# name에서 Co를 가지고 있는 단어는?
name[(grep('Co',name))]

# name에서 om을 가지고 있는 단어는?
name[grep('om',name)]

In [None]:
a <- 1:500

# 10번 ~ 전체 데이터 중 끝에서 5개는 빼고 사용 ...
setdiff(a[c(10:500)],tail(a,5))

a[c(10:length(a)-5)]

In [None]:
a <- 10:50
a
# 1번지 값 지우기
a[-1]

In [None]:
a <- 10:50
# a에서 2번과 4번을 삭제
a[c(-2,-4)]
a[-c(2,4)]

# 2번, 5~10번 삭제
a[-c(2,5:10)]

In [None]:
a <- 10:50
# a의 홀수번지 Data의 합계 구하기 (단, a의 데이터는 가변적이다.)
sum(a[seq(1,length(a),2)])

a[seq(1,length(a),2)]

In [None]:
a <- 1:10

a[c(1,3,5)]
a[1:10]
a[seq(1,10,2)]
rep(a[1:3],2)

In [None]:
irisHead <- iris[1:5,]
irisHead

In [None]:
# DataSet의 Row,Col 변경
t(irisHead)

In [None]:
iris.num1 <- iris$Sepal.Length
print(iris.num1)
# iris.num1에서 10,20,30, .... , 150번지만 출력
iris.num1[seq(10,150,10)]

In [None]:
# 마지막 문제 
iris[seq(10,150,10),]

iris[seq(10,length(iris$Sepal.Length),10),]