## R DataFrame

<br>

 - **동일한 형식의 데이터**를 **1차원**으로 보관하자 : Vector
 - 조금은 **이질적인 형식의 데이터**를 **1차원**으로 보관하자 : List
 - **Vector를 여러층 쌓아 고차원**으로 보관하자 : Matrix
 - **List를 여러층 쌓아 고차원**으로 보관하자 : DataFrame
     - 일반화 된 Matrix로 볼 수 있음.
     - RDB의 table로도 생각할 수 있음.

-------------------

**DataFrame 생성**

<br>

1. **read.table()** : 외부 text파일 불러오기.
2. **data.frame()** : 여러 종류의 자료 객체를 결합.

In [3]:
df <- data.frame(name = c('Kim', 'Park', 'Lee'), age = c(43, 27, 34))
df

# 이렇게 독립된 객체들을 가져와서 만들수 도 있음.
name2 <- c('Kim', 'Park', 'Lee')
age2 <- c(43, 27, 34)
df2 <- data.frame(이름 = name2, 나이 = age2)
df2

name,age
Kim,43
Park,27
Lee,34


이름,나이
Kim,43
Park,27
Lee,34


In [5]:
# 이름에만 접근?
df2 $ 이름

# 나이 컬럼에 +1 씩 더하기?
df2 $ 나이 + 1

In [11]:
# Matrix -> DataFrame 변환?
carinfo <- matrix(c('11km', '13km', '10km', 'Hyundai', 'Volvo', 'Renault'), ncol = 2)
carinfo
dfr <- as.data.frame(carinfo)
dfr

# 컬럼 명을 지정
names(dfr) <- c('연비', '제조사')
dfr

0,1
11km,Hyundai
13km,Volvo
10km,Renault


V1,V2
11km,Hyundai
13km,Volvo
10km,Renault


연비,제조사
11km,Hyundai
13km,Volvo
10km,Renault


In [17]:
# 텍스트 파일을 불러와 DF형식으로 바꾸기.
# header = TRUE로 해야 첫줄을 컬럼으로 인식.
person <- read.table('UseData/personal.txt', header=TRUE)
person

pInfo <- read.table('UseData/pjob.txt', header=TRUE)
pInfo

이름,거주지역,나이,성별
홍민수,인천,25,남
조정란,경기,33,여
국정수,서울,43,남
라윤정,서울,35,여
한주연,인천,37,남


이름,직업
홍민수,학생
조정란,공무원
박장곤,회사원
한지수,자영업
한주연,프리랜서


**DataFrame 합치기**

<br>

 - 여러 DF를 합치는 작업.
 - **열 방향(옆)**으로 합치기 : **cbind()**
 - **행 방향(아래)**으로 합치기 : **rbind()**
     - 컬럼의 갯수도 맞아야 하고, 컬럼의 이름도 동일해야 함.
 - DF에서 **중복된 열**이 있는 경우 **merge()** 함수를 써서 병합.

In [18]:
# 합치기 위한 임의의 DF 생성.
lifeInfo <- data.frame(취미 = c('목공예', '패러글라이딩', '등산', '음악감상', '독서'),
                       관심사 = c('취업', '부동산', '주택대출', '교통인프라', '이직'))
lifeInfo

취미,관심사
목공예,취업
패러글라이딩,부동산
등산,주택대출
음악감상,교통인프라
독서,이직


In [19]:
# 두 프레임 합치기 - cbind
myInfo <- cbind(pInfo, lifeInfo)
myInfo

이름,직업,취미,관심사
홍민수,학생,목공예,취업
조정란,공무원,패러글라이딩,부동산
박장곤,회사원,등산,주택대출
한지수,자영업,음악감상,교통인프라
한주연,프리랜서,독서,이직


In [22]:
# 두 프레임 합치기 - rbind
 ## 컬럼의 이름, 갯수가 동일해야 함.

# 동일한 형식의 DF 생성
otherInfo <- data.frame(이름 = c('황성주', '윤준영'),
                        거주지역 = c('강원', '충북'),
                        나이 = c(42, 45),
                        성별 = c('여', '여'))
otherInfo

# 합치기
totInfo <- rbind(person, otherInfo)
totInfo

이름,거주지역,나이,성별
황성주,강원,42,여
윤준영,충북,45,여


이름,거주지역,나이,성별
홍민수,인천,25,남
조정란,경기,33,여
국정수,서울,43,남
라윤정,서울,35,여
한주연,인천,37,남
황성주,강원,42,여
윤준영,충북,45,여


In [23]:
# Merge로 합치기
## 두 Frame간의 공통된 컬럼이 1개는 있어야 함.
person
pInfo

이름,거주지역,나이,성별
홍민수,인천,25,남
조정란,경기,33,여
국정수,서울,43,남
라윤정,서울,35,여
한주연,인천,37,남


이름,직업
홍민수,학생
조정란,공무원
박장곤,회사원
한지수,자영업
한주연,프리랜서


    '이름' 컬럼을 동일하게 갖고 있음.
    중복되는 데이터에 대한 각각의 row를 꺼내옴.

In [25]:
coreMember <- merge(person, pInfo)
coreMember

이름,거주지역,나이,성별,직업
조정란,경기,33,여,공무원
한주연,인천,37,남,프리랜서
홍민수,인천,25,남,학생


In [26]:
# 중복되는 내용을 결합해서 다 보여줄 순 없을까?
merge(person, pInfo, all = TRUE)

이름,거주지역,나이,성별,직업
국정수,서울,43.0,남,
라윤정,서울,35.0,여,
조정란,경기,33.0,여,공무원
한주연,인천,37.0,남,프리랜서
홍민수,인천,25.0,남,학생
박장곤,,,,회사원
한지수,,,,자영업


    all = TRUE 옵션을 넣어주면 됨.
    양쪽 모두 겹치지 않는 부분은 NA로 처리됨.

**DataFrame 조작**

<br>

- **subset()**을 이용해 **특정 컬럼만으로 이루어진 프레임** 생성.
- 데이터 프레임에 컬럼을 추가하는 작업.
    - **cbind()를 통해 추가**할 수 있음.
- 특정 행/열을 삭제하는 작업.
    - index 조작을 통해 할 수 있음.
        - [, -'지우고자 하는 열']
        - [-'지우고자 하는 행', ]

In [29]:
# 거주지역을 제외한 나머지만을 가져오도록?
 ## select로 선택할 column만 적어도 되고, 제외할 column만 - 해줘도 된다.
data1 <- subset(person, select =- 거주지역)
data1

data2 <- subset(person, select = c(이름, 나이))
data2

이름,나이,성별
홍민수,25,남
조정란,33,여
국정수,43,남
라윤정,35,여
한주연,37,남


이름,나이
홍민수,25
조정란,33
국정수,43
라윤정,35
한주연,37


In [30]:
# cbind를 통해 column 추가가 가능.
data3 <- cbind(person, 결혼 = c(FALSE, TRUE, TRUE, FALSE, TRUE))
data3

이름,거주지역,나이,성별,결혼
홍민수,인천,25,남,False
조정란,경기,33,여,True
국정수,서울,43,남,True
라윤정,서울,35,여,False
한주연,인천,37,남,True


In [31]:
data3[-3,] # 3행 지우기
data3[, -5] # 5열 지우기

Unnamed: 0,이름,거주지역,나이,성별,결혼
1,홍민수,인천,25,남,False
2,조정란,경기,33,여,True
4,라윤정,서울,35,여,False
5,한주연,인천,37,남,True


이름,거주지역,나이,성별
홍민수,인천,25,남
조정란,경기,33,여
국정수,서울,43,남
라윤정,서울,35,여
한주연,인천,37,남


In [33]:
ncol(data3) # 열 갯수 확인
nrow(data3) # 행 갯수 확인

    지운 내용을 data3에 할당하지 않았으므로
    원본 내용은 그대로.

In [39]:
colnames(data3) <- c('성명', '거주지', '나이', '성별', '결혼유무') # 컬럼 명 변경
names(data3) # 컬럼 명 확인
data3

성명,거주지,나이,성별,결혼유무
홍민수,인천,25,남,False
조정란,경기,33,여,True
국정수,서울,43,남,True
라윤정,서울,35,여,False
한주연,인천,37,남,True
