# 기술통계 분석관점

### 1. 중심화경향 
  * 수집한 자료 전체를 `대표하는 값`이 무엇인지 나타내는 통계 (대표값)
    + 평균 : 자료를 모두 더해서 전체 자료의 갯수로 나눈 값 (정량적 자료의 대표값)   
    + 중앙값 : 자료를 크기 순으로 정렬했을 때, 중앙에 위치하는 값 (순서자료의 대표값)
    + 최빈값 : 수집한 데이터 중 그 빈도가 가장 많이 나타나는 데이터 (명목자료의 대표값)     

### 2. 분산경향 
  * 데이터가 어떻게 `분포`되어 있는지 설명하는 통계치
    + 범위
    + 사분위수
    + 분산
    + 표준편차

# 대표값
### **평균 : 중심 척도의 대표적인 통계값**

* 평균은 유일하다
* 평균은 계산하기 쉽다
* 모든 측정값을 반영한다
* 단, 평균은 특이값(이상치)에 영향을 받는다
* ### $\bar x = {1 \over n} \sum x_i $

### 평균 구해보기
* 벡터 : R에서 1차원 데이터를 저장할 때 자주 사용하는 자료구조
    + c(자료들...) (파이썬에 리스트와 같음)

In [9]:
# 1 ~ 10 까지 정수들의 평균 : mean
nums <- c(1,2,3,4,5,6,7,8,9,10)

print(paste (sum(nums), sum(nums)/10) )
print(mean(nums))

[1] "55 5.5"
[1] 5.5


#### 조선조 왕들의 평균 수명 조사

In [21]:
kings <- c(73,62,45,53,38,16,51,28,37,30,56,30,33,56,66,54,40,33,59,36,82,48,44,22,32,67,52)

print(mean(kings))
print(round(mean(kings))) # 반올림 함수 : round(값, digits=소수점자리)
print(round(mean(kings), digits = 1))

[1] 46.03704
[1] 46
[1] 46


#### 대학원생들의 평균 나이 조사

In [24]:
stus <- c(19,18,19,21,20,24,19,19,20,18,21,22,23,21,19,18,22,24,21,18,19)

print(mean(stus))
print(round(mean(stus), digits = 1))

[1] 20.2381
[1] 20.2


### 데이터파일(csv)을 이용한 평균 계산
* read.csv() - 기본 내장 함수
* read_csv() - readr 패키지에 포함된 함수, read.scv의 개선버전
* fread() - data.table 패키지에 포함된 함수, 대용량 파일을 `빠르게` 척척 읽어들임

In [27]:
# read.csv를 이용해서 파일 내용을 데이터프레임에 저장
exams <- read.csv(file = './data/exams.csv')
head(exams, 5)  # 데이터프레임의 모든 데이터들 중 상위 5개만 출력

Unnamed: 0_level_0,student.number,english,mathematics
Unnamed: 0_level_1,<int>,<int>,<int>
1,1,42,65
2,2,69,80
3,3,56,63
4,4,41,63
5,5,57,76


In [28]:
tail(exams, 5)  # 데이터프레임의 모든 테이터들 중 하위 5개만 출력

Unnamed: 0_level_0,student.number,english,mathematics
Unnamed: 0_level_1,<int>,<int>,<int>
46,46,45,71
47,47,66,80
48,48,55,77
49,49,64,83
50,50,66,88


### 데이터프레임 컬럼 다루기
* df명[컬럼명]
* df명[, 열번호]      : 특정 열만 지정시
* df명$컬럼명         : 특정 열만 지정시
* df명[C(열번호,..)]  : 특정 열들 지정시

In [None]:
head(exams['english'], 5)

In [40]:
head(exams[, 2], 5)  # 단일 컬럼 선택시 결과는 벡터로 출력

In [41]:
head(exams[c(2)], 5)  # 다중 컬럼 선택시 결과는 데이터프레임으로 출력

Unnamed: 0_level_0,english
Unnamed: 0_level_1,<int>
1,42
2,69
3,56
4,41
5,57


In [39]:
# 영어과목 평균 구하기
sum(exams['english']) / 50

In [43]:
mean(exams[, 2])

In [44]:
# 수학과목 평균 구하기
sum(exams['mathematics']) / 50

In [45]:
mean(exams[, 3])

### 데이터프레임에 집계함수 적용하기
* apply(df명, 적용방향, 집계함수)
* 적용방향은 1은 가로, 2는 세로임

In [47]:
apply(exams[c(2,3)], 2, mean)

In [48]:
apply(exams[, -1], 2, mean)

### 혈당검사 데이터를 이용해서 각 테스트에 대한 평균 조사

In [60]:
bloods <- read.csv(file = './data/drugtests.csv')
head(bloods, 5)

Unnamed: 0_level_0,ID,Gender,Treatment,Test1,Test2
Unnamed: 0_level_1,<int>,<chr>,<chr>,<int>,<int>
1,1,Male,Control,98,32
2,2,Female,Experimental,87,33
3,3,Female,Control,89,54
4,4,Female,Control,88,44
5,5,Male,Experimental,76,64


In [61]:
apply(bloods[c(4,5)], 2, mean)

### 데이터 요약하기
* dim : 데이터의 행열 구성 확인
* str : 데이터의 전반적인 구조 확인
* summary

In [62]:
dim(kings)  # 벡터는 NULL로 출력!

NULL

In [63]:
dim(exams)

In [64]:
dim(bloods)

In [65]:
str(kings)

 num [1:27] 73 62 45 53 38 16 51 28 37 30 ...


In [66]:
str(exams)

'data.frame':	50 obs. of  3 variables:
 $ student.number: int  1 2 3 4 5 6 7 8 9 10 ...
 $ english       : int  42 69 56 41 57 48 65 49 65 58 ...
 $ mathematics   : int  65 80 63 63 76 60 81 66 78 82 ...


In [67]:
str(bloods)

'data.frame':	25 obs. of  5 variables:
 $ ID       : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Gender   : chr  "Male" "Female" "Female" "Female" ...
 $ Treatment: chr  "Control" "Experimental" "Control" "Control" ...
 $ Test1    : int  98 87 89 88 76 68 78 98 93 76 ...
 $ Test2    : int  32 33 54 44 64 54 44 32 64 37 ...


In [68]:
summary(kings)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  16.00   33.00   45.00   46.04   56.00   82.00 

In [69]:
summary(exams)

 student.number     english       mathematics   
 Min.   : 1.00   Min.   :37.00   Min.   :57.00  
 1st Qu.:13.25   1st Qu.:54.00   1st Qu.:76.00  
 Median :25.50   Median :57.50   Median :80.00  
 Mean   :25.50   Mean   :58.38   Mean   :78.88  
 3rd Qu.:37.75   3rd Qu.:65.00   3rd Qu.:84.00  
 Max.   :50.00   Max.   :79.00   Max.   :94.00  

In [70]:
summary(bloods)

       ID        Gender           Treatment             Test1      
 Min.   : 1   Length:25          Length:25          Min.   :65.00  
 1st Qu.: 7   Class :character   Class :character   1st Qu.:77.00  
 Median :13   Mode  :character   Mode  :character   Median :86.00  
 Mean   :13                                         Mean   :83.52  
 3rd Qu.:19                                         3rd Qu.:89.00  
 Max.   :25                                         Max.   :98.00  
     Test2      
 Min.   :32.00  
 1st Qu.:44.00  
 Median :64.00  
 Mean   :64.24  
 3rd Qu.:81.00  
 Max.   :99.00  

# 중앙값median
* 자료를 오름차순으로 나열한 후 가장 가운데 놓인 수
* 특이값의 영향을 받는 평균을 보완한 수치
* 자료 갯수가 짝수인 경우와 홀수인 경우 계산하는 방법이 다름
  + 데이터의 개수 $n$이 홀수라면, $\frac{(n+1)}{2} $번째 데이터가 중앙값
  + 데이터의 개수 $n$이 짝수라면, $\frac{n}{2}$번째 데이터와 $\frac{n}{2} + 1$번째 데이터의 평균이 중앙값

#### 조선조 왕들의 수명의 중앙값 조사

In [73]:
paste(mean(kings), median(kings))  # 중앙값은 평균값보다 작게 나옴

In [75]:
print(kings)

 [1] 73 62 45 53 38 16 51 28 37 30 56 30 33 56 66 54 40 33 59 36 82 48 44 22 32
[26] 67 52


In [77]:
print(sort(kings))  # 벡터의 요소를 오름차순 정렬함

 [1] 16 22 28 30 30 32 33 33 36 37 38 40 44 45 48 51 52 53 54 56 56 59 62 66 67
[26] 73 82


In [87]:
# 벡터의 요소들 중 정중앙에 위치한 값을 알아내기 위해 위치값 계산
cnt <- length(kings)
pos <- ceiling((cnt / 2)) # 위치값 계산
pos                       # 인덱스가 0부터 시작하므로

In [88]:
sort(kings)[pos]

#### 대학원생들의 나이의 중앙값 조사

In [74]:
paste(mean(stus), median(stus))

### 최빈값
* 데이터들 중에서 빈도(frequency)가 가장 큰 값
* 두번 이상 발생하는 자료 중에서 자주 나타나는 자료값
* 극단값에 전혀 영향을 받지 않음
* 존재하지 않거나 여러개 존재할 수 있음

#### 조선조 왕들의 수명의 최빈값 조사

In [91]:
# 벡터에 대한 빈도표 작성 : table
frq <- table(kings)
frq

kings
16 22 28 30 32 33 36 37 38 40 44 45 48 51 52 53 54 56 59 62 66 67 73 82 
 1  1  1  2  1  2  1  1  1  1  1  1  1  1  1  1  1  2  1  1  1  1  1  1 

In [97]:
print(max(frq))               # 최대값, 빈도 구하고
print(which(frq == max(frq))) # 위치 구하고
print(frq[c(4,6,8)])          # 조사?하고
print(names(frq[c(4,6,8)]))   # 이름 출력하고

[1] 2
30 33 56 
 4  6 18 
kings
30 33 37 
 2  2  1 
[1] "30" "33" "37"


In [93]:
# names : 데이터 프레임에서 특정 요소의 컬럼명 출력
# which : 벡터 중 특정 요소의 위치를 출력
# max : 벡터에서 가장 큰 값을 출력
names(frq)[which(frq == max(frq))]

#### 대학원생들의 나이의 최빈값 조사

In [104]:
frq2 <- table(stus)
print(frq2)

stus
18 19 20 21 22 23 24 
 4  6  2  4  2  1  2 


In [105]:
names(frq2[which(frq2 == max(frq2))])

### 핫도그 먹기대회 기술통계

In [107]:
hot <- read.csv(file = './data/hotdog.csv')
print(hot)

   Year                       Winner Dogs.eaten       Country New.record
1  1980 Paul Siederman & Joe Baldini       9.10 United States          0
2  1981              Thomas DeBerry       11.00 United States          0
3  1982               Steven Abrams       11.00 United States          0
4  1983                 Luis Llamas       19.50        Mexico          0
5  1984               Birgit Felden        9.50       Germany          0
6  1985             Oscar Rodriguez       11.75 United States          0
7  1986                 Mark Heller       15.50 United States          0
8  1987                 Don Wolfman       12.00 United States          0
9  1988                   Jay Green       14.00 United States          0
10 1989                   Jay Green       13.00 United States          0
11 1990                 Mike DeVito       16.00 United States          0
12 1991             Frank Dellarosa       21.50 United States          1
13 1992             Frank Dellarosa       19.00 Uni

In [126]:
str(hot)

'data.frame':	31 obs. of  5 variables:
 $ Year      : int  1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 ...
 $ Winner    : chr  "Paul Siederman & Joe Baldini" "Thomas DeBerry " "Steven Abrams " "Luis Llamas " ...
 $ Dogs.eaten: num  9.1 11 11 19.5 9.5 ...
 $ Country   : chr  "United States" "United States" "United States" "Mexico" ...
 $ New.record: int  0 0 0 0 0 0 0 0 0 0 ...


In [145]:
hot$Dogs.eaten  # 오... 이렇게 하면 열의 데이터를 가져옴

In [129]:
round(mean(hot$Dogs.eaten), digits = 2)

In [130]:
median(hot$Dogs.eaten)

In [133]:
sort(table(hot$Country), decreasing = T)  # decreasing 내림차순


United States         Japan       Germany        Mexico 
           20             9             1             1 

### 사원데이터 기술통계

In [134]:
emp = read.csv('./data/employees.csv')
head(emp, 5)

Unnamed: 0_level_0,EMPLOYEE_ID,FIRST_NAME,LAST_NAME,EMAIL,PHONE_NUMBER,HIRE_DATE,JOB_ID,SALARY,COMMISSION_PCT,MANAGER_ID,DEPARTMENT_ID
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<int>,<int>
1,100,Steven,King,SKING,515.123.4567,2003-06-17,AD_PRES,24000,,,90
2,101,Neena,Kochhar,NKOCHHAR,515.123.4568,2005-09-21,AD_VP,17000,,100.0,90
3,102,Lex,De Haan,LDEHAAN,515.123.4569,2001-01-13,AD_VP,17000,,100.0,90
4,103,Alexander,Hunold,AHUNOLD,590.423.4567,2006-01-03,IT_PROG,9000,,102.0,60
5,104,Bruce,Ernst,BERNST,590.423.4568,2007-05-21,IT_PROG,6000,,103.0,60


In [135]:
str(emp)

'data.frame':	107 obs. of  11 variables:
 $ EMPLOYEE_ID   : int  100 101 102 103 104 105 106 107 108 109 ...
 $ FIRST_NAME    : chr  "Steven" "Neena" "Lex" "Alexander" ...
 $ LAST_NAME     : chr  "King" "Kochhar" "De Haan" "Hunold" ...
 $ EMAIL         : chr  "SKING" "NKOCHHAR" "LDEHAAN" "AHUNOLD" ...
 $ PHONE_NUMBER  : chr  "515.123.4567" "515.123.4568" "515.123.4569" "590.423.4567" ...
 $ HIRE_DATE     : chr  "2003-06-17" "2005-09-21" "2001-01-13" "2006-01-03" ...
 $ JOB_ID        : chr  "AD_PRES" "AD_VP" "AD_VP" "IT_PROG" ...
 $ SALARY        : num  24000 17000 17000 9000 6000 ...
 $ COMMISSION_PCT: num  NA NA NA NA NA NA NA NA NA NA ...
 $ MANAGER_ID    : int  NA 100 100 102 103 103 103 103 101 108 ...
 $ DEPARTMENT_ID : int  90 90 90 60 60 60 60 60 100 100 ...


In [138]:
round(mean(emp$SALARY), digits = 2)

In [139]:
median(emp$SALARY)

In [141]:
mean(emp$COMMISSION_PCT, na.rm=T)  # na(제거해!)

In [142]:
sort(table(emp$JOB_ID), decreasing = T)


    SA_REP   SH_CLERK   ST_CLERK FI_ACCOUNT    IT_PROG   PU_CLERK     SA_MAN 
        30         20         20          5          5          5          5 
    ST_MAN      AD_VP AC_ACCOUNT     AC_MGR    AD_ASST    AD_PRES     FI_MGR 
         5          2          1          1          1          1          1 
    HR_REP     MK_MAN     MK_REP     PR_REP     PU_MAN 
         1          1          1          1          1 

In [144]:
sort(table(emp$MANAGER_ID), decreasing = T)


100 120 121 122 123 124 145 146 147 148 149 101 108 114 103 102 201 205 
 14   8   8   8   8   8   6   6   6   6   6   5   5   5   4   1   1   1 

In [143]:
sort(table(emp$DEPARTMENT_ID), decreasing = T)


 50  80  30 100  60  90  20 110  10  40  70 
 45  34   6   6   5   3   2   2   1   1   1 

### 2016 교통사고 현황 기술통계

In [147]:
accd2016 <- read.csv('./data/accident2016.csv')
head(accd2016, 5)

Unnamed: 0_level_0,발생년,발생년월일시,발생분,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,⋯,도로형태_대분류,도로형태,당사자종별_1당_대분류,당사자종별_1당,당사자종별_2당_대분류,당사자종별_2당,발생위치X_UTMK,발생위치Y_UTMK,경도,위도
Unnamed: 0_level_1,<int>,<int>,<int>,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,⋯,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
1,2016,2016122320,35,야간,금,1,1,0,0,0,⋯,교차로,교차로내,승용차,중형,보행자,보행자,981731,1932086,127.2936,37.38769
2,2016,2016122517,48,주간,일,1,1,0,0,0,⋯,단일로,기타단일로,승용차,중형,보행자,보행자,945989,1942347,126.8891,37.47878
3,2016,2016122519,5,야간,일,1,1,0,0,0,⋯,단일로,기타단일로,화물차,소형,보행자,보행자,993981,1879534,127.4316,36.91593
4,2016,2016122610,40,주간,월,1,1,0,0,0,⋯,단일로,기타단일로,승합차,경형,보행자,보행자,1161153,1751026,129.2822,35.74239
5,2016,2016122819,40,야간,수,1,1,0,0,0,⋯,단일로,기타단일로,승용차,소형,보행자,보행자,1056276,1686645,128.118,35.17351


In [149]:
# 데이터프레임 출력시 모든 컬럼 출력
options(repr.matrix.max.cols=200)
head(accd2016, 5)

Unnamed: 0_level_0,발생년,발생년월일시,발생분,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,발생지시군구,사고유형_대분류,사고유형_중분류,사고유형,법규위반_대분류,법규위반,도로형태_대분류,도로형태,당사자종별_1당_대분류,당사자종별_1당,당사자종별_2당_대분류,당사자종별_2당,발생위치X_UTMK,발생위치Y_UTMK,경도,위도
Unnamed: 0_level_1,<int>,<int>,<int>,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
1,2016,2016122320,35,야간,금,1,1,0,0,0,경기,광주시,차대사람,기타,기타,운전자법규위반,안전운전 의무 불이행,교차로,교차로내,승용차,중형,보행자,보행자,981731,1932086,127.2936,37.38769
2,2016,2016122517,48,주간,일,1,1,0,0,0,서울,금천구,차대사람,횡단중,횡단중,운전자법규위반,안전운전 의무 불이행,단일로,기타단일로,승용차,중형,보행자,보행자,945989,1942347,126.8891,37.47878
3,2016,2016122519,5,야간,일,1,1,0,0,0,충북,진천군,차대사람,차도통행중,차도통행중,운전자법규위반,안전운전 의무 불이행,단일로,기타단일로,화물차,소형,보행자,보행자,993981,1879534,127.4316,36.91593
4,2016,2016122610,40,주간,월,1,1,0,0,0,경북,경주시,차대사람,횡단중,횡단중,운전자법규위반,안전운전 의무 불이행,단일로,기타단일로,승합차,경형,보행자,보행자,1161153,1751026,129.2822,35.74239
5,2016,2016122819,40,야간,수,1,1,0,0,0,경남,진주시,차대사람,횡단중,횡단중,운전자법규위반,보행자 보호의무 위반,단일로,기타단일로,승용차,소형,보행자,보행자,1056276,1686645,128.118,35.17351


In [150]:
str(accd2016)

'data.frame':	4119 obs. of  27 variables:
 $ 발생년               : int  2016 2016 2016 2016 2016 2016 2016 2016 2016 2016 ...
 $ 발생년월일시         : int  2016122320 2016122517 2016122519 2016122610 2016122819 2016111207 2016110919 2016111005 2016110711 2016110818 ...
 $ 발생분               : int  35 48 5 40 40 34 25 0 5 0 ...
 $ 주야                 : chr  "야간" "주간" "야간" "주간" ...
 $ 요일                 : chr  "금" "일" "일" "월" ...
 $ 사망자수             : int  1 1 1 1 1 1 1 1 1 1 ...
 $ 사상자수             : int  1 1 1 1 1 1 1 1 1 1 ...
 $ 중상자수             : int  0 0 0 0 0 0 0 0 0 0 ...
 $ 경상자수             : int  0 0 0 0 0 0 0 0 0 0 ...
 $ 부상신고자수         : int  0 0 0 0 0 0 0 0 0 0 ...
 $ 발생지시도           : chr  "경기" "서울" "충북" "경북" ...
 $ 발생지시군구         : chr  "광주시" "금천구" "진천군" "경주시" ...
 $ 사고유형_대분류      : chr  "차대사람" "차대사람" "차대사람" "차대사람" ...
 $ 사고유형_중분류      : chr  "기타" "횡단중" "차도통행중" "횡단중" ...
 $ 사고유형             : chr  "기타" "횡단중" "차도통행중" "횡단중" ...
 $ 법규위반_대분류      : chr  "운전자법규위반" "운전자법규위반" "운전자법규위반" "운

In [151]:
table(accd2016$주야)


야간 주간 
2072 2047 

In [153]:
sort(table(accd2016$요일), decreasing = T)


 금  토  목  월  수  화  일 
666 635 596 584 565 560 513 

In [154]:
sort(table(accd2016$발생지시도), decreasing = T)


경기 경북 충남 경남 서울 전남 전북 충북 강원 부산 대구 인천 대전 광주 제주 울산 
 749  477  372  359  342  327  275  221  206  153  150  137   94   85   77   70 
세종 
  25 

In [155]:
sort(table(accd2016$사고유형_대분류), decreasing = T)


차대사람   차대차 차량단독 
    1647     1646      826 

In [157]:
sort(table(accd2016$사고유형), decreasing = T)


              횡단중                 기타         측면직각충돌 
                1078                  665                  619 
            전도전복          진행중 추돌             정면충돌 
                 480                  436                  323 
          공작물충돌           차도통행중 길가장자리구역통행중 
                 230                  146                   65 
       도로이탈 추락           보도통행중        도로이탈 기타 
                  30                   30                   16 
    주/정차차량 충돌 
                   1 

In [158]:
sort(table(accd2016$법규위반), decreasing = T)


       안전운전 의무 불이행                    신호위반 
                       2856                         333 
                중앙선 침범                        과속 
                        314                         178 
       보행자 보호의무 위반        교차로 통행방법 위반 
                        174                          68 
            안전거리 미확보        기타(운전자법규위반) 
                         68                          44 
직진 및 우회전차의 통행방해                 부당한 회전 
                         37                          28 
    차로위반(진로변경 위반)           앞지르기 금지위반 
                         12                           3 
       서행 및 일시정지위반           앞지르기 방법위반 
                          2                           2 

In [159]:
sort(table(accd2016$도로형태), decreasing = T)


  기타단일로     교차로내   교차로부근   횡단보도상    기타/불명       교량위 
        2427          817          468          170          103           49 
횡단보도부근       터널안   고가도로위   지하도로내 
          37           21           14           13 

In [160]:
sort(table(accd2016$당사자종별_1당), decreasing = T)


            소형             중형             경형             대형 
            1265             1206              660              478 
원동기장치자전거           자전거         건설기계           농기계 
             184              113               94               72 
          사발이             불명 
              45                2 

In [161]:
sort(table(accd2016$당사자종별_2당), decreasing = T)


          보행자                              소형             중형 
            1642              825              465              385 
            대형             경형           자전거 원동기장치자전거 
             239              195              148               92 
        건설기계           농기계           사발이             불명 
              62               54               10                2 

### 타이타닉 생존자 기술통계

In [162]:
titanic <- read.csv('./data/titanic.csv')
head(titanic, 5)

Unnamed: 0_level_0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
Unnamed: 0_level_1,<int>,<int>,<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<dbl>,<chr>,<chr>
1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
2,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


In [163]:
str(titanic)

'data.frame':	1310 obs. of  11 variables:
 $ pclass  : int  1 1 1 1 1 1 1 1 1 1 ...
 $ survived: int  1 1 0 0 0 1 1 0 1 0 ...
 $ name    : chr  "Allen, Miss. Elisabeth Walton" "Allison, Master. Hudson Trevor" "Allison, Miss. Helen Loraine" "Allison, Mr. Hudson Joshua Creighton" ...
 $ sex     : chr  "female" "male" "female" "male" ...
 $ age     : num  29 0.917 2 30 25 ...
 $ sibsp   : int  0 1 1 1 1 0 1 0 2 0 ...
 $ parch   : int  0 2 2 2 2 0 0 0 0 0 ...
 $ ticket  : chr  "24160" "113781" "113781" "113781" ...
 $ fare    : num  211 152 152 152 152 ...
 $ cabin   : chr  "B5" "C22 C26" "C22 C26" "C22 C26" ...
 $ embarked: chr  "S" "S" "S" "S" ...


In [173]:
summary(titanic)

     pclass         survived         name               sex           
 Min.   :1.000   Min.   :0.000   Length:1310        Length:1310       
 1st Qu.:2.000   1st Qu.:0.000   Class :character   Class :character  
 Median :3.000   Median :0.000   Mode  :character   Mode  :character  
 Mean   :2.295   Mean   :0.382                                        
 3rd Qu.:3.000   3rd Qu.:1.000                                        
 Max.   :3.000   Max.   :1.000                                        
 NA's   :1       NA's   :1                                            
      age              sibsp            parch          ticket         
 Min.   : 0.1667   Min.   :0.0000   Min.   :0.000   Length:1310       
 1st Qu.:21.0000   1st Qu.:0.0000   1st Qu.:0.000   Class :character  
 Median :28.0000   Median :0.0000   Median :0.000   Mode  :character  
 Mean   :29.8811   Mean   :0.4989   Mean   :0.385                     
 3rd Qu.:39.0000   3rd Qu.:1.0000   3rd Qu.:0.000                     
 Max. 

In [166]:
round(mean(titanic$age, na.rm=T), digits = 1)

In [167]:
round(median(titanic$age, na.rm=T), digits = 1)

In [169]:
round(mean(titanic$fare, na.rm=T), digits = 1)

In [168]:
round(median(titanic$fare, na.rm=T), digits = 1)

In [171]:
table(titanic$survived)


  0   1 
809 500 

In [170]:
table(titanic$sex)


       female   male 
     1    466    843 

In [172]:
table(titanic$pclass)


  1   2   3 
323 277 709 

In [174]:
table(titanic$embarked)


      C   Q   S 
  3 270 123 914 