In [None]:
'''
빅데이터 통계

자료의 분류
- 수치형 변수 (데이터)
    > 연속형 : 연속된 값을 가지고 표현. 연속적인 수
    > 이산형 : 정확한 숫자로 이뤄진 값. 수강생의 수, 카페의 수

- 범주형 변수 (데이터) - 카테고리형
    > 명목형 : 혈액형, 성별, 통신사
    > 순위형 : 학년, 등급, 설문지 척도(1~5)
    
양적변수, 질적변수(특성)

통계와 관련된 프로그램 : SPSS, EXCEL, R

** R이나 파이썬에서 데이터를 다룰 때 행과 열의 구조를 가지는 Data => Frame

** 인덱싱 : 파이썬 인덱싱은 0부터, R은 1부터 시작함

** R 프로그램 특징 :
    1) 시각화하여 이미지를 저장할 수 있다 (그래프, 분산도 등)
    2) 라이브러리 설치 용이함
    3) 여러가지 명령어를 스크립트로 저장하여 사용할 수 있음
    4) 다양한 통계 관련 모듈 함수를 지원

** 결측치, 이상치
    결측치 : 누락된 값, 비어있는 값
    이상치 : 정상 범주에서 크게 벗어난 값

** R프로그램 함수 : sum(), table(), mean(), median()

** 기술통계, 추론통계
    기술통계(Descriptive statistics) : 수집한 데이터를 요약, 묘사, 설명하는 통계 기법 
    추론통계(Inferential statistics) : 수집한 데이터를 바탕으로 추론 예측하는 통계 기법

** 상관계수 : 값의 범위, 상관분석, 상관행렬
    상관계수 : 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수
    값의 범위 : -1부터 +1까지, 계수의 절대값이 클수록 변수 사이에 강한 관계가 있음
    상관분석 : 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법
    상관행렬 : 다수의 변수간 상관관계를 파악하려고 할 때 사용하는 분석 기법

** 귀무가설, 대립가설
    귀무가설 : 모집단에 대해 사실이라고 알려진 특성치에 대한 정보
    대립가설 : 모집단으로부터 추출된 표본자료를 통해 귀무가설과 대치됨을 입증하고자 하는 가설

** p-value
    귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률

** 가설 검증
    통계적 가설을 추출한 표본을 사용하여 검토하는 추론의 과정

** 두 집단 간 평균의 차이를 검증하는 통계 기법 = t-test
'''

In [None]:
# 하둡(Hadoop) - 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 
               # 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 
               # 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 
               # 분산처리를 위한 오픈소스 프레임워크
# 빅데이터 플랫폼 요구사항 분석 - 다양한 플랫폼의 사용을 지양하기
# 분산처리 시 요구사항을 분리하고, 할당하고, 처리함 - 빅데이터 분석이 선행되지는 않음!!!!
# 


# 빅데이터 플랫폼 요구사항 분석
# 1. 빅데이터 플랫폼 요구사항과 거리가 먼 것은?
# 2. 빅데이터 처리 전 요구사항 수집과 관련이 없는 것은?
# 3. 빅데이터 처리 전 요구사항 정의와 관련 없는 것은?
# 4. 요구사항 명세서 작성 시 유의해야 할 사항과 거리가 먼 것은?
# 5. 요구사항 검증 시 검토해야 할 사항과 거리가 먼 것은? (객관적)

# 빅데이터 플랫폼 인프라 구조 설계
# 1. 빅데이터 플랫폼 인프라 구조 설계 시 업무 및 '기술 현황 분석 단계'에서 수행하는 활동
# 2. 빅데이터의 데이터베이스 설계 시 요구사항 분석 결과를 바탕으로 개체를 도출하고 
#    개체 속성과 키를 설정하는 개체 간의 관계를 정의한 그림을 무엇이라고 하는가? -> ERD
# 3. 빅데이터 수집, 처리, 저장 기법과 먼 것은? (학습과는 다름)
