# 데이터의 기초

## 데이터의 종류

### 1️⃣ 정량 데이터
수치로 표현할 수 있는 데이터로, 수학적 계산과 통계적 분석이 가능한 데이터를 의미한다.

- 주요 특징 :
  - 정량화 가능 (숫자로 측정)
  - 크기 비교와 분석 가능
  - 명확한 단위와 범위를 가짐.
- 예시 :
  - 제품의 판매량
  - 온도, 길이, 시간
  - 설문조사 점수 (1~5 등급)
  
<img src="https://drive.google.com/uc?id=1E9edGb0Ug6gZ6wvsNYnVlfVkTaMNa6h1" width=500 height=300/>



### 2️⃣ 정성 데이터 (Qualitative Data)
숫자로 나타낼 수 없는 데이터로, 주로 텍스트, 이미지, 소리 등으로 표현된다.

- 주요 특징 :
  - 주관적 해석이 필요
  - 데이터 분류 및 패턴 분석에 사용
  - 비정형적일 수 있음

- 예시
  - 고객 리뷰
  - 소셜 미디어 댓글
  - 인터뷰 녹취
  
<img  width="400px" src="https://drive.google.com/uc?id=1T6kR2HmQN43xQj1ra83xXFrS8RSWxyoj" width=500 height=300/>

###3️⃣ 구조화 데이터 (Structured Data)
특정 형식이나 구조(예: 표, 데이터베이스)에 맞게 정리된 데이터.
- 주요 특징:
  - 표준화된 스키마에 따라 저장
  - 검색 및 분석 용이
  - 정량 데이터와 자주 연결됨
- 예시:
  - 관계형 데이터베이스 (MySQL, PostgreSQL)
  - Excel 표 데이터


<img src="https://drive.google.com/uc?id=1ciYr0TdBdELDV8pAqS197QxfH256lEux" width=500 height=300/>

### 4️⃣ 비구조화 데이터 (Unstructured Data)
정해진 형식이 없는 데이터로, 다양한 형태의 정보로 구성됨.

- 주요 특징:
  - 분석 및 저장에 추가 작업 필요
  - 텍스트 마이닝, 자연어 처리 등의 기술 필요
  - 정성 데이터와 자주 연결됨

- 예시:
  - 이미지, 동영상, PDF 파일
  - 이메일 본문
  - 로그 파일

<img c src="https://drive.google.com/uc?id=1ECA2ka3QrtvJJ_KugMOmdrqfNR6B7Vvz" width=500 height=500/>

### 데이터 품질(Data Quality)의 정의
**데이터 품질(Data Quality)**은 데이터가 의도한 목적에 적합하게 사용될 수 있는 수준을 나타내는 개념이다. <br>
데이터 품질은 데이터 기반 의사결정의 신뢰성과 효율성을 보장하기 위해 매우 중요한 요소이다. <br> 데이터 품질은 여러 측면에서 평가될 수 있으며, 이를 보장하기 위한 다양한 방법론과 도구가 존재한다.

- 중요성:
  - 잘못된 데이터는 부정확한 분석 결과로 이어질 수 있음.
  - 데이터 품질이 높을수록 비즈니스 가치를 극대화할 수 있음.

#### 데이터 품질의 주요 속성
1. 정확성 (Accuracy)<br>
  데이터가 현실 세계의 실제 값을 얼마나 정확히 반영하는가.
  - 특징:
    - 데이터가 오류 없이 기록되어야 함.
    - 데이터 항목 값의 신뢰도가 중요.
  - 문제 사례:
    - 잘못된 주소 정보, 오타

  <img src="https://drive.google.com/uc?id=1Zo_lbjMo6chrJ1L6LUpRGrzvxrmO3w4s" width=500 height=300/>
  
  > 중국 기업의 경우 실적 보고서에 맞지 않는 데이터를 입력해서 주가를 의도적으로 조작하는 사례가 많다.

2. 일관성 (Consistency) <br>
  데이터가 여러 데이터베이스 또는 소스 간에 동일하고 일치하는 정도.
  - 특징:
    - 동일한 데이터가 다양한 소스에서 다르게 기록되지 않음.
    - 데이터 형식과 규칙 준수.
  - 문제 사례:
    - "서울"과 "SEOUL"이 동시에 사용됨.
    - 통화 단위가 서로 다름.

  <img src="https://drive.google.com/uc?id=11H1_ZajuiHrJjpsRyAqKq3mdVHYn5KBG"/>
  
  > 데이터의 일관성이 맞지 않는다면 다음과 같이 옵션이 같은 값임에도 배수로 증가 되어야 한다.

3. 완전성 (Completeness) <br>
  필요한 데이터가 누락되지 않고 모두 포함되어 있는가.
  - 특징:
    - 필수 필드가 비어 있지 않아야 함.
    - 데이터의 전반적인 충실도.
  - 문제 사례:
    - 고객 정보에서 전화번호나 이메일이 비어 있음.

  <img src="https://drive.google.com/uc?id=1go8g3wl3O8r027BHcJr-S2Za-1GwJm80"/>
  
  > 데이터는 필수 값과 그렇지 않은 값이 존재하며 노란색으로 표시된 필수 값이 비어있는 경우 불안정하다고 판단하며 이러한 것을 <mark>결측값</mark>이라고 표현한다.


4. 적시성 (Timeliness) <br>
  데이터가 분석 및 의사결정에 필요한 시점에 적시에 제공되는가.
  - 특징:
    - 최신 데이터를 반영해야 함.
    - 오래된 데이터는 의사결정에 부적합.
  - 문제 사례:
    - 실시간 판매 데이터가 지연되어 보고됨.

  <img src="https://drive.google.com/uc?id=1DNX9nE9cur5jvL4Fp6DC_-Pss6w5Wi2h" width=500 height=300/>

### 데이터 품질 관리(Data Quality Management)의 중요성

1. 의사결정 지원
  - 고품질 데이터는 조직이 정확한 정보를 바탕으로 올바른 결정을 내릴 수 있도록 지원.
2. 운영 효율성 향상
  - 데이터 오류로 인한 추가 작업을 줄이고 업무 프로세스 최적화.
3. 신뢰성 확보
  - 데이터에 대한 신뢰도가 높아지면 조직 내부와 외부의 신뢰도도 향상.
4. 비용 절감
  - 낮은 데이터 품질로 인해 발생하는 문제(중복 작업, 고객 불만 등) 예방.
5. 규제 준수
  - 규제 요건이나 표준을 충족하기 위해 데이터 품질은 필수적.


> 데이터 분석이 잘 이루어지게 되면 이를 통해 많은 사이트를 얻게된다. <br>
이를 위해서 우선 앞단의 데이터 관리가 잘 이루어져야 한다.



### 데이터 저장 형식 및 구조

#### 1. 파일 기반 데이터 저장 형식
##### 1.1 CSV (Comma-Separated Values)
- 특징:
  - 텍스트 기반의 단순한 데이터 저장 형식.
  - 데이터는 쉼표(,)로 구분되며, 행(row)과 열(column)로 구성.
  - 인간이 읽기 쉽고, 엑셀 등 다양한 도구와 호환 가능.
- 장점:
  - 가볍고 간단한 형식.
  - 거의 모든 프로그래밍 언어에서 쉽게 처리 가능.
  - 파일 크기가 작음.
- 단점:
  - 구조적 데이터에 적합하지만, 중첩 데이터(예: 계층적 데이터) 처리 어려움.
  - 데이터 타입 정보가 포함되지 않음.
- 용도:
  - 데이터 교환, 로그 파일 저장, 분석용 샘플 데이터.

<img src="https://drive.google.com/uc?id=1pW1gNNPb71xjkC4eTVW-ngQU5liTp_mF" width=500/>


##### 1.2 XML (eXtensible Markup Language)
- 특징:
  - 데이터 표현과 전송을 위해 계층적 구조를 사용.
  - 태그 기반 문법.
- 장점:
  - 데이터의 의미를 명확히 표현 가능.
  - 다양한 스키마와 표준을 지원.
- 단점:
  - 복잡하고 파일 크기가 큼.
  - 처리 속도가 느림.
- 용도:
  - 문서 관리, 데이터 교환, 설정 파일.

```xml
<!--
다음 구조는 Xml로 계층성을 띄우며 html과 구조가 비슷하다.
json 이전에 많이 사용하는 데이터 방식이였다.
-->
<users>
  <user>
    <id>1</id>
    <name>John</name>
    <age>25</age>
  </user>
  <user>
    <id>2</id>
    <name>Jane</name>
    <age>30</age>
  </user>
</users>
```


##### 1.3 JSON (JavaScript Object Notation)
- 특징:
  - 계층적 데이터(중첩된 데이터 구조)를 표현하는 텍스트 기반 형식.
  - 키-값 쌍으로 데이터를 저장하며, 다양한 데이터 타입 지원.
  - 인간과 기계가 모두 읽기 쉬움.
- 장점:
  - 구조적이고 유연한 데이터 표현.
  - REST API, 웹 애플리케이션 등에서 널리 사용.
  - 프로그래밍 언어 간 호환성 우수.
- 단점:
  - 대용량 데이터 저장 시 크기가 클 수 있음.
  - 바이너리 데이터 처리 비효율.
- 용도:
  - 웹 애플리케이션 데이터 교환, API 응답, 설정 파일.

In [None]:
# json은 현재 웹에서 가장 많이 사용하는 데이터 형식이다.
# 해당 구조는 javascript에서 조금더 자세하게 배운다.
data = {
  "users": [
    {"id": 1, "name": "John", "age": 25},
    {"id": 2, "name": "Jane", "age": 30},
    {"id": 3, "name": "Bob", "age": 22}
  ]
}

data["users"][0]

{'id': 1, 'name': 'John', 'age': 25}

#### 2. 데이터베이스 기반 데이터 저장 구조
##### 2.1 관계형 데이터베이스 (Relational Database, RDB)
- 특징:
  - 데이터를 테이블(행과 열의 2차원 구조)로 저장.
  - 데이터는 고정된 스키마(schema)를 따름.
  - SQL을 사용하여 데이터 쿼리 및 관리.
- 장점:
  - 데이터 무결성과 일관성 보장.
  - 복잡한 쿼리 및 관계형 데이터 처리에 적합.
  - 트랜잭션 지원.
- 단점:
  - 비정형 데이터 처리 어려움.
  - 스키마 변경 시 복잡함.
- 용도:
  - 금융 시스템, ERP, CRM, 전통적인 비즈니스 애플리케이션.

<img src="https://drive.google.com/uc?id=1egjCkgJiV1z5KcIIJhBMIiRUz5Su7WDs"/>

> RDBMS 관계를 맺는 데이터 베이스 방식이다. 이는 A를 알면 B를 알 수 있는 구조이다. <br>
이는 구조화 데이터 저장에 용이한 방식이다.

##### 2.2 비관계형 데이터베이스 (NoSQL)
- 특징:
  - 테이블 대신 다양한 데이터 모델(문서, 키-값, 그래프, 열 기반)을 사용.
  - 스키마리스(schema-less) 구조로 유연한 데이터 저장 가능.
- 장점:
  - 대용량 비정형 데이터 처리에 적합.
  - 수평적 확장 용이.
- 단점:
  - 데이터 무결성 및 복잡한 쿼리 기능 부족.
  - 초기 설계가 중요.
- 용도:
  - IoT, 빅데이터, 소셜 미디어 애플리케이션.

<img width="400px" src="https://drive.google.com/uc?id=14iCPPKX0alEC02HbP3HvThqQU1gsYunQ"/>

> NoSql은 RDBMS와 다르게 구조를 갖지 않고 key-value로 이루어진 데이터이다.<br>
이러한 특징으로 채팅 데이터와 같이 비교적 구조를 갖지 않는 데이터를 관리하는 것에 사용이 용이하다.

### 데이터 저장 선택 시 고려 요소
#### 1. 데이터 구조:
  - 정형 데이터(테이블 형태) → 관계형 데이터베이스.
  - 비정형 데이터(이미지, 동영상) → 비관계형 데이터베이스.

#### 2. 데이터 크기 및 확장성:
  - 소규모 데이터 → CSV, SQLite.
    > SQLite : 주로 모바일에서 사용하는 작은 데이터 베이스를 의미한다.
  - 대규모 데이터 → Hadoop, NoSQL.
    > Hadoop : 엔터프라이즈급 데이터를 취급하기 위한 기술로 주로 많은 양의 데이터를 다루기 위해 사용된다.

#### 3. 처리 성능:
  - 빠른 읽기/쓰기 → 키-값 데이터베이스 (예: NoSql).
    > 복잡한 참조가 없어 조회에 우수한 성능을 보인다.

  - 복잡한 관계 쿼리 → RDB (예: MySQL, PostgreSQL).
    > 구조화가 되어 신뢰성이 증가되지만 조회시 많은 참조가 필요하다.

#### 4. 사용 목적:
  - 데이터 분석 → CSV, Parquet.
    > Parquet : Haooop에서 많이 사용되는 데이터 포맷이다.

  - 실시간 응용 → NoSQL, In-memory DB.
    > in-memory : 메모리 상에서 관리하여 빠르게 참조할 수 있는 특징을 갖는다. 그러나 프로그램 종료시 데이터가 소실된다.

#### 5. 호환성 및 표준 요구:
  - 다양한 시스템 간 데이터 교환 → JSON, XML.