## Python data handling

### CSV (Comma Separate Values)

> - CSV, 필드를 쉽표(,)로 구분한 텍스트 파일
> - **엑셀 양식의 데이터를 프로그램에 상관없이 쓰기 위한 데이터 형식**이라고 생각하면 쉬움
> - 탭(TSV), 빈칸(SSV)등으로 구분해서 만들기도 함
> - 통칭하여 **character-separated values (CSV)**라고 부름

#### CSV 처리

> - Text파일 형태로 데이터 처리시 문장 내에 들어가 있는 **`,`**등에 대해 전처리 과정이 필요
> - 파이썬에서는 간단히 CSV 파일을 처리하기 위해 **csv 객체**를 제공함
> - ```Python
    import csv
    reader = csv.reader(f,
                       delimiter=',', # 글자 나누는 기준
                       quotechar='"', # 줄 바꿈 기준
                       quoting=csv.QUOTE_ALL) # 데이터 나누는 기준이 quotechar에 의해 둘러싸인 레벨
    ```
    
### Web

> - **World Wide Web (WWW)**, 줄여서 **웹**이라고 부름
> - 우리가 늘 사용하는 **인터넷 공간의 정식 명칭**
> - 원래 **물리학자들간 정보 교환**을 위해 사용됨
> - 데이터 송수신을 위한 HTTP 프로토콜 사용, 데이터를 표시하기 위해 HTML 형식을 사용

#### Web은 어떻게 동작하는가?

> - 1) 요청 : 웹주소, Form, Header 등
> - 2) 처리 : Database 처리 등 요청 대응
> - 3) 응답 : HTML, XML 등으로 결과 반환
> - 4) 렌더링 : HTML, XML 표시

#### HTML(Hyper Text Markup Language)

> - **웹 상의 정보를 구조적으로 표현**하기 위한 언어
> - 제목, 단락, 링크 등 요소 표시를 위해 **Tag**를 사용
> - 모든 요소들은 **꺾쇠 괄호 안에 둘러 쌓여 있음**
> - 모든 HTML은 트리 모양의 포함 관계를 가짐
> - 일반적으로 웹페이지의 **HTML 소스파일**은 컴퓨터가 다운로드 받은 후 **웹 브라우저가 해석/표시**
    - ```HTML
    # Ex)
   <title> Hello, World </title>
   ```

### Regular expression (정규식)

> - 정규 표현식, regexp 또는 regex 등으로 불림
> - **복잡한 문자열 패턴**을 정의 하는 **문자 표현 공식**
> - **특정한 규칙**을 가진 **문자열의 집합을 추출**
> - Ex) ^\d{3}\-\d{4}\-\d{4}$
> - [Practice](http://www.regexr.com)

#### 기본 문법

> - 문자 클래스 **`[ ]`** : **`[`, `]` 사이의 문자들과 매치**
    - Ex) [abc] : 해당 글자가 a, b, c 중 하나 있으면 반환
> - **`-`**를 사용해 **범위를 지정할 수 있음**
    - Ex) [a-zA-Z] : 알파벳 전체
> - **매타 문자** : `. ^ $ * + ? { } [ ] \ | ( )`

#### 정규식 in Python

> - re 모듈을 import 하여 사용 : `import re`
> - 함수 : `search`, `findall`
> - 추출된 패턴은 tuple로 반환됨

### XML (eXtensible Markup Language)

> - **데이터의 구조와 의미를 설명**하는 **TAG(MarkUp)를 사용하여 표시**하는 언어
> - **TAG와 TAG사이에 값**이 표시되고, **구조적인 정보를 표현**할 수 있음
> - HTML과 문법이 비슷, 대표적인 데이터 저장 방식

> - 정보의 구조에 대한 정보인 스키마와 DTD 등으로 정보에 대한 정보(메타정보)가 표현되며, 용도에 따라 다양한 형태로 변경가능
> - XML은 컴퓨터(예: PC ↔ 스마트폰)간에 정보를 주고받기 **매우 유용한 저장 방식**으로 쓰이고 있음

#### XML Parsing in Python

> - XML도 HTML과 같이 구조적 markup 언어
> - **정규표현식**으로 Parsing이 가능함
> - 그러나 좀 더 **손쉬운 도구들이 개발**되어 있음
> - 가장 많이 쓰이는 parser인 **`beautifulsoup`**으로 파싱

#### BeautifulSoup

> - HTML, XML등 Markup 언어 Scraping을 위한 대표적인 도구
> - lxml 과 html5lib 과 같은 Parser를 사용함
> - 속도는 상대적으로 느리나 간편히 사용할 수 있음

### JSON

> - JavaScript Object Notation
> - 원래 웹 언어인 **Java Script의 데이터 객체 표현 방식**
> - **간결성**으로 기계/인간이 모두 이해하기 편함
> - **데이터 용량이 적고, Code로의 전환이 쉬움**
> - 이로 인해 **XML의 대체제**로 많이 활용되고 있음

#### JSON in Python

> - **json** 모듈을 사용하여 손 쉽게 파싱 및 저장 가능
> - **데이터 저장 및 읽기는 dict type**과 상호 호환 가능
> - 웹에서 제공하는 API는 대부분 정보 교환 시 JSON 활용
> - **페이스북, 트위터, Github** 등 거의 모든 사이트
> - 각 사이트 마다 **Developer API의 활용법을 찾아 사용**