# Pandas
파이썬에서 데이터를 시각적으로 간편하게 다룰 수 있도록 만들어진 라이브러리

2차원 배열 데이터에 대한 집계, 시각화, 편집 등등을 굉장히 쉽게 할 수 있게 해 준다.

**정형 데이터**를 다루는 라이브러리

## 데이터의 종류
* 정형 데이터(Structured Data)
  - 규칙에 의해서 정확하게 데이터가 존재하는 식의 데이터 형태
  - 정해진 형태(정형)
    - 엑셀, `csv`, RDBMS
  - 대부분의 정형 데이터는 2차원 형식
* 반 정형 데이터(Semi Structured Data)
  - 약한 정형 데이터
  - 규칙은 존재하지만 반드시 지킬 필요는 없는 데이터의 형식
  - 없는 데이터는 없도록 설정한다.
  - 반 정형 데이터의 종류
    - `JSON`, `XML`, `HTML`, `NoSQL` 등 문서의 형식으로 존재하는 데이터
    - ```python
    person_infos = [
        { "name" : "A", "age": 30 },
        { "age" : 34 },
        { "name" : "C", "job" : "Programmer" }
  ]
    ```
* 비 정형 데이터(Unstructured Data)
  - 정형 데이터의 반대 개념
  - 정해진 규칙이 없어서 값의 의미를 파악하기 힘든 데이터
  - 영상, 자연어, 음성, 주파수 등등 비정형 데이터에 포함된다.


# Series, DataFrame
* `Series` : 한 종류의 데이터를 여러 개 모아 놓은 것 
  * $\mathbb{R}^{N \times 1}$
* `DataFrame` : `Series`가 여러 개 모이면 `DataFrame`이 된다.
  * `RDBMS`의 테이블과 같은 개념
  * $\mathbb{R}^{N \times M}$

## Series

In [None]:
import pandas as pd
import numpy as np

np.random.seed(42)
data = np.random.randn(4)

temp_series = pd.Series(data)
temp_series

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
dtype: float64

In [None]:
type(temp_series)

pandas.core.series.Series

## DataFrame
* `Series`가 여러 개 모여서 하나의 데이터 시트를 표현하면 `DataFrame`이 된다.

### 1. 리스트로 데이터 프레임 만들기

In [None]:
# HTML에서 데이터를 크롤링 했을 때 많이 사용되는 방법
sample_data = [["A", "마케팅", 30],
               ["B", "프로그래머", 27],
               ["C", "요리사", 34]]


pd.DataFrame(sample_data)

Unnamed: 0,0,1,2
0,A,마케팅,30
1,B,프로그래머,27
2,C,요리사,34
