# Pandas

- 파이썬에서 데이터를 시각적으로 간편하게 다룰 수 있도록 만들어진 라이브러리
- 판다스는 numpy를 기반으로 만들어진 라이브러리
- **2차원 배열 데이터**에 대한 집계, 시각화, 전처리 등등을 굉장히 쉽게 할 수 있게 해준다.
- **정형 데이터**를 다루는 라이브러리

## 데이터의 종류

### 1. 정형 데이터(Structured Data)
- 정형 : 정해진 형태
- 규칙에 의해서 정확하게 데이터가 존재하는 식의 형식
- 대부분의 정형 데이터는 2차원 형식을 가진다.



### 2. 반 정형 데이터(Semi Structred Data)
- 약한 정형 데이터
- 규칙은 존재하지만 반드시 지킬 필요는 없는 데이터 형식
- `json` 형태 데이터

In [None]:
person_infos = [
    { "name" : "A", "age": 30 },
    { "age" : 34 },
    { "name" : "C", "job" : "Programmer" }
]

### 3. 비 정형 데이터(Unstructred Data)
- 정형 데이터의 반대 개념
- 정해진 규칙이 없어서 값의 의미를 파악하기 힘든 데이터
- 영상, 자연어, 음성, 주파수 등이 비 정형 데이터

## `Series`
- 한 종류의 데이터를 모아 놓은 것.
- 1차원 배열로 구성

In [None]:
import pandas as pd

In [None]:
# 정수값만 가진 시리즈 생성
pd.Series([1, 2, 3, 4])

0    1
1    2
2    3
3    4
dtype: int64

In [None]:
# 실수값만 가진 시리즈 생성
pd.Series([1.3, 3.8, 10.2, 3.7])

0     1.3
1     3.8
2    10.2
3     3.7
dtype: float64

In [None]:
# 정수값과 실수값이 섞인 시리즈를 생성할 경우, 자동으로 정수가 실수화된다.
pd.Series([1.3, 10, 5, 1])

0     1.3
1    10.0
2     5.0
3     1.0
dtype: float64

## `DataFrmae`
- 1차원 배열인 `Series`가 여러개 모여 하나의 데이터 시트를 표현하면 `DataFrame`이 된다.
- 즉 DataFrame은 2차원 배열인 행렬의 형태
- 모든 `Series`의 길이가 같아야 `DataFrame`을 생성할 수 있다.

In [None]:
# 단순히 2차원 배열로 DataFrame 생성시 컬럼명은 컬럼 인덱스로 부여
data = [["Noah", 22, 179.1],
        ["Eunho", 20, 184.3]]

pd.DataFrame(data)

Unnamed: 0,0,1,2
0,Noah,22,179.1
1,Eunho,20,184.3


In [None]:
# 컬럼명 지정 가능
pd.DataFrame(data, columns=["Name", "Age", "Height"])

Unnamed: 0,Name,Age,Height
0,Noah,22,179.1
1,Eunho,20,184.3


### DataFrame `dict` 형태로 만들기 - ver.1
- 데이터프레임으로 만들 딕셔너리의 value는 시리즈가 되기 때문에 반드시 리스트(`list`) 형태여야 한다.
- value에 잇는 모든 리스트는 항상 길이가 똑같아야 데이터프레임을 생성할 수 있다.
- `dict`의 `key` : 컬럼의 이름
- `dict`의 `value` : 각 컬럼에 채워질 데이터들 (`list` 형태)

In [None]:
# dict의 key : 컬럼의 이름
# dict의 value : 각 컬럼에 채워질 데이터'들' ( 리스트 )
data = {
    "Name" : ["Noah","Eunho","Yejun"],
    "Age" : [22, 20, 22],
    "Height" : [179.1, 184.3, 183.6]
}

pd.DataFrame(data)

Unnamed: 0,Name,Age,Height
0,Noah,22,179.1
1,Eunho,20,184.3
2,Yejun,22,183.6


### DataFrame `dict` 형태로 만들기 - ver.2
- 리스트 내부에 행을 표현할 수 있는 데이터를 `dict` 형식으로 넣어 놓고 만드는 방법

In [None]:
data = [
  {
   "Name": "Noah",
   "Age": 22,
   "Height"  : 179.1
  },

  {
   "Name": "Eunho",
   "Age": 20,
   "Height"  : 184.3
  },
  {
   "Name": "Yejun",
   "Age": 22,
   "Height"  : 183.6
  }
]

pd.DataFrame(data)

Unnamed: 0,Name,Age,Height
0,Noah,22,179.1
1,Eunho,20,184.3
2,Yejun,22,183.6
