# Pandas의 Data Structure

## Series와 DataFrame
---

### Series란
 - 1차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀의 스프레드시트와 같은 데이터에서 하나의 행, 혹은 열을 나타낸다

---

### DataFrame이란
 - 2차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀 스프레드시트
 - 데이터베이스의 Table
 - Series의 집합

![title](img/dataframe.png)

---

In [None]:
import pandas as pd

### Series에 값 할당하기
```python
s = pd.Series(data, index=index)
```

`data` 에는
 - 리스트
 - 딕셔너리
 - 튜플
 - Scalar 값 (숫자, 문자열 등)
등이 들어갈 수 있다.


#### Example

In [112]:
# 리스트로 Series 생성
# index 값을 지정하지 않을 경우 0부터 자동으로 index가 부여됨
my_list = ['a','b','c','d','e']

s = pd.Series(my_list)
print(s)

0    a
1    b
2    c
3    d
4    e
dtype: object


In [None]:
# index 를 명시적으로 지정하여 Series 생성
# index 의 길이는 list의 길이와 같아야 함
s = pd.Series(my_list, index=['string', 3, 0.98, True])
print(s)
s = pd.Series(my_list, index=range(10,15))
print(s)

In [None]:
# 딕셔너리로 Series 생성
# 딕셔너리의 Key가 생성된 Series의 Index가 된다
my_dict = {
    'first_name' : 'Baek',
    'last_name' : 'JaeWon',
    'Gender' : 'M',
    'Age' : 19,
    'some_list' : [1,3,5,7,9]
}

s = pd.Series(my_dict)
print(s)

In [None]:
# 특정 index만 선택하여 Series 생성
s = pd.Series(my_dict, index=['first_name', 'Age', 'Address'])
print(s)

In [None]:
# 튜플로 Series 생성
my_tuple = (10,20,30,40,50)

s = pd.Series(my_tuple)
print(s)

In [None]:
# int, float, string으로 Series 생성
# Index에 리스트값을 지정할 경우, Index 리스트 크기의 Series가 생성
s = pd.Series(100)
print(s)
s = pd.Series(3.14)
print(s)
s = pd.Series('some string', index=range(10))
print(s)

In [None]:
# Series의 name 설정
s = pd.Series(my_list, name='something')
print(s)
s.name = "new name"
print(s)


### DataFrame에 값 할당하기
```python
s = pd.DataFrame(data, index=index)
```

`data` 에는
 - 1차원의 리스트, 딕셔너리 혹은 Series를 `value` 로 갖는 딕셔너리
 - 1차원의 리스트, 딕셔너리 혹은 Series의 리스트
 - Series
 - DataFrame
 
등이 들어갈 수 있다.


### Example

In [None]:
# 리스트를 value로 갖는 딕셔너리로 DataFrame 생성
dict_list = {
    'first' : [11,12,13,14,15],
    'second' : [21,22,23,24,25],
    'third' : [31,32,33,34,35]
}

df = pd.DataFrame(dict_list)
print(df)

In [None]:
# Index를 지정하여 DataFrame 생성
df = pd.DataFrame(dict_list, index = ['a','b','c','d','e'])
print(df)

In [None]:
# 딕셔너리를 value로 갖는 딕셔너리로 DataFrame 생성
# Outer 딕셔너리의 Key 값은 DataFrame의 Column Index가 되며
# Inner 딕셔너리의 Key 값은 DataFrame의 Row Index가 된다
dict_dict1 = {
    'first' : {
        'a' : 1,
        'b' : 2,
        'c' : 3
    },
    'second' : {
        'a' : 4,
        'b' : 5,
        'c' : 6
    },
    'third' : {
        'a' : 7,
        'b' : 8,
        'c' : 9
    }
}

df = pd.DataFrame(dict_dict1)
print(df, '\n')


In [None]:
# Inner 딕셔너리의 Key값이 서로 다를 경우
dict_dict2 = {
    'first' : {
        'a' : 1,
        'b' : 2,
        'c' : 3
    },
    'second' : {
        'a' : 4,
        'd' : 5,
        'e' : 6
    },
    'third' : {
        'b' : 7,
        'c' : 8,
        'f' : 9
    }
}

df = pd.DataFrame(dict_dict2)
print(df)

In [None]:
# Index를 지정하여 DataFrame 생성
df = pd.DataFrame(dict_dict2, index=['a','c','f'])
print(df)

In [None]:
# Series를 value로 갖는 딕셔너리로 DataFrame 생성
dict_series = {
    'first' : pd.Series(range(1,4), index=['a','b','c']),
    'second' : pd.Series(range(4,7), index=['a','b','c']),
    'third' : pd.Series(range(7,10), index=['b','c','d'])
}

df = pd.DataFrame(dict_series)
print(df)

In [None]:
# 리스트의 리스트(2중 리스트)로 DataFrame 생성
list_list = [
    [1,2,3],
    [4,5,6],
    [7,8]
]

df = pd.DataFrame(list_list)
print(df, '\n')


In [None]:
# 딕셔너리의 리스트로 DataFrame 생성
# 이 경우 Dictionary의 Key 값이 DataFrame의 Column Index가 되는 것에 유의
list_dict = [
    {
        'a' : 1,
        'b' : 2,
        'c' : 3
    },
    {
        'a' : 4,
        'b' : 5,
        'c' : 6
    },
    {
        'b' : 7,
        'c' : 8,
        'd' : 9
    }
]

df = pd.DataFrame(list_dict)
print(df, '\n')

In [None]:
# Series로 DataFrame 생성
# Series의 Name이 DataFrame Column의 Index가 된다
my_series = pd.Series(['a','b','c','d','e'])
my_series.name = 'column1'
df = pd.DataFrame(my_series)
print(df)

## I/O tools - 외부 데이터를 DataFrame으로 Import하기
---

실제 데이터 분석에서, 사용할 데이터를 일일히 입력해 넣는 경우는 흔하지 않다.
분석에 사용할 데이터는 파일로부터 Import를 하는 경우가 대부분.

#### 자주 사용되는 데이터 포맷들
 - CSV (Comma Separated Values)
 - Excel
 - HTML
 - JSON
 - Table
 - Clipboard
---


### CSV (Comma Separated Values) 란
![title](img/csv.png)

 - 데이터의 Column은 쉼표(,)로, 데이터의 Row는 줄바꿈(\n) 으로 구분
 - 확장자는 .csv
 - Header : 파일의 첫 줄에서, 각 Column의 이름을 명시
 - Delimiter : 구분자. 쉼표가 일반적이지만, '\t', ';' 등의 구분자도 자주 사용된다
 
### CSV 파일을 DataFrame에 불러오기

```python
df = pd.read_csv(filepath, sep, ...)
```

#### Example

In [113]:
# 서울시 지하철 승하차정보 불러오기
df = pd.read_csv('data/subway.csv')
print(df)

           사용일자  노선명   역ID            역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872            매교    2348    2405  20190804
1      20190801  분당선  1871          수원시청   11930   13290  20190804
2      20190801  분당선  1870          매탄권선    4609    4360  20190804
3      20190801  분당선  1869            망포   14103   13044  20190804
4      20190801  분당선  1868            영통    9303    9380  20190804
5      20190801  분당선  1867            청명    4494    4133  20190804
6      20190801  분당선  1866            상갈    5900    5573  20190804
7      20190801  분당선  1865            기흥   10424    9952  20190804
8      20190801  분당선  1864            신갈    5242    5028  20190804
9      20190801  분당선  1863            구성    5142    5183  20190804
10     20190801  분당선  1862            죽전   15723   17636  20190804
11     20190801  분당선  1861            보정    2795    2252  20190804
12     20190801  분당선  1860            이매    6584    6296  20190804
13     20190801  분당선  1859            오리   13578   11524  2019

In [None]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=[0,3,5])
print(df)

In [None]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=['노선명','승차총승객수','하차총승객수'])
print(df)

In [None]:
# Header가 없는 경우
df = pd.read_csv('data/subway_noheader.csv')
print(df)

In [None]:
#H eader가 없는 경우
df = pd.read_csv('data/subway_noheader.csv', header=None)
print(df)

In [None]:
# Delimiter가 쉼표가 아닐 경우
df = pd.read_csv('data/subway_semicolon.csv', sep=';')
print(df)

### Excel 파일을 DataFrame에 불러오기

```python
df = pd.read_excel(filepath, sheet_name, ...)
```

#### Example

In [None]:
df = pd.read_excel('data/subway.xlsx', sheet_name='subway')
print(df)

### HTML (Hyper Text Markup Language) 이란
![title](img/bank_page.png)
![title](img/html_code.png)

 - 웹페이지 문서를 작성하는 언어
 - 화살괄호 ('<', '>') 로 구분되는 여러 태그들로 구성 (ex : <div> </div>)
 - 확장자 : .html, .htm
 - Pandas의 read_html 함수는 HTML문서에서 표(<table> 태그)에 해당하는 부분만 자동으로 읽어온다
 
### HTML 파일을 DataFrame에 불러오기

```python
df = pd.read_csv(url)
df = pd.read_csv(filepath)
```

#### Example

In [None]:
# URL을 입력하여 해당 페이지의 Table 불러오기
# read_html 의 결과로 DataFrame의 '리스트'가 반횐되는 것에 유의
url = 'https://www.fdic.gov/bank/individual/failed/banklist.html'
dfs = pd.read_html(url)
print(dfs[0])

In [None]:
# 파일로 저장된 HTML문서의 경로를 통해 해당 페이지의 Table 불러오기
dfs = pd.read_html('data/bank.htm')
print(dfs[0])

### JSON (JavaScript Object Notation) 이란
![title](img/json.png)

 - 파이썬의 딕셔너리와 같은, Key-Value 데이터 오브젝트에 대한 개방형 표준 포맷
 - 프로그래밍 언어와 플랫폼에 독립적 : 여러 언어에서 쉽게 변환하여 이용 가능
 - 웹에서 데이터를 주고 받을 때에도 자주 사용됨
 - 확장자 : .json
 
 
### JSON 파일을 DataFrame에 불러오기

```python
df = pd.read_json(filepath)
```

#### Example

In [None]:
# 미국 연도별 인구 데이터 불러오기
df = pd.read_json('data/population.json')
print(df)

In [None]:
# json_normalize 함수를 이용하여 Nested structure의 JSON 파일을 정상적으로 불러오기
import json
from pandas.io.json import json_normalize
with open ('data/population.json') as data_file:
    data = json.load(data_file)

df = json_normalize(data)
print(df)


### 클립보드의 내용을 DataFrame에 불러오기

```python
df = pd.read_clipboard()
```