# 2. Pandas의 Data Structure

## 2.1. Series와 DataFrame
---

### Series란
 - 1차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀의 스프레드시트와 같은 데이터에서 하나의 행, 혹은 열을 나타낸다
 - 'Index' 와 'Value' 로 구성
 - Name을 설정할 수 있다

### Series는 다른 파이썬 자료구조와 크게 다르지 않다
---
![title](img/series.png)

---
### DataFrame이란
 - 2차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀 스프레드시트 혹은 데이터베이스의 Table과 같은 자료구조
 - Series의 집합

### DataFrame의 구조
---
![title](img/dataframe1.png)

### DataFrame은 Series의 집합
---
![title](img/dataframe2.png)


### Series에 값 할당하기
```python
s = pd.Series(data, index=index)
```

`data` 에는
 - 리스트
 - 딕셔너리
 - 튜플
 - Scalar 값 (숫자, 문자열 등)
등이 들어갈 수 있다.

#### Example

In [None]:
import pandas as pd

# 리스트로 Series 생성
# index 값을 지정하지 않을 경우 0부터 자동으로 index가 부여됨
my_list = ['a','b','c','d','e']

s = pd.Series(my_list)
print(s)

In [None]:
# index 를 명시적으로 지정하여 Series 생성
# index 의 길이는 list의 길이와 같아야 함
s = pd.Series(my_list, index=['string', 3, 0.98, True])
print(s)
s = pd.Series(my_list, index=range(10,15))
print(s)

In [None]:
# 딕셔너리로 Series 생성
# 딕셔너리의 Key가 생성된 Series의 Index가 된다
my_dict = {
    'first_name' : 'Baek',
    'last_name' : 'JaeWon',
    'Gender' : 'M',
    'Age' : 19,
    'some_list' : [1,3,5,7,9]
}

s = pd.Series(my_dict)
print(s)

In [None]:
# 특정 index만 선택하여 Series 생성
s = pd.Series(my_dict, index=['first_name', 'Age', 'Address'])
print(s)

In [None]:
# 튜플로 Series 생성
my_tuple = (10,20,30,40,50)

s = pd.Series(my_tuple)
print(s)

In [None]:
# int, float, string으로 Series 생성
# Index에 리스트값을 지정할 경우, Index 리스트 크기의 Series가 생성
s = pd.Series(100)
print(s)
s = pd.Series(3.14)
print(s)
s = pd.Series('some string', index=range(10))
print(s)

In [None]:
# Series의 name 설정
s = pd.Series(my_list, name='something')
print(s)
s.name = "new name"
print(s)


### DataFrame에 값 할당하기
```python
s = pd.DataFrame(data, index=index)
```

`data` 에는
 - 1차원의 리스트, 딕셔너리 혹은 Series를 `value` 로 갖는 딕셔너리
 - 1차원의 리스트, 딕셔너리 혹은 Series의 리스트
 - Series
 - DataFrame
 
등이 들어갈 수 있다.

#### Example

In [None]:
# 리스트를 value로 갖는 딕셔너리로 DataFrame 생성
dict_list = {
    'Name' : ['Baek','Kim','Park','Han','Lee'],
    'Age' : [21,31,17,41,51],
    'Gender' : ['M','F','F','M','M'],
    'is_student' : [True, False, True, False, False]
}

df = pd.DataFrame(dict_list)
print(df)

In [None]:
# Index를 지정하여 DataFrame 생성
df = pd.DataFrame(dict_list, index = ['a','b','c','d','e'])
print(df)

In [None]:
# 딕셔너리를 value로 갖는 딕셔너리로 DataFrame 생성
# Outer 딕셔너리의 Key 값은 DataFrame의 Column명이 되며
# Inner 딕셔너리의 Key 값은 DataFrame의 Row Index가 된다
dict_dict1 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }
}

df = pd.DataFrame(dict_dict1)
print(df, '\n')


In [None]:
# Inner 딕셔너리의 Key값이 서로 다를 경우
dict_dict2 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        '5' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        '3' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        '1' : 'M',
        '2' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        '4' : False,
        'e' : False
    },
    'some_other_value' : {}
}

df = pd.DataFrame(dict_dict2)
print(df)

In [None]:
# Index와 column을 지정하여 DataFrame 생성
df = pd.DataFrame(dict_dict1, index=['a','b','e'], columns=['Name', 'Age'])
print(df)

In [None]:
# Series를 value로 갖는 딕셔너리로 DataFrame 생성
dict_series = {
    'Name' : pd.Series(['Baek','Kim','Park','Han','Lee']),
    'Age' : pd.Series([21,31,17,41,51]),
    'Gender' : pd.Series(['M','F','F','M','M']),
    'is_student' : pd.Series([True, False, True, False, False])
}

df = pd.DataFrame(dict_series)
print(df)

In [None]:
# 리스트의 리스트(2중 리스트)로 DataFrame 생성
list_list = [
    ['Baek','Kim','Park','Han','Lee'],
    [21,31,17,41],
    ['M','F','F','M','M'],
    [True, False, True, False]
]


df = pd.DataFrame(list_list)
print(df, '\n')


In [None]:
# 딕셔너리의 리스트로 DataFrame 생성
# 이 경우 Dictionary의 Key 값이 DataFrame의 Column Index가 되는 것에 유의
list_dict = [
    {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }

]

df = pd.DataFrame(list_dict)
print(df, '\n')

# Transpose를 하면 원하던 결과를 얻을 수 있다
print(df.T)

In [None]:
#보통 Dictionary의 List로 이루어진 데이터는 아래와 같은 모양

list_dict2 = [
    {
        'Name' : 'Baek',
        'Age' : 21,
        'Gender' : 'M',
        'is_student' : True
    },
    {
        'Name' : 'Kim',
        'Age' : 31,
        'Gender' : 'F',
        'is_student' : False
    },
    {
        'Name' : 'Park',
        'Age' : 17,
        'Gender' : 'F',
        'is_student' : True,
    },
    {
        'Name' : 'Han',
        'Age' : 41,
        'Gender' : 'M',
        'is_student' : False
    },
    {
        'Name' : 'Lee',
        'Age' : 51,
        'Gender' : 'M',
        'is_student' : False
    }

]

df = pd.DataFrame(list_dict2)
print(df, '\n')


In [None]:
# Series로 DataFrame 생성
# Series의 Name이 DataFrame의 Column명이 된다
my_series = pd.Series(['a','b','c','d','e'])
my_series.name = 'column1'
df = pd.DataFrame(my_series)
print(df)

## 2.2. I/O tools - 외부 데이터를 DataFrame으로 Import하기
---

실제 데이터 분석에서, 사용할 데이터를 일일히 입력해 넣는 경우는 흔하지 않다.

분석에 사용할 데이터는 파일로부터 Import를 하는 경우가 대부분.

#### 자주 사용되는 데이터 포맷들
 - CSV (Comma Separated Values)
 - Excel
 - HTML
 - JSON
 - Table
 - Clipboard
 

---

### CSV (Comma Separated Values) 란
![title](img/csv.png)

 - 데이터의 Column은 쉼표(,)로, 데이터의 Row는 줄바꿈(\n) 으로 구분
 - 확장자는 .csv
 - Header : 파일의 첫 줄에서, 각 Column의 이름을 명시
 - Delimiter : 구분자. 쉼표가 일반적이지만, '\t', ';' 등의 구분자도 자주 사용된다
 
### CSV 파일을 DataFrame에 불러오기

```python
df = pd.read_csv(filepath, sep, ...)
```

#### Example

In [None]:
# 서울시 지하철 승하차정보 불러오기
df = pd.read_csv('data/subway.csv')
print(df)

In [None]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=[0,3,5])
print(df)

In [None]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=['노선명','승차총승객수','하차총승객수'])
print(df)

In [None]:
# Header가 없는 경우
df = pd.read_csv('data/subway_noheader.csv')
print(df)

In [None]:
#Header가 없는 경우
df = pd.read_csv('data/subway_noheader.csv', header=None)
print(df)

In [None]:
# Delimiter가 쉼표가 아닐 경우
df = pd.read_csv('data/subway_semicolon.csv', sep=';')
print(df)

---
### Excel 파일을 DataFrame에 불러오기

```python
df = pd.read_excel(filepath, sheet_name, ...)
```

#### Example

In [None]:
df = pd.read_excel('data/subway.xlsx', sheet_name='subway')
print(df)

---

### HTML (Hyper Text Markup Language) 이란
 - 웹페이지 문서를 작성하는 언어
 - 화살괄호 ('<', '>') 로 구분되는 여러 태그들로 구성
 - 확장자 : .html, .htm
 - Pandas의 read_html 함수는 HTML문서에서 표(<table> 태그)에 해당하는 부분만 자동으로 읽어온다

![title](img/bank_page.png)

![title](img/html_code.png)

 
### HTML 파일을 DataFrame에 불러오기

```python
df = pd.read_html(url)
df = pd.read_html(filepath)
```

#### Example

In [None]:
# URL을 입력하여 해당 페이지의 Table 불러오기
# read_html 의 결과로 DataFrame의 '리스트'가 반횐되는 것에 유의
url = 'https://www.fdic.gov/bank/individual/failed/banklist.html'
dfs = pd.read_html(url)
print(dfs[0])

In [None]:
# 파일로 저장된 HTML문서의 경로를 통해 해당 페이지의 Table 불러오기
dfs = pd.read_html('data/bank.htm')
print(dfs[0])

---
### JSON (JavaScript Object Notation) 이란
![title](img/json.png)

 - 파이썬의 딕셔너리와 같은, Key-Value 데이터 오브젝트에 대한 개방형 표준 포맷
 - 프로그래밍 언어와 플랫폼에 독립적 : 여러 언어에서 쉽게 변환하여 이용 가능
 - 웹에서 데이터를 주고 받을 때에도 자주 사용됨
 - 확장자 : .json
 
 

### JSON 파일을 DataFrame에 불러오기

```python
df = pd.read_json(filepath)
```

#### Example

In [None]:
# 미국 연도별 인구 데이터 불러오기
df = pd.read_json('data/population.json')
print(df)

In [None]:
# json_normalize 함수를 이용하여 Nested structure의 JSON 파일을 정상적으로 불러오기
import json
from pandas.io.json import json_normalize
with open ('data/population.json') as data_file:
    data = json.load(data_file)

df = json_normalize(data)
print(df)


---
### 클립보드의 내용을 DataFrame에 불러오기

```python
df = pd.read_clipboard()
```