# 2. Pandas의 Data Structure

## 2.1. Series와 DataFrame
---

### Series란
 - 1차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀의 스프레드시트와 같은 데이터에서 하나의 행, 혹은 열을 나타낸다

---

### DataFrame이란
 - 2차원의 값을 나타내는 Pandas의 자료구조
 - 엑셀 스프레드시트 혹은 데이터베이스의 Table과 같은 자료구조
 - Series의 집합

![title](img/dataframe.png)

---

### Series에 값 할당하기
```python
s = pd.Series(data, index=index)
```

`data` 에는
 - 리스트
 - 딕셔너리
 - 튜플
 - Scalar 값 (숫자, 문자열 등)
등이 들어갈 수 있다.


#### Example

In [28]:
import pandas as pd

# 리스트로 Series 생성
# index 값을 지정하지 않을 경우 0부터 자동으로 index가 부여됨
my_list = ['a','b','c','d','e']

s = pd.Series(my_list)
print(s)

0    a
1    b
2    c
3    d
4    e
dtype: object


In [29]:
# index 를 명시적으로 지정하여 Series 생성
# index 의 길이는 list의 길이와 같아야 함
s = pd.Series(my_list, index=['string', 3, 0.98, True])
print(s)
s = pd.Series(my_list, index=range(10,15))
print(s)

ValueError: Length of passed values is 5, index implies 4

In [30]:
# 딕셔너리로 Series 생성
# 딕셔너리의 Key가 생성된 Series의 Index가 된다
my_dict = {
    'first_name' : 'Baek',
    'last_name' : 'JaeWon',
    'Gender' : 'M',
    'Age' : 19,
    'some_list' : [1,3,5,7,9]
}

s = pd.Series(my_dict)
print(s)

first_name               Baek
last_name              JaeWon
Gender                      M
Age                        19
some_list     [1, 3, 5, 7, 9]
dtype: object


In [31]:
# 특정 index만 선택하여 Series 생성
s = pd.Series(my_dict, index=['first_name', 'Age', 'Address'])
print(s)

first_name    Baek
Age             19
Address        NaN
dtype: object


In [32]:
# 튜플로 Series 생성
my_tuple = (10,20,30,40,50)

s = pd.Series(my_tuple)
print(s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [33]:
# int, float, string으로 Series 생성
# Index에 리스트값을 지정할 경우, Index 리스트 크기의 Series가 생성
s = pd.Series(100)
print(s)
s = pd.Series(3.14)
print(s)
s = pd.Series('some string', index=range(10))
print(s)

0    100
dtype: int64
0    3.14
dtype: float64
0    some string
1    some string
2    some string
3    some string
4    some string
5    some string
6    some string
7    some string
8    some string
9    some string
dtype: object


In [34]:
# Series의 name 설정
s = pd.Series(my_list, name='something')
print(s)
s.name = "new name"
print(s)


0    a
1    b
2    c
3    d
4    e
Name: something, dtype: object
0    a
1    b
2    c
3    d
4    e
Name: new name, dtype: object


### DataFrame에 값 할당하기
```python
s = pd.DataFrame(data, index=index)
```

`data` 에는
 - 1차원의 리스트, 딕셔너리 혹은 Series를 `value` 로 갖는 딕셔너리
 - 1차원의 리스트, 딕셔너리 혹은 Series의 리스트
 - Series
 - DataFrame
 
등이 들어갈 수 있다.


### Example

In [35]:
# 리스트를 value로 갖는 딕셔너리로 DataFrame 생성
dict_list = {
    'Name' : ['Baek','Kim','Park','Han','Lee'],
    'Age' : [21,31,17,41,51],
    'Gender' : ['M','F','F','M','M'],
    'is_student' : [True, False, True, False, False]
}

df = pd.DataFrame(dict_list)
print(df)

   Name  Age Gender  is_student
0  Baek   21      M        True
1   Kim   31      F       False
2  Park   17      F        True
3   Han   41      M       False
4   Lee   51      M       False


In [36]:
# Index를 지정하여 DataFrame 생성
df = pd.DataFrame(dict_list, index = ['a','b','c','d','e'])
print(df)

   Name  Age Gender  is_student
a  Baek   21      M        True
b   Kim   31      F       False
c  Park   17      F        True
d   Han   41      M       False
e   Lee   51      M       False


In [37]:
# 딕셔너리를 value로 갖는 딕셔너리로 DataFrame 생성
# Outer 딕셔너리의 Key 값은 DataFrame의 Column명이 되며
# Inner 딕셔너리의 Key 값은 DataFrame의 Row Index가 된다
dict_dict1 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }
}

df = pd.DataFrame(dict_dict1)
print(df, '\n')


   Name  Age Gender  is_student
a  Baek   21      M        True
b   Kim   31      F       False
c  Park   17      F        True
d   Han   41      M       False
e   Lee   51      M       False 



In [38]:
# Inner 딕셔너리의 Key값이 서로 다를 경우
dict_dict2 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        '5' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        '3' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        '1' : 'M',
        '2' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        '4' : False,
        'e' : False
    },
    'some_other_value' : {}
}

df = pd.DataFrame(dict_dict2)
print(df)

   Name   Age Gender is_student  some_other_value
1   NaN   NaN      M        NaN               NaN
2   NaN   NaN      F        NaN               NaN
3   NaN  17.0    NaN        NaN               NaN
4   NaN   NaN    NaN      False               NaN
5   Lee   NaN    NaN        NaN               NaN
a  Baek  21.0    NaN       True               NaN
b   Kim  31.0    NaN      False               NaN
c  Park   NaN      F       True               NaN
d   Han  41.0      M        NaN               NaN
e   NaN  51.0      M      False               NaN


In [39]:
# Index를 지정하여 DataFrame 생성
df = pd.DataFrame(dict_dict1, index=['a','b','e'])
print(df)

   Name  Age Gender  is_student
a  Baek   21      M        True
b   Kim   31      F       False
e   Lee   51      M       False


In [40]:
# Series를 value로 갖는 딕셔너리로 DataFrame 생성
dict_series = {
    'Name' : pd.Series(['Baek','Kim','Park','Han','Lee']),
    'Age' : pd.Series([21,31,17,41,51]),
    'Gender' : pd.Series(['M','F','F','M','M']),
    'is_student' : pd.Series([True, False, True, False, False])
}

df = pd.DataFrame(dict_series)
print(df)

   Name  Age Gender  is_student
0  Baek   21      M        True
1   Kim   31      F       False
2  Park   17      F        True
3   Han   41      M       False
4   Lee   51      M       False


In [41]:
# 리스트의 리스트(2중 리스트)로 DataFrame 생성
list_list = [
    ['Baek','Kim','Park','Han','Lee'],
    [21,31,17,41],
    ['M','F','F','M','M'],
    [True, False, True, False]
]


df = pd.DataFrame(list_list)
print(df, '\n')


      0      1     2      3     4
0  Baek    Kim  Park    Han   Lee
1    21     31    17     41  None
2     M      F     F      M     M
3  True  False  True  False  None 



In [42]:
# 딕셔너리의 리스트로 DataFrame 생성
# 이 경우 Dictionary의 Key 값이 DataFrame의 Column Index가 되는 것에 유의
list_dict = [
    {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }

]

df = pd.DataFrame(list_dict)
print(df, '\n')

# Transpose를 하면 원하던 결과를 얻을 수 있다
print(df.T)

      a      b     c      d      e
0  Baek    Kim  Park    Han    Lee
1    21     31    17     41     51
2     M      F     F      M      M
3  True  False  True  False  False 

      0   1  2      3
a  Baek  21  M   True
b   Kim  31  F  False
c  Park  17  F   True
d   Han  41  M  False
e   Lee  51  M  False


In [43]:
# Series로 DataFrame 생성
# Series의 Name이 DataFrame의 Column명이 된다
my_series = pd.Series(['a','b','c','d','e'])
my_series.name = 'column1'
df = pd.DataFrame(my_series)
print(df)

  column1
0       a
1       b
2       c
3       d
4       e


## 2.2. I/O tools - 외부 데이터를 DataFrame으로 Import하기
---

실제 데이터 분석에서, 사용할 데이터를 일일히 입력해 넣는 경우는 흔하지 않다.

분석에 사용할 데이터는 파일로부터 Import를 하는 경우가 대부분.

#### 자주 사용되는 데이터 포맷들
 - CSV (Comma Separated Values)
 - Excel
 - HTML
 - JSON
 - Table
 - Clipboard
---


### CSV (Comma Separated Values) 란
![title](img/csv.png)

 - 데이터의 Column은 쉼표(,)로, 데이터의 Row는 줄바꿈(\n) 으로 구분
 - 확장자는 .csv
 - Header : 파일의 첫 줄에서, 각 Column의 이름을 명시
 - Delimiter : 구분자. 쉼표가 일반적이지만, '\t', ';' 등의 구분자도 자주 사용된다
 
### CSV 파일을 DataFrame에 불러오기

```python
df = pd.read_csv(filepath, sep, ...)
```

#### Example

In [44]:
# 서울시 지하철 승하차정보 불러오기
df = pd.read_csv('data/subway.csv')
print(df)

           사용일자  노선명   역ID            역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872            매교    2348    2405  20190804
1      20190801  분당선  1871          수원시청   11930   13290  20190804
2      20190801  분당선  1870          매탄권선    4609    4360  20190804
3      20190801  분당선  1869            망포   14103   13044  20190804
4      20190801  분당선  1868            영통    9303    9380  20190804
5      20190801  분당선  1867            청명    4494    4133  20190804
6      20190801  분당선  1866            상갈    5900    5573  20190804
7      20190801  분당선  1865            기흥   10424    9952  20190804
8      20190801  분당선  1864            신갈    5242    5028  20190804
9      20190801  분당선  1863            구성    5142    5183  20190804
10     20190801  분당선  1862            죽전   15723   17636  20190804
11     20190801  분당선  1861            보정    2795    2252  20190804
12     20190801  분당선  1860            이매    6584    6296  20190804
13     20190801  분당선  1859            오리   13578   11524  2019

In [45]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=[0,3,5])
print(df)

           사용일자            역명  하차총승객수
0      20190801            매교    2405
1      20190801          수원시청   13290
2      20190801          매탄권선    4360
3      20190801            망포   13044
4      20190801            영통    9380
5      20190801            청명    4133
6      20190801            상갈    5573
7      20190801            기흥    9952
8      20190801            신갈    5028
9      20190801            구성    5183
10     20190801            죽전   17636
11     20190801            보정    2252
12     20190801            이매    6296
13     20190801            오리   11524
14     20190801            미금   19598
15     20190801            정자   19798
16     20190801            수내   15169
17     20190801            서현   30184
18     20190801            야탑   32168
19     20190801            모란   21634
20     20190801            태평   13971
21     20190801           가천대    8226
22     20190801           선정릉    9714
23     20190801          강남구청   11967
24     20190801        압구정로데오   20422
25     20190

In [46]:
# 특정 Column만 선택하여 불러오기
df = pd.read_csv('data/subway.csv', usecols=['노선명','승차총승객수','하차총승객수'])
print(df)

       노선명  승차총승객수  하차총승객수
0      분당선    2348    2405
1      분당선   11930   13290
2      분당선    4609    4360
3      분당선   14103   13044
4      분당선    9303    9380
5      분당선    4494    4133
6      분당선    5900    5573
7      분당선   10424    9952
8      분당선    5242    5028
9      분당선    5142    5183
10     분당선   15723   17636
11     분당선    2795    2252
12     분당선    6584    6296
13     분당선   13578   11524
14     분당선   18313   19598
15     분당선   18410   19798
16     분당선   15011   15169
17     분당선   29673   30184
18     분당선   30773   32168
19     분당선   21651   21634
20     분당선   14650   13971
21     분당선    7286    8226
22     분당선    8805    9714
23     분당선   10139   11967
24     분당선   17951   20422
25     분당선    9322    9222
26     분당선    9036    6086
27     분당선   14910   15208
28     분당선    3550    3221
29     분당선    3152    3363
...    ...     ...     ...
18289  3호선    5183    4955
18290  3호선    8472    7900
18291  3호선   16584   16152
18292  3호선    6590    6692
18293  3호선    7722    6881
1

In [47]:
# Header가 없는 경우
df = pd.read_csv('data/subway_noheader.csv')
print(df)

       20190801  분당선  1872            매교   2348   2405  20190804
0      20190801  분당선  1871          수원시청  11930  13290  20190804
1      20190801  분당선  1870          매탄권선   4609   4360  20190804
2      20190801  분당선  1869            망포  14103  13044  20190804
3      20190801  분당선  1868            영통   9303   9380  20190804
4      20190801  분당선  1867            청명   4494   4133  20190804
5      20190801  분당선  1866            상갈   5900   5573  20190804
6      20190801  분당선  1865            기흥  10424   9952  20190804
7      20190801  분당선  1864            신갈   5242   5028  20190804
8      20190801  분당선  1863            구성   5142   5183  20190804
9      20190801  분당선  1862            죽전  15723  17636  20190804
10     20190801  분당선  1861            보정   2795   2252  20190804
11     20190801  분당선  1860            이매   6584   6296  20190804
12     20190801  분당선  1859            오리  13578  11524  20190804
13     20190801  분당선  1858            미금  18313  19598  20190804
14     20190801  분당선  185

In [48]:
#H eader가 없는 경우
df = pd.read_csv('data/subway_noheader.csv', header=None)
print(df)

              0    1     2             3      4      5         6
0      20190801  분당선  1872            매교   2348   2405  20190804
1      20190801  분당선  1871          수원시청  11930  13290  20190804
2      20190801  분당선  1870          매탄권선   4609   4360  20190804
3      20190801  분당선  1869            망포  14103  13044  20190804
4      20190801  분당선  1868            영통   9303   9380  20190804
5      20190801  분당선  1867            청명   4494   4133  20190804
6      20190801  분당선  1866            상갈   5900   5573  20190804
7      20190801  분당선  1865            기흥  10424   9952  20190804
8      20190801  분당선  1864            신갈   5242   5028  20190804
9      20190801  분당선  1863            구성   5142   5183  20190804
10     20190801  분당선  1862            죽전  15723  17636  20190804
11     20190801  분당선  1861            보정   2795   2252  20190804
12     20190801  분당선  1860            이매   6584   6296  20190804
13     20190801  분당선  1859            오리  13578  11524  20190804
14     20190801  분당선  185

In [49]:
# Delimiter가 쉼표가 아닐 경우
df = pd.read_csv('data/subway_semicolon.csv', sep=';')
print(df)

         사용일자  노선명   역ID        역명  승차총승객수  하차총승객수      등록일자
0    20190801  분당선  1872        매교    2348    2405  20190804
1    20190801  분당선  1871      수원시청   11930   13290  20190804
2    20190801  분당선  1870      매탄권선    4609    4360  20190804
3    20190801  분당선  1869        망포   14103   13044  20190804
4    20190801  분당선  1868        영통    9303    9380  20190804
5    20190801  분당선  1867        청명    4494    4133  20190804
6    20190801  분당선  1866        상갈    5900    5573  20190804
7    20190801  분당선  1865        기흥   10424    9952  20190804
8    20190801  분당선  1864        신갈    5242    5028  20190804
9    20190801  분당선  1863        구성    5142    5183  20190804
10   20190801  분당선  1862        죽전   15723   17636  20190804
11   20190801  분당선  1861        보정    2795    2252  20190804
12   20190801  분당선  1860        이매    6584    6296  20190804
13   20190801  분당선  1859        오리   13578   11524  20190804
14   20190801  분당선  1858        미금   18313   19598  20190804
15   20190801  분당선  1857

---
### Excel 파일을 DataFrame에 불러오기

```python
df = pd.read_excel(filepath, sheet_name, ...)
```

#### Example

In [50]:
df = pd.read_excel('data/subway.xlsx', sheet_name='subway')
print(df)

           사용일자  노선명   역ID            역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872            매교    2348    2405  20190804
1      20190801  분당선  1871          수원시청   11930   13290  20190804
2      20190801  분당선  1870          매탄권선    4609    4360  20190804
3      20190801  분당선  1869            망포   14103   13044  20190804
4      20190801  분당선  1868            영통    9303    9380  20190804
5      20190801  분당선  1867            청명    4494    4133  20190804
6      20190801  분당선  1866            상갈    5900    5573  20190804
7      20190801  분당선  1865            기흥   10424    9952  20190804
8      20190801  분당선  1864            신갈    5242    5028  20190804
9      20190801  분당선  1863            구성    5142    5183  20190804
10     20190801  분당선  1862            죽전   15723   17636  20190804
11     20190801  분당선  1861            보정    2795    2252  20190804
12     20190801  분당선  1860            이매    6584    6296  20190804
13     20190801  분당선  1859            오리   13578   11524  2019

---

### HTML (Hyper Text Markup Language) 이란
![title](img/bank_page.png)
![title](img/html_code.png)

 - 웹페이지 문서를 작성하는 언어
 - 화살괄호 ('<', '>') 로 구분되는 여러 태그들로 구성 (ex : <div> </div>)
 - 확장자 : .html, .htm
 - Pandas의 read_html 함수는 HTML문서에서 표(<table> 태그)에 해당하는 부분만 자동으로 읽어온다
 
### HTML 파일을 DataFrame에 불러오기

```python
df = pd.read_html(url)
df = pd.read_html(filepath)
```

#### Example

In [51]:
# URL을 입력하여 해당 페이지의 Table 불러오기
# read_html 의 결과로 DataFrame의 '리스트'가 반횐되는 것에 유의
url = 'https://www.fdic.gov/bank/individual/failed/banklist.html'
dfs = pd.read_html(url)
print(dfs[0])

                                             Bank Name                City  \
0                                 The Enloe State Bank              Cooper   
1                  Washington Federal Bank for Savings             Chicago   
2      The Farmers and Merchants State Bank of Argonia             Argonia   
3                                  Fayette County Bank          Saint Elmo   
4    Guaranty Bank, (d/b/a BestBank in Georgia & Mi...           Milwaukee   
5                                       First NBC Bank         New Orleans   
6                                        Proficio Bank  Cottonwood Heights   
7                        Seaway Bank and Trust Company             Chicago   
8                               Harvest Community Bank          Pennsville   
9                                          Allied Bank            Mulberry   
10                        The Woodbury Banking Company            Woodbury   
11                              First CornerStone Bank     King 

In [52]:
# 파일로 저장된 HTML문서의 경로를 통해 해당 페이지의 Table 불러오기
dfs = pd.read_html('data/bank.htm')
print(dfs[0])

                                             Bank Name                City  \
0                                 The Enloe State Bank              Cooper   
1                  Washington Federal Bank for Savings             Chicago   
2      The Farmers and Merchants State Bank of Argonia             Argonia   
3                                  Fayette County Bank          Saint Elmo   
4    Guaranty Bank, (d/b/a BestBank in Georgia & Mi...           Milwaukee   
5                                       First NBC Bank         New Orleans   
6                                        Proficio Bank  Cottonwood Heights   
7                        Seaway Bank and Trust Company             Chicago   
8                               Harvest Community Bank          Pennsville   
9                                          Allied Bank            Mulberry   
10                        The Woodbury Banking Company            Woodbury   
11                              First CornerStone Bank     King 

---
### JSON (JavaScript Object Notation) 이란
![title](img/json.png)

 - 파이썬의 딕셔너리와 같은, Key-Value 데이터 오브젝트에 대한 개방형 표준 포맷
 - 프로그래밍 언어와 플랫폼에 독립적 : 여러 언어에서 쉽게 변환하여 이용 가능
 - 웹에서 데이터를 주고 받을 때에도 자주 사용됨
 - 확장자 : .json
 
 
### JSON 파일을 DataFrame에 불러오기

```python
df = pd.read_json(filepath)
```

#### Example

In [53]:
# 미국 연도별 인구 데이터 불러오기
df = pd.read_json('data/population.json')
print(df)

                                   country  date  decimal  \
0   {'id': 'US', 'value': 'United States'}  2018        0   
1   {'id': 'US', 'value': 'United States'}  2017        0   
2   {'id': 'US', 'value': 'United States'}  2016        0   
3   {'id': 'US', 'value': 'United States'}  2015        0   
4   {'id': 'US', 'value': 'United States'}  2014        0   
5   {'id': 'US', 'value': 'United States'}  2013        0   
6   {'id': 'US', 'value': 'United States'}  2012        0   
7   {'id': 'US', 'value': 'United States'}  2011        0   
8   {'id': 'US', 'value': 'United States'}  2010        0   
9   {'id': 'US', 'value': 'United States'}  2009        0   
10  {'id': 'US', 'value': 'United States'}  2008        0   
11  {'id': 'US', 'value': 'United States'}  2007        0   
12  {'id': 'US', 'value': 'United States'}  2006        0   
13  {'id': 'US', 'value': 'United States'}  2005        0   
14  {'id': 'US', 'value': 'United States'}  2004        0   
15  {'id': 'US', 'value'

In [54]:
# json_normalize 함수를 이용하여 Nested structure의 JSON 파일을 정상적으로 불러오기
import json
from pandas.io.json import json_normalize
with open ('data/population.json') as data_file:
    data = json.load(data_file)

df = json_normalize(data)
print(df)


   country.id  country.value  date decimal indicator.id    indicator.value  \
0          US  United States  2018       0  SP.POP.TOTL  Population, total   
1          US  United States  2017       0  SP.POP.TOTL  Population, total   
2          US  United States  2016       0  SP.POP.TOTL  Population, total   
3          US  United States  2015       0  SP.POP.TOTL  Population, total   
4          US  United States  2014       0  SP.POP.TOTL  Population, total   
5          US  United States  2013       0  SP.POP.TOTL  Population, total   
6          US  United States  2012       0  SP.POP.TOTL  Population, total   
7          US  United States  2011       0  SP.POP.TOTL  Population, total   
8          US  United States  2010       0  SP.POP.TOTL  Population, total   
9          US  United States  2009       0  SP.POP.TOTL  Population, total   
10         US  United States  2008       0  SP.POP.TOTL  Population, total   
11         US  United States  2007       0  SP.POP.TOTL  Populat

---
### 클립보드의 내용을 DataFrame에 불러오기

```python
df = pd.read_clipboard()
```