# 시리즈와 데이터프레임

**기본 설정**

Numpy와 Pandas 라이브러리를 각각 np와 pd로 불러온다.

In [1]:
import numpy as np
import pandas as pd

## 시리즈

판다스<font size='2'>Pandas</font>는 넘파이와 함께 데이터 분석 분야에서 가장 많이 활용되는 라이브러리다.
판다스가 제공하는 두 개의 자료형 `Series`와 `DataFrame`은 
데이터를 다루기 위한 다양한 기능을 제공한다.
넘파이 어레이는 수치형 데이터를 처리하는 데에 특화된 반면에 
판다스의 시리즈와 데이터프레임은 표(table) 형식으로 제공되는 모든 종류의 데이터를 다룬다.

먼저 시리즈를 소개한다.

### 시리즈 생성과 인덱스

시리즈는 1차원 어레이와 동일한 구조를 갖는다. 
다만 인덱스<font size='2'>index</font>를 0, 1, 2 등이 아닌 임의의 값으로 지정할 수 있다.
시리즈를 생성하기 위해 리스트, 넘파이 1차원 어레이, 사전 등을 이용할 수 있다.

**리스트와 어레이 활용**

1차원 리스트 또는 어레이를 이용하여 간단하게 시리즈를 생성할 수 있다.
`dtype`은 시리즈에 포함된 항목들의 자료형을 가리키며 모든 항목은 포함하는 자료형을 가리킨다.

아래 코드는 리스트를 이용하여 시리즈를 생성한다.
인덱스를 별도로 지정하지 않으면 리스트, 넘파이 어레이 등에서 사용된 정수 인덱스가 사용된다.

In [2]:
ojb1 = pd.Series([4, 7, -5, 3])
ojb1

0    4
1    7
2   -5
3    3
dtype: int64

1차원 어레이도 이용할 수 있다.

In [3]:
ojb1 = pd.Series(np.array([4, 7, -5, 3]))
ojb1

0    4
1    7
2   -5
3    3
dtype: int64

**사전 활용**

사전을 이용하여 시리즈를 생성할 수 있다.
이때 키(key)는 인덱스로, 값은 항목으로 지정된다.

In [4]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj2 = pd.Series(sdata)
obj2

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

### `name` 속성과 `values` 속성

**`name` 속성**

`Series` 객체와 시리즈의 `Index` 객체 모두 `name` 속성을 이용하여
사용되는 값들에 대한 정보를 저장한다.

아래 코드는 시리즈와 시리즈에 사용된 인덱스에 이름 속성을 지정한다.

- 시리즈 이름은 population(인구): `name='population'`
- 시리즈의 인덱스의 이름은 state(주 이름): `Index.name='state'`

In [5]:
obj2.name = 'population'
obj2.index.name = 'state'
obj2

state
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
Name: population, dtype: int64

**`values` 속성**

`values` 속성은 시리즈의 항목으로 구성된 1차원 어레이를 가리킨다.

In [6]:
obj2.values

array([35000, 71000, 16000,  5000])

### `index` 속성

`index` 속성은 인덱스로 사용된 값들로 구성된 `Index` 객체를 가리킨다.
자동으로 생성된 경우 정수 인덱스는 `range`와 유사한 `RangeIndex` 자료형으로 지정된다.

In [7]:
ojb1

0    4
1    7
2   -5
3    3
dtype: int64

In [8]:
ojb1.index

RangeIndex(start=0, stop=4, step=1)

`index` 속성을 변경하는 방식으로 기존에 사용된 인덱스를 완전히 새로운 인덱스로 대체할 수도 있다.

In [9]:
ojb1.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
ojb1

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

처음부터 인덱스를 지정하면서 시리즈를 생성할 수 있다.

* `index` 키워드 인자: 항목의 수와 동일한 길이를 갖는 리스트. 
    리스트에 포함된 항목 순서대로 인덱스 지정.
    
인덱스가 인덱스 리스트에 사용된 순서대로 지정됨에 주의하라.

In [10]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

**`in` 연산자**

인덱스 라벨의 사용 사용 여부를 판단한다.

In [11]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
'b' in obj2

True

In [13]:
'e' in obj2

False

**`Index` 객체**

`index` 키워드로 지정된 인덱스는 `index` 속성이 가리키며 `Index` 객체로 저장된다.

In [14]:
idx = obj2.index
idx

Index(['d', 'b', 'a', 'c'], dtype='object')

## 데이터프레임

**데이데프레임**<font size='2'>DataFrame</font>은 인덱스를 공유하는 여러 개의 시리즈를 다루는 객체다. 
아래 그림은 세 개의 시리즈를 하나의 데이터프레임으로 만든 결과를 보여준다.

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/pydata/master/notebooks/images/series-dataframe01.png" style="width:700px;"></div></p>

위 이미지에 있는 세 개의 시리즈는 다음과 같으며,
`name` 속성을 이용하여 각 시리즈의 이름도 함께 지정한다.

In [15]:
series1 = pd.Series([4, 5, 6, 3 , 1], name="Mango")
series1

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64

In [16]:
series2 = pd.Series([5, 4, 3, 0, 2], name="Apple")
series2

0    5
1    4
2    3
3    0
4    2
Name: Apple, dtype: int64

In [17]:
series3 = pd.Series([2, 3, 5, 2, 7], name="Banana")
series3

0    2
1    3
2    5
3    2
4    7
Name: Banana, dtype: int64

### 데이터프레임 생성

**`pd.concat()` 함수 활용**

`pd.concat()` 함수도 여러 개의 시리즈를 묶어 하나의 데이터프레임을 생성한다.
단, 축을 이용하여 묶는 방식을 지정한다.
위 그림에서처럼 옆으로 묶으려면 열 단위로 묶는다는 의미에서 `axis=1`로 지정한다.
각 열의 이름은 해당 시리즈의 `name`이 가리키는 값으로 지정된다.

In [18]:
fruits = pd.concat([series1, series2, series3], axis=1)
fruits

Unnamed: 0,Mango,Apple,Banana
0,4,5,2
1,5,4,3
2,6,3,5
3,3,0,2
4,1,2,7


엑셀 파일로 보면 다음과 같다.
단, 인덱스가 1이 아닌 0부터 출발함에 주의한다.

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/excel-fruits.png" style="width:450px;"></div></p>

데이터프레임은 행과 열에 각각에 대해 `Index` 객체를 사용한다.

- 행 인덱스

In [19]:
fruits.index

RangeIndex(start=0, stop=5, step=1)

- 열 인덱스

In [20]:
fruits.columns

Index(['Mango', 'Apple', 'Banana'], dtype='object')

**2차원 넘파이 어레이 활용**

행과 열의 인덱스를 지정하면서 데이터프레임을 선언할 수 있다.

In [21]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['year', 'state', 'p', 'four'])
data

Unnamed: 0,year,state,p,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


- 행 인덱스

In [22]:
data.index

Index(['Ohio', 'Colorado', 'Utah', 'New York'], dtype='object')

- 열 인덱스

In [23]:
data.columns

Index(['year', 'state', 'p', 'four'], dtype='object')

**사전 활용**

리스트를 값으로 갖는 사전을 이용하여 데이터프레임을 생성할 수 있다.

아래 코드에서 `dict2`는 `state`(주 이름), `year`(년도), `pop`(인구)을 키(key)로 사용하며,
해당 특성에 해당하는 데이터로 구성된 리스트를 값으로 갖는 사전 객체이다.

In [24]:
dict2 = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada', 'NY', 'NY', 'NY'],
         'year': [2000, 2001, 2002, 2001, 2002, 2003, 2002, 2003, 2004],
         'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2, 8.3, 8.4, 8.5]}

위 사전 객체를 데이터프레임으로 변환하면 다음과 같다.

In [25]:
frame2 = pd.DataFrame(dict2)
frame2

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2
6,NY,2002,8.3
7,NY,2003,8.4
8,NY,2004,8.5


### `name` 속성과 `values` 속성

**`name` 속성**

시리즈의 경우와 동일한 방식으로 행과 열의 이름을 지정할 수 있다.

In [26]:
frame2.index.name = 'id'         # 행 이름 지정
frame2.columns.name = 'feature'  # 열 이름 지정
frame2

feature,state,year,pop
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2
6,NY,2002,8.3
7,NY,2003,8.4
8,NY,2004,8.5


**`values` 속성**

항목들로 이루어진 2차원 어레이는 `values` 속성이 가리킨다.

In [27]:
frame2.values

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2],
       ['NY', 2002, 8.3],
       ['NY', 2003, 8.4],
       ['NY', 2004, 8.5]], dtype=object)

### `columns` 속성과 `index` 속성

앞서 언급한 대로 데이터프레임은 행과 열 각각에 대해 `Index` 객체를 사용한다.

**`columns` 속성**

`columns` 속성을 이용하여 열의 순서를 지정할 수 있다.

In [28]:
dict2.keys()

dict_keys(['state', 'year', 'pop'])

In [29]:
pd.DataFrame(dict2, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2
6,2002,NY,8.3
7,2003,NY,8.4
8,2004,NY,8.5


새로운 열을 추가할 수도 있다.
이름만 지정할 경우 항목은 모두 `NaN`으로 처리된다.

In [30]:
frame2 = pd.DataFrame(dict2, columns=['year', 'state', 'pop', 'debt'])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,
6,2002,NY,8.3,
7,2003,NY,8.4,
8,2004,NY,8.5,


`columns` 속성을 확인하면 다음과 같다.

In [31]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

**`index` 속성**

인덱스를 지정하려면 `index` 속성을 이용한다.

In [32]:
frame3 = pd.DataFrame(dict2, index=['one', 'two', 'three', 'four',
                                    'five', 'six', 'seven', 'eight', 'nine'])
frame3

Unnamed: 0,state,year,pop
one,Ohio,2000,1.5
two,Ohio,2001,1.7
three,Ohio,2002,3.6
four,Nevada,2001,2.4
five,Nevada,2002,2.9
six,Nevada,2003,3.2
seven,NY,2002,8.3
eight,NY,2003,8.4
nine,NY,2004,8.5


물론 `columns`, `index` 등 여러 속성을 동시에 지정할 수도 있다.

In [33]:
frame3 = pd.DataFrame(dict2, columns=['year', 'state', 'pop', 'debt'],
                             index=['one', 'two', 'three', 'four',
                                    'five', 'six', 'seven', 'eight', 'nine'])
frame3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,
seven,2002,NY,8.3,
eight,2003,NY,8.4,
nine,2004,NY,8.5,


**`in` 연산자**

인덱스와 열에 대한 특정 이름의 사용 여부는 `in` 연산자를 이용하여 확인한다.

In [34]:
'year' in frame2.columns

True

In [35]:
'ten' in frame2.index

False

**`Index` 객체**

시리즈와 데이터프레임의 `index` 와 `columns` 속성에
저장된 값은 `Index` 객체다.

In [36]:
frame3.index

Index(['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine'], dtype='object')

In [37]:
frame3.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

## 예제

**예제 1**

아래 모양의 2차원 어레이를 생성하라.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])
```

어레이의 모양이 (6, 6)이기에 우선 `np.arange(36)`과 `reshape()` 메서드를 이용하여 아래 어레이를 생성한다.

In [38]:
arr_1 = np.arange(36).reshape(6, 6)
arr_1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

**예제 1**

이제 0행부터 차례대로 0, 4, 8, 12, 16, 20을 더해야 하기에 
언급된 값들을 항목으로 갖는 (6, 1) 모양의
어레이를 다음과 같이 생성한다.

In [39]:
arr_2 = np.arange(0, 21, 4).reshape(6, 1)
arr_2

array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])

**예제 1**

이제 두 어레이를 더하면 원하는 2차원 어레이가 생성된다.

In [40]:
arr = arr_1 + arr_2
arr

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])