In [2]:
import numpy as np
import pandas as pd

# 1. Pandas Series 객체
Pandas Series는 인덱싱된 데이터의 1차원 배열이다. 그것은 다음과 같이 리스트나 배열로부터 만들 수 있다.

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각 values와 index 속성으로 접근할 수 있다. values는 친숙한 NumPy배열이다.

In [4]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

index는 pd.Index 타입의 배열과 비슷한 객체이다.

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Numpy 배열과 마찬가지로 데이터는 친숙한 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있다.

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

그러나 Pandas Series가 1차원 NumPy 배열보다 훨씬 더 일반적이고 유연하다는 것을 알게 될 것이다.


## 1) Series : 일반화된 NumPy 배열
지금까지 살펴본 내용으로는 Series 객체가 기본적으로 1차원 NumPy 배열과 호환될 것처럼 보일 수 있다. 근본적인 차이는 인덱스 존재 여부에 있다. NumPy 배열에는 값에 접근하는 데 사용되는 암묵적으로 정의된 정수형 인덱스가 있고, Pandas Series에는 값에 연결된 명시적으로 정의된 인덱스가 있다.

이 명시된 인덱스 정의는 Series 객체에 추가적인 기능을 제공한다. 예를 들어, 인덱스는 정수일 필요가 없고 어떤 타입의 값으로도 구성할 수 있다. 예를 들어, 원한다면 인덱스 문자열을 사용할 수 있다.

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index = ['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

그리고 예상한 대로 각 항목에 접근할 수 있다.

In [9]:
data['b']

0.5

인접하지 않거나 연속적이지 않은 인덱스를 사용할 수도 있다.

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

# 2) Series : 특수한 딕셔너리
딕셔너리는 일련의 임의의값에 임의의 키를 매핑하는 구조고 Series는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조라고 생각하면 Pandas Series를 파이썬 딕셔너리의 특수한 버전 정도로 여길 수도 있다. 타입이 지정된다는 것이 중요한데, 특정 연산에서 NumPy 배열 뒤의 타입 특정 팜파일된 코드가 그것을 파이썬 리스트보다 더 효율적으로 만들어주는 것 처럼 Pandas Series의 타입 정보는 특정 연산에서 파이썬 딕셔너리보다 Pandas Series를 훨씬 더 효율적으로 만든다.

파이썬 딕셔너리에서 직접 Series 객체를 구성함으로써 딕셔너리로서의 Series의 의미를 더욱 분명하게 할 수 있다.

In [11]:
population_dict = {'California' : 38332521, 
                   'Texas' : 26448193,
                  'New York' : 19651127,
                  'Florida' : 19552860,
                  'Illinois' : 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

기본적으로 Series는 인덱스가 정렬된 키에서 추출되는 경우에 생성된다. 거기서부터 전형적인 딕셔너리 스타일로 아이템에 접근할 수 있다.

In [12]:
population['California']

38332521

그러나 딕셔너리와 달리 Series는 슬라이싱 같이 배열 스타일의 연산도 지원한다.

In [13]:
population['California ' : 'Illinois']

Florida     19552860
Illinois    12882135
dtype: int64

## 3) Series 객체 구성하기


앞에서 이미 Pandas Series 객체를 처음부터 생성하는 몇 가지 방법을 살펴봤다. 그 방식들은 모두 다음 형태를 따른다.
    
pd.Series(data, index=index)

여기서 index는 선택 인수고 data는 많은 요소 중 하나일 수 있다.
예를 들어 data는 리스트나 NumPy 배열일 수 있고, 그런 경우 index는 정수가 기본이다.

In [14]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

data는 지정된 인덱스를 채우기 위해 반복되는 스칼라값일 수 있다.

In [15]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

data는 딕셔너리일 수도 있는데, 그 경우 index는 기본적으로 딕셔너리 키를 정렬해서 취한다.

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

각각의 경우, 다른 결과를 얻고 싶으면 인덱스를 명시적으로 설정할 수 있다.

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

이 경우에는 Series를 명시적으로 정의된 키로만 채울 수 있다.

# 2. Pandas DataFrame 객체


다음으로 다룰 Pandas의 기본 구조체는 DataFrame이다. 앞 절에서 다룬 Series 객체와 마찬가지로 DataFrame 또한 NumPy 배열의 일반화된 버전이나 파이썬 딕셔너리의 특수한 버전으로 생각할 수 있다. 이제 각 관점을 살펴보자.

## 1) DataFrame : 일반화된 NumPy 배열


Series가 유연한 인덱스를 가지는 1차원 배열이라면 DataFrame은 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열이라고 볼 수 있다. 2차원 배열을 정렬된 1차원 열의 연속으로 볼 수 있듯이 DataFrame은 정렬된 Series 객체의 연속으로 볼 수 있다. 여기서 '정렬'은 같은 인덱스를 공유한다는 뜻이다.

설명을 위해 우선 앞에서 사용한 미국 다섯 개 주의 면적을 열거한 새로운 Series를 구성하자.

In [18]:
area_dict = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 'Florida' : 170312, 'Illinois' : 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

이제 앞에서 구성했던 population Series와 함께 이 Series 객체도 가지게 됐으니 딕셔너리를 사용해 이 정보를 포함하는 하나의 2차원 객체를 구성할 수 있다.

In [19]:
states = pd.DataFrame({'population' : population, 
                      'area' : area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


Series 객체와 마찬가지로 DataFrame도 인덱스 레이블에 접근할 수 있는 index 속성을 가지고 있다.

In [20]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

게다가 DataFrame은 열 레이블을 가지고 있는 Index 객체인 column 속성을 가지고 있다.

In [21]:
states.columns

Index(['area', 'population'], dtype='object')

따라서 DataFrame은 행과 열 모두 데이터 접근을 위한 일반화된 인덱스를 가지고 있는 2차원 NumPy배열의 일반화된 버전으로 볼 수 있다.

## 2) DataFrame : 특수한 딕셔너리

마찬가지로 DataFrame을 딕셔너리의 특수 버전으로 볼 수도 있다. 딕셔너리는 키를 값에 매핑한다면 DataFrame은 열 이름을 열 데이터로 이뤄진 Series를 매핑한다. 예를 들어, 'area' 속성을 질의하면 앞에서 본 면적을 담고 있는 Series 객체를 반환한다.

In [22]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

여기가 바로 혼란스로울 수 있는 부분이다. 2차원 NumPy 배열에서는 data[0]이 첫 번째 행을 반환한다. DataFrame의 경우에는 Data['col0']이 첫 번째 열을 반환한다. 이 때문에 DataFrame을 일반화된 배열보다 일반화된 딕셔너리로 보는 것이 더 적합할 수는 있지만, 그 상황을 바라보는 두 가지 시각 모두 유용할 수 있다.


## 3) DataFrame 객체 구성하기

Pandas DataFrame은 다양한 방법으로 구성할 수 있다. 지금부터 몇 가지 예를 들어보자.

단일 Series 객체에서 구성하기 : DataFrame은 Series 객체의 집합체로서 열 하나짜리 DataFrame은 단일 Series로부터 구성할 수 있다.

In [23]:
pd.DataFrame(population, columns = ['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


딕셔너리의 리스트에서 구성하기 : 딕셔너리의 리스트는 DataFrame으로 만들 수 있다. 여기서는 간단한 리스트 comprehension(이해)를 사용해 data를 만들 것이다.

In [24]:
data = [{'a' : i, 'b' : 2 * i}
       for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


dictionary의 일부 key가 누락되더라도 Pandas는 누란된 자리를 NaN(숫자가 아님을 의미하는 'not a number'값으로 채운다.

In [25]:
pd.DataFrame([{'a' : 1, 'b' : 2}, {'b' : 3, 'c' : 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


Series 객체의 dictionary에서 구성하기 : 앞에서 봤듯이 DataFrame은 Series 객체의 dictionary로 구성될 수도 있다.

In [26]:
pd.DataFrame({'population' : population,
             'area' : area})

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


2차원 NumPy배열에서 구성하기 : data의 2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진 DataFrame을 생성할 수 있다. 만약 생략되면 각각에 대해 정수 인덱스가 사용된다.

In [27]:
pd.DataFrame(np.random.rand(3, 2),
            columns=['foo', 'bar'],
            index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.954522,0.761907
b,0.476575,0.039953
c,0.454151,0.360572


NumPy의 구조화된 배열에서 구성하기 : 구조화된 배열에 대해서는 '구조화된 데이터 : NumPy의 구조화된 배열'에서 다뤘다. Pandas DataFrame은 구조화된 배열처럼 동작하며 구조화된 배열로부터 직접 만들 수 있다.

In [28]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0,  0.), (0,  0.), (0,  0.)],
      dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# 3. Pandas Index 객체

여기서 Series와 DataFrame 객체가 데이터를 참조하고 수정하게 해주는 명시적인 인덱스를 포함한다는 것을 알았다. Index 객체 그 자체로 흥미로운 구조체이며 불변의 배열이나 정렬된 집합(Index 객체가 중복되는 값을 포함할 수 있으므로 기술적으로 중복집합)으로 볼 수 있다. 이 관점은 Index 객체에서 사용할 수 있는 연산에 몇 가지 흥미로운 결과를 가져온다. 간단한 예로, 정수 리스트로부터 Index를 구성해보자.

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

## 1) Index :  불변의 배열

Index 객체는 여러 면에서 배열처럼 동작한다. 예를 들어, 표준 파이썬 인덱싱 표기법을 사용해 값이나 슬라이스를 가져올 수 있다.

In [31]:
ind[1]

3

In [32]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index 객체에는 NumPy 배열에서 익숙한 속성이 많이 있다.

In [33]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Index 객체와 NumPy 배열의 한 가지 차이점이라면 Index 객체는 일반적인 방법으로는 변경될 수 없는 불변의 값이라는 점이다.

In [34]:
ind[1] = 0

TypeError: Index does not support mutable operations

이 불변성 덕분에 예기치 않은 인덱스 변경으로 인한 부작용 없이 여러 DataFrame과 배열 사이에서 인덱스를 더 안전하게 공유할 수 있다.


## 2) Index: 정렬된 집합

Pandas 객체는 집합 연산의 여러 측면에 의존하는 DataSet 간의 Join과 같은 연산을 할 수 있게 하려고 고안됐다. Index 객체는 대체로 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따르기 때문에 합집합, 교집합, 차집합을 비롯해 그 밖의 조합들이 익숙한 방식으로 계산될 수 있다.

In [35]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [36]:
indA & indB # 교집합

Int64Index([3, 5, 7], dtype='int64')

In [37]:
indA | indB # 합집합

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [38]:
indA ^ indB # 대칭 차 (두 집합의 상대 여집합의 합)

Int64Index([1, 2, 9, 11], dtype='int64')

이 연산들은 객체 method(예: indA.intersection (indB))를 통해서도 접근할 수 있다.