구조화된 데이터를 키(key)와 값(value)으로만 나타내기에는 너무 제한적이에요. 그리고 표 형태로 나타내는 것이 보기에도 편합니다. pandas라는 파이썬 라이브러리는 Series와 DataFrame이라는 자료 구조를 제공해요. 이 데이터 타입을 활용하면 구조화된 데이터를 더 쉽게 다룰 수 있습니다.

pandas의 특징을 나열하면 다음과 같습니다.

NumPy기반에서 개발되어 NumPy를 사용하는 어플리케이션에서 쉽게 사용 가능
축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조
다양한 방식으로 인덱스(index)하여 데이터를 다룰 수 있는 기능
통합된 시계열 기능과 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
누락된 데이터 처리 기능
데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능
pandas는 NumPy와 동일하게 pip을 이용해서 설치할 수 있어요.

$ pip install pandas 

## (1) Series
구조화 데이터를 표현하는 데 중요한 개념인 Series의 인덱스(Index)와 Name에 대해 알아봅시다. pandas에는 다양한 기능이 있는데요, 다른 기능들도 pandas 공식 문서를 참고하며 연습해 보세요.

Series는 일련의 객체를 담을 수 있는, 1차원 배열과 비슷한 자료 구조입니다. 따라서 배열형태인 리스트, 튜플을 통해서 만들거나 NumPy 자료형으로도 만들 수 있습니다.

In [1]:
import pandas as pd
ser = pd.Series(['a','b','c',3])
ser

0    a
1    b
2    c
3    3
dtype: object

Series의 인덱스(Index)
ser라는 Series객체를 만들었습니다.  
pandas의 Series에는 index와 value가 있습니다.  
인덱스는 왼쪽의 순서를 나타낸 숫자이고 밸류는 배열로 표현된 실제 데이터의 값입니다.

Series객체의 values 를 호출하면 array 형태로 반환됨을 확인할 수 있습니다.

In [2]:
ser.values

array(['a', 'b', 'c', 3], dtype=object)

인덱스는 RangeIndex가 반환됩니다. 정수형 인덱스라고 생각하면 돼요.

In [3]:
ser.index

RangeIndex(start=0, stop=4, step=1)

배열과 굉장히 유사하죠? Series가 구조화된 데이터를 표현할 수 있는 이유는 인덱스에 다른 값을 넣을 수 있기 때문이에요. Series 객체를 만들때 인자로 넣어주거나 할당 연산자를 이용해서 인덱스의 값을 지정할 수 있어요.

인덱스 설정 : Series의 인자로 넣어주는 방법

In [4]:
ser2 = pd.Series(['a', 'b', 'c', 3], index=['i','j','k','h'])
ser2

i    a
j    b
k    c
h    3
dtype: object

인덱스 설정: 할당 연산자

In [5]:
ser2.index = ['Jhon', 'Steve', 'Jack', 'Bob']
ser2

Jhon     a
Steve    b
Jack     c
Bob      3
dtype: object

index를 조회하면 방금 전 RangeIndex가 아닌 Index 타입의 객체가 표시됩니다.

In [6]:
ser2.index

Index(['Jhon', 'Steve', 'Jack', 'Bob'], dtype='object')

Series에서 인덱스는 기본적으로 정수형태로 설정되고, 사용자가 원하면 값을 할당할 수 있습니다. 따라서 파이썬 딕셔너리 타입의 데이터를 Series 객체로 손쉽게 나타낼 수 있어요.

In [7]:
Country_PhoneNumber = {'Korea': 82, 'America': 1, 'Swiss': 41, 'Italy': 39, 'Japan': 81, 'China': 86, 'Rusia': 7}
ser3 = pd.Series(Country_PhoneNumber)
ser3

Korea      82
America     1
Swiss      41
Italy      39
Japan      81
China      86
Rusia       7
dtype: int64

파이썬 딕셔너리를 사용해 초기화한 Series에서는 딕셔너리의 키가 인덱스로 설정됩니다.

Series의 인덱스를 다른 값으로 변경 가능하다는 것은 Series의 인덱스가 list의 인덱스이면서,  
딕셔너리의 키와 같은 기능으로 작용할 수 있다는 것을 의미합니다.  
기본 인덱스인 "0부터 시작하는 정수 형태"에서는 리스트와 유사하고, "값이 할당된" 인덱스에서는 딕셔너리와 유사합니다.   
따라서 보다 유연하게 데이터에 접근할 수 있어요.

비단 기본 인덱스 뿐 아니라 값이 할당된 인덱스 형태에 대해서 슬라이싱(slicing) 기능을 지원하기도 하기도 하는 등 특징이 있으니 연습해 두세요.

In [8]:
ser3['Korea']

82

In [9]:
ser3['Italy':]

Italy    39
Japan    81
China    86
Rusia     7
dtype: int64

Series의 Name
Series 객체와 Series 인덱스는 모두 name 속성이 있습니다. 이 속성은 pandas의 DataFrame에서 매우 중요해요.

In [10]:
ser3.name = 'Country_PhoneNumber'
ser3.index.name = 'Country_Name'
ser3

Country_Name
Korea      82
America     1
Swiss      41
Italy      39
Japan      81
China      86
Rusia       7
Name: Country_PhoneNumber, dtype: int64

Series객체의 name 속성을 이용해서 Series 객체의 이름을 설정하고, Series Index의 name 속성을 이용해 인덱스 이름을 설정했습니다.

사실 pandas의 DataFrame은 Series의 연속입니다. 다음 스텝에서 자세히 설명할게요.

## (2) DataFrame
DataFrame은 표(table)와 같은 자료 구조입니다.  
Series는 한 개의 인덱스 칼럼과 값 칼럼, 딕셔너리는 키 칼럼과 값 칼럼 2개의 칼럼만 존재하는데 비해  
DataFrame은 여러 개의 칼럼을 나타낼 수 있습니다. 따라서 csv 파일이나 excel 파일을 DataFrame으로 변환하는 경우가 많아요.

조금 헷갈릴 수 있으니 직접 Series와 DataFrame을 비교해 볼게요.

In [11]:
#Series로 변환

data = {'Region' : ['Korea', 'America', 'Chaina', 'Canada', 'Italy'],
        'Sales' : [300, 200, 500, 150, 50],
        'Amount' : [90, 80, 100, 30, 10],
        'Employee' : [20, 10, 30, 5, 3]
        }
s = pd.Series(data)
s

Region      [Korea, America, Chaina, Canada, Italy]
Sales                      [300, 200, 500, 150, 50]
Amount                        [90, 80, 100, 30, 10]
Employee                         [20, 10, 30, 5, 3]
dtype: object

In [12]:
#DataFrame으로 변환
s = pd.DataFrame(data)
s

Unnamed: 0,Region,Sales,Amount,Employee
0,Korea,300,90,20
1,America,200,80,10
2,Chaina,500,100,30
3,Canada,150,30,5
4,Italy,50,10,3


어떤가요? Series는 기본적으로 인덱스외 한 개의 값 칼럼만을 가질 수 있고 그 칼럼의 데이터가 많더라도 이는 배열 형태로 표현됩니다.  
반면에 DataFrame은 인덱스 칼럼 외에 여러 개의 칼럼을 가질 수 있어요. 따라서 Index와 Column Index도 설정할 수 있습니다.

In [13]:
s.columns

Index(['Region', 'Sales', 'Amount', 'Employee'], dtype='object')

In [14]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [15]:
s.index=['one','two','three','four','five']
s.columns = ['a','b','c','d']
s

Unnamed: 0,a,b,c,d
one,Korea,300,90,20
two,America,200,80,10
three,Chaina,500,100,30
four,Canada,150,30,5
five,Italy,50,10,3
