 # 01판다스 자료구조

머신러닝에서 데이터셋을 다룰 때 판다스(pandes) 라이브러리를 주로 사용한다. 판다스는 1차원 배열 형태의 시리즈(Series) 자료구조와 2차원 배열 형대의 데이터프레임(DataFrame) 자료구조를 지원한다. 특히 데이터프레임은 엑셀의 테이블과 비슷하게 행과 열로 만들어진다.

시리즈는 데이터 값의 1차원 벡터(vector)다. 원소의 순서를 나타내는 인덱스로 각 원소를 식별한다. 데이터프레임은 여러 개의 시리즈(1차원 벡터)를 이어 붙인 형태로 2차원 구조를 갖는다. 각 열은 시리즈로 만들어지고 열이름을 갖는다. 행 방향으로는 행 인덱스로 구분한다.

판다스 라이브러리를 사용하려면 import 명령으로 불러온다. as 명령을 사용하여 pd라는 약칭을 사용하기로 한다.

In [28]:
import pandas as pd
print(pd.__version__)

1.1.3


In [29]:
"""
문자열을 원소로 갖는 1차원 구조의 리스트 객체를 만든다. 
type 명령으로 객체 탑입을 확인한다.
"""
data1 = ['a','b','c','d','e']
print(data1)
print("자료형:",type(data1))

['a', 'b', 'c', 'd', 'e']
자료형: <class 'list'>


In [30]:
"""
앞에서 만든 리스트 객체(data1)를 판다스 시리즈로 변환한다
Series 함수에 리스트 객체를 입력한다.
type 함수를 사용하면 시리즈 클래스 객체라는 것을 확인할 수 있다.
"""
sr1 = pd.Series(data1)
print("자료형:",type(sr1))

자료형: <class 'pandas.core.series.Series'>


In [31]:
"""변환된 시리즈 객체의 구조를 보면 문자열 데이터 (a,b,c,d,e)가 숫자 인덱스(0,1,2,3,4)와 짝을 이룬다.
dtype은 데이터 자료형을 나타내고 object는 문자열을 뜻한다"""
print(sr1)

0    a
1    b
2    c
3    d
4    e
dtype: object


In [32]:
"""
시리즈 객체의 원소를 추출할 때는 loc 인덱서를 사용한다. 
대괄호 안에 원소의 순서를 나타내는 인덱스 숫자를 입력한다.
첫 번째 순서를 나타내는 0을 입력하면 첫 번째 원소'a'가 선택된다.
"""
sr1.loc[0]

'a'

In [33]:
"""
인덱스 범위를 지정하여 슬라이싱 추출하는 방법도 가능하다.
인덱스 1부터 3까지 범위를 지정하면 각 인덱스 위치에 있는 원소가 함께 선택된다.
이때 범위의 마지막 인덱스에 해당하는 원소도 포함되어 추출되는 점에 유의한다.
이는 리스트슬라이싱 방법과 차이가 있다.
"""
sr1.loc[0:3]

0    a
1    b
2    c
3    d
dtype: object

In [34]:
"""
숫자 데이터로 구성된 투플 형태의 1차원 벡터를 시리즈로 변환해 본다.
자료형을 나타내는 dtype이 float64로 확인된다.
실수형 64비트로 저장되어 있다는 뜻이다.
"""
data2 = [1, 2, 3.14, 100, -100 ]
sr2 = pd.Series(data2)
print(sr2)
#정수형 데이터의 dtype은 int64로 나타난다

0      1.00
1      2.00
2      3.14
3    100.00
4   -100.00
dtype: float64


In [35]:
"""
1차원 구조의 시리즈를 여러 개 결합하면 데이터프레임을 만들 수 있다. 
시리즈 2개를 원소로 갖는 딕셔너리(dict_data)를 정의하고, DataFrame 함수에 입력한다. 
딕셔너리의 key에 해당하는 값이 각 열의 이름이 되고, 딕셔너리의 value에 해당하는 시리즈가 열의 데이터로 변환된다.
"""
dict_data = {'c0':sr1, 'c1':sr2}
df1 = pd.DataFrame(dict_data)
df1

Unnamed: 0,c0,c1
0,a,1.0
1,b,2.0
2,c,3.14
3,d,100.0
4,e,-100.0


In [36]:
#데이터 프레임의 자료형을 확인해 본다.
type(df1)

pandas.core.frame.DataFrame

In [37]:
"""
데이터 프레임의 열 이름은 columns 속성으로 추출한다.
딕셔너리 키(key)인 'c0'과 'c1'이 데이터 프레임의 열 이름으로 변환된 것을 알 수 있다.
"""
df1.columns

Index(['c0', 'c1'], dtype='object')

In [45]:
"""
culumns 속성에 새로운 열 이름의 배열을 지정하는 방식으로는 열 이름을 변경할 수 있다.
열 이름이 위치하는 순서대로 'c0'이 'string'으로 바뀌고 'c1'이 'number'로 변경된다.
"""
df1.columns = ['string','number']
df1

Unnamed: 0,string,number
r0,a,1.0
r1,b,2.0
r2,c,3.14
r3,d,100.0
r4,e,-100.0


In [46]:
"""
행 인덱스는 정수  0부터 4까지 오름차순으로 자동 지정된다.
index 속성으로 추출한다.
"""
df1.index

Index(['r0', 'r1', 'r2', 'r3', 'r4'], dtype='object')

In [50]:
"""
index 속성에 새로운 행 인덱스의 배열을 지정하여 다음과 같이 행 인덱스를 변경한다.
0~4 범위의 정수 값들이 새로운 문자열 값으로 바뀌는 것을 볼 수 있다.
"""
df1.index = ['r0', 'r1', 'r2', 'r3', 'r4']
print(df1.index)
df1

Index(['r0', 'r1', 'r2', 'r3', 'r4'], dtype='object')


Unnamed: 0,string,number
r0,a,1.0
r1,b,2.0
r2,c,3.14
r3,d,100.0
r4,e,-100.0


In [51]:
"""
데이터 프레임의 일부분을 추출할 때 loc 인덱서를 사용한다. 
loc[행 인덱스, 열 이름] 형태로 입력하면 해당 위치의 원소를 추출한다.
"""
df1.loc['r2','number']

3.14

In [53]:
"""
이번에는 loc 인덱서에 범위를 지정하는 방법이다.
행 인덱스 옵션에 'string':'number'범위를 지정한다."""
df1.loc['r2':'r3','string':'number']

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0


In [55]:
"""
loc 인덱서의 행 인덱스 옵션에 'r2'를 지정하고, 열 이름 옵션에 'strin':'number'범위를 지정한다.
'string'열부터 'number'열까지 선택되고, 'r2'행이 선택된다.
"""
df1.loc['r2','string':'number']

#시리즈 객체가 추출된다.

string       c
number    3.14
Name: r2, dtype: object

In [56]:
"""
loc 인덱서의 행 인덱스 옵션에 모든(:) 행을 지정하고, 열 이름 옵션에 'strin' 열을 지정한다.
'string'열의 데이터가 모두 선택된다.
"""
df1.loc[:,'string']

#시리즈 객체가 추출된다.

r0    a
r1    b
r2    c
r3    d
r4    e
Name: string, dtype: object

In [58]:
"""
loc 인덱서의 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고, 열 이름 옵션에 모든(:) 열을 지정한다.
'r2'부터'r3'행에 대하여 모든 열이 선택된다.
"""
df1.loc['r2':'r3',:]

#열이 2개인 데이터프레임이 추출된다.

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0
