## Series
* 가장 간단한 1차원 자료구조인 Series는 배열/리스트와 같은 일련의 시퀀스 데이타를 받아들이는데, 별도의 인덱스 레이블을 지정하지 않으면 자동적으로 0부터 시작되는 디폴트 정수 인덱스를 사용한다.

In [1]:
# Series 정의하기
import pandas as pd
 
data = [1, 3, 5, 7, 9]
s = pd.Series(data)
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    1
1    3
2    5
3    7
4    9
dtype: int64


In [2]:
# Series의 값만 확인하기
s.values

array([1, 3, 5, 7, 9], dtype=int64)

In [3]:
# Series의 인덱스만 확인하기


RangeIndex(start=0, stop=5, step=1)

In [4]:
# Series의 자료형 확인하기
s.dtype

dtype('int64')

In [6]:
import pandas as pd

# 인덱스를 바꿀 수 있다.
s2 = pd.Series([1, 3, 5, 7, 9], index=['d','b','a','c','e'])
s2

d    1
b    3
a    5
c    7
e    9
dtype: int64

In [7]:
import pandas as pd

# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다
data = {'Kim': 35000, 'Lee': 67000, 'Park': 12000, 'Choi': 4000}
s3 = pd.Series(data)
s3

Kim     35000
Lee     67000
Park    12000
Choi     4000
dtype: int64

In [9]:
# Series 객체에 이름을 부여할 수 있음, Series Index에도 이름을 부여할 수 있음 
s3.name = 'Salary'
s3.index.name = "Names"
s3

Names
Kim     35000
Lee     67000
Park    12000
Choi     4000
Name: Salary, dtype: int64

In [10]:
# index 변경
s3.index = ['A', 'B', 'C', 'D']
s3

A    35000
B    67000
C    12000
D     4000
Name: Salary, dtype: int64

## DataFrame
* 2차원 자료구조인 DataFrame는 행과 열이 있는 테이블 데이타(Tabular Data)를 받아들임
* 아래 예제는 그 한가지 방법으로서 열(column)을 dict의 Key로, 행(row)을 dict의 Value로 한 Dictionary 데이타를 pd.DataFrame()을 사용하여 pandas의 Data Frame 자료구조로 변환한 예임

In [11]:
import pandas as pd
 
data = {
    'year': [2016, 2017, 2018],
    'GDP rate': [2.8, 3.1, 3.0],
    'GDP': ['1.637M', '1.73M', '1.83M']
}
 
df = pd.DataFrame(data)
df

Unnamed: 0,year,GDP rate,GDP
0,2016,2.8,1.637M
1,2017,3.1,1.73M
2,2018,3.0,1.83M


In [12]:
import pandas as pd

# Data Frame 정의하기
# python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data = {'name': ['Kim', 'Lee', 'Lee', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,Kim,2013,1.5
1,Lee,2014,1.7
2,Lee,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [13]:
# 행 방향의 index
df.index

RangeIndex(start=0, stop=5, step=1)

In [14]:
# 열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [13]:
# 값 얻기
df._____

array([['Kim', 2013, 1.5],
       ['Lee', 2014, 1.7],
       ['Lee', 2015, 3.6],
       ['Kim', 2016, 2.4],
       ['Park', 2015, 2.9]], dtype=object)

In [16]:
# 각 인덱스에 대한 이름 설정하기
df.index.name = 'No'
df.columns.name = 'Info'
df

Info,name,year,points
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Kim,2013,1.5
1,Lee,2014,1.7
2,Lee,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [17]:
import pandas as pd

# DataFrame을 만들면서 columns와 index를 설정할 수 있다.
data = {'name': ['Kim', 'Lee', 'Lee', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,name,points,penalty
one,2013,Kim,1.5,
two,2014,Lee,1.7,
three,2015,Lee,3.6,
four,2016,Kim,2.4,
five,2015,Park,2.9,


* DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의 순서가 달라도 알아서 맞춰서 정의됨
* 하지만 data에 포함되어 있지 않은 값은 NaN(Not a Number)으로 나타나게 되는데, 이는 null과 같은 개념임
* NaN값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터임
* 따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 함

describe() 함수는 DataFrame의 계산 가능한 값들에 대한 다양한 계산 값을 보여준다.

In [18]:
df2.____

Unnamed: 0,year,points
count,5.0,5.0
mean,2014.6,2.42
std,1.140175,0.864292
min,2013.0,1.5
25%,2014.0,1.7
50%,2015.0,2.4
75%,2015.0,2.9
max,2016.0,3.6
