In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# 1차원 배열 -> Series(Values, index = )
obj = pd.Series([3, 6, 9, 12])

0     3
1     6
2     9
3    12
dtype: int64

In [3]:
# 문자열 인덱스를 활용
obj = pd.Series([3, 6, 9, 12], index = ['a', 'b', 'c', 'd'])
obj

a     3
b     6
c     9
d    12
dtype: int64

In [5]:
s = pd.Series(range(10, 14), index = ['서울', '대전', '대구', '부산'])
print(s)

서울    10
대전    11
대구    12
부산    13
dtype: int64


In [8]:
# Series.index 속성
s.index

Index(['서울', '대전', '대구', '부산'], dtype='object')

In [9]:
# Series.values 속성
s.values

array([10, 11, 12, 13], dtype=int64)

In [12]:
s.name = '인구'
s.index.name = '도시'
print(s)

도시
서울    10
대전    11
대구    12
부산    13
Name: 인구, dtype: int64


In [14]:
# 2차원 배열 DataFrame, Table(표, 행과 열)
d = pd.DataFrame([[10, 20, 30],
                 [40, 50, 60],
                 [70, 80, 90]])
d

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [17]:
d = pd.DataFrame([[10, 20, 30],
                 [40, 50, 60],
                 [70, 80, 90]],
                columns = ['aaa', 'bbb', 'ccc'])
d

Unnamed: 0,aaa,bbb,ccc
0,10,20,30
1,40,50,60
2,70,80,90


In [18]:
# Dictionary를 데이터 프레임으로 변환이 가능하다.
tbl = pd.DataFrame({
    '체중' : [50, 75.5, 65.2, 49.8, 53.8],
    '신장' : [152, 175, 160, 143, 148],
    '성별' : ['남', '여', '남', '남', '여']
}) 
tbl

Unnamed: 0,체중,신장,성별
0,50.0,152,남
1,75.5,175,여
2,65.2,160,남
3,49.8,143,여
4,53.8,148,남


In [19]:
s

도시
서울    10
대전    11
대구    12
부산    13
Name: 인구, dtype: int64

In [20]:
s[1]

11

In [21]:
s['대전']

11

In [25]:
s[[0, 3]]

도시
서울    10
부산    13
Name: 인구, dtype: int64

In [26]:
s[['서울', '부산', '대전']]

도시
서울    10
부산    13
대전    11
Name: 인구, dtype: int64

In [28]:
s[s > 11]

도시
대구    12
부산    13
Name: 인구, dtype: int64

In [29]:
s[1:3]

도시
대전    11
대구    12
Name: 인구, dtype: int64

In [33]:
s['대전':'부산']

도시
대전    11
대구    12
부산    13
Name: 인구, dtype: int64

In [35]:
s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
print(s0)

a    0
b    1
c    2
dtype: int64


In [36]:
# Direct 연산자(.)
s0.a

0

In [37]:
s0.c

2

In [38]:
'서울' in s # 인덱스의 라벨 중 '서울'이 있습니까?

True

In [40]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 10
대전 = 11
대구 = 12
부산 = 13


In [44]:
s2 = pd.Series({'서울': 9631485, '부산': 5798532, 
                '인천': 2548632, '대전': 3245601})
s2

서울    9631485
부산    5798532
인천    2548632
대전    3245601
dtype: int64

In [45]:
s2['대전'] = 3490187
print(s2)

서울    9631485
부산    5798532
인천    2548632
대전    3490187
dtype: int64


In [46]:
del s2['서울']
print(s2)

부산    5798532
인천    2548632
대전    3490187
dtype: int64


In [47]:
tbl

Unnamed: 0,체중,신장,성별
0,50.0,152,남
1,75.5,175,여
2,65.2,160,남
3,49.8,143,여
4,53.8,148,남


In [48]:
tbl['체중']

0    50.0
1    75.5
2    65.2
3    49.8
4    53.8
Name: 체중, dtype: float64

In [50]:
tbl[['신장', '체중']]

Unnamed: 0,신장,체중
0,152,50.0
1,175,75.5
2,160,65.2
3,143,49.8
4,148,53.8


In [51]:
# 성별이 남자인 데이터만 추출
tbl[tbl.성별 == '남']

Unnamed: 0,체중,신장,성별
0,50.0,152,남
2,65.2,160,남
4,53.8,148,남


In [65]:
# Dictionary 생성
data = {
    '2015': [9904312, 3447837, 2890451, 2446052],
    '2010': [9631482, 3393191, 2632035, 2431774],
    '2005': [9762546, 3512547, 2517689, 2456016],
    '2000': [9853972, 9655437, 2466338, 2473990],
    '지역' : ['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]
}

# Diationary 이용해서 Dataframe 생성
# 행 인덱스 : index, 열 인덱스 : columns
columns = ['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']

df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3447837,3393191,3512547,9655437,0.0163
인천,수도권,2890451,2632035,2517689,2466338,0.0982
대구,경상권,2446052,2431774,2456016,2473990,0.0141


In [54]:
# values
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3447837, 3393191, 3512547, 9655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517689, 2466338, 0.0982],
       ['경상권', 2446052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [55]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [56]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [66]:
# 열 방향의 인덱스와 행 방향의 인덱스에 이름 생성
df.index.name = '도시'
df.columns.name = '특성'
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3447837  3393191  3512547  9655437         0.0163
인천  수도권  2890451  2632035  2517689  2466338         0.0982
대구  경상권  2446052  2431774  2456016  2473990         0.0141


In [59]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3447837,2890451,2446052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517689,2456016
2000,9853972,9655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [67]:
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3447837,3393191,3512547,9655437,1.63
인천,수도권,2890451,2632035,2517689,2466338,9.82
대구,경상권,2446052,2431774,2456016,2473990,1.41


In [68]:
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [69]:
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3447837
인천,2632035,2890451
대구,2431774,2446052
