In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [4]:
# 1 차원 배열 => Series = 인덱스(index) +  값(value)
obj = pd.Series([3, 6, 9, 12])
obj # 데이터 자료형

0     3
1     6
2     9
3    12
dtype: int64

In [5]:
# 문자열 인덱스를 활용
obj = pd.Series([3, 6, 9, 12], 
                index=["a", 'b', 'c', 'd']) # 순서 상관X
obj

a     3
b     6
c     9
d    12
dtype: int64

In [7]:
s = pd.Series(range(10, 14), index = ['서울', '대전', '대구', '부산']) # 10 11 12 13
s

서울    10
대전    11
대구    12
부산    13
dtype: int64

In [8]:
# Series.index 속성 - 해당 인덱스만 가져옴
s.index

Index(['서울', '대전', '대구', '부산'], dtype='object')

In [9]:
# Series.values 속성 - 해당 값만 가져옴
s.values

array([10, 11, 12, 13], dtype=int64)

In [10]:
s.name = "인구"
s.index.name = '도시'
s

도시
서울    10
대전    11
대구    12
부산    13
Name: 인구, dtype: int64

In [12]:
# 2차원 배열 DataFrame, Table(표, 행과열)
d = pd.DataFrame([[10, 20, 30],
                  [40, 50, 60],
                  [70, 80, 90]])
d

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [15]:
# columns(열)에 이름 붙히기
d = pd.DataFrame([[10, 20, 30],
                  [40, 50, 60],
                  [70, 80, 90]],
                columns = ['aaa', 'bbb', 'ccc'])
d

Unnamed: 0,aaa,bbb,ccc
0,10,20,30
1,40,50,60
2,70,80,90


In [16]:
# Dictionary를 데이터프레임으로 변환이 가능하다.
tbl = pd.DataFrame({
    '체중':[80, 70.4, 65.5, 45.9, 51.2],
    '신장':[170, 180, 155, 143, 154],
    '성별':['남', '여', '남', '남', '여']
}) #안의 데이터 필드의 크기는 동일 해야함.
tbl

Unnamed: 0,체중,신장,성별
0,80.0,170,남
1,70.4,180,여
2,65.5,155,남
3,45.9,143,남
4,51.2,154,여


In [17]:
s

도시
서울    10
대전    11
대구    12
부산    13
Name: 인구, dtype: int64

In [18]:
s[1] # 눈에는 서울 대전 대구 부산 이지만 컴터는 0 1 2 3으로 인식

11

In [19]:
s['대전'] # 이렇게도 가능

11

In [20]:
s[[0,3]] # 하나 이사의 값은 [] 묶여 있어야 한다.

도시
서울    10
부산    13
Name: 인구, dtype: int64

In [21]:
s[['서울', '부산', '대전']]

도시
서울    10
부산    13
대전    11
Name: 인구, dtype: int64

In [22]:
s[ s > 11 ] # 조건식을 담을 수 있음.

도시
대구    12
부산    13
Name: 인구, dtype: int64

In [24]:
s[1:3] # 마지막 값 포함X

도시
대전    11
대구    12
Name: 인구, dtype: int64

In [30]:
s["대전":"부산"] 

도시
대전    11
대구    12
부산    13
Name: 인구, dtype: int64

In [31]:
s0 = pd.Series(range(3), index= ['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [32]:
# direct 연산자(.)
s0.a

0

In [33]:
s0.c

2

In [34]:
'서울' in s # 인덱스의 라벨 중에 서울이 있습니까?

True

In [35]:
for k, v in s.items():
    print("%s = %d" % (k, v)) # formating

서울 = 10
대전 = 11
대구 = 12
부산 = 13


In [36]:
s2 = pd.Series({"서울":9631482, "부산":6393191, "인천":3622935, "대전":4490158})
s2 # key값(딕셔너리)이 인덱스 형태로 만들어짐

서울    9631482
부산    6393191
인천    3622935
대전    4490158
dtype: int64

In [38]:
s2['대전'] = 3490187 #값을 바꿀 수 있음
s2

서울    9631482
부산    6393191
인천    3622935
대전    3490187
dtype: int64

In [41]:
del s2['서울']
s2

부산    6393191
인천    3622935
대전    3490187
dtype: int64

In [42]:
tbl = pd.DataFrame({
    '체중':[80, 70.4, 65.5, 45.9, 51.2],
    '신장':[170, 180, 155, 143, 154],
    '성별':['남', '여', '남', '남', '여']
}) 
tbl

Unnamed: 0,체중,신장,성별
0,80.0,170,남
1,70.4,180,여
2,65.5,155,남
3,45.9,143,남
4,51.2,154,여


In [43]:
tbl['체중'] # 체중만 가져옴.

0    80.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: 체중, dtype: float64

In [45]:
tbl[['신장','체중']]

Unnamed: 0,신장,체중
0,170,80.0
1,180,70.4
2,155,65.5
3,143,45.9
4,154,51.2


In [47]:
# 성별이 남자인 데이터만 추출
# tbl['성별'=='남'] -> 에러 : '남'의 인덱스 값이 잘 못됨.
tbl[tbl.성별 == '남'] # 주의 할 것 

Unnamed: 0,체중,신장,성별
0,80.0,170,남
2,65.5,155,남
3,45.9,143,남


In [51]:
# 딕셔너리 생성
data = {
    '2015':[9904312, 3448737, 2890451, 24466052],
    '2010':[9631482, 3393191, 2632035, 2431774],
    '2005':[9762546, 3512547, 2517689, 2456015],
    '2000':[9853972, 3448737, 2466338, 2473990],
    '지역':['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율':[0.0283, 0.0163, 0.0982, 0.0141]
}
# 딕셔너리 이용해서 데이터프레임 생성
# 행인덱스 : index, 열인덱스 : columns
columns = ['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']

#df = pd.DataFrame(data)
df = pd.DataFrame(data, index = index, columns=columns) # 스타일 바꾸기
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3448737,0.0163
인천,수도권,2890451,2632035,2517689,2466338,0.0982
대구,경상권,24466052,2431774,2456015,2473990,0.0141


In [52]:
# values
df.values # dtype=object -> 객체

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3448737, 0.0163],
       ['수도권', 2890451, 2632035, 2517689, 2466338, 0.0982],
       ['경상권', 24466052, 2431774, 2456015, 2473990, 0.0141]], dtype=object)

In [53]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [54]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [56]:
# 열 방향 인덱스, 행 방향 인덱스 이름 생성
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3448737,0.0163
인천,수도권,2890451,2632035,2517689,2466338,0.0982
대구,경상권,24466052,2431774,2456015,2473990,0.0141


In [57]:
df.T # 전치

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,24466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517689,2456015
2000,9853972,3448737,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [59]:
# 100분율로 바꾸기
df["2010-2015 증가율"] = df['2010-2015 증가율'] *100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3448737,1.63
인천,수도권,2890451,2632035,2517689,2466338,9.82
대구,경상권,24466052,2431774,2456015,2473990,1.41


In [60]:
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [61]:
df[['2010', '2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,24466052
