In [1]:
# Series 연산하기
# 연산은 Series의 value에만 적용되며 index 값은 변하지 않는다.

In [2]:
import pandas as pd

In [3]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index = ["서울", "부산", "인천", "대구"])
s.name = "인구"         
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [4]:
# index label을 제외한 Series value에만 연산 적용

s / 1000000 

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [5]:
# index label을 이용한 인덱싱

s[1], s["부산"]

(3448737, 3448737)

In [6]:
s[3], s["대구"]

(2466052, 2466052)

In [7]:
# 배열 인덱싱
# 자료의 순서를 바꾸거나 특정한 자료만 취사 선택

s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [8]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [9]:
# 단 하나의 값을 시리즈로 가져오고 싶을 때

s[[0]]

도시
서울    9904312
Name: 인구, dtype: int64

In [10]:
# 인천의 인덱스와 값을 시리즈로 조회

s[[2]]

도시
인천    2890451
Name: 인구, dtype: int64

In [11]:
# 슬라이싱

In [12]:
# 문자열 label을 이용한 슬라이싱을 하는 경우
# 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함

In [13]:
s[1:3]    # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [14]:
s["부산":"대구"]    # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [15]:
# index 기반 연산 

In [16]:
# 2015년 인구
s = pd.Series({"서울": 9904312,
                "부산": 3448737,
                "인천": 2890451,
                "대구": 2466052})
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [17]:
# 2010년 인구
s2 = pd.Series({"서울": 9631482,
                "부산": 3393191,
                "인천": 2632035,
                "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [18]:
# 두 Series에 대해 연산을 하는 경우 index가 같은 데이터만 계산

ds = s-s2
ds

# NaN 값이 float 자료형에서만 표현 가능하므로
# 다른 계산 결과도 모두 float 자료형

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [19]:
# isnull() 메서드
# Series의 값이 NaN이면 True, NaN이 아니면 False

ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [20]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [21]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [22]:
ds[ds>200_000]

서울    272830.0
인천    258416.0
dtype: float64

In [23]:
s    # 2015년 도시별 인구

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [24]:
s2    # 2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [25]:
# Series에서 Nan이 아닌 값 구하기
# NaN 값인 것을 배제하고 2010년 대비 2015년 인구 증가율(%) 구하기

rs = (s-s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [26]:
# 연습문제
# 2010년 대비 2015년 인구 증감을 구하고(NaN 값인 것을 배제) 
# 인구수 증가가 가장 많은 도시의 이름과 증가한 인구수 출력

ds = s-s2
ds = ds[ds.notnull()]
ds[[ds.values.argmax()]]

서울    272830.0
dtype: float64

In [27]:
# Series 데이터 갱신

rs    # 인구 증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [28]:
rs[0] = 1.63
rs[1] = 2.83
rs[2] = 9.82
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [29]:
rs[0:3] = 1.63, 2.83, 9.82
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [30]:
# Series 데이터 추가(add)

rs["대구"] = 1.41
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [31]:
# Series 데이터 삭제

del rs["서울"]
rs

부산    1.63
인천    9.82
대구    1.41
dtype: float64

In [32]:
# 연습문제
# Series 객체 ser_finance1, ser_finance2를 만들어보기

fin1 = {"카카오":60010, "삼성전자":61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin1)
print(ser_finance1)

ser_finance2 = pd.Series(fin2_value, fin2_index)
print(ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64
카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


In [33]:
# NaN 값이 float 자료형에서만 표현 가능

ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [34]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [35]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [36]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [37]:
# NaN 값이 없게 Series 객체를 출력

result = ser_finance1 - ser_finance2
del result["LG전자"]
del result["네이버"]
result

삼성전자   -200.0
카카오    -190.0
dtype: float64

In [38]:
# 또다른 풀이

result = ser_finance1 - ser_finance2
result = result[result.notnull()]
result

삼성전자   -200.0
카카오    -190.0
dtype: float64

In [39]:
# DataFrame class
# label된 row와 column, 두 개의 축을 갖는 데이터 구조
# Series 객체를 갖는 dictionary라고 생각하면 비슷
# 첫 인자로 data, 두 번째 인자로 index를 전달
# two-dimensional

In [40]:
# 1. 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
# 2. 각각의 열에 대한 이름(label)을 키로 가지는 딕셔너리 생성
# 3. 이 데이터를 DataFrame 클래스 생성자에 넣음
# 4. 동시에 열방향 index는 columns 인수로, 행방향 index는 index 인수로 지정

In [41]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [42]:
data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}

# 순서 재정비
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]

index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [43]:
# DataFrame의 각 column은 자료형이 다를 수 있음

df.dtypes

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

In [44]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [45]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [46]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [47]:
# DataFrame 이름 붙이기

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [48]:
# 전치(Transpose)

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [49]:
# "2010-2015 증가율"이라는 이름의 열의 값을 갱신

df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [51]:
df["2010-2015 증가율"]   # series

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [53]:
# "2005-2010 증가율"이라는 이름의 열 추가

df["2005-2010 증가율"] = ((df["2010"]-df["2005"]) / df["2005"]*100).round(2)
df

# round(2): 소수점 둘째 자리까지 반환

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [54]:
# "2010-2015 증가율"이라는 이름의 열 삭제

del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [55]:
# 하나의 column만 인덱싱하면 Series가 반환된다.

df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [56]:
# 2010이라는 column을 반환하면서 Series 자료형으로 반환

df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [57]:
type(df["2010"])

pandas.core.series.Series

In [60]:
# 여러 개의 columns를 인덱싱하면 부분적인 DataFrame이 반환된다.

df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [63]:
# 2010이라는 column을 반환하면서 DataFrame 자료형을 유지
# 요소가 하나인 리스트 자료형을 사용해서 인덱싱

df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [64]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [66]:
# 문자열 label일 때는 순서를 나타내는 정수 index를 column 인덱싱에 사용할 수 없음
# column index가 문자열인데 정수 index를 넣으면 KeyError 오류가 발생

# 원래부터 문자열이 아닌 정수형 column index를 가지는 경우에는 index 값으로 정수 사용 가능
# 별도의 columns 키워드 인수를 전달하지 않으면 RangeIndex를 기본 값으로 부여

import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [67]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [68]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [69]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [71]:
# row 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)
# index의 값이 문자 label이면 label 슬라이싱도 가능

df[:1]    # df[:"서울"] --> 문자는 포함, 숫자는 미포함

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [77]:
df[1:2]    # 숫자 슬라이싱과 문자열 슬라이싱은 다름!

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [79]:
df["부산":"부산"]    

# df["서울"] -> column에서 찾음
# row 단위로 인덱싱을 하면 KeyError 발생

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [84]:
# DataFrame에서 column label로 인덱싱하면 Series가 됨
# 이 Series를 다시 row label로 인덱싱하면 개별 데이터가 나옴

df["2015"]["부산"]

3448737

In [85]:
type(df["2015"]["부산"])

numpy.int64

In [134]:
# 연습문제 

data = {
 "국어": [80, 90, 70, 30],
 "영어": [90, 70, 60, 40],
 "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [135]:
# (1) 모든 학생의 수학 점수를 Series로 나타낸다.

df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [136]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [137]:
# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

df["평균"] = round((df["국어"]+df["영어"]+df["수학"]) / 3, 2)
# round(df.mean(axis=1), 2)을 활용해도 된다.
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [138]:
# (4) 춘향의 점수를 DataFrame으로 나타낸다.

df["춘향":"춘향"]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [143]:
# (5) 향단의 점수를 Series로 나타낸다.

df.T["향단"]
# df.loc[index]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [164]:
np.random.seed(0)
values = {"A": np.random.randn(6),
          "B": np.random.randn(6),
          "C": np.random.randn(6),
          "D": np.random.randn(6),
         }
index = pd.date_range("20130226", periods=6)

df = pd.DataFrame(values, index)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.950088,0.761038,0.313068
2013-02-27,0.400157,-0.151357,0.121675,-0.854096
2013-02-28,0.978738,-0.103219,0.443863,-2.55299
2013-03-01,2.240893,0.410599,0.333674,0.653619
2013-03-02,1.867558,0.144044,1.494079,0.864436
2013-03-03,-0.977278,1.454274,-0.205158,-0.742165


In [165]:
# 또다른 풀이

np.random.seed(0)

df = pd.DataFrame(np.random.randn(6, 4), 
                  index=pd.date_range("20130226", periods=6), 
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165
