# Pandas

In [1]:
import pandas as pd

## Series

In [2]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                    "여섯", "일곱", "여덟", "아홉", "열"],
                   index = [_ for _ in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [5]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [6]:
# index를 지정하지 않은 경우
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [7]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [8]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [9]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
# dict를 사용해 만들어보기
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [11]:
# dict의 key와 Series 객체의 index를 다르게 설정

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

In [13]:
# index 지정 없이 dict 객체만 가지고 만들 수 도 있다.

s2 = pd.Series({"서울":9_904_312,
                "부산":3_448_737,
                "인천":2_890_451,
                "대구":2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [14]:
# label 값이 영문 문자열인 경우에는
# index label이 속성인 것처럼 마침표를 활용해 index에 접근 가능

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser.a, ser.b, ser.c

(1, 2, 3)

In [16]:
"서울" in s

True

In [17]:
"대전" in s

False

In [19]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [20]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [21]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

In [22]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
s[1], s["부산"]

(3448737, 3448737)

In [26]:
s[3], s["대구"]

(2466052, 2466052)

In [27]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [28]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [29]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [31]:
# 문자열로 슬라이싱 할경우 : 뒤에 값도 나온다
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [32]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [40]:
s2 = pd.Series({"서울":9631482,
                "부산":3393191,
                "인천":2632035,
                "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [41]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [42]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [43]:
# NaN 값 빼고 시리즈 객체 만드는 법
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [44]:
# 2010년 대비 2015년 인구 증가율
# s # 2015년 도시별 인구
# s2 # 2010년 도시별 인구

rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [45]:
# 인덱스를 사용해 데이터를 추가하거나 갱신 가능
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [46]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [48]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [51]:
# 연습 문제
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value, fin2_index)

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

In [52]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [53]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [54]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [55]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [56]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame

In [58]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [59]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [60]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [63]:
pl_data = {
    "팀명": ["아스날", "맨체스터 시티", "뉴캐슬 유나이티드", "맨체스터 유나이티드"],
    "경기": [18, 18, 19, 18],
    "승": [15, 12, 10, 12],
    "무": [2, 3, 8, 2],
    "패": [1, 3, 1, 4],
    "승점": [47, 39, 38, 38],
    "경기당 승점": [47/18, 39/18, 38/19, 38/18]
}

pl_columns = ["팀명", "경기", "승", "무", "패", "승점", "경기당 승점"]
pl_index = [_ for _ in range(1, 5)]

pl_df = pd.DataFrame(pl_data, index=pl_index, columns=pl_columns)
pl_df

Unnamed: 0,팀명,경기,승,무,패,승점,경기당 승점
1,아스날,18,15,2,1,47,2.611111
2,맨체스터 시티,18,12,3,3,39,2.166667
3,뉴캐슬 유나이티드,19,10,8,1,38,2.0
4,맨체스터 유나이티드,18,12,2,4,38,2.111111


In [64]:
# "2005~2010 증가율 이라는 이름의 열 추가"
df["2005~2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [65]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [69]:
# Series 형태로 반환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [68]:
# 배열 또는 리스트로 인덱싱하면 DataFrame 타입이 반환
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [70]:
# column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [72]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [73]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int64

In [74]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [75]:
df[:1] # df[:"서울"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34


In [76]:
# row가 부산인 결과만 보고 싶을 경우
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [77]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [78]:
df["2015"]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [79]:
df["2015"]["서울"]

9904312

In [80]:
type(df["2015"]["서울"])

numpy.int64

In [211]:
# 연습문제
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

# print(df)
# 1 모든 학생의 수학 점수를 Series로 나타낸다.
print(df["수학"])
# 2 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
print(df[["국어", "영어"]])
# 3 모든 학생의 각 과목 평균 점수를 새로운 열로 추가
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3)
# print(df)
# 4 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산
df["영어"]["방자"] = 80
df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)
# 5 춘향의 점수를 데이터 프레임으로 나타낸다
print(df["춘향":"춘향"])
# 6 향단의 점수를 Series로 나타낸다.
df.T["향단"]


춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40
    국어  영어  수학      평균 점수
춘향  80  90  90  86.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)


국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

In [219]:
# 연습문제
np.random.seed(0)
index = pd.date_range("20130226",periods=6)
columns = ["A", "B", "C", "D"]
data = np.random.randn(6, 4)

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165
