# 판다스 패키지의 소개

In [1]:
import pandas as pd

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
pd.Series(range(10, 14), index = range(4))

0    10
1    11
2    12
3    13
dtype: int64

In [6]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [7]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [8]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [10]:
s.name = "인구"
s.index.name = "도시"

s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [11]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [12]:
s[0], s["서울"]

(9904312, 9904312)

In [13]:
s[[0,3]]

도시
서울    9904312
대구    2466052
Name: 인구, dtype: int64

In [14]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
s[(250e4 < s) & (s <500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [17]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [18]:
s0.a

0

In [19]:
s0.c

2

In [21]:
for k, v in s.items():
    print("%s의 인구는 %d 명입니다." % (k, v))

서울의 인구는 9904312 명입니다.
부산의 인구는 3448737 명입니다.
인천의 인구는 2890451 명입니다.
대구의 인구는 2466052 명입니다.


In [25]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, index = ["대전", "인천", "부산", "서울"])
s2

대전    1490158
인천    2632035
부산    3393191
서울    9631482
dtype: int64

In [26]:
s2[0]

1490158

In [27]:
s2[3]

9631482

In [28]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [29]:
s.values - s2.values

array([ 8414154,   816702,  -502740, -7165430], dtype=int64)

In [31]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [32]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [33]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [34]:
type(rs)

pandas.core.series.Series

In [35]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [37]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [38]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [39]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [42]:
data = {
    "League": ["Ligue1", "EPL", "EPL", "EPL", "EPL"], 
    "2017": [50, 40, 43, 28, 26], 
    "2018": [47, 45, 32, 31, 19], 
    "2019": [20, 32, 53, 20, 12], 
    "2020": [32, 12, 73, 29, 30]
}
columns = ["League", "2017", "2018", "2019", "2020"]
index = ["Messi", "Ronaldo", "Salah", "Mane", "Son"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,League,2017,2018,2019,2020
Messi,Ligue1,50,47,20,32
Ronaldo,EPL,40,45,32,12
Salah,EPL,43,32,53,73
Mane,EPL,28,31,20,29
Son,EPL,26,19,12,30


In [51]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [52]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [54]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"])/df["2005"] * 100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [55]:
data = {
    "League": ["Ligue1", "EPL", "EPL", "EPL", "EPL"], 
    "2017": [50, 40, 43, 28, 26], 
    "2018": [47, 45, 32, 31, 19], 
    "2019": [20, 32, 53, 20, 12], 
    "2020": [32, 12, 73, 29, 30]
}
columns = ["League", "2017", "2018", "2019", "2020"]
index = ["Messi", "Ronaldo", "Salah", "Mane", "Son"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,League,2017,2018,2019,2020
Messi,Ligue1,50,47,20,32
Ronaldo,EPL,40,45,32,12
Salah,EPL,43,32,53,73
Mane,EPL,28,31,20,29
Son,EPL,26,19,12,30


In [59]:
df["골 합계"] = df["2017"] + df["2018"] + df["2019"] + df["2020"]
df

Unnamed: 0,League,2017,2018,2019,2020,골 합계
Messi,Ligue1,50,47,20,32,149
Ronaldo,EPL,40,45,32,12,129
Salah,EPL,43,32,53,73,201
Mane,EPL,28,31,20,29,108
Son,EPL,26,19,12,30,87


In [60]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [61]:
df["지역"]

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [64]:
df["2010"]

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [68]:
df[1:3]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982


In [69]:
# 열 인덱싱은 df["열 이름"]
# 행 인덱싱은 df[슬라이싱]

In [71]:
df["2015"]["서울"]

9904312

In [75]:
data3 = {
    "가능": ["O", "O", "X", "O"],
    "결과": ["열", "열", "-", "행"],
    "자료형": ["시리즈", "데이터프레임", "-", "데이터프레임"],
    "추가사항": ["-", "-", "열 라벨이 정수인 경우 라벨 인덱싱", "-"]
}
columns = ["가능", "결과", "자료형", "추가사항"]
index = ["라벨", "라벨 리스트", "인덱스데이터(정수)", "인덱스데이터(정수) 슬라이스"]
df3 = pd.DataFrame(data3, index = index, columns = columns)
df3

Unnamed: 0,가능,결과,자료형,추가사항
라벨,O,열,시리즈,-
라벨 리스트,O,열,데이터프레임,-
인덱스데이터(정수),X,-,-,열 라벨이 정수인 경우 라벨 인덱싱
인덱스데이터(정수) 슬라이스,O,행,데이터프레임,-


In [78]:
df3.index.name = "인덱싱 값"
df3

Unnamed: 0_level_0,가능,결과,자료형,추가사항
인덱싱 값,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
라벨,O,열,시리즈,-
라벨 리스트,O,열,데이터프레임,-
인덱스데이터(정수),X,-,-,열 라벨이 정수인 경우 라벨 인덱싱
인덱스데이터(정수) 슬라이스,O,행,데이터프레임,-


In [79]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [80]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [81]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [83]:
df1 = pd.DataFrame(data, index = index, columns = ["국어", "영어"])
df1

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [86]:
df["평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [88]:
df["영어"]["방자"] == 80
df["평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [92]:
df[:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [96]:
df.T["향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [97]:
type(df.T["향단"])

pandas.core.series.Series