In [1]:
import pandas as pd

In [2]:
s = pd.Series([1116, 12259, 65119, 16699], index=['서울', '부산', '인천', '대구'])
s

서울     1116
부산    12259
인천    65119
대구    16699
dtype: int64

In [3]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [4]:
s.values

array([ 1116, 12259, 65119, 16699], dtype=int64)

In [5]:
s.name = '농작물 생산량(톤)'

In [6]:
s.index.name = '지역구'

In [7]:
s

지역구
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [8]:
s1 = s/1000
s1.name = '농작물 생산량(k톤)'
s1

지역구
서울     1.116
부산    12.259
인천    65.119
대구    16.699
Name: 농작물 생산량(k톤), dtype: float64

In [9]:
s2 = (s/4456952*100).round(2)
s2.name = '농작물 생산 비율(%)'
s2

지역구
서울    0.03
부산    0.28
인천    1.46
대구    0.37
Name: 농작물 생산 비율(%), dtype: float64

In [10]:
s

지역구
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [11]:
s[0], s['서울']

(1116, 1116)

In [12]:
s[[2,0]]

지역구
인천    65119
서울     1116
Name: 농작물 생산량(톤), dtype: int64

In [13]:
s[[0,2]]

지역구
서울     1116
인천    65119
Name: 농작물 생산량(톤), dtype: int64

In [14]:
s[0:2]

지역구
서울     1116
부산    12259
Name: 농작물 생산량(톤), dtype: int64

In [15]:
s['서울':'인천']

지역구
서울     1116
부산    12259
인천    65119
Name: 농작물 생산량(톤), dtype: int64

Series는 Index를 통해 각 값에 접근 가능
Series의 묶음이 곧 DataFrame!

In [16]:
s[s>10000]

지역구
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [17]:
s[(s>10000) & (s<20000)]

지역구
부산    12259
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [18]:
s2[s2>0.5]

지역구
인천    1.46
Name: 농작물 생산 비율(%), dtype: float64

조건을 통해 해당 조건에 맞는 부분만 호출할 수도 있다

In [19]:
s21 = pd.Series([1116, 12259, 65119, 16699], index=['서울', '부산', '인천', '대구'])
s21

서울     1116
부산    12259
인천    65119
대구    16699
dtype: int64

In [20]:
s20 = pd.Series([628, 11075, 56013, 15695], index=['서울', '부산', '인천', '대구'])

In [21]:
s21-s20

서울     488
부산    1184
인천    9106
대구    1004
dtype: int64

In [22]:
import numpy as np

In [23]:
s21 = pd.Series([1116, 12259, 65119, 16699], index=['제주도', '부산', '인천', '대구'])
s_sub = s21.sub(s20, fill_value=0)
s_sub

대구     1004.0
부산     1184.0
서울     -628.0
인천     9106.0
제주도    1116.0
dtype: float64

In [24]:
s_sub2 = s21.sub(s20)
s_sub2

대구     1004.0
부산     1184.0
서울        NaN
인천     9106.0
제주도       NaN
dtype: float64

In [25]:
s_sub2.fillna(0)

대구     1004.0
부산     1184.0
서울        0.0
인천     9106.0
제주도       0.0
dtype: float64

In [26]:
s21 = pd.Series([1116, 12259, 65119, 16699], index=['서울', '부산', '인천', '대구'])

In [27]:
rs = ((s21 - s20) / s20 * 100).round(2)
rs

서울    77.71
부산    10.69
인천    16.26
대구     6.40
dtype: float64

In [28]:
rs['서울'] = 0
rs

서울     0.00
부산    10.69
인천    16.26
대구     6.40
dtype: float64

In [29]:
rs['서울'] = 77.71
rs

서울    77.71
부산    10.69
인천    16.26
대구     6.40
dtype: float64

In [30]:
del rs['대구']
rs

서울    77.71
부산    10.69
인천    16.26
dtype: float64

In [31]:
rs['대구'] = 6.40
rs

서울    77.71
부산    10.69
인천    16.26
대구     6.40
dtype: float64

In [32]:
import random

In [33]:
key100 = random.sample(list(range(1000)), 100)
key80 = random.sample(list(range(1000)), 80)
value100 = random.sample(list(range(1000)), 100)
value80 = random.sample(list(range(1000)), 80)

s100 = pd.Series(value100, index=key100)
s80 = pd.Series(value80, index=key80)

In [34]:
print(type(random.sample(range(1000), 100)))
print(type(key100))

<class 'list'>
<class 'list'>


In [35]:
s100_sub_80 = s100 - s80

In [36]:
for k, v in s100_sub_80.notnull().items():
    if v:
        print(k,v)

114 True
117 True
342 True
404 True
713 True
809 True
901 True
942 True


In [37]:
data = {
'2021' : [1116, 12259, 16699, 65119],
'2020' : [628, 11075, 15695, 56013],
'2019' : [678,12700,15148,55443],
'2018' : [712, 13597, 16052, 56024],
'농지면적순위' : [4,3,2,1]
}
columns = ['2018', '2019', '2020', '2021', '농지면적순위']
index = ['서울','부산','대구','인천']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,2018,2019,2020,2021,농지면적순위
서울,712,678,628,1116,4
부산,13597,12700,11075,12259,3
대구,16052,15148,15695,16699,2
인천,56024,55443,56013,65119,1


In [38]:
print(df.columns)
print(df.index)
print(df.values)

Index(['2018', '2019', '2020', '2021', '농지면적순위'], dtype='object')
Index(['서울', '부산', '대구', '인천'], dtype='object')
[[  712   678   628  1116     4]
 [13597 12700 11075 12259     3]
 [16052 15148 15695 16699     2]
 [56024 55443 56013 65119     1]]


In [39]:
df.info

<bound method DataFrame.info of      2018   2019   2020   2021  농지면적순위
서울    712    678    628   1116       4
부산  13597  12700  11075  12259       3
대구  16052  15148  15695  16699       2
인천  56024  55443  56013  65119       1>

In [40]:
df.index.name = '지역'
df

Unnamed: 0_level_0,2018,2019,2020,2021,농지면적순위
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,712,678,628,1116,4
부산,13597,12700,11075,12259,3
대구,16052,15148,15695,16699,2
인천,56024,55443,56013,65119,1


In [41]:
df.columns.name = '특성'
df

특성,2018,2019,2020,2021,농지면적순위
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,712,678,628,1116,4
부산,13597,12700,11075,12259,3
대구,16052,15148,15695,16699,2
인천,56024,55443,56013,65119,1


In [42]:
pd.Series([1,2,3,4,None])

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

Series는 모든 데이터 타입이 동일해야하므로, 하나라도 다른 타입이면 모두 같은 타입으로 통일된다!
하지만 DataFrame은 rows별로 다른 데이터타입을 가질 수 있다.

In [43]:
df['2018-2021 변화율'] = ((df['2021'] - df['2018']) / df['2018']*100).round(2)
df

특성,2018,2019,2020,2021,농지면적순위,2018-2021 변화율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,712,678,628,1116,4,56.74
부산,13597,12700,11075,12259,3,-9.84
대구,16052,15148,15695,16699,2,4.03
인천,56024,55443,56013,65119,1,16.23


In [44]:
df.T

지역,서울,부산,대구,인천
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018,712.0,13597.0,16052.0,56024.0
2019,678.0,12700.0,15148.0,55443.0
2020,628.0,11075.0,15695.0,56013.0
2021,1116.0,12259.0,16699.0,65119.0
농지면적순위,4.0,3.0,2.0,1.0
2018-2021 변화율,56.74,-9.84,4.03,16.23


Column별로 데이터타입이 다 동일해야하므로, 전치 행렬로 바꾸면 데이터타입이 모두 float으로 변경되는 것을 볼 수 있음

In [45]:
df['2018-2021 변화율'] = ((df['2021'] - df['2018']) / df['2018']*100).astype(int)
df.T

지역,서울,부산,대구,인천
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018,712,13597,16052,56024
2019,678,12700,15148,55443
2020,628,11075,15695,56013
2021,1116,12259,16699,65119
농지면적순위,4,3,2,1
2018-2021 변화율,56,-9,4,16


In [46]:
df['2018']

지역
서울      712
부산    13597
대구    16052
인천    56024
Name: 2018, dtype: int64

In [47]:
# loc, iloc
df.loc[['부산']]

특성,2018,2019,2020,2021,농지면적순위,2018-2021 변화율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,13597,12700,11075,12259,3,-9


In [48]:
df.loc['부산']

특성
2018             13597
2019             12700
2020             11075
2021             12259
농지면적순위               3
2018-2021 변화율       -9
Name: 부산, dtype: int64

In [49]:
df.iloc[[0]]

특성,2018,2019,2020,2021,농지면적순위,2018-2021 변화율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,712,678,628,1116,4,56


In [50]:
df.iloc[0,0]

712

In [51]:
df['2018']['서울']

712

In [52]:
df.iloc[0][0]

712

In [53]:
data = {
    '국어' : [80, 90, 70, 50],
    '영어' : [90, 50, 60, 100],
    '수학' : [70, 100, 50, 70],
    '과학' : [30, 50, 80, 80]
}
index = ['철수', '영희', '길동', '슬기']
columns = ['국어', '영어', '수학', '과학']

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학,과학
철수,80,90,70,30
영희,90,50,100,50
길동,70,60,50,80
슬기,50,100,70,80


In [54]:
df['개인평균'] = (df['국어'] + df['영어'] + df['수학'] + df['과학']) / 4
df

Unnamed: 0,국어,영어,수학,과학,개인평균
철수,80,90,70,30,67.5
영희,90,50,100,50,72.5
길동,70,60,50,80,65.0
슬기,50,100,70,80,75.0


In [55]:
df.loc['과목평균'] = (df.loc['철수'] + df.loc['영희'] + df.loc['길동'] + df.loc['슬기']) / 4
df

Unnamed: 0,국어,영어,수학,과학,개인평균
철수,80.0,90.0,70.0,30.0,67.5
영희,90.0,50.0,100.0,50.0,72.5
길동,70.0,60.0,50.0,80.0,65.0
슬기,50.0,100.0,70.0,80.0,75.0
과목평균,72.5,75.0,72.5,60.0,70.0
