In [1]:
import pandas as pd

# 1. Series

In [11]:
# index를 넣지 않은 경우.
s = pd.Series([1116, 122259, 65119, 16699]) # 넘파이와 유사. 1차원 데이터를 표현하는데 사용
print(s)
print(s.index) # 인덱스를 순서대로 가져옴. 

#index를 넣은 경우
s = pd.Series([1116, 122259, 65119, 16699], index=['서울','부산','인천','대구'])
print(s)
print(s.index) string으로 되어있을때 데이터 타입이 object로 표현됨.

0      1116
1    122259
2     65119
3     16699
dtype: int64
RangeIndex(start=0, stop=4, step=1)
서울      1116
부산    122259
인천     65119
대구     16699
dtype: int64
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [12]:
s.values

array([  1116, 122259,  65119,  16699], dtype=int64)

In [13]:
s.name = '농작물 생산량(톤)'

In [15]:
s.index.name = '지역구'

In [16]:
s

지역구
서울      1116
부산    122259
인천     65119
대구     16699
Name: 농작물 생산량(톤), dtype: int64

In [19]:
s1 = s/1000
s1.name = '농작물 생산량(k톤)'
s1

지역구
서울      1.116
부산    122.259
인천     65.119
대구     16.699
Name: 농작물 생산량(k톤), dtype: float64

In [21]:
(s/4456952 * 100).round(2)

지역구
서울    0.03
부산    2.74
인천    1.46
대구    0.37
Name: 농작물 생산량(톤), dtype: float64

In [23]:
s

지역구
서울      1116
부산    122259
인천     65119
대구     16699
Name: 농작물 생산량(톤), dtype: int64

In [24]:
s[0], s['서울'] # 인덱스와 키값 모두 접근이 가능하다

(1116, 1116)

In [25]:
s[[1,0]] # 순서를 뒤바꿔서 가져올 수 있다.

지역구
부산    122259
서울      1116
Name: 농작물 생산량(톤), dtype: int64

In [27]:
s[['부산','서울']] # 인덱스보다 키값으로 가져오는게 안전하다.(인덱스는 상대적이니)

지역구
부산    122259
서울      1116
Name: 농작물 생산량(톤), dtype: int64

In [33]:
print(s[s>10000]) # 조건을 줄 수 있다.
print('-----------------')
print(s[(s>10000) & (s>10000)])
print('-----------------')
print(s[(s/4456952 * 100)>0.5])

지역구
부산    122259
인천     65119
대구     16699
Name: 농작물 생산량(톤), dtype: int64
-----------------
지역구
부산    122259
인천     65119
대구     16699
Name: 농작물 생산량(톤), dtype: int64
-----------------
지역구
부산    122259
인천     65119
Name: 농작물 생산량(톤), dtype: int64


In [41]:
# 시리즈 인덱스 이름 변경
# s1.index[0] = '제주도' # 시리즈에서 인덱스 이름변경은 rename
s1 = s1.rename({'서울':'제주도'})
s1

지역구
제주도      1.116
부산     122.259
인천      65.119
대구      16.699
Name: 농작물 생산량(k톤), dtype: float64

In [38]:
s.서울

1116

In [48]:
# 인덱스값과 데이터를 수기로 입력하여 시리즈 생성
d1 = {'서울':1,'부산':2}
pd.Series(d1)

서울    1
부산    2
dtype: int64

In [47]:
for k, v in s.items(): # items로 인덱스와 데이터 둘 다 가져올 수 있다.
    print(k,v)

서울 1116
부산 122259
인천 65119
대구 16699


In [45]:
print('서울' in s)
print('강원도' in s)
print('서울' in s.keys())

True
False
True


In [59]:
# 같은 인덱스가 아니라며 NaN이 발생.
print(s-s1) # NaN은 float64타입이다.
print('------------------------')
import numpy as np
print('NaN의 타입은 : ',type(np.nan))

지역구
대구      16682.301
부산     122136.741
서울            NaN
인천      65053.881
제주도           NaN
dtype: float64
------------------------
NaN의 타입은 :  <class 'float'>


In [53]:
print(s.index)
print(s1.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='지역구')
Index(['제주도', '부산', '인천', '대구'], dtype='object', name='지역구')


In [60]:
!python --version

Python 3.9.12


In [62]:
# 형변환
s1_2 = s1[:]
s1_2.astype(int)

지역구
제주도      1
부산     122
인천      65
대구      16
Name: 농작물 생산량(k톤), dtype: int32

In [65]:
s1_2.sub(s, fill_value=0) # .000으로 채워진 것은 s1_2에 없는 값이라는 의미

지역구
대구     -16682.301
부산    -122136.741
서울      -1116.000
인천     -65053.881
제주도         1.116
dtype: float64

In [68]:
s3 = s1_2.sub(s)

In [69]:
# NaN값을 0으로 채움.
s3.fillna(0)

지역구
대구     -16682.301
부산    -122136.741
서울          0.000
인천     -65053.881
제주도         0.000
dtype: float64

In [88]:
# 증감을 확인
rs = ((s - s1) / s1 * 100).round(3)
rs

지역구
대구     99900.0
부산     99900.0
서울         NaN
인천     99900.0
제주도        NaN
dtype: float64

In [89]:
# 값을 변경
print(rs['서울'])
rs['서울'] = 0
rs[2] = 123
rs

nan


지역구
대구     99900.0
부산     99900.0
서울       123.0
인천     99900.0
제주도        NaN
dtype: float64

In [90]:
# 삭제 (del) , del에서 인덱스 접근은 불가.
del rs['대구']
rs

지역구
부산     99900.0
서울       123.0
인천     99900.0
제주도        NaN
dtype: float64

In [91]:
# 값을 추가
rs['경상도'] = 5.42
rs

지역구
부산     99900.00
서울       123.00
인천     99900.00
제주도         NaN
경상도        5.42
dtype: float64

In [93]:
import random

In [115]:
# 0 ~ 100 사이의 랜덤값 100개 추출.
key100 = random.sample(range(100), 100)

# pd.Series() # 크기가 100
# 키값 100 밸류값 100
key80 = random.sample(list(range(100)), 80) # list를 쓰지 않아도 되지만 명시적으로 형변환
value100 = random.sample(range(100), 100)
value80 = random.sample(range(100),80)
s100 = pd.Series(value100, index=key100)
s80 = pd.Series(value80, index=key80)
s_100_80_sub = s100 - s80 #인덱스가 맞지 않아서 NaN이 뜬다.
s_100_80_sub

0     22.0
1     76.0
2     10.0
3    -87.0
4     54.0
      ... 
95    17.0
96     NaN
97   -51.0
98    52.0
99   -85.0
Length: 100, dtype: float64

In [118]:
for k, v in s_100_80_sub.notull().items():
    if v:
        print(k,v)

AttributeError: 'Series' object has no attribute 'notull'

# 2. DataFrame

In [207]:
data = {
'2021' : [1116, 12259, 16699, 65119],
'2020' : [628, 11075, 15695, 56013],
'2019' : [678,12700,15148,55443],
'2018' : [712, 13597, 16052, 56024],
'농지면적순위' : [4,3,2,1]
}
columns = ['농지면적순위', '2021', '2020', '2019', '2018']
index = ['서울','부산','대구','인천']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,농지면적순위,2021,2020,2019,2018
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


In [208]:
print(df.columns)
print(df.index)
print(df.values)

Index(['농지면적순위', '2021', '2020', '2019', '2018'], dtype='object')
Index(['서울', '부산', '대구', '인천'], dtype='object')
[[    4  1116   628   678   712]
 [    3 12259 11075 12700 13597]
 [    2 16699 15695 15148 16052]
 [    1 65119 56013 55443 56024]]


In [209]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 서울 to 인천
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   농지면적순위  4 non-null      int64
 1   2021    4 non-null      int64
 2   2020    4 non-null      int64
 3   2019    4 non-null      int64
 4   2018    4 non-null      int64
dtypes: int64(5)
memory usage: 192.0+ bytes


In [210]:
df.index.name = '지역'
df

Unnamed: 0_level_0,농지면적순위,2021,2020,2019,2018
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


In [211]:
df.columns.name = '특성'
df

특성,농지면적순위,2021,2020,2019,2018
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


In [212]:
# NaN이 나오면 자동적으로 형 변환. NaN이 있으면 float이 되어 버렸다.
pd.Series([1,2,3,4,None])

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

In [213]:
s = pd.Series([1,2,3,4,'s']) # int와 str이 같이오면 데이터타입은 object가 나오지만 개별적으로 type찍어보면 제대로 된 타입나옴.
print(s)
print('--------------------')
print('0번째 데이터의 타입은 : ',type(s[0]))

0    1
1    2
2    3
3    4
4    s
dtype: object
--------------------
0번째 데이터의 타입은 :  <class 'int'>


In [214]:
df["2018-2021 증가율"] = ((df['2021']-df['2018'])/df['2018']*100)
df

특성,농지면적순위,2021,2020,2019,2018,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,4,1116,628,678,712,56.741573
부산,3,12259,11075,12700,13597,-9.840406
대구,2,16699,15695,15148,16052,4.03065
인천,1,65119,56013,55443,56024,16.234114


In [215]:
# 컬럼명 순서 바꾸기.
df = df[['농지면적순위','2018','2019','2020','2021','2018-2021 증가율']]
df

특성,농지면적순위,2018,2019,2020,2021,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,4,712,678,628,1116,56.741573
부산,3,13597,12700,11075,12259,-9.840406
대구,2,16052,15148,15695,16699,4.03065
인천,1,56024,55443,56013,65119,16.234114


In [216]:
# 전치
df.T

지역,서울,부산,대구,인천
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
농지면적순위,4.0,3.0,2.0,1.0
2018,712.0,13597.0,16052.0,56024.0
2019,678.0,12700.0,15148.0,55443.0
2020,628.0,11075.0,15695.0,56013.0
2021,1116.0,12259.0,16699.0,65119.0
2018-2021 증가율,56.741573,-9.840406,4.03065,16.234114


In [217]:
# 값을 추출
print(df['2018']['서울']) # 하나의 값을 가져옴.
df['2018'] # 대괄호 하나쓰면 시리즈로 가져옴.
# df['2018','2019'] # 시리즈로 가져올때는 하나씩

712


지역
서울      712
부산    13597
대구    16052
인천    56024
Name: 2018, dtype: int64

In [218]:
df[['2018']] # 대괄호 두개쓰면 데이터프레임 형태로 가져옴
# df[['2018','2019']] 두개 이상 가져오기도 가능

특성,2018
지역,Unnamed: 1_level_1
서울,712
부산,13597
대구,16052
인천,56024


In [219]:
# 시리즈는 인덱스로 접근.
temp = pd.Series(['a','b','c','d','e'])
print(temp[2])
print('-----------')
# 데이터프레임은 컬럼으로 접근
print(df['2021']['서울'])
print(df['2021'][0])

c
-----------
1116
1116


In [220]:
# 정렬
df.sort_values(by='농지면적순위', ascending=False)

특성,농지면적순위,2018,2019,2020,2021,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,4,712,678,628,1116,56.741573
부산,3,13597,12700,11075,12259,-9.840406
대구,2,16052,15148,15695,16699,4.03065
인천,1,56024,55443,56013,65119,16.234114


In [221]:
# 슬라이싱
df[:2]

특성,농지면적순위,2018,2019,2020,2021,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,4,712,678,628,1116,56.741573
부산,3,13597,12700,11075,12259,-9.840406


In [222]:
# loc, iloc
df.loc[['부산', '대구']]

특성,농지면적순위,2018,2019,2020,2021,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,3,13597,12700,11075,12259,-9.840406
대구,2,16052,15148,15695,16699,4.03065


In [223]:
df.iloc[1,1]

13597

In [224]:
df['2018']['서울']

712

In [225]:
df.iloc[[0,0,0,0]] # 데이터프레임 형태로 가져오면 이런식으로도 복제해서 가져오기 가능.

특성,농지면적순위,2018,2019,2020,2021,2018-2021 증가율
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,4,712,678,628,1116,56.741573
서울,4,712,678,628,1116,56.741573
서울,4,712,678,628,1116,56.741573
서울,4,712,678,628,1116,56.741573


In [226]:
df.iloc[:2,:3]

특성,농지면적순위,2018,2019
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,4,712,678
부산,3,13597,12700


In [227]:
print(df.iloc[0][0])
print(df.iloc[0,0])
# 데이터의 타입이 다르기 때문에 모든 데이터 타입이 float으로 맞춰져서
# 시리즈로 반환하는 과정에서 시리즈는 데이터 타입이 통일이 되어야하기 때문에
# 자동으로 형 변환이 이루어져서 두 출력 결과가 다륵게 나옴.
# 그러므로 df.iloc[0,0]처럼 본래 데이터 타입을 바꾸지 않고 접근하는 방식을 사용하도록 하자!

4.0
4


In [275]:
# 실습
index = ['철수','영희','길동','슬기']
columns = ['국어','영어','수학','과학']
data = {
    '국어' : [80,90,70,50],
    '영어' : [90,50,60,100],
    '수학' : [70,100,50,70],
    '과학' : [30,50,80,80]
}
df = pd.DataFrame(data, index=index, columns=columns)

# 데이터를 넣을 때는 data앞의 키 값은 columns를 써야됨. 데이터프레임이 시리즈를 한줄씩 붙여서 만든것이니까.
# data 앞에 키 값을 index로 쓸 경우 모든 데이터값이 NaN으로 뜬다.

In [276]:
df

Unnamed: 0,국어,영어,수학,과학
철수,80,90,70,30
영희,90,50,100,50
길동,70,60,50,80
슬기,50,100,70,80


In [277]:
df.loc['과목평균'] = df.mean() # 행추가는 df.loc['추가할 행 이름'] = 
df

Unnamed: 0,국어,영어,수학,과학
철수,80.0,90.0,70.0,30.0
영희,90.0,50.0,100.0,50.0
길동,70.0,60.0,50.0,80.0
슬기,50.0,100.0,70.0,80.0
과목평균,72.5,75.0,72.5,60.0


In [278]:
df.mean(axis=1) # axis=0가 기본연산. 0은 각 열에 대한 '행'의 연산. 1은 그 반대.

철수      67.5
영희      72.5
길동      65.0
슬기      75.0
과목평균    70.0
dtype: float64

In [279]:
df['학생평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,과학,학생평균
철수,80.0,90.0,70.0,30.0,67.5
영희,90.0,50.0,100.0,50.0,72.5
길동,70.0,60.0,50.0,80.0,65.0
슬기,50.0,100.0,70.0,80.0,75.0
과목평균,72.5,75.0,72.5,60.0,70.0
