In [1]:
import pandas as pd


In [2]:
'''
시리즈 클래스 1차원 데이터를 다루는데 사용
각 데이터마다 의미를 인덱스로 부여가능하다
인덱스의 길이는 배열과 같은 길이로 설정한다.
'''
s = pd.Series([1116,12259, 65119, 16699],
                index=['서울','부산','인천','대구'])
s

서울     1116
부산    12259
인천    65119
대구    16699
dtype: int64

In [3]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [4]:
s.values

array([ 1116, 12259, 65119, 16699], dtype=int64)

In [6]:
s.name = '농작물 생산량(톤)'
s.index.name = '지역'
s

지역
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [7]:
# 시리즈 객체 자체에도 사칙연산 가능
s1 = s / 1000
s1.name = '농작물 생산량(kg)'
s1

지역
서울     1.116
부산    12.259
인천    65.119
대구    16.699
Name: 농작물 생산량(kg), dtype: float64

In [8]:
# 비율 구해보기
(s / 4456953 * 100).round(2)

지역
서울    0.03
부산    0.28
인천    1.46
대구    0.37
Name: 농작물 생산량(톤), dtype: float64

In [11]:
# 인덱스로 값 호출이 가능하고 순서도 지정 가능
print( s )
print('-' * 10)
print( s[[0,1]] )
print('-' * 10)
print( s[[1,0]] )
print('-' * 10)
print( s[['서울','부산']] )

지역
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64
----------
지역
서울     1116
부산    12259
Name: 농작물 생산량(톤), dtype: int64
----------
지역
부산    12259
서울     1116
Name: 농작물 생산량(톤), dtype: int64
----------
지역
서울     1116
부산    12259
Name: 농작물 생산량(톤), dtype: int64


In [16]:
# 조건으로 값을 가져올 수 있음
print( s[(s>10000) & (s<20000)] )
print('-' * 10)
print( s[(s/4456952*100).round(2) > 0.3])

지역
부산    12259
대구    16699
Name: 농작물 생산량(톤), dtype: int64
----------
지역
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64


In [17]:
for k, v in s.items():
    print( k, v)

서울 1116
부산 12259
인천 65119
대구 16699


In [18]:
print( '서울' in s )
print( '경기도' in s )
print( '서울' in s.keys() )
print( '경기도' in s.keys() )

True
False
True
False


In [19]:
s21 = pd.Series([1116,12259, 65119, 16699],
                index=['서울','부산','인천','대구'])

In [20]:
s20 = pd.Series([628,11075, 56013, 15695],
                index=['제주도','부산','인천','대구'])

In [21]:
s21 - s20

대구     1004.0
부산     1184.0
서울        NaN
인천     9106.0
제주도       NaN
dtype: float64

In [22]:
!python --version

Python 3.7.9


In [27]:
d1 = {'서울':1, '부산':2, '제주도':3}
print( d1 )

{'서울': 1, '부산': 2, '제주도': 3}


In [29]:
import random


0     -81.0
1     447.0
2    -370.0
3     -11.0
4    -396.0
      ...  
95      NaN
96      NaN
97      NaN
98      NaN
99      NaN
Length: 100, dtype: float64

In [30]:
# pandas merge
df1 = pd.DataFrame({
    '날짜' : [1101, 1102, 1103, 1104, 1105],
    '온도' : [20, 18, 16, 14, 5]

}, columns=['날짜','온도'])

df2 = pd.DataFrame(data = {
    '날짜' : [1101, 1102, 1103, 1104, 1109, 1120],
    '습도' : [10, 20, 40, 100, 0, 50]
}, columns=['날짜','습도'])

In [31]:
# 겹쳐지는 구간만 merge
pd.merge(df1, df2)

Unnamed: 0,날짜,온도,습도
0,1101,20,10
1,1102,18,20
2,1103,16,40
3,1104,14,100


In [32]:
# 없는 데이터는 NaN 처리해서 모두 합침
pd.merge(df1, df2, how='outer')

Unnamed: 0,날짜,온도,습도
0,1101,20.0,10.0
1,1102,18.0,20.0
2,1103,16.0,40.0
3,1104,14.0,100.0
4,1105,5.0,
5,1109,,0.0
6,1120,,50.0


In [33]:
#df1을 기준으로 merge
pd.merge(df1, df2, how='left')

Unnamed: 0,날짜,온도,습도
0,1101,20,10.0
1,1102,18,20.0
2,1103,16,40.0
3,1104,14,100.0
4,1105,5,


In [34]:
# df2를 기준으로 merge
pd.merge(df1, df2, how='right')

Unnamed: 0,날짜,온도,습도
0,1101,20.0,10
1,1102,18.0,20
2,1103,16.0,40
3,1104,14.0,100
4,1109,,0
5,1120,,50


In [37]:
df3 = pd.DataFrame({
    'date' : [1101, 1102, 1103, 1104, 1105],
    '온도' : [20, 18, 16, 14, 5]

}, columns=['date','온도'])

df4 = pd.DataFrame(data = {
    '날짜' : [1101, 1102, 1103, 1104, 1109, 1120],
    '습도' : [10, 20, 40, 100, 0, 50]
}, columns=['날짜','습도'])

In [38]:
pd.merge(df3, df4, right_on='날짜', left_on='date')

Unnamed: 0,date,온도,날짜,습도
0,1101,20,1101,10
1,1102,18,1102,20
2,1103,16,1103,40
3,1104,14,1104,100
