In [1]:
# 파이썬 머신러닝 판다스 데이터 분석
# 시리즈: 인덱스(index)와 데이터 값(value)이 일대일 대응
# 딕셔너리와 비슷한 구조

import pandas as pd    # 판다스 불러오기

dict_data = {'a':1, 'b':2, 'c':3}    # 딕셔너리 형태
print(dict_data)
print()
sr = pd.Series(dict_data)    # 판다스의 Series() 함수로 딕셔너리를 시리즈로 변환
print(sr)

{'a': 1, 'b': 2, 'c': 3}

a    1
b    2
c    3
dtype: int64


In [2]:
print(type(dict_data))    # 딕셔너리
print()
print(type(sr))    # 시리즈

<class 'dict'>

<class 'pandas.core.series.Series'>


In [3]:
## 딕셔너리가 아니라 리스트를 시리즈로 변환할 때
# 리스트는 키값이 없으므로 자동으로 정수형 인덱스가 지정됨
import pandas as pd

list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
print(list_data)
print()
sr = pd.Series(list_data)    # 자동으로 인덱스가 0에서 4로 지정된 모습을 확인 가능
print(sr)

['2019-01-02', 3.14, 'ABC', 100, True]

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object


In [4]:
idx = sr.index     # 인덱스 배열을 저장
val = sr.values    # 데이터 값 배열을 저장

print(idx)
print('\n')
print(val)

RangeIndex(start=0, stop=5, step=1)


['2019-01-02' 3.14 'ABC' 100 True]


In [5]:
import pandas as pd

tup_data = ('영인', '2010-05-01', '여', True)    # 튜플: 변경하지 못함
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])    # 인덱스 지정

print(tup_data)
print()
print(sr)

('영인', '2010-05-01', '여', True)

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [6]:
print(sr[0])
print(sr['이름'])

영인
영인


In [7]:
# 여러 개의 시리즈 원소 출력

print(sr[[1,2]])
print()
print(sr[1:3])
print()
print(sr[['생년월일', '성별']])
print()
print(sr['생년월일':'성별'])

생년월일    2010-05-01
성별               여
dtype: object

생년월일    2010-05-01
성별               여
dtype: object

생년월일    2010-05-01
성별               여
dtype: object

생년월일    2010-05-01
성별               여
dtype: object


In [8]:
# 데이터프레임: 2차원 배열
# 쉽게 시리즈의 집합이라고 생각하면 됨.

import pandas as pd
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}    # 딕셔너리
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [9]:
print(type(df))
print()
print(df)

<class 'pandas.core.frame.DataFrame'>

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [10]:
# 행 인덱스 / 열 이름 정하기

import pandas as pd

df = pd.DataFrame(
    [[15,'남','덕영중'],[17, '여', '수리중']],    # 2차원 배열 [[]]
    index = ['준서', '예은'],              # 인덱스
    columns = ['나이', '성별', '학교'])    # 열 이름
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [11]:
print(df)
print()
print(df.index)
print()
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

Index(['준서', '예은'], dtype='object')

Index(['나이', '성별', '학교'], dtype='object')


In [12]:
# 행 인덱스, 열 이름 변경하기

df.index=['학생1','학생2']
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [13]:
df.columns=['연령','남녀','소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [14]:
# rename() 이용하여 행 인덱스 또는 열 이름의 일부를 변경
# 원본이 바뀌는 것은 아님!
# 원본에 적용하려면 inplace=True 를 써야 한다!!

import pandas as pd

df = pd.DataFrame([['15','남','덕영중'],['17','여','수리중']],
                 index=['준서','예은'],
                 columns=['나이','성별','학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [15]:
print(df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}))    # inplace=False
print()
print(df)    # rename으로 컬럼 이름을 바꾸었지만 df는 기존의 데이터를 가지고 있다.

    연령 남녀   소속
준서  15  남  덕영중
예은  17  여  수리중

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


In [16]:
print(df.rename(columns={"나이":"연령","성별":"남녀","학교":"소속"}, inplace=True))
# inplace=False일 때에는 데이터를 도출하는데, inplace=True일 때엔 None을 도출한다.
# False일 경우 새로운 데이터를 도출하여 return값이 있는데, True인 경우 기존 데이터에 덧입혀서 return값이 None인듯?
print()
print(df)    # inplace=True를 추가하였더니 기존 데이터가 변경되었다.

None

    연령 남녀   소속
준서  15  남  덕영중
예은  17  여  수리중


In [17]:
# 행/열 삭제
# drop() 메소드
# axis = 0 / axis = 1    # 각각 행 삭제, 열 삭제
# 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 입력
# 원본을 바꾸려면 inplace = True

# -*- coding: utf-8 -*-
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [18]:
# df를 복제하여 df2에 저장, df2의 1개 행(row) 삭제
df2 = df[:]    # 복제
df2.drop('우현', inplace=True)
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [19]:
# df를 복제하여 df3에 저장, df3의 2개 행(row) 삭제
df3 = df[:]
df3.drop(['서준','우현'], inplace=True)
df3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90


In [20]:
# 열 삭제하기
# df를 복제하여 df4에 저장, df4의 1개 열(column) 삭제
df4 = df[:]
df4.drop('영어', axis=1, inplace=True)
df4

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,수학,음악,체육
서준,90,85,100
우현,80,95,90
인아,70,100,90


In [21]:
df5 = df[:]
df5.drop(['영어','음악'], axis=1, inplace=True)
df5

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


## 행 선택 loc와 iloc 인덱서 사용

In [22]:
# -*- coding: utf-8 -*-
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [23]:
# 행 인덱스를 사용하여 행 1개 선택
label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print()
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [24]:
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print()
print(position2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [25]:
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]    # 0:2여야 0,1에 해당
print(label3)
print()
print(position3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90

    수학  영어  음악   체육
서준  90  98  85  100


## 열 선택

In [26]:
# -*- encoding: utf-8 -*-

import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,95],
            '음악':[85,95,100],
            '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [27]:
math1 = df['수학']
print(math1)
print()
print(type(math1))

0    90
1    80
2    70
Name: 수학, dtype: int64

<class 'pandas.core.series.Series'>


In [28]:
english = df['영어']
print(english)
print()
print(type(english))

0    98
1    89
2    95
Name: 영어, dtype: int64

<class 'pandas.core.series.Series'>


In [29]:
music_gym = df[['음악','체육']]    # 여러 개를 선택할 땐 대괄호를 겹쳐 사용한다.
print(music_gym)
print()
print(type(music_gym))    # 타입도 시리즈가 아닌 DataFrame이다.

    음악   체육
0   85  100
1   95   90
2  100   90

<class 'pandas.core.frame.DataFrame'>


In [30]:
math2 = df[['수학']]    # 수학만 선택했음에도 불구하고 DataFrame 타입에 해당한다.
print(math2)
print()
print(type(math2))

   수학
0  90
1  80
2  70

<class 'pandas.core.frame.DataFrame'>


## 범위 슬라이싱 고급 활용

In [31]:
df.iloc[::2]     # 모든 행에 대해 0행부터 2행 간격

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [32]:
df.iloc[0:3:2]    # df의 0행부터 2행까지 2행 간격

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [33]:
df.iloc[::-1]    # 역순으로 정렬하기!!!!!!

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


## 원소 선택

In [34]:
# -*- coding: utf-8 -*-
import pandas as pd
exam_data = {
    '이름':['서준','우현','인서'],
    '수학':[90,80,70],
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]
}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90


In [35]:
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인서,70,95,100,90


In [36]:
a = df.loc['서준','음악']    # loc[행,열]
a

85

In [37]:
b = df.iloc[0,2]
b

85

In [38]:
c = df.loc['서준',['음악','체육']]
c

음악     85
체육    100
Name: 서준, dtype: int64

In [39]:
d = df.iloc[0,[2,3]]
d

음악     85
체육    100
Name: 서준, dtype: int64

In [40]:
e = df.loc['서준','음악':'체육']
e

음악     85
체육    100
Name: 서준, dtype: int64

In [41]:
f = df.iloc[0,2:]
f

음악     85
체육    100
Name: 서준, dtype: int64

In [42]:
g = df.loc[['서준','우현'],['음악','체육']]
g

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [43]:
h = df.iloc[[0,1],[2,3]]
h

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [44]:
i = df.loc['서준':'우현','음악':'체육']
i

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [45]:
j = df.iloc[0:2,2:]
j

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


## 열 추가

In [46]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인서,70,95,100,90


In [47]:
df['국어'] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,80
우현,80,89,95,90,80
인서,70,95,100,90,80


## 행 추가

In [48]:
# loc를 이용하여 행을 추가한다.

# -*- coding: utf-8 -*-
import pandas as pd
exam_data = {
    '이름':['서준','우현','인서'],
    '수학':[90,80,70],
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]
}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90


In [49]:
df.loc[3] = 0
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90
3,0,0,0,0,0


In [50]:
df.loc[4] = ['동규',90,80,70,60]
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90
3,0,0,0,0,0
4,동규,90,80,70,60


In [51]:
df.loc['행5'] = df.loc[3]    # 기존 행을 복사할 수도 있다.
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90
3,0,0,0,0,0
4,동규,90,80,70,60
행5,0,0,0,0,0


## 원소 값 변경

In [52]:
# -*- coding: utf-8 -*-
import pandas as pd
exam_data = {
    '이름':['서준','우현','인서'],
    '수학':[90,80,70],
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]
}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인서,70,95,100,90


In [53]:
# 이름 열을 인덱스로 변환
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인서,70,95,100,90


In [54]:
# 특정 원소 변경
df.iloc[0][3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,80
우현,80,89,95,90
인서,70,95,100,90


In [55]:
df.loc['서준']['체육'] = 90
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,90
우현,80,89,95,90
인서,70,95,100,90


In [56]:
df.loc['서준','체육'] = 100
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인서,70,95,100,90


In [57]:
# 여러 원소 변경
df.loc["서준",['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,50,50
우현,80,89,95,90
인서,70,95,100,90


In [58]:
df.loc['서준',['음악','체육']] = 100, 70
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,100,70
우현,80,89,95,90
인서,70,95,100,90


## 행, 열의 위치 바꾸기

In [61]:
# -*- coding: utf-8 -*-

import pandas as pd
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,95],
            '음악':[85,95,100],
            '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [62]:
df = df.transpose()
df

Unnamed: 0,0,1,2
이름,서준,우현,인아
수학,90,80,70
영어,98,89,95
음악,85,95,100
체육,100,90,90


In [63]:
df = df.T
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


## 인덱스 활용

In [64]:
ndf = df.set_index(['이름'])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [65]:
ndf2 = df.set_index('음악')
ndf2

Unnamed: 0_level_0,이름,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
85,서준,90,98,100
95,우현,80,89,90
100,인아,70,95,90


In [66]:
ndf3 = df.set_index('이름')
ndf3

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [68]:
ndf4 = df.set_index(['수학','영어'])
ndf4

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,음악,체육
수학,영어,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
90,98,서준,85,100
80,89,우현,95,90
70,95,인아,100,90


In [70]:
# 행 인덱스 재배열 reindex()

# -*- coding: utf-8 -*-

import pandas as pd

dict_data = {'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [71]:
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [72]:
ndf2 = df.reindex(new_index, fill_value = 0)
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [73]:
# 행 인덱스 초기화

# -*- coding: utf-8 -*-

import pandas as pd

dict_data = {'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [74]:
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [1]:
# 행 인덱스를 기준으로 데이터프레임 정렬
# sort_index()
# ++++ 열(속성) 기준 -> sort_values()

# -*- coding: utf-8 -*-

import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
dict_data

{'c0': [1, 2, 3],
 'c1': [4, 5, 6],
 'c2': [7, 8, 9],
 'c3': [10, 11, 12],
 'c4': [13, 14, 15]}

In [5]:
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [6]:
ndf = df.sort_index(ascending=False)    # 내림차순
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [8]:
# -*- coding: utf-8 -*-

import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [10]:
ndf = df.sort_values(by='c1', ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


### 산술연산

In [11]:
# 시리즈 연산

# 시리즈 vs 숫자

# -*- coding: utf-8 -*-

import pandas as pd

student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student1

국어    100
영어     80
수학     90
dtype: int64

In [12]:
percentage = student1/200    # 학생의 과목별 점수를 200으로 나누기
print(percentage)
print()
print(type(percentage))

국어    0.50
영어    0.40
수학    0.45
dtype: float64

<class 'pandas.core.series.Series'>


In [13]:
# -*-  coding: utf-8 -*-

import pandas as pd

student1 = pd.Series({'국어':100,'영어':80,'수학':90})
student2 = pd.Series({'수학':80,'국어':90,'영어':80})

print(student1)
print()
print(student2)

국어    100
영어     80
수학     90
dtype: int64

수학    80
국어    90
영어    80
dtype: int64


In [14]:
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2

print(type(division))
print()

result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

<class 'pandas.core.series.Series'>

              국어        수학      영어
덧셈    190.000000   170.000   160.0
뺄셈     10.000000    10.000     0.0
곱셈   9000.000000  7200.000  6400.0
나눗셈     1.111111     1.125     1.0


In [15]:
# NaN값이 있는 시리즈 연산

# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np

student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

print(student1)
print()
print(student2)

국어     NaN
영어    80.0
수학    90.0
dtype: float64

수학    80
국어    90
dtype: int64


In [16]:
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2

print(type(division))
print()

result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

<class 'pandas.core.series.Series'>

     국어        수학  영어
덧셈  NaN   170.000 NaN
뺄셈  NaN    10.000 NaN
곱셈  NaN  7200.000 NaN
나눗셈 NaN     1.125 NaN


In [17]:
# 연산 메소드

# -*- coding:utf-8 -*-

import pandas as pd
import numpy as np

student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

sr_add = student1.add(student2, fill_value = 0)   # 덧셈
sr_sub = student1.sub(student2, fill_value = 0)   # 뺄셈
sr_mul = student1.mul(student2, fill_value = 0)   # 곱셈
sr_div = student1.div(student2, fill_value = 0)   # 나눗셈

result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div], index = ['덧셈','뺄셈','곱셈','나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


In [18]:
# 데이터프레임 연산

# -*- coding: utf-8 -*-

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [19]:
df = titanic.loc[:,['age','fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [20]:
type(df)

pandas.core.frame.DataFrame

In [21]:
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [22]:
type(addition)

pandas.core.frame.DataFrame

In [29]:
# -*- coding: utf-8 -*-

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [30]:
df.tail()

Unnamed: 0,age,fare
886,27.0,13.0
887,19.0,30.0
888,,23.45
889,26.0,30.0
890,32.0,7.75


In [31]:
addition = df + 10
print(addition.tail())
print()
print(type(addition))

      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75

<class 'pandas.core.frame.DataFrame'>


In [32]:
subtraction = df - 10
print(subtraction.tail())
print()
print(type(subtraction))

      age   fare
886  17.0   3.00
887   9.0  20.00
888   NaN  13.45
889  16.0  20.00
890  22.0  -2.25

<class 'pandas.core.frame.DataFrame'>
