In [256]:
import pandas as pd
import numpy as np
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')

# Part 1. Pandas 입문

## 1-2. 자료구조

* Series (1차원)
* DataFrame (2차원)

### 1-2-1. 시리즈

dictionary와 유사한 형태

#### 예제 1-1 딕셔너리 -> 시리즈 변환

In [66]:
dict_data = dict(zip(['a','b','c'], [1,2,3]))
sr = pd.Series(dict_data)

print(type(sr))
print('--')
print(sr)

<class 'pandas.core.series.Series'>
--
a    1
b    2
c    3
dtype: int64


#### 예제 1-2 시리즈 인덱스

In [67]:
lst_data = ['a', 100, True]
sr = pd.Series(lst_data)

print(sr) # dtype : object

0       a
1     100
2    True
dtype: object


In [68]:
idx = sr.index
val = sr.values
print('idx : ', idx)
print('val : ', val)

idx :  RangeIndex(start=0, stop=3, step=1)
val :  ['a' 100 True]


#### 예제 1-3 시리즈 원소 선택

In [69]:
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [70]:
print(sr[0])
print('--')
print(sr['이름'])
print('--')
print(sr[[1,2]])
print('--')
print(sr[['생년월일','성별']])
print('--')
print(sr[1:2])
print('--')
print(sr['생년월일':'성별'])

영인
--
영인
--
생년월일    2010-05-01
성별               여
dtype: object
--
생년월일    2010-05-01
성별               여
dtype: object
--
생년월일    2010-05-01
dtype: object
--
생년월일    2010-05-01
성별               여
dtype: object


### 1-2-2 데이터프레임

2차원 벡터, 행렬

#### 예제 1-4 딕셔너리 -> 데이터프레임

In [71]:
dict_data = dict(zip(['c0','c1','c2','c3','c4'],[[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]]))

In [72]:
df = pd.DataFrame(dict_data)

In [73]:
print(type(df))
print('--')
print(df)

<class 'pandas.core.frame.DataFrame'>
--
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


#### 예제 1-5 행 인덱스/열 이름 설정

In [74]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], index = ['준서', '예은'], columns = ['나이', '성별', '학교'])

In [75]:
print(df)
print('--')
print(df.index)
print('--')
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중
--
Index(['준서', '예은'], dtype='object')
--
Index(['나이', '성별', '학교'], dtype='object')


In [76]:
df.index = ['학생1', '학생2']
df.columns = ['연렁', '남녀', '소속']

In [77]:
print(df)
print('--')
print(df.index)
print('--')
print(df.columns)

     연렁 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중
--
Index(['학생1', '학생2'], dtype='object')
--
Index(['연렁', '남녀', '소속'], dtype='object')


#### 예제 1-6 행 인덱스/열 이름 변경

In [78]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], index = ['준서', '예은'], columns = ['나이', '성별', '학교'])

In [79]:
df.rename(columns = dict(zip(['나이','성별','학교'], ['연령','남녀','소속'])), inplace=True)
df.rename(index = dict(zip(['준서','예은'], ['학생1','학생2'])), inplace=True)

In [80]:
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


#### 예제 1-7 행 삭제

In [85]:
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [81]:
df2 = df[:]
df2.drop('학생1', inplace = True)

In [82]:
df2

Unnamed: 0,연령,남녀,소속
학생2,17,여,수리중


In [83]:
df3 = df[:]
df3.drop(['학생1', '학생2'], axis = 0, inplace = True)

In [84]:
df3

Unnamed: 0,연령,남녀,소속


#### 예제 1-8 열 삭제

In [86]:
df2 = df[:]
df2.drop('연령', axis = 1, inplace = True)

In [89]:
df2

Unnamed: 0,남녀,소속
학생1,남,덕영중
학생2,여,수리중


In [88]:
df3 = df[:]
df3.drop(['연령', '남녀'], axis = 1, inplace = True)

In [90]:
df3

Unnamed: 0,소속
학생1,덕영중
학생2,수리중


#### 예제 1-9 행 선택

In [123]:
exam_data = dict(zip(['수학', '영어', '음악', '체육'], [[90, 80, 70], [98, 89, 94], [31, 51, 63], [36, 72, 50]]))
df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

In [96]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,31,36
우현,80,89,51,72
인아,70,94,63,50


In [102]:
label1 = df.loc['서준']
label2 = df.loc[['서준','우현']]
label3 = df.loc['서준':'우현']
position1 = df.iloc[0]
position2 = df.iloc[[0,1]]
position3 = df.iloc[0:1]

In [103]:
print(label1)
print(position1)
print(label2)
print(position2)
print(label3)
print(position3)

수학    90
영어    98
음악    31
체육    36
Name: 서준, dtype: int64
수학    90
영어    98
음악    31
체육    36
Name: 서준, dtype: int64
    수학  영어  음악  체육
서준  90  98  31  36
우현  80  89  51  72
    수학  영어  음악  체육
서준  90  98  31  36
우현  80  89  51  72
    수학  영어  음악  체육
서준  90  98  31  36
우현  80  89  51  72
    수학  영어  음악  체육
서준  90  98  31  36


#### 예제 1-10 열 선택

열 1개만 선택하면 Series로 반환되지만 리스트 형태로 넣을 경우 df로 반환된다

In [104]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,31,36
우현,80,89,51,72
인아,70,94,63,50


In [107]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [109]:
math1 = df['수학']
print(math1)
print(type(math1))

서준    90
우현    80
인아    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


In [113]:
math2 = df[['수학']]
print(math2)
print(type(math2))

    수학
서준  90
우현  80
인아  70
<class 'pandas.core.frame.DataFrame'>


In [110]:
english = df.영어
print(english)
print(type(english))

서준    98
우현    89
인아    94
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


In [111]:
music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))

    음악  체육
서준  31  36
우현  51  72
인아  63  50
<class 'pandas.core.frame.DataFrame'>


#### 예제 1-11 원소 선택

In [128]:
exam_data = dict(zip(['이름', '수학', '영어', '음악', '체육'], [['서준','우현','인아'], [90, 80, 70], [98, 89, 94], [31, 51, 63], [36, 72, 50]]))
df = pd.DataFrame(exam_data)

In [129]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50


In [130]:
df.set_index('이름', inplace=True)

In [131]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,36
우현,80,89,51,72
인아,70,94,63,50


In [135]:
a = df.loc['서준','음악']
print(a)
b = df.iloc[0,2]
print(b)

31
31


In [138]:
c = df.loc['서준', ['음악','체육']]
print(c)
d = df.iloc[0, [2,3]]
print(d)
e = df.loc['서준','음악':'체육']
print(e)
f = df.iloc[0, 2:]
print(f)

음악    31
체육    36
Name: 서준, dtype: int64
음악    31
체육    36
Name: 서준, dtype: int64
음악    31
체육    36
Name: 서준, dtype: int64
음악    31
체육    36
Name: 서준, dtype: int64


#### 예제 1-12 열 추가

In [139]:
df = pd.DataFrame(exam_data)

In [140]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50


In [141]:
df['국어'] = 80

In [142]:
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,31,36,80
1,우현,80,89,51,72,80
2,인아,70,94,63,50,80


#### 예제 1-13 행 추가

In [149]:
df = pd.DataFrame(exam_data)

In [150]:
df.loc[3] = 0

In [151]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50
3,0,0,0,0,0


In [152]:
df.loc[4] = ['동규', 90, 80, 70, 60]

In [153]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50
3,0,0,0,0,0
4,동규,90,80,70,60


In [154]:
df.loc['행5'] = df.loc[3]

In [155]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50
3,0,0,0,0,0
4,동규,90,80,70,60
행5,0,0,0,0,0


#### 예제 1-14 원소 값 변경

In [156]:
df = pd.DataFrame(exam_data)

In [158]:
df.set_index('이름', inplace=True)

In [160]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,36
우현,80,89,51,72
인아,70,94,63,50


In [161]:
df.iloc[0][3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,80
우현,80,89,51,72
인아,70,94,63,50


In [162]:
df.loc['서준']['체육'] = 90
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,90
우현,80,89,51,72
인아,70,94,63,50


In [163]:
df.loc['서준', '체육'] = 100
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,100
우현,80,89,51,72
인아,70,94,63,50


In [164]:
df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,50,50
우현,80,89,51,72
인아,70,94,63,50


In [165]:
df.loc['서준',['음악','체육']] = 100, 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,100,50
우현,80,89,51,72
인아,70,94,63,50


#### 예제 1-15 행 열 바꾸기

In [166]:
df = pd.DataFrame(exam_data)

In [171]:
df = df.transpose()
df

Unnamed: 0,0,1,2
이름,서준,우현,인아
수학,90,80,70
영어,98,89,94
음악,31,51,63
체육,36,72,50


In [172]:
df = df.T
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50


## 1-3. 인덱스 활용

#### 예제 1-16 특정 열을 행 인덱스로 설정

In [182]:
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,31,36
1,우현,80,89,51,72
2,인아,70,94,63,50


In [183]:
ndf = df.set_index(['이름'])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,31,36
우현,80,89,51,72
인아,70,94,63,50


In [184]:
ndf2 = ndf.set_index(['음악'])
ndf2

Unnamed: 0_level_0,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
31,90,98,36
51,80,89,72
63,70,94,50


In [185]:
ndf3 = ndf.set_index(['수학', '음악'])
ndf3

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1
90,31,98,36
80,51,89,72
70,63,94,50


#### 예제 1-17 새로운 배열로 행 인덱스 재지정

In [189]:
dict_data = dict(zip(['c0','c1','c2','c3','c4'], [[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]]))
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])

In [193]:
new_index = ['r' + str(i) for i in range(5)]

In [194]:
ndf = df.reindex(new_index)

In [195]:
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [197]:
ndf2 = df.reindex(new_index, fill_value=0)

In [198]:
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


#### 예제 1-18 정수형 위치 인덱스로 초기화

In [204]:
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [205]:
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


#### 예제 1-19 데이터프레임 정렬

In [207]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [208]:
ndf = df.sort_index(ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


#### 예제 1-20 열 기준 정렬
어떤 열의 값으로 정렬할 것인지 by에 표현

In [211]:
ndf = df.sort_values(by='c1', ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


## 1-4. 산술 연산

### 1-4-1 시리즈 연산

#### 예제 1-21 시리즈를 숫자로 나누기

In [214]:
student1 = pd.Series(dict(zip(['국어', '영어', '수학'], [100, 80, 90])))

In [215]:
student1

국어    100
영어     80
수학     90
dtype: int64

In [219]:
percentage = student1 / 200
percentage

국어    0.50
영어    0.40
수학    0.45
dtype: float64

In [218]:
type(percentage)

pandas.core.series.Series

#### 예제 1-22 시리즈 사칙연산
Series1 + 연산자 + Series2

인덱스가 같은 값끼리 연산을 한다.

In [238]:
student1 = pd.Series(dict(zip(['국어', '영어', '수학'], [100, 80, 90])))
student2 = pd.Series(dict(zip(['수학', '국어', '영어'], [80, 90, 80])))

In [239]:
a1 = student1 + student2
a2 = student1 - student2
a3 = student1 * student2
a4 = student1 / student2

In [240]:
result = pd.DataFrame([a1,a2,a3,a4], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.111111,1.125,1.0


#### 예제 1-23 NaN 값이 있는 시리즈 연산

결측치는 안 된다 (결과도 결측)

In [245]:
student1 = pd.Series(dict(zip(['국어', '영어', '수학'], [np.nan, 80, 90])))
student2 = pd.Series(dict(zip(['수학', '국어'], [80, 90])))

In [246]:
a1 = student1 + student2
a2 = student1 - student2
a3 = student1 * student2
a4 = student1 / student2

In [247]:
type(a4)

pandas.core.series.Series

In [248]:
result = pd.DataFrame([a1,a2,a3,a4], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,,170.0,
뺄셈,,10.0,
곱셈,,7200.0,
나눗셈,,1.125,


#### 예제 1-24 연산 메소드 사용 - 시리즈 연산

결측치를 fill_value의 값으로 대체해서 연산

In [252]:
sr1 = student1.add(student2, fill_value = 0)
sr2 = student1.sub(student2, fill_value = 0)
sr3 = student1.mul(student2, fill_value = 0)
sr4 = student1.div(student2, fill_value = 0)

In [253]:
result = pd.DataFrame([sr1,sr2,sr3,sr4], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


### 1-4-2 데이터 프레임 연산

DataFrame 객체 + 연산자 + 숫자

#### 예제 1-25 데이터프레임에 숫자 더하기

In [262]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [263]:
addition = df + 10
addition.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


#### 예제 1-26 데이터프레임끼리 더하기

결측치가 있을 경우 연산 결과도 결측치 반환

In [264]:
addition - df

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
...,...,...
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0


----
----
----
----

# 정리

* 상수 연산, 시리즈 연산 등등 다 가능
* 연산할 때 한쪽이 결측치면 결과도 결측치로 나온다 -> add, mul, sub, div와 fill_value 로 결측치를 어떻게 계산할지 정해줘야 함
* 데이터 프레임은 연산할 때 알아서 인덱스 이름 같은 애들끼리 함