# 데이터 과학(Data Science)

## 개요
  - 데이터를 연구하는 분야
  - 데이터 자체가 가장 중요한 자원
  - 빅데이터를 저장, 분석
  - 인공지능 기법 활용
## 데이터 분석 업무
  - 데이터 수집 정리 : 80%~90%
  - 분석 프로세스(알고리즘 선택, 모델링, 분석, 정보추출) : 10%~20%



<font color="Blue">
<h2>판다스(pandas)</h2>
</font>
<h3>- pandas는 python data analysis library의 약자로 Python으로 작성된 데이터 조작, 분석 패키지</h3>

[개요]
 - 데이터에 대한 공통 포맷을 사용해 서로 다른 데이터 형식을 통일해 처리
 - 시리즈(Series; 1차원 배열)와 데이터프레임(DataFrame; 2차원 배열)으로 구성
 <img sr_datac="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg"/>
 <br/>
[관련 자료]
  - 한눈에 보기(Cheat Sheet) : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdataframe
  - 기술문서 : https://pandas.pydata.org/docs/pandas.pdataframe

## step1. 환경설치를 위해 Python Terminal 창을 연다.
- pip (파이썬 관련 패키지 설치에 사용하는 명령어) 업데이트
- >> pip install --upgrade pip
##
## Step2. pandas 설치
- >> pip install --upgrade pandas

In [1]:
# PANDAS 패키지 추가하기
import pandas as pd

# Series
- list 형태
- a sequence of data values
<br>
<img sr_datac="https://post-phinf.pstatic.net/MjAxOTA2MTlfMTA1/MDAxNTYwOTAyMjU5MjY4.O_lVqutdiKGIb_aOXlWXWbu7x871Ir53GxUfyHlsr_datauog.SyfDuQDzrQtcol_46hpVAuyCvuoo1J9eE행1z1HnLEnHJSMg.JPEG/mug_obj_201906190857392515.jpg?type=w1080"/>

## 시리즈 만들기 
- 딕셔너리와 시리즈의 구조가 비슷해 딕셔너리에서 시리즈로 변환 방법을 많이 사용

In [1]:
# pandas 라이브러리 추가
import pandas as pd

In [2]:
# key : value 형식을 갖는 딕셔너리를 만들고, 변수 dic_data에 저장
dic_data = {'x': 7, 'y': 77, 'z': 777}

# 판다스의 Series() 함수를 사용해 딕셔너리(dic_data)를 시리즈 형식으로 변환한 후 변수 sr_data에 저장 
sr_data = pd.Series(dic_data)

# 시리즈 sr_data의 자료형 출력해 보기
print(type(sr_data))
print('\n')

# 시리즈 sr_data에 저장된 시리즈 객체를 출력
print(sr_data)

<class 'pandas.core.series.Series'>


x      7
y     77
z    777
dtype: int64


## 시리즈 인덱스(index) 구조
- 인덱스 : 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장
- 데이터 값 탐색, 정렬, 선택, 결합 등을 쉽게 처리 할 수 있음
- 인덱스 종류<br>
  : 기본 인덱스 - 정수형 위치 인덱스(integer pos)<br>
  : 선택 인덱스 - 인덱스 이름(index name) 또는 인덱스 라벨(index lbl)와 값(values)<br>

### 인덱스와 데이터를 배열로 추출
- 인덱스 배열 : Series객체.[index]
- 데이터 배열 : Series객체.[values]

In [3]:
import pandas as pd

# 리스트 --> 시리즈 변환 후 sr_data에 저장
list_data = ['2021-08-21', 3.14, 'XYZ', 10, True]
sr_data = pd.Series(list_data)
print(sr_data)
print('\n')

0    2021-08-21
1          3.14
2           XYZ
3            10
4          True
dtype: object




In [6]:
# 시리즈의 인덱스 배열을 idx에 저장하고 데이터 값은 배열로 val에 저장
idx = sr_data.index
val = sr_data.values
print(idx)
print(type(idx))
print('\n')
print(val)
print(type(val))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


['2021-08-21' 3.14 'XYZ' 10 True]
<class 'numpy.ndarray'>
<class 'int'>


In [5]:
## 문제 : idx와 val 타입 출력해보기
print(type(idx))
print('\n')
print(type(val))

<class 'pandas.core.indexes.range.RangeIndex'>


<class 'numpy.ndarray'>


## 시리즈의 요소(element) 선택
- 하나 또는 특정 범위 요소를 선택할 수 있음
- 파이썬의 리스트 슬라이싱 기법 활용

[지정 방법]
- 정수형 위치 인덱스 : [정수형 숫자]
- 인덱스 이름 : ["이름"] 또는 ['이름']

In [9]:
import pandas as pd

# 투플을 시리즈로 변환(index 옵션에 리스트형식으로 인덱스로 사용할 이름을 지정)
tuple_data = ('경민', '2021-08-21', '여', True)
sr_data = pd.Series(tuple_data, index=['이름', '생일', '성별', '학생여부'])
print(sr_data)
print('\n')

이름              경민
생일      2021-08-21
성별               여
학생여부          True
dtype: object




In [6]:
# 원소 1개 선택하기
print(sr_data[0])       # 정수형 위치 인덱스 사용 : [ ] 안에 정수값 표시
print(sr_data['이름'])  # 인덱스 이름 사용 : [ ] 안에 라벨명 표시
print('\n')

경민
경민




In [11]:
# 여러 개 원소 선택 (인덱스 리스트로 선택할 라벨 나열)
print(sr_data[[0, 3]]) 
print('\n')           
print(sr_data[['이름', '학생여부']])
print('\n')

이름        경민
학생여부    True
dtype: object


이름        경민
학생여부    True
dtype: object




In [12]:
# [ : ] 형식의 인덱스 범위를 지정해 여러 개의 원소를 선택
# 정수 인덱스 또는 이름(라벨) 모두 가능
print(sr_data[0 : 3])  # print(sr_data[0,1,2]) 와 같은 효과
print('\n')              
print(sr_data['이름' : '학생여부'])

# 생각해 보기 : 정수형 범위와 이름(라벨)형 범위의 차이점이 무었인가?

이름            경민
생일    2021-08-21
성별             여
dtype: object


이름              경민
생일      2021-08-21
성별               여
학생여부          True
dtype: object


# DataFrame
- 2차원 배열의 테이블 구조
- 시리즈들의 모임
- 일련의 특정 값 배열로 구성된 entry들을 가짐 
- entry는 row와 column과 연관
##
- 시리즈 : 열벡터(1차원 벡터)
- 데이터프레임 : 행렬 또는 2차원 벡터
<br>
##
<img sr_datac="https://post-phinf.pstatic.net/MjAxOTA2MTlfMTI5/MDAxNTYwOTAyMjU5MjI1.lBWFsu7GrUYamhBkVv8cTdvSNTztb3YXuBrgbf7pzVMg.TezpSNlFdataframek477XgzoUXK9yrm3bubOLjT1olXFvmOJwg.JPEG/mug_obj_201906190857399015.jpg?type=w1080"/>


## 파이썬 자료구조(List, Dictionary)로 데이터 프레임으로 만들기
<img sr_datac="https://pbpython.com/images/pandas-dataframe-shadow.png"/>

## 딕셔너리에서 데이터 프레임 만들기

In [13]:
import pandas as pd

# 리스트를 value로, 열 이름을 key로 하는 2차원 배열 형식의 딕셔너리 정의
dic_data = {'col_0':[1,2,3], 'col_1':[7,8,9], 'col_2':[4,5,6], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 판다스의 DataFrame() 함수는 딕셔너리를 데이터프레임으로 변환할 수 있음
dataframe = pd.DataFrame(dic_data)

# dataframe의 자료형 출력해서 확인
print(type(dataframe)) 
print('\n')
# 변수 dataframe에 저장된 데이터프레임 객체 출력
print(dataframe)

<class 'pandas.core.frame.DataFrame'>


   col_0  col_1  col_2  col_3  col_4
0      1      7      4     10     13
1      2      8      5     11     14
2      3      9      6     12     15


## 행 인덱스, 열 이름 설정하기(1)
- 행의 인덱스 변경 : DataFrame객체.[index] = 새로운 행의 인덱스 배열
- 열의 인덱스 변경 : DataFrame객체.[columns] = 새로운 열의 인덱스 배열

In [25]:
import pandas as pd
데이터 = [['경민중', 15], ['경민여중', 17, '여']]
학생이름= ['경민', '영희']
# 행 인덱스와 열 이름을 지정하여 dataframe을 생성하기
dataframe = pd.DataFrame(데이터, 
                   index=학생이름,
                   columns=['학교', '나이', '성별'])

# 행 인덱스와 열 이름 확인
print(dataframe)            # 데이터프레임 출력
print('\n')
print(dataframe.index)      # dataframe의 행 인덱스를 출력
print('\n')
print(dataframe.columns)    # dataframe의 열 이름을 출력
print('\n')


      학교  나이    성별
경민   경민중  15  None
영희  경민여중  17     여


Index(['경민', '영희'], dtype='object')


Index(['학교', '나이', '성별'], dtype='object')




In [28]:
print(dataframe)  

# 행 인덱스와 열 이름을 변경해 보기
dataframe.index=['학생1', '학생2']
dataframe.columns=['연령', '성별구분', '학교이름']

print(dataframe)            # 데이터프레임 출력
print('\n')
print(dataframe.index)      # dataframe의 행 인덱스를 출력
print('\n')
print(dataframe.columns)    # dataframe의 열 이름을 출력

       연령  성별구분  학교이름
학생1   경민중    15  None
학생2  경민여중    17     여
       연령  성별구분  학교이름
학생1   경민중    15  None
학생2  경민여중    17     여


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '성별구분', '학교이름'], dtype='object')


## 행 인덱스, 열 이름 설정하기(2)
- 행 인덱스의 변경 : DataFrame객체.[rename](index = {기존의 인덱스:새로운 인덱스, ...})
- 열 인덱스의 변경 : DataFrame객체.[rename](columns = {기존의 이름: 새로운 이름, ...})

In [24]:
import pandas as pd

# 행 인덱스와 열 이름을 지정하여 dataframe을 생성하기
dataframe = pd.DataFrame([['경민중', 15, '남'], ['경민여중', 17, '여']], 
                   index=['경민', '영희'],
                   columns=['학교', '나이', '성별'])

# 데이터프레임 dataframe를 출력해 확인
print(dataframe)
print("\n")

# 열 이름의 '성별'을 '남녀'로, '나이'를 '연령'으로, '학교'를 '소속'으로 변경
dataframe.rename(columns={'성별':'남녀', '나이':'연령', '학교':'소속'}, inplace=True)
print(dataframe)

# dataframe의 행 인덱스 '경민'을 '학생1'로, '영희'를 '학생2'로 변경
dataframe.rename(index={'경민':'학생1', '영희':'학생2' }, inplace=True)

# dataframe 출력(변경 후)
print(dataframe)


      학교  나이 성별
경민   경민중  15  남
영희  경민여중  17  여


      소속  연령 남녀
경민   경민중  15  남
영희  경민여중  17  여
       학교  나이 성별
학생1   경민중  15  남
학생2  경민여중  17  여


## 행, 열 삭제하기
- 행 삭제하기 : DataFrame객체.drop( 배열 or 행 인덱스, [axis=0] )
- 열 삭제하기 : DataFrame객체.drop( 배열 or 열 이름, [axis=1] )

##
- 원본객체의 변경 여부 설정<br>
  : [inplace] = True(변경) / False(유지)

## 행 삭제 예제

In [29]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장 
ex_data = {'통계' : [ 90, 80, 70], 'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100], '파이썬' : [ 100, 95, 90]}

dataframe = pd.DataFrame(ex_data, index=['경민', '영희', '길동'])
print(dataframe)
print('\n')

    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [35]:
# 데이터프레임 dataframe를 복제해 dataframe2에 저장하고 dataframe2의 1개 행 삭제
# import warnings
# warnings.filterwarnings(action='ignore')

dataframe_2 = dataframe[:]
dataframe_2.drop('영희', inplace=True)
print(dataframe_2)
print('\n')

KeyError: '[1] not found in axis'

In [40]:
# 데이터프레임 dataframe를 복제해 dataframe3에 저장하고 dataframe3의 2개 행 삭제
dataframe_3 = dataframe[:]
#dataframe_3.drop(dataframe_2.index[:], axis=0, inplace=True)
dataframe_3.drop(['경민','영희','길동'], axis=0, inplace=True)
print(dataframe_3)

Empty DataFrame
Columns: [통계, C, JSP, 파이썬]
Index: []


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_3.drop(['경민','영희','길동'], axis=0, inplace=True)


In [None]:
## 문제 : 위의 실습 내용에서 inplace=False로 해서 원본 dataframe와 비교해 보기

## 열 삭제 예제

In [41]:
import pandas as pd

# 데이터프레임으로 변환해 dataframe에 저장 
ex_data = {'통계' : [ 90, 80, 70], 'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100], '파이썬' : [ 100, 95, 90]}

dataframe = pd.DataFrame(ex_data, index=['경민', '영희', '길동'])
print(dataframe)
print('\n')

    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [42]:
# 데이터프레임 dataframe를 복제하여 변수 dataframe4에 저장. dataframe4의 1개 열(column)을 삭제
dataframe_4 = dataframe[:]
dataframe_4.drop('통계', axis=1, inplace=True)
print(dataframe_4)
print('\n')

     C  JSP  파이썬
경민  98   85  100
영희  89   95   95
길동  95  100   90




A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_4.drop('통계', axis=1, inplace=True)


In [45]:
# 데이터프레임 dataframe를 복제하여 변수 dataframe5에 저장. dataframe5의 2개 열(column)을 삭제
dataframe_5 = dataframe[:]
dataframe_5.drop(['JSP', 'C'], axis=1, inplace=True)
print(dataframe_5)

    통계  파이썬
경민  90  100
영희  80   95
길동  70   90


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_5.drop(['JSP', 'C'], axis=1, inplace=True)


## 행 선택
<table border=1>
<tr><td><center>구분</center></td><td><center>loc</center></td><td><center>iloc</center></td></tr>
<tr><td>탐색 대상</td><td>인덱스 이름(index lbl)</td><td>정수형 위치 인덱스(integer pos)</td></tr>
<tr><td>범위 지정 방법</td><td>가능(범위의 끝 포함)</td><td>가능(범위의 끝 제외)</td></tr>
</table>

In [38]:
import pandas as pd

# ex_data를 변환하여 dataframe에 저장 
ex_data = {'통계' : [ 90, 80, 70], 'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100], '파이썬' : [ 100, 95, 90]}

dataframe = pd.DataFrame(ex_data, index=['경민', '영희', '길동'])
print(dataframe)       # 데이터프레임 dataframe을 출력해 확인
print('\n')

    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [46]:
# 행 인덱스를 사용하여 행 1개를 선택
lbl1 = dataframe.loc['경민']    # loc 인덱서 사용
pos1 = dataframe.iloc[0]     # iloc 인덱서 사용
print(lbl1)
print(type(lbl1))
print('\n')
print(pos1)
print('\n')

통계      90
C       98
JSP     85
파이썬    100
Name: 경민, dtype: int64
<class 'pandas.core.series.Series'>


통계      90
C       98
JSP     85
파이썬    100
Name: 경민, dtype: int64




In [47]:
# 행 인덱스를 사용하여 2개 이상의 행 선택
lbl2 = dataframe.loc[['경민', '영희']]
pos2 = dataframe.iloc[[0, 1]]
print(lbl2)
print(type(lbl2))
print('\n')
print(pos2)
print('\n')

    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95
<class 'pandas.core.frame.DataFrame'>


    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95




In [48]:
# 행 인덱스의 범위를 지정하여 행 선택
lbl3 = dataframe.loc['경민':'영희']
pos3 = dataframe.iloc[0:1]
print(lbl3)
print('\n')
print(pos3)

    통계   C  JSP  파이썬
경민  90  98   85  100
영희  80  89   95   95


    통계   C  JSP  파이썬
경민  90  98   85  100


## 열 선택
- 1개 열 선택(시리즈 생성): DataFrame객체.[\['열 이름'\]] 또는 DataFrame객체.[열이름]
- n개 열 선택(데이터프레임 생성): DataFrame객체.[\[ 열1, 열2, ... , 열n \]]

In [58]:
import pandas as pd

# ex_data를 변환하여 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print(type(dataframe))
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90
<class 'pandas.core.frame.DataFrame'>




In [53]:
# '통계' 점수 데이터만 선택. 변수 math_1에 저장
math_1 = dataframe['통계']
print(math_1)
print(type(math_1))
print('\n')

0    90
1    80
2    70
Name: 통 계, dtype: int64
<class 'pandas.core.series.Series'>




In [51]:
# 'C' 점수 데이터만 선택. 변수 C_jeomsu에 저장
C_jeomsu = dataframe.C  # dataframe['C']
print(C_jeomsu)
print(type(C_jeomsu))
print('\n')

0    98
1    89
2    95
Name: C, dtype: int64
<class 'pandas.core.series.Series'>




In [55]:
# 'JSP', '파이썬' 점수 데이터를 선택. 변수 jsp_python 에 저장
jsp_python = dataframe[['파이썬','JSP']]
print(jsp_python)
print(type(jsp_python))
print('\n')

   파이썬  JSP
0  100   85
1   95   95
2   90  100
<class 'pandas.core.frame.DataFrame'>




In [57]:
# '통계' 점수 데이터만 선택. 변수 math_2에 저장
math_2 = dataframe[['통계']]
print(math_2)
print(type(math_2))

   통 계
0   90
1   80
2   70
<class 'pandas.core.frame.DataFrame'>


## 범위 슬라이싱 고급
- DataFrame객체.iloc\[[시작할 인덱스] : [끝의 인덱스] : [슬라이싱할 간격]\]<br>
  : 시작할 인덱스 포함, 끝의 인덱스 -1까지의 요소 선택<br>
  : 간격 지정 하지 않으면 1씩 증가<br>

In [52]:
print(dataframe.iloc[ : : 2])

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
2  길동  70  95  100   90


In [53]:
print(dataframe.iloc[ : 3 : 2])

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
2  길동  70  95  100   90


In [54]:
# 역순으로 인덱싱하기
print(dataframe.iloc[ : : -1])

   이름  통계   C  JSP  파이썬
2  길동  70  95  100   90
1  영희  80  89   95   95
0  경민  90  98   85  100


In [57]:
print(dataframe.iloc[-2 :  : -1 ])

   이름  통계   C  JSP  파이썬
1  영희  80  89   95   95
0  경민  90  98   85  100


## 데이터 요소(element) 선택
- 인덱스 이름으로 선택 : DataFrame객체.loc[\[행의 인덱스], [열의 이름]\]
- 정수 위치 인덱스로 선택: DataFrame객체.iloc[\[행의 번호], [열의 번호]\]

In [59]:
import pandas as pd

# ex_data를 변환하여 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

# 새로운 인덱스로 '이름' 열을 지정해 dataframe 객체에 반영
dataframe.set_index('이름', inplace=True)
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [60]:
# dataframe에서 '경민'의 'JSP' 점수(특정 원소 1개)를 선택
a = dataframe.loc['경민', 'JSP']
print(a)
b = dataframe.iloc[0, 2]
print(b)
print('\n')

85
85




In [62]:
# dataframe에서 '경민'의 'C'와 '파이썬' 점수(특정 원소 2개 이상)을 선택 
c = dataframe.loc['경민', ['C', '파이썬']]
print(c)
d = dataframe.iloc[0, [2, 3]]
#print(d)
e = dataframe.loc['경민', 'C':'파이썬']
print(e)
f = dataframe.iloc[0, 2:]
#print(f)
print('\n')

C       98
파이썬    100
Name: 경민, dtype: int64
C       98
JSP     85
파이썬    100
Name: 경민, dtype: int64




In [62]:
# dataframe에서 '경민'과 '영희'의 'JSP', '파이썬' 점수 처럼 2개 이상의 행과 열로부터 원소를 선택  
g = dataframe.loc[['경민', '영희'], ['JSP', '파이썬']]
print('경민이와 영희의 JSP, 파이썬 점수 :\n', g)

h = dataframe.iloc[[0, 1], [2, 3]]
print('경민이와 영희의 JSP, 파이썬 점수 :\n', h)

i = dataframe.loc['경민':'영희', 'JSP':'파이썬']
print('경민이와 영희의 JSP, 파이썬 점수 :\n', i)

j = dataframe.iloc[0:2, 2:]
print('경민이와 영희의 JSP, 파이썬 점수 :\n', j)

경민이와 영희의 JSP, 파이썬 점수 :
     JSP  파이썬
이름          
경민   85  100
영희   95   95
경민이와 영희의 JSP, 파이썬 점수 :
     JSP  파이썬
이름          
경민   85  100
영희   95   95
경민이와 영희의 JSP, 파이썬 점수 :
     JSP  파이썬
이름          
경민   85  100
영희   95   95
경민이와 영희의 JSP, 파이썬 점수 :
     JSP  파이썬
이름          
경민   85  100
영희   95   95


## 열 추가
- DataFrame객체[\['추가할 열 이름'\]] = 데이터 값
- 모든 행에 대해 동일 데이터 값으로 추가됨

In [65]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

# 데이터프레임 dataframe에 'Java' 점수 열(column)을 추가. 데이터 값은 80 지정
dataframe['Java'] = 80
dataframe.Java = 100  # 기존에 존재한 후에 참조
print(dataframe)

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90


   이름  통계   C  JSP  파이썬  Java
0  경민  90  98   85  100   100
1  영희  80  89   95   95   100
2  길동  70  95  100   90   100


## 행 추가
- DataFrame객체.loc[\['새로운 행의 이름'\]] = 배열 또는 데이터 값
- 단일 데이터 값의 지정 : 모든 행의 모든 요소에 동일한 값이 추가됨
- 열의 갯수에 맞춘 값의 지정 : 배열의 순서대로 값이 추가됨
##
- 기존 행 인덱스와 겹치지 말아야 새로운 행이 추가됨
- 기존 행 인덱스와 동일한 경우 기존 값들이 변경(update)됨
##
- 정수로 행 인덱스를 표시하는 경우에는 나열 순서 상관 없음

In [66]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장  
ex_data = {'이름' : ['경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90




In [67]:
# 새로운 행(row)을 추가 - 같은 원소 값을 입력
dataframe.loc[3] = 0
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90
3   0   0   0    0    0




In [72]:
# 원소 값 여러 개의 배열 입력해 새로운 행(row) 추가
dataframe.loc[4] = ['규동1', 100, 100, 70, 60]
print(dataframe)
print('\n')

# 문제 : 4를 10으로 바꾸어서 실행하고 결과를 살펴보자!

    이름   통계    C  JSP  파이썬
0   경민   90   98   85  100
1   영희   80   89   95   95
2   길동   70   95  100   90
3    0    0    0    0    0
4  규동1  100  100   70   60
5  규동2   90   80   70   60
7  규동3   90   80   70   60




In [74]:
# 기존 행을 복사해 새로운 행(row)을 추가
dataframe.loc['행5'] = dataframe.loc[3]
print(dataframe)

    이름  통계   C  JSP    파이썬
0   경민  90  98   85  100.0
1   영희  80  89   95   95.0
2    0   0   0    0    0.0
3    0   0   0    0    0.0
4   규동  90  80   70    NaN
행5   0   0   0    0    0.0


## 요소 값 변경하기
- DataFrame객체의 일부분 또는 요소 선택 = 새로운 값

In [14]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

# '이름' 열을 새로운 인덱스로 지정하고, dataframe 객체에 변경사항 반영
# df1=dataframe.set_index('이름')  ==> inplace=False
dataframe.set_index('이름', inplace=True)
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [7]:
# dataframe의 특정 원소를 변경하는 방법: '경민'의 '파이썬' 점수
dataframe.iloc[0][3] = 90
print(dataframe)
print('\n')

dataframe.iloc[0,3] = 40
print(dataframe)
print('\n')

dataframe.loc['경민']['파이썬'] = 100
print(dataframe)
print('\n')

dataframe.loc['경민', '파이썬'] = 90
print(dataframe)
print('\n')

    통계   C  JSP  파이썬
이름                  
경민  90  98   85   90
영희  80  89   95   95
길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   85   40
영희  80  89   95   95
길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   85   90
영희  80  89   95   95
길동  70  95  100   90




In [13]:
# dataframe의 원소 여러 개를 변경하는 방법: '경민'의 'JSP', '파이썬' 점수
dataframe.loc['경민', ['JSP', '파이썬']] = 80
print(dataframe)
print('\n')

dataframe.loc['경민', ['JSP', '파이썬']] = 98, 50
print(dataframe)

    통계   C  JSP  파이썬
이름                  
경민  90  98   80   80
영희  80  89   95   95
길동  70  95  100   90


    통계   C  JSP  파이썬
이름                  
경민  90  98   98   50
영희  80  89   95   95
길동  70  95  100   90


In [15]:
# 문제 경민이와 영희의 C, JSP 점수를 100으로 변경하라!
dataframe.loc[['경민','영희'], ['JSP', '파이썬']] = 100
print(dataframe)
print('\n')

    통계   C  JSP  파이썬
이름                  
경민  90  98  100  100
영희  80  89  100  100
길동  70  95  100   90




## 행과 열 위치 바꾸기(transpose)
- DataFrame객체.transpose() 또는 DataFrame객체.T

In [15]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90




In [16]:
# 데이터프레임 dataframe를 transpose() 메소드를 활용해 전치하기
dataframe = dataframe.transpose()
print(dataframe)
print('\n')


       0   1    2
이름    경민  영희   길동
통계    90  80   70
C     98  89   95
JSP   85  95  100
파이썬  100  95   90




In [17]:
# 데이터프레임 dataframe를 클래스 속성 활용해 다시 전치하기
dataframe = dataframe.T
print(dataframe)

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90


## 인덱스 활용 : 특정 열 --> 행의 인덱스로 설정해 사용 가능
- DataFrame객체.[set_index]( ['열 이름', ... ]  or '열 이름' )


In [18]:
import pandas as pd

# ex_data를 변환해 dataframe에 저장 
ex_data = {'이름' : [ '경민', '영희', '길동'],
             '통계' : [ 90, 80, 70],
             'C' : [ 98, 89, 95],
             'JSP' : [ 85, 95, 100],
             '파이썬' : [ 100, 95, 90]}
dataframe = pd.DataFrame(ex_data)
print(dataframe)
print('\n')

   이름  통계   C  JSP  파이썬
0  경민  90  98   85  100
1  영희  80  89   95   95
2  길동  70  95  100   90




In [20]:
new_dataframe = dataframe.set_index(['이름'])
print(new_dataframe)
print('\n')

    통계   C  JSP  파이썬
이름                  
경민  90  98   85  100
영희  80  89   95   95
길동  70  95  100   90




In [21]:
new_dataframe2 = dataframe.set_index('JSP')
print(new_dataframe2)
print('\n')

     이름  통계   C  파이썬
JSP                 
85   경민  90  98  100
95   영희  80  89   95
100  길동  70  95   90




In [41]:
# 문제 1: 다음과 같은 데이터 집합이 있는 경우 이를 DataFrame으로 만들어라
'''
학과 학년 이름
융소 2    홍길동
융소 2    김경민
융소 3    성춘향
정통 2    일지매
정통 3    임꺽정
'''
dic3 = {'학과':['융소','융소','융소','정통','정통'],
        '학년':[2,2,3,2,3],
        '이름':['홍길동','김경민','성춘향','일지매','임꺽정']
        }
myDataFrame = pd.DataFrame(dic3)
display(myDataFrame)

# 문제 2: 학과와 학년이 인덱스가 되도록 만들어라
#myDataFrame.set_index(['학과','학년'], inplace=True)
#display(myDataFrame)

# 문제 3: 학년별로 그룹핑 된 후 학과별로 데이터가 모이도록 인덱싱 해 보아라.
myDataFrame.set_index(['학년','학과'], inplace=True)
print(myDataFrame)

# 다중 인덱스로 지정되었던 인덱스를 reset하면 결과는?
myDataFrame=myDataFrame.reset_index();
print(myDataFrame)

Unnamed: 0,학과,학년,이름
0,융소,2,홍길동
1,융소,2,김경민
2,융소,3,성춘향
3,정통,2,일지매
4,정통,3,임꺽정


        이름
학년 학과     
2  융소  홍길동
   융소  김경민
3  융소  성춘향
2  정통  일지매
3  정통  임꺽정
   학년  학과   이름
0   2  융소  홍길동
1   2  융소  김경민
2   3  융소  성춘향
3   2  정통  일지매
4   3  정통  임꺽정


In [22]:
# 다중 행 인덱스 설정
new_dataframe3 = dataframe.set_index(['통계', 'JSP'])
print(new_dataframe3)

        이름   C  파이썬
통계 JSP             
90 85   경민  98  100
80 95   영희  89   95
70 100  길동  95   90


In [23]:
new_dataframe3 = dataframe.reset_index()
print(new_dataframe3)

   index  이름  통계   C  JSP  파이썬
0      0  경민  90  98   85  100
1      1  영희  80  89   95   95
2      2  길동  70  95  100   90


## 인덱스 활용 : 행 인덱스 재배열하기
- DataFrame객체.[reindex]( 새로운 인덱스 배열 )

In [35]:
import pandas as pd

# 딕셔서리를 정의
dic_data = {'col_0':[1,2,3], 'col_1':[4,5,6], 'col_2':[7,8,9], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [행0, 행1, 행2]로 지정
dataframe = pd.DataFrame(dic_data, index=['행0', '행1', '행2'])
print(dataframe)
print('\n')

    col_0  col_1  col_2  col_3  col_4
행0      1      4      7     10     13
행1      2      5      8     11     14
행2      3      6      9     12     15




In [34]:
# 인덱스를 [행0, 행1, 행2, 행3, 행4]로 재지정
new_index = ['행2', '행1']
new_dataframe = dataframe.reindex(new_index)
print(new_dataframe)
print('\n')

# 문제 : 
# 1. 기존 행의 갯수보다 지정한 인덱스가 많은 경우 어떻게 되는가?
#    새로운 인덱스 이름이 추가된 경우 / 기존 인덱스 이름이 중복 사용된 경우
# 2. 기존 행의 갯수보다 지정한 인덱스가 적은 경우 어떻게 되는가?
# 3. 기존 행 인덱스와 다른 이름의 인덱스가 지정되었을 때 데이터는 어떻게 되는가?
# 4. 기존 행의 인덱스 순서가 바뀌면 원래 데이터는 어떻게 되는가?


    col_0  col_1  col_2  col_3  col_4
행2      3      6      9     12     15
행1      2      5      8     11     14




In [38]:
# 문제 : 행 인덱스 지정 시 NaN을 해결하기 위한 방법은 무엇인가?
# reindex로 발생한 NaN값을 숫자 0으로 채우기
new_index = ['행0', '행1', '행2', '행3', '행4']
new_dataframe2 = dataframe.reindex(new_index, fill_value=-1)
print(new_dataframe2)

    col_0  col_1  col_2  col_3  col_4
행0      1      4      7     10     13
행1      2      5      8     11     14
행2      3      6      9     12     15
행3     -1     -1     -1     -1     -1
행4     -1     -1     -1     -1     -1


## 인덱스 활용 : 행 인덱스 초기화 하기
- DataFrame객체.[reset_index]\( )
- 인덱스 reset의 의미는 인덱스로 사용했던 값을 데이터 프레임의 값으로 돌리는 것

In [39]:
import pandas as pd

# 딕셔서리를 정의
dic_data = {'col_0':[1,2,3], 'col_1':[4,5,6], 'col_2':[7,8,9], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [행0, 행1, 행2]로 지정
dataframe = pd.DataFrame(dic_data, index=['행0', '행1', '행2'])
print(dataframe)
print('\n')

    col_0  col_1  col_2  col_3  col_4
행0      1      4      7     10     13
행1      2      5      8     11     14
행2      3      6      9     12     15




In [35]:
# 행 인덱스를 정수형으로 초기화 
dataframe = dataframe.reset_index()
print(dataframe)

  index  col_0  col_1  col_2  col_3  col_4
0    행0      1      4      7     10     13
1    행1      2      5      8     11     14
2    행2      3      6      9     12     15


In [36]:
# 위의 결과에서 컬럼이름 'index '를 가지는 시리즈는 원래 데이터가 아니다. 
# 제거해 보아라.
dataframe=dataframe.drop("index", axis=1)
print(dataframe)

   col_0  col_1  col_2  col_3  col_4
0      1      4      7     10     13
1      2      5      8     11     14
2      3      6      9     12     15


In [40]:
# 문제 : 멀티 인덱스를 가진 데이터 프레임에 대해 reset_index()를 실행하면 어떻게 되는 지 알아보아라.
import pandas as pd

# 딕셔서리를 정의
dic_data = {'col_0':[1,2,3], 'col_1':[4,5,6], 'col_2':[7,8,9], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [행0, 행1, 행2]과 ['q_0', 'q_1', 'q_2']로 지정
dataframe = pd.DataFrame(dic_data, index=[['행0', '행1', '행2'], ['q_0', 'q_1', 'q_2']])
dataframe.index.names = ["r", "q"]
print(dataframe)
print('\n')

dataframe.reset_index()
print(dataframe)
print('\n')

        col_0  col_1  col_2  col_3  col_4
r  q                                     
행0 q_0      1      4      7     10     13
행1 q_1      2      5      8     11     14
행2 q_2      3      6      9     12     15


        col_0  col_1  col_2  col_3  col_4
r  q                                     
행0 q_0      1      4      7     10     13
행1 q_1      2      5      8     11     14
행2 q_2      3      6      9     12     15




## 인덱스 활용 : 행 인덱스로 데이터 프레임 정렬하기
- DataFrame객체.[sort_index]\( )
- 매개변수로 ascending = False 또는 True, 디폴트는 오름차순(ascending = True)

In [45]:
import pandas as pd

# 딕셔서리를 정의
dic_data = {'col_0':[1,2,3], 'col_1':[4,5,6], 'col_2':[7,8,9], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [행0, 행1, 행2]로 지정
dataframe = pd.DataFrame(dic_data, index=['행2', '행0', '행1'])
print(dataframe)
print('\n')

# 내림차순으로 행 인덱스 정렬 
new_dataframe = dataframe.sort_index(ascending=False)
print(new_dataframe)

# 문제 ascending=True로 해보자!

    col_0  col_1  col_2  col_3  col_4
행2      1      4      7     10     13
행0      2      5      8     11     14
행1      3      6      9     12     15


    col_0  col_1  col_2  col_3  col_4
행0      2      5      8     11     14
행1      3      6      9     12     15
행2      1      4      7     10     13


## 인덱스 활용 : 열 기준으로 데이터 프레임 정렬하기
- DataFrame객체.[sort_values]\( )
- 매개변수로 ascending = False 또는 True

In [47]:
import pandas as pd

# 딕셔서리를 정의
dic_data = {'col_0':[1,2,3], 'col_1':[4,6,6], 'col_2':[7,8,9], 'col_3':[10,11,12], 'col_4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [행0, 행1, 행2]로 지정
dataframe = pd.DataFrame(dic_data, index=['행0', '행1', '행2'])
print(dataframe)
print('\n')

# col_1 열을 기준으로 내림차순 정렬 
new_dataframe = dataframe.sort_values(by=['col_1','col_2'], ascending=False)
print(new_dataframe)

# 문제 1 : 여러 열을 기준으로 정렬하려면?
# 문제 2 : NaN을 우선적으로 해서 정렬하려면:
#          - na_position='first' 옵션 사용

    col_0  col_1  col_2  col_3  col_4
행0      1      4      7     10     13
행1      2      6      8     11     14
행2      3      6      9     12     15


    col_0  col_1  col_2  col_3  col_4
행2      3      6      9     12     15
행1      2      6      8     11     14
행0      1      4      7     10     13


In [50]:
dic3 = {'학과':['융소','융소','융소','정통','정통'],
        '학년':[2,2,3,2,3],
        '이름':['홍길동','김경민','성춘향','일지매','임꺽정']
        }
myDataFrame = pd.DataFrame(dic3)
display(myDataFrame)

# 문제 : 위 데이터프레임에서 학과별로 정렬하고 같은 학과인 경우 학년별로 정렬해 보아라
# 단, 정렬은 내림차순으로...
myDataFrame = myDataFrame.sort_values(by=['학과','학년'], ascending=False)
display(myDataFrame)

Unnamed: 0,학과,학년,이름
0,융소,2,홍길동
1,융소,2,김경민
2,융소,3,성춘향
3,정통,2,일지매
4,정통,3,임꺽정


Unnamed: 0,학과,학년,이름
4,정통,3,임꺽정
3,정통,2,일지매
2,융소,3,성춘향
0,융소,2,홍길동
1,융소,2,김경민


In [50]:
import pandas as pd # 패키지 추가
import numpy as np  # 패키지 추가

# 딕셔너리 데이터에서 dataframe을 생성
dataframe = pd.DataFrame({'col1': ['AA', 'AA', 'BB', np.nan, 'DD', 'CC'], 
                   'col2': [8, 2, 4, 7, 1, 9],
                   'col3': [0, 4, 2, 3, 1, 9] })
                   
print(dataframe)
print('\n')

d1=dataframe.sort_values(by='col1', ascending=True, na_position='first')
print(d1)

  col1  col2  col3
0   AA     8     0
1   AA     2     4
2   BB     4     2
3  NaN     7     3
4   DD     1     1
5   CC     9     9


  col1  col2  col3
3  NaN     7     3
0   AA     8     0
1   AA     2     4
2   BB     4     2
5   CC     9     9
4   DD     1     1


## 시리즈의 데이터 요소들을 숫자로 한꺼번에 처리하기

In [51]:
import pandas as pd

# 딕셔너리 구조의 데이터에서 시리즈 구조로 변경
학생1 = pd.Series({'Java':100, 'C':80, '통계':90})
print(학생1)
print('\n')

# 학생의 과목별 점수를 200으로 나누기
percentage = 학생1 / 200

print(percentage)
print('\n')
print(type(percentage))

Java    100
C        80
통계       90
dtype: int64


Java    0.50
C       0.40
통계      0.45
dtype: float64


<class 'pandas.core.series.Series'>


# 시리즈에 대한 사칙연산
- 데이터 요소를 개별로 처리하지 않고 한꺼번에 처리
- 인덱스 순서가 다르더라도 공통 인덱스에 대해 연산
- 인덱스가 매치되지 않는 경우 NaN으로 처리
- 연산 메소드 사용하는 경우 NaN으로 되지 않도록 하려면 fill_value 옵션에 기본값 지정

## 같은 크기의 시리즈에 대한 사칙연산

In [54]:
import pandas as pd

# 딕셔너리 구조의 데이터에서 시리즈 구조로 변경
학생1 = pd.Series({'Java':100, 'C':80, '통계':90})
학생2 = pd.Series({'통계':80, 'Java':90, 'C':80})

print(학생1)
print('\n')
print(학생2)
print('\n')

# 학생1, 학생2의 과목별 점수에 대한 사칙연산 수행
덧셈 = 학생1 + 학생2               #덧셈
뺄셈 = 학생1 - 학생2            #뺄셈
나눗셈 = 학생1 / 학생2               #나눗셈
곱셈 = 학생1 * 학생2         #곱셈

print(type(나눗셈))
print('\n')

# 사칙연산 결과를 합쳐 데이터프레임으로 만들기
result = pd.DataFrame([덧셈, 뺄셈, 나눗셈, 곱셈], 
                      index=['덧셈', '뺄셈', '나눗셈', '곱셈'])
print(result)

Java    100
C++      80
통계       90
dtype: int64


통계      80
Java    90
C       80
dtype: int64


<class 'pandas.core.series.Series'>


      C  C++         Java        통계
덧셈  NaN  NaN   190.000000   170.000
뺄셈  NaN  NaN    10.000000    10.000
나눗셈 NaN  NaN     1.111111     1.125
곱셈  NaN  NaN  9000.000000  7200.000


## 서로 다른 크기를 가지는 시리즈에 대한 연산

In [53]:
import pandas as pd # 패키지 추가
import numpy as np  # 패키지 추가

# dictionary 형식의 데이터를 이용해 학생에 대한 시리즈 만들기
학생1 = pd.Series({'Java':np.nan, 'C':80, '통계':90})
학생2 = pd.Series({'통계':80, 'Java':90})

print(학생1)
print('\n')
print(학생2)
print('\n')

# 시리즈와 시리즈에 대한 연산으로 학생1, 학생2의 과목별 점수에 대해 사칙연산 수행
student_덧셈 = 학생1 + 학생2               #덧셈
student_뺄셈 = 학생1 - 학생2            #뺄셈
student_곱셈 = 학생1 * 학생2         #곱셈
student_나눗셈 = 학생1 / 학생2               #나눗셈
print(type(student_나눗셈))
print('\n')

# 사칙연산 결과를 합쳐 데이터프레임으로 만들기
result = pd.DataFrame([student_덧셈, student_뺄셈, student_나눗셈, student_곱셈], 
                      index=['덧셈', '뺄셈', '나눗셈', '곱셈'])
print(result)

Java     NaN
C       80.0
통계      90.0
dtype: float64


통계      80
Java    90
dtype: int64


<class 'pandas.core.series.Series'>


      C  Java        통계
덧셈  NaN   NaN   170.000
뺄셈  NaN   NaN    10.000
나눗셈 NaN   NaN     1.125
곱셈  NaN   NaN  7200.000


## Series에 대한 연산 메소드

In [55]:
import pandas as pd # 패키지 추가
import numpy as np  # 패키지 추가

# 딕셔너리 데이터로 시리즈 구조 만들기
학생1 = pd.Series({'Java':np.nan, 'C':80, '통계':90})
학생2 = pd.Series({'통계':80, 'Java':90})

print(학생1)
print('\n')
print(학생2)
print('\n')

# 연산 메소드를 사용해 두 학생의 점수에 대해 사칙연산 수행
sr_dataesult_add = 학생1.add(학생2, fill_value=0)    #덧셈
sr_dataesult_sub = 학생1.sub(학생2, fill_value=0)    #뺄셈
sr_dataesult_div = 학생1.div(학생2, fill_value=0)    #나눗셈
sr_dataesult_mul = 학생1.mul(학생2, fill_value=0)    #곱셈
print('-----------')
display(sr_dataesult_add)
print('-----------')
# 사칙연산 결과(시리즈)를 합쳐 데이터프레임으로 만들기
result = pd.DataFrame([sr_dataesult_add, sr_dataesult_sub, sr_dataesult_div, sr_dataesult_mul], 
                      index=['덧셈', '뺄셈', '나눗셈', '곱셈'])
print(result)

Java     NaN
C       80.0
통계      90.0
dtype: float64


통계      80
Java    90
dtype: int64


-----------


C        80.0
Java     90.0
통계      170.0
dtype: float64

-----------
        C  Java        통계
덧셈   80.0  90.0   170.000
뺄셈   80.0 -90.0    10.000
나눗셈   inf   0.0     1.125
곱셈    0.0   0.0  7200.000


# 데이터프레임에 대한 연산
- 시리즈 연산의 확장 개념
- 행과 열 인덱스 기준으로 정렬 후 대응되는 요소간 연산 처리

## 데이터프레임과 단일 값 연산하기

In [57]:
import pandas as pd # pandas 라이브러리 로드
import seaborn as sns # titanic 데이터셋을 사용하기 위해 seaborn 라이브러리 로드

# titanic 데이터셋의 age, fare 열을 선택해 데이터프레임 생성
titanic_data = sns.load_dataset('titanic')
dataframe = titanic_data.loc[:, ['age','fare']]

print(dataframe.head())   #처음 5행만 표시
print('\n')
print(type(dataframe))
print('\n')

# 데이터프레임 전체 데이터에 숫자 10 더하기
add_10 = dataframe + 10
print(add_10.head())
print('\n')
print(type(add_10))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<class 'pandas.core.frame.DataFrame'>


## 데이터 프레임끼리의 연산

In [57]:
import pandas as pd # pandas 라이브러리 로드
import seaborn as sns # titanic 데이터셋을 사용하기 위해 seaborn 라이브러리 로드

# titanic 데이터셋의 age, fare 열을 선택해 데이터프레임 생성
titanic_data = sns.load_dataset('titanic')
dataframe = titanic_data.loc[:, ['age','fare']]

print(dataframe.tail())          #끝부터 5행 표시
print('\n')
print(type(dataframe))
print('\n')

# 데이터프레임 전체 데이터에 숫자 10 더하기
add_10 = dataframe + 10
print(add_10.tail())
print('\n')
print(type(add_10))
print('\n')

# 데이터프레임간 연산
subtract_dataframe = add_10 - dataframe
print(subtract_dataframe.tail())   #끝부터 5행 표시
print('\n')
print(type(subtract_dataframe))

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


<class 'pandas.core.frame.DataFrame'>


      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75


<class 'pandas.core.frame.DataFrame'>


      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


<class 'pandas.core.frame.DataFrame'>
