# Pandas

# What is Pandas?

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="300">

* 파이썬 프로그래밍을 통한 데이터 조작 및 분석을 가능하게 해주는 라이브러리
    * Numpy와 마찬가지로 Python에 최적화
        * Numpy 기반으로 작성
        * 분석에 대한 편리성 제공
    * 주요 기능
        * 통합 인덱싱을 활용한 데이터 조작을 가능하게 하는 데이터프레임(DataFrame) 오브젝트
        * 인메모리(in-memory) 데이터 구조와 다양한 파일 포맷들 간의 데이터 읽기/쓰기 환경 지원
        * 쉬운 데이터 결측치의 정렬 및 처리
        * 데이터셋의 재구조화 및 피보팅
        * 레이블 기반의 슬라이싱, 잘 지원된 인덱싱, 대용량 데이터셋에 대한 서브셋 지원
        * 데이터 구조의 칼럼 추가 및 삭제
        * 데이터셋의 분할-적용-병합을 통한 GroupBy 엔진 지원
        * 데이터셋 병합(merging) 및 조인(joining) 지원
        * 저차원 데이터에서의 고차원 데이터 처리를 위한 계층적 축 인덱싱 지원
        * date range, 빈도 변환, 이동 창 통계, 이동 창 선형회귀, 날짜 이동 등의 시계열 작업 지원
        * 데이터 필터 지원

# How to use Pandas

## Installation

* 만약 설치가 안 되어 있다면 아래 셀을 실행하여 설치할 수 있다.

In [1]:
#pip install pandas

* Pandas 라이브러리를 사용하기 위해 아래 셀과 같이 import
* pd는 import한 라이브러리의 별칭
    * 별칭을 지정하지 않으면 해당 라이브러리를 사용할 때마다 "pandas." 의 형태로 사용해야 함
    * 별칭을 지정하는데 별도의 규칙은 없지만 통용적으로 "pd"를 사용

In [2]:
import pandas as pd

In [3]:
#pd.__version__

## DataFrame creation

* 기본적인 데이터프레임 생성 방법을 알아본다.

* 데이터 프레임은 2차원 형태의 데이터 구조를 나타냄
    * 각 행과 열은 Labeling된 축을 포함
* DataFrame(data, index, columns, dtype, copy)
    * data: Dataframe을 생성할 데이터
    * index: 각 행에 대한 Label
    * columns: 각 열에 대한 Label
    * dtype: 데이터의 타입
* index와 columns을 지정하지 않으면 실제 index로 표현됨

In [4]:
import numpy as np

In [5]:
subjects = ['국어', '영어', '수학', '탐구']  # index
students = ['A', 'B', 'C', 'D']  # columns

### Using dictionary

* Dictionary를 이용한 df 생성
    * Dictionary를 사용할 경우 자체에서 각 열에 대한 Label과 값을 지정할 수 있음

In [6]:
dict_scores = {'A': [90, 86, 86, 73], 'B': [89, 78, 88, 95], 'C': [47, 65, 83, 74], 'D': [63, 69, 87, 52]}

dict_df = pd.DataFrame(dict_scores, subjects)
dict_df

Unnamed: 0,A,B,C,D
국어,90,89,47,63
영어,86,78,65,69
수학,86,88,83,87
탐구,73,95,74,52


### Using Numpy array

* Numpy를 이용한 df 생성
    * Numpy 배열을 사용할 경우 배열의 각 열이 DataFrame의 열이 됨

In [7]:
np_scores = np.array([[90, 86, 86, 73], [89, 78, 88, 95], [47, 65, 83, 74], [63, 69, 87, 52]])

np_df = pd.DataFrame(np_scores, subjects, students)
np_df

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52


#### Q1. 0 ~ 1 사이의 임의의 값을 가진 3 x 5 크기의 Numpy 배열로 DataFrame을 생성하는 코드를 아래 셀에 작성하시오.

In [8]:
### Your Code ###

In [9]:
Q1 = np.random.rand(3, 5)
Q1 = pd.DataFrame(Q1)
Q1

Unnamed: 0,0,1,2,3,4
0,0.703012,0.488362,0.262174,0.088165,0.705144
1,0.02084,0.905316,0.428776,0.685874,0.713311
2,0.885621,0.230009,0.04033,0.920532,0.91614


## DataFrame analysis 

* 기본적인 데이터프레임 분석 방법을 알아본다.

### axes and values

* axes
    * 데이터프레임의 축 정보 반환
       * index와 columns를 이용해 각각의 정보를 따로 확인 가능

In [10]:
np_df.axes

[Index(['국어', '영어', '수학', '탐구'], dtype='object'),
 Index(['A', 'B', 'C', 'D'], dtype='object')]

In [11]:
print(np_df.index)
print(np_df.columns)

Index(['국어', '영어', '수학', '탐구'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')


* values
    * 데이터프레임을 Numpy 배열로 변환하여 반환

In [12]:
np_df.values

array([[90, 86, 86, 73],
       [89, 78, 88, 95],
       [47, 65, 83, 74],
       [63, 69, 87, 52]])

### info and describe

* info
    * 데이터프레임의 요약 정보 출력
    * 행과 열의 크기, 데이터들의 타입, 각 타입에 해당하는 데이터의 수에 대해서 파악 가능

In [13]:
np_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 국어 to 탐구
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       4 non-null      int32
 1   B       4 non-null      int32
 2   C       4 non-null      int32
 3   D       4 non-null      int32
dtypes: int32(4)
memory usage: 96.0+ bytes


* describe()
    * DataFrame의 기술 통계 출력

In [14]:
np_df.describe()

Unnamed: 0,A,B,C,D
count,4.0,4.0,4.0,4.0
mean,72.25,74.5,86.0,73.5
std,20.966243,9.398581,2.160247,17.559423
min,47.0,65.0,83.0,52.0
25%,59.0,68.0,85.25,67.75
50%,76.0,73.5,86.5,73.5
75%,89.25,80.0,87.25,79.25
max,90.0,86.0,88.0,95.0


* 아래의 코드를 통해 출력되는 자릿수를 조정하거나 원래 세팅으로 되돌릴 수 있음

In [15]:
pd.options.display.float_format = '{:.2f}'.format

In [16]:
pd.options.display.float_format = None

### DataFrame shape

* 데이터프레임의 상태를 확인하는 방법은 Numpy 배열과 동일하다.

In [17]:
print(f'행의 길이: {len(np_df)}')
print(f'요소의 수: {np_df.size}')
print(f'df의 크기: {np_df.shape}')  # tuple 자료형
print(f'df의 차원: {np_df.ndim}')

행의 길이: 4
요소의 수: 16
df의 크기: (4, 4)
df의 차원: 2


#### Q2. Q1에서 생성했던 데이터프레임의 요약 정보와 기술 통계를 확인하는 코드를 아래 셀에 작성하시오.

In [18]:
### Your Code ###

In [19]:
Q1.info()
Q1.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       3 non-null      float64
 1   1       3 non-null      float64
 2   2       3 non-null      float64
 3   3       3 non-null      float64
 4   4       3 non-null      float64
dtypes: float64(5)
memory usage: 248.0 bytes


Unnamed: 0,0,1,2,3,4
count,3.0,3.0,3.0,3.0,3.0
mean,0.536491,0.541229,0.24376,0.564857,0.778198
std,0.455805,0.340744,0.194877,0.429177,0.119531
min,0.02084,0.230009,0.04033,0.088165,0.705144
25%,0.361926,0.359185,0.151252,0.387019,0.709228
50%,0.703012,0.488362,0.262174,0.685874,0.713311
75%,0.794317,0.696839,0.345475,0.803203,0.814726
max,0.885621,0.905316,0.428776,0.920532,0.91614


## DataFrame access

* 기본적인 데이터프레임 접근 방법을 알아본다.

### Column access

* 생성된 데이터프레임은 열의 Label을 통해 바로 접근이 가능
    * 접근 결과는 시리즈(Series) 자료형
        * 1차원의 형태를 가짐
        * 시리즈 자료형은 아래와 같이 데이터프레임 자료형으로 변환 가능
            * pd.DataFrame(df)
            * pd.Series.to_frame(df)

In [20]:
np_df.A

국어    90
영어    89
수학    47
탐구    63
Name: A, dtype: int32

In [21]:
np_df.D

국어    73
영어    95
수학    74
탐구    52
Name: D, dtype: int32

In [22]:
pd.DataFrame(np_df.C)

Unnamed: 0,C
국어,86
영어,88
수학,83
탐구,87


### Indexing

* 열이 문자 Label을 가졌다면 Label을 통해서만 접근 가능
* 접근 결과는 시리즈(Series) 자료형
* 행은 Indexing 불가

In [23]:
np_df['A']

국어    90
영어    89
수학    47
탐구    63
Name: A, dtype: int32

In [24]:
type(np_df['A'])

pandas.core.series.Series

* 데이터프레임의 형태로 확인하고자 하는 경우 Index 혹은 Label을 아래와 같이 대괄호로 감싸줌
    * 이 경우, 여러 열에 접근 가능
        * Slicing이 아니기 때문에 순서 상관없음

In [25]:
np_df[['A']]

Unnamed: 0,A
국어,90
영어,89
수학,47
탐구,63


In [26]:
np_df[['A', 'D', 'C']]

Unnamed: 0,A,D,C
국어,90,73,86
영어,89,95,88
수학,47,74,83
탐구,63,52,87


#### Boolean Indexing

* Pandas는 Numpy와 마찬가지로 Boolean Indexing 기능을 제공함

In [27]:
idx = np_df > 70
idx

Unnamed: 0,A,B,C,D
국어,True,True,True,True
영어,True,True,True,True
수학,False,False,True,True
탐구,False,False,True,False


In [28]:
np_df[idx]

Unnamed: 0,A,B,C,D
국어,90.0,86.0,86,73.0
영어,89.0,78.0,88,95.0
수학,,,83,74.0
탐구,,,87,


In [29]:
pd.DataFrame(np_df['A'][np_df['A'] > 70])

Unnamed: 0,A
국어,90
영어,89


### Slicing

* 행은 Slicing을 통해서만 접근 가능

In [30]:
np_df[:]

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52


In [31]:
np_df[2:]

Unnamed: 0,A,B,C,D
수학,47,65,83,74
탐구,63,69,87,52


* 행이 문자 Label을 가졌다면 Label을 통해 접근 가능
    * 일반 index로 접근하는 방법과는 달리 end에 해당하는 부분도 포함

In [32]:
np_df['영어':]

Unnamed: 0,A,B,C,D
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52


In [33]:
np_df['영어':'수학']

Unnamed: 0,A,B,C,D
영어,89,78,88,95
수학,47,65,83,74


* Indexing과 Slicing을 혼합할 수 있음

In [34]:
np_df[['C']][-3:]

Unnamed: 0,C
영어,88
수학,83
탐구,87


In [35]:
np_df[['D']][3:]

Unnamed: 0,D
탐구,52


In [36]:
np_df[['B']][1:5:2]

Unnamed: 0,B
영어,78
탐구,69


#### Q3.  A와 C 학생의 국어 점수와 수학 점수를 데이터프레임으로 표시하는 코드를 아래 셀에 작성하시오.

In [37]:
### Your Code ###

In [38]:
np_df[['B', 'C']][0:5:2]

Unnamed: 0,B,C
국어,86,86
수학,65,83


## Modification

* 기본적인 데이터프레임의 데이터 조작 방법을 알아본다.

### Append

* 추가될 데이터 길이는 추가할 데이터프레임의 크기와 동일해야 함
* 데이터의 형태는 Numpy 배열, List, 집합 자료형이 가능

* Row
    * 추가하고자 하는 데이터프레임을 생성하여 추가
    * DataFrame.append(DataFrame)
        * 추가되어 변경된 DataFrame은 기존 DataFrame으로 재할당해야 함
        * 새로 삽입할 데이터프레임의 차원이 2차원이 아닐 경우 추가가 불가하므로 주의할 것

In [39]:
new_row = pd.DataFrame(np.array([[78, 64, 91, 56]]), ['정보'], students)
np_df.append(new_row)

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52
정보,78,64,91,56


In [40]:
new_row = pd.DataFrame(np.array([[78, 64, 91, 56], [50, 50, 50, 50]]), ['정보', '재량'], students)
np_df.append(new_row)

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52
정보,78,64,91,56
재량,50,50,50,50


In [41]:
np_df

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52


* Column
    * DataFrame[columns] = 데이터 셋
        * columns는 Label 또는 Index로 지정 가능
    * DataFrame.insert(삽입 위치, columns, 데이터 셋)
        * 이미 존재하는 columns에 대해서는 사용할 수 없음

In [42]:
np_df['E'] = np.array([65, 67, 93, 94])
np_df['G'] = np.array([45, 36, 61, 52])
np_df

Unnamed: 0,A,B,C,D,E,G
국어,90,86,86,73,65,45
영어,89,78,88,95,67,36
수학,47,65,83,74,93,61
탐구,63,69,87,52,94,52


In [43]:
np_df.insert(5, 'F', np.array([91, 87, 93, 100]))
np_df

Unnamed: 0,A,B,C,D,E,F,G
국어,90,86,86,73,65,91,45
영어,89,78,88,95,67,87,36
수학,47,65,83,74,93,93,61
탐구,63,69,87,52,94,100,52


In [44]:
np_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 국어 to 탐구
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       4 non-null      int32
 1   B       4 non-null      int32
 2   C       4 non-null      int32
 3   D       4 non-null      int32
 4   E       4 non-null      int32
 5   F       4 non-null      int32
 6   G       4 non-null      int32
dtypes: int32(7)
memory usage: 316.0+ bytes


### Update

* 특정 열에 대한 값 일괄 갱신
    * DataFrame.replace({'columns':기존 값}, 갱신 값)
        * 열을 지정하지 않으면 기존 값에 부합하는 모든 값을 갱신

In [45]:
np_df['F'] = 0
np_df

Unnamed: 0,A,B,C,D,E,F,G
국어,90,86,86,73,65,0,45
영어,89,78,88,95,67,0,36
수학,47,65,83,74,93,0,61
탐구,63,69,87,52,94,0,52


In [46]:
np_df[['A', 'C']] = 0
np_df

Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,0,73,65,0,45
영어,0,78,0,95,67,0,36
수학,0,65,0,74,93,0,61
탐구,0,69,0,52,94,0,52


In [47]:
np_df = np_df.replace({'C':0}, 50)
np_df

Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,50,73,65,0,45
영어,0,78,50,95,67,0,36
수학,0,65,50,74,93,0,61
탐구,0,69,50,52,94,0,52


* 이미 존재하는 columns에 대해 add 연산을 수행하면 갱신이 이루어짐

In [48]:
np_df['F'] = np.array([100, 87, 93, 91])
np_df

Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,50,73,65,100,45
영어,0,78,50,95,67,87,36
수학,0,65,50,74,93,93,61
탐구,0,69,50,52,94,91,52


* Indexing 및 Slicing을 이용한 값 갱신
    * DataFrame[col][row]와 같이 대괄호를 연속해서 값을 접근하는 방법을 chained indexing이라고 함
    * chained indexing을 통해 값을 갱신하면 예기치 않은 문제를 발생시킬 수 있으므로 Pandas에서는 경고를 발생시킴
        * 어디까지나 경고이므로 코드는 수행됨
        * pd.set_option('mode.chained_assignment',  None)을 이용해 경고 끄기 가능

* chained indexing의 예
```
np_df['B']['국어']
```

In [49]:
np_df['F'][1] = -1
np_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  np_df['F'][1] = -1


Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,50,73,65,100,45
영어,0,78,50,95,67,-1,36
수학,0,65,50,74,93,93,61
탐구,0,69,50,52,94,91,52


In [50]:
np_df['F']['수학':] = -50
np_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  np_df['F']['수학':] = -50


Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,50,73,65,100,45
영어,0,78,50,95,67,-1,36
수학,0,65,50,74,93,-50,61
탐구,0,69,50,52,94,-50,52


In [51]:
np_df['D'][1:3] = np.array([1, 1])
np_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  np_df['D'][1:3] = np.array([1, 1])


Unnamed: 0,A,B,C,D,E,F,G
국어,0,86,50,73,65,100,45
영어,0,78,50,1,67,-1,36
수학,0,65,50,1,93,-50,61
탐구,0,69,50,52,94,-50,52


### Delete

* 특정 열 전체 삭제

In [52]:
del np_df['G']
np_df

Unnamed: 0,A,B,C,D,E,F
국어,0,86,50,73,65,100
영어,0,78,50,1,67,-1
수학,0,65,50,1,93,-50
탐구,0,69,50,52,94,-50


* 축을 이용한 삭제
    <img src="https://i.stack.imgur.com/FzimB.png" width="500">
    
    * 축은 Numpy와 반대
    * Pandas의 축은 axis=0를 기본 값으로 가짐
        * 행 자체를 가리킬 땐 axis=0
            * 행의 방향을 나타낼땐 axis=1
        * 열 자체를 가리킬 땐 axis=1
            * 열의 방향을 나타날 땐 axis=0

In [53]:
np_df = np_df.drop(['F'], axis=1)
np_df

Unnamed: 0,A,B,C,D,E
국어,0,86,50,73,65
영어,0,78,50,1,67
수학,0,65,50,1,93
탐구,0,69,50,52,94


In [54]:
np_df.drop(['탐구'], axis=0)
#np_df.drop(['탐구'])

Unnamed: 0,A,B,C,D,E
국어,0,86,50,73,65
영어,0,78,50,1,67
수학,0,65,50,1,93


#### Q4.  다음과 같이 데이터프레임이 주어졌을 때 0을 70으로 변경하고 각 열의 평균을 행에 추가하는 코드를 아래 셀에 작성하시오.

* 행의 Label은 '평균'이라고 지정
* 열의 Label은 동일
* 데이터프레임도 Numpy 배열과 동일한 방법으로 평균을 구할 수 있음

In [55]:
Q4 = np.array([[0, 86, 86, 0], [0, 78, 88, 95], [47, 65, 0, 74], [63, 0, 87, 52]])
Q4_df = pd.DataFrame(Q4, subjects, students)
Q4_df

Unnamed: 0,A,B,C,D
국어,0,86,86,0
영어,0,78,88,95
수학,47,65,0,74
탐구,63,0,87,52


In [56]:
### Your Code ###

In [123]:
Q4_df.mean(axis=0).to_numpy().reshape(1, 4)

array([[62.5 , 74.75, 82.75, 72.75]])

In [120]:
Q4_df[Q4_df == 0] = 70
new_arr = Q4_df.mean(axis=0).to_numpy().reshape(1, 4)
new_Q4 = pd.DataFrame(new_arr, ['평균'], students)
Q4_df.append(new_Q4)

Unnamed: 0,A,B,C,D
국어,70.0,86.0,86.0,70.0
영어,70.0,78.0,88.0,95.0
수학,47.0,65.0,70.0,74.0
탐구,63.0,70.0,87.0,52.0
평균,,,,


## Advanced indexing

* 기존 접근 방법에서 향상된 데이터프레임 접근 방법을 알아본다.
    * 2차원의 형태를 가진 데이터프레임에 적합

### loc Indexing

* Label 기반 Indexing
    * 행 Indexing 가능
    * 열에 대해 단독 Indexing 불가
        * 행을 통한 Indexing은 가능
        
* DataFrame.loc[row, col]


In [58]:
np_df =  pd.DataFrame(np_scores, subjects, students)
np_df

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52


In [59]:
np_df.loc[['국어']]

Unnamed: 0,A,B,C,D
국어,90,86,86,73


In [60]:
np_df.loc[['국어', '탐구']]

Unnamed: 0,A,B,C,D
국어,90,86,86,73
탐구,63,69,87,52


In [61]:
np_df.loc[['국어', '탐구'], ['D']]

Unnamed: 0,D
국어,73
탐구,52


In [62]:
np_df.loc[['탐구', '국어'], ['D', 'C']]

Unnamed: 0,D,C
탐구,52,87
국어,73,86


In [63]:
np_df.loc[['국어'], ['C']]

Unnamed: 0,C
국어,86


In [64]:
np_df.T.탐구 > 65

A    False
B     True
C     True
D    False
Name: 탐구, dtype: bool

In [65]:
np_df.T.loc[np_df.T.탐구 > 65, ['탐구']]

Unnamed: 0,탐구
B,69
C,87


#### loc Slicing

In [66]:
np_df.loc['국어':'수학', 'A':'C']

Unnamed: 0,A,B,C
국어,90,86,86
영어,89,78,88
수학,47,65,83


In [67]:
np_df.loc[['수학'], 'A':'C']

Unnamed: 0,A,B,C
수학,47,65,83


In [68]:
np_df.loc['영어':'탐구', ['D']]

Unnamed: 0,D
영어,95
수학,74
탐구,52


#### Q5.  Slicing 부분에서 확인할 수 있는 공통적인 특징을 아래 셀에 서술하시오.

* 특징에 대한 이유를 알았을 경우, 같이 서술하시오.

데이터프레임으로 나타낼 때, slicing 부분은 괄호로 묶이지 않음

### iloc Indexing

* Index 기반 Indexing
    * Boolean Indexing의 경우 Boolean 배열만을 입력받음
* SettingWithCopyWarning 해결을 위해 권장됨

In [69]:
np_df.iloc[[0]]

Unnamed: 0,A,B,C,D
국어,90,86,86,73


In [70]:
np_df.iloc[[0, 3]]

Unnamed: 0,A,B,C,D
국어,90,86,86,73
탐구,63,69,87,52


In [71]:
np_df.iloc[[0, 3],[3]]

Unnamed: 0,D
국어,73
탐구,52


In [72]:
np_df.iloc[[3, 0],[3, 2]]

Unnamed: 0,D,C
탐구,52,87
국어,73,86


In [73]:
np_df.iloc[[0],[2]]

Unnamed: 0,C
국어,86


In [74]:
np_df.T.iloc[np.array(np_df.T.탐구 > 65), [-1]]

Unnamed: 0,탐구
B,69
C,87


#### iloc Slicing

In [75]:
np_df.iloc[0:3, 0:3]

Unnamed: 0,A,B,C
국어,90,86,86
영어,89,78,88
수학,47,65,83


In [76]:
np_df.iloc[[2], 0:3]

Unnamed: 0,A,B,C
수학,47,65,83


In [77]:
np_df.iloc[1:, [-1]]

Unnamed: 0,D
영어,95
수학,74
탐구,52


#### Row append

* loc을 사용하면 간단하게 마지막에 행 추가 가능
    * 이미 존재하는 행에 대해서 사용할 경우, 값에 대한 갱신이 이루어짐
* iloc과 concat을 사용하면 원하는 위치에 행 추가 가능
    * 추가되어 변경된 DataFrame은 기존 DataFrame으로 재할당해야 함

In [78]:
np_df.loc['정보'] = [75, 86, 50, 83]
np_df

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52
정보,75,86,50,83


In [79]:
new_row = pd.DataFrame(np.array([[80, 67, 95, 90]]), ['체육'], students)
pd.concat([np_df.iloc[:2], new_row, np_df.iloc[2:]])

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
체육,80,67,95,90
수학,47,65,83,74
탐구,63,69,87,52
정보,75,86,50,83


In [80]:
np_df

Unnamed: 0,A,B,C,D
국어,90,86,86,73
영어,89,78,88,95
수학,47,65,83,74
탐구,63,69,87,52
정보,75,86,50,83


#### Q6. iloc을 사용하여 50점 이하의 점수를 가진 행을 출력하는 코드를 아래 셀에 작성하시오.

In [81]:
### Your Code ###

In [82]:
np_df.iloc[np.array(np_df <= 50)]

Unnamed: 0,A,B,C,D
수학,47,65,83,74
정보,75,86,50,83


## Missing Value

* 기본적인 결측치 처리 방법을 알아본다.

In [83]:
np_df = pd.DataFrame(np.random.rand(7, 5))
idx = np.random.choice(7, 5, replace = False)
col = np.random.choice(5, 4, replace = False)

for c in np.random.choice(col, 3):
    np_df.iloc[np.random.choice(idx, 3), c] = np.nan

### Missing value check

* 다음과 같은 방법 등으로 결측치의 상태를 파악할 수 있음
    * isna() 함수는 결측치를 True 아닌 데이터를 False로 나타내는 데이터프레임을 반환
    * 데이터프레임의 크기가 작을 때는 데이터프레임을 바로 확인하면 되지만 크기가 커질 경우, 확인하기 어려움

In [84]:
np_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       7 non-null      float64
 1   1       7 non-null      float64
 2   2       5 non-null      float64
 3   3       4 non-null      float64
 4   4       7 non-null      float64
dtypes: float64(5)
memory usage: 408.0 bytes


In [85]:
np_df.isna()

Unnamed: 0,0,1,2,3,4
0,False,False,False,False,False
1,False,False,True,True,False
2,False,False,False,False,False
3,False,False,False,True,False
4,False,False,True,True,False
5,False,False,False,False,False
6,False,False,False,False,False


In [86]:
np_df.isna().sum()
#np_df.isnull().sum()

0    0
1    0
2    2
3    3
4    0
dtype: int64

In [87]:
np_df

Unnamed: 0,0,1,2,3,4
0,0.239868,0.711434,0.278524,0.431152,0.380374
1,0.902471,0.992868,,,0.228983
2,0.942548,0.654179,0.50712,0.499166,0.629774
3,0.932253,0.968465,0.636513,,0.579804
4,0.296756,0.384328,,,0.756257
5,0.061391,0.564035,0.792213,0.565069,0.141102
6,0.319149,0.905808,0.203492,0.980204,0.704833


### Missing value delete

* 축을 지정하여 결측치가 존재하는 행 혹은 열 전체를 제거
    * 변경된 DataFrame은 기존 DataFrame으로 재할당해야 함
* DataFrame.dropna(axis)

In [127]:
del_test = np_df
display(del_test.dropna(axis=0), del_test.dropna(axis=1 , inplace=True))

Unnamed: 0,0,1,4
0,0.239868,0.711434,0.380374
1,0.902471,0.992868,0.228983
2,0.942548,0.654179,0.629774
3,0.932253,0.968465,0.579804
4,0.296756,0.384328,0.756257
5,0.061391,0.564035,0.141102
6,0.319149,0.905808,0.704833


None

In [89]:
del_test

Unnamed: 0,0,1,2,3,4
0,0.239868,0.711434,0.278524,0.431152,0.380374
1,0.902471,0.992868,,,0.228983
2,0.942548,0.654179,0.50712,0.499166,0.629774
3,0.932253,0.968465,0.636513,,0.579804
4,0.296756,0.384328,,,0.756257
5,0.061391,0.564035,0.792213,0.565069,0.141102
6,0.319149,0.905808,0.203492,0.980204,0.704833


### Missing value replacement

* 결측치 제거 대신 다른 값으로 대체
    * Numpy와 마찬가지로 각 행 혹은 열의 평균 등으로 대체할 수 있음
        * Numpy와는 다르게 결측치를 무시 -> nanmean과 동일
    * 변경된 DataFrame은 기존 DataFrame으로 재할당해야 함
* DataFrame.fillna()
    * 축에 따름
    * method: 인접한 값으로 변경
        * method = 'option'
        * bfill: 결측값 아래
        * ffill: 결측값 위
    * limit: 결측값 변경 횟수
        * limit = 횟수

In [90]:
np_df.fillna(np_df.mean(axis=0))

Unnamed: 0,0,1,2,3,4
0,0.239868,0.711434,0.278524,0.431152,0.380374
1,0.902471,0.992868,0.483572,0.618898,0.228983
2,0.942548,0.654179,0.50712,0.499166,0.629774
3,0.932253,0.968465,0.636513,0.618898,0.579804
4,0.296756,0.384328,0.483572,0.618898,0.756257
5,0.061391,0.564035,0.792213,0.565069,0.141102
6,0.319149,0.905808,0.203492,0.980204,0.704833


#### Q7. 주어진 임의의 데이터를 아래의 과정에 따라 처리하는 코드를 아래 셀에 작성하시오.

1. 결측치를 열의 평균으로 한 번 변경
2. 남은 결측치를 결측치들의 아래의 값으로 변경
3. 남은 결측치에 대해서 제거
4. 전체 결과 출력 후, 초기 데이터와 비교
    * 결측치가 남아있다면 그 이유에 대해 서술

In [91]:
Q7 = pd.DataFrame(np.random.rand(15, 6))
idx = np.random.choice(15, 10, replace = False)
col = np.arange(6)

for c in np.random.choice(col, 15):
    Q7.iloc[np.random.choice(idx, 4), c] = np.nan

In [92]:
### Your Code ###

In [93]:
Q7_ans = Q7.fillna(Q7.mean(axis=0), limit = 1)
Q7_ans = Q7_ans.fillna(method = 'bfill')
Q7_ans

Unnamed: 0,0,1,2,3,4,5
0,0.433975,0.363542,0.803217,0.515778,0.643657,0.415962
1,0.507637,0.273288,0.70872,0.023732,0.975893,0.324958
2,0.8051,0.273288,0.677307,0.023732,0.647287,0.51433
3,0.743721,0.273288,0.464942,0.023732,0.647287,0.922897
4,0.743721,0.273288,0.02083,0.023732,0.647287,0.776416
5,0.743721,0.273288,0.600617,0.023732,0.780674,0.776416
6,0.394358,0.273288,0.118138,0.802348,0.780674,0.776416
7,0.394358,0.273288,0.473609,0.973295,0.780674,0.776416
8,0.218106,0.807783,0.254803,0.400269,0.686839,0.254125
9,0.858997,0.093447,0.193246,0.53953,0.489707,0.101348


In [94]:
Q7

Unnamed: 0,0,1,2,3,4,5
0,0.433975,,0.803217,,,0.415962
1,,,0.70872,,0.975893,0.324958
2,0.8051,,0.677307,,,
3,,,0.464942,,,0.922897
4,,,0.02083,,0.647287,
5,0.743721,,0.600617,0.023732,,
6,,,0.118138,0.802348,,
7,0.394358,0.273288,0.473609,0.973295,0.780674,0.776416
8,0.218106,0.807783,0.254803,0.400269,0.686839,0.254125
9,0.858997,0.093447,0.193246,0.53953,0.489707,0.101348


* 하단에 채울 값이 없기에 처리 불가

## File I/O

* 기본적인 파일 입출력 방법을 알아본다.

 ### CSV

* pd.read_csv('파일 경로/파일.csv')
    * 읽어올 파일은 주피터 노트북 파일과 동일한 폴더에 존재하지 않을 경우 경로를 함께 지정해야 함
* 읽어들인 파일은 별도의 변수에 저장해야 함

* 연습용 파일 다운받기
    1. https://drive.google.com/file/d/1Je5g4vCWihSN6Qw8irjlv8UhUGr-uiSf/view?usp=sharing
    2. 상단 우측에 프린터기 아이콘 옆 버튼을 통해 다운로드 가능
    3. 편의를 위해 한 폴더에 넣어주기

#### CSV Read

* CSV 파일을 읽어오면 기본적으로 아래와 같이 표시됨

In [95]:
csv_df = pd.read_csv('test.csv')

In [130]:
csv_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [97]:
csv_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [135]:
csv_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [98]:
csv_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [99]:
csv_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [100]:
csv_df.iloc[:, 4:7]

Unnamed: 0,Sex,Age,SibSp
0,male,22.0,1
1,female,38.0,1
2,female,26.0,0
3,female,35.0,1
4,male,35.0,0
...,...,...,...
886,male,27.0,0
887,female,19.0,0
888,female,,1
889,male,26.0,0


#### CSV Save

* 다음과 같이 처리된 데이터프레임을 저장할 수 있음
    * DataFrame.to_csv('파일 경로/파일.csv')
        * index = False로 지정할 경우 Index를 제외하고 저장 가능

In [101]:
csv_test_df = csv_df.iloc[:, 4:7]

In [102]:
csv_test_df.to_csv('save.csv', index = False)

#### Q8. Age 열을 따로 뽑아 결측치를 처리하는 코드를 아래 셀에 작성하시오.

* 대치값 = (결측치의 수 - 열의 평균) // 5

In [103]:
Q8_ans = csv_test_df['Age']
na = Q8_ans.isna().sum()
avg = Q8_ans.mean(axis=0)
Q8_ans.fillna((na-avg)//5)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    29.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [104]:
### Your Code ###

### JSON

* pd.read_json('파일 경로/파일.json')
    * 읽어올 파일은 주피터 노트북 파일과 동일한 폴더에 존재하지 않을 경우 경로를 함께 지정해야 함
* 읽어들인 파일은 별도의 변수에 저장해야 함

* 연습용 파일 다운받기
    1. https://drive.google.com/file/d/1Jfp31oQMZMiyHARmLkhvyIFMv_f9tCwr/view?usp=share_link
    2. 상단 우측에 프린터기 아이콘 옆 버튼을 통해 다운로드 가능
    3. 편의를 위해 한 폴더에 넣어주기

#### JSON Read

* JSON 파일을 읽어오면 기본적으로 아래와 같이 표시됨
    * 불러올 파일의 길이는 동일해야 함

In [105]:
json_df = pd.read_json('test.json')

In [106]:
json_df

Unnamed: 0,userId,Name,phoneNumber
0,1,Kim,1011111111
1,2,Jo,1022222222
2,3,Park,1033333333
3,4,Hong,1044444444
4,5,Yeo,1055555555


In [107]:
json_df[['Name']]

Unnamed: 0,Name
0,Kim
1,Jo
2,Park
3,Hong
4,Yeo


In [108]:
json_df.loc[:, ['userId', 'phoneNumber']]

Unnamed: 0,userId,phoneNumber
0,1,1011111111
1,2,1022222222
2,3,1033333333
3,4,1044444444
4,5,1055555555


#### JSON Save

* 다음과 같이 처리된 데이터프레임을 저장할 수 있음
    * DataFrame.to_json('파일 경로/파일.json')
    * orient에 따라 저장 유형 변경
        * columns: 기본 값
        * records
        * split
        * values
        * index

In [109]:
json_df.to_json(orient='columns')

'{"userId":{"0":1,"1":2,"2":3,"3":4,"4":5},"Name":{"0":"Kim","1":"Jo","2":"Park","3":"Hong","4":"Yeo"},"phoneNumber":{"0":1011111111,"1":1022222222,"2":1033333333,"3":1044444444,"4":1055555555}}'

In [110]:
json_df.to_json(orient='records')

'[{"userId":1,"Name":"Kim","phoneNumber":1011111111},{"userId":2,"Name":"Jo","phoneNumber":1022222222},{"userId":3,"Name":"Park","phoneNumber":1033333333},{"userId":4,"Name":"Hong","phoneNumber":1044444444},{"userId":5,"Name":"Yeo","phoneNumber":1055555555}]'

* 아래 방식으로 저장하고 다시 불러온다면 길이가 일정하지 않아 오류 발생

In [111]:
json_df.to_json(orient='split')

'{"columns":["userId","Name","phoneNumber"],"index":[0,1,2,3,4],"data":[[1,"Kim",1011111111],[2,"Jo",1022222222],[3,"Park",1033333333],[4,"Hong",1044444444],[5,"Yeo",1055555555]]}'

In [112]:
json_df.to_json(orient='values')

'[[1,"Kim",1011111111],[2,"Jo",1022222222],[3,"Park",1033333333],[4,"Hong",1044444444],[5,"Yeo",1055555555]]'

In [113]:
json_df.to_json(orient='index')

'{"0":{"userId":1,"Name":"Kim","phoneNumber":1011111111},"1":{"userId":2,"Name":"Jo","phoneNumber":1022222222},"2":{"userId":3,"Name":"Park","phoneNumber":1033333333},"3":{"userId":4,"Name":"Hong","phoneNumber":1044444444},"4":{"userId":5,"Name":"Yeo","phoneNumber":1055555555}}'

In [114]:
json_df.to_json('save.json', orient='index')

In [115]:
json_test_df = pd.read_json('save.json')
json_test_df

Unnamed: 0,0,1,2,3,4
userId,1,2,3,4,5
Name,Kim,Jo,Park,Hong,Yeo
phoneNumber,1011111111,1022222222,1033333333,1044444444,1055555555
