## 데이터프레임 필수 연산

In [None]:
import pandas as pd

### CSV 와 JSON 파일 읽기

In [None]:
%cat data.csv

In [None]:
data = pd.read_csv('data.csv')
data

In [None]:
%cat movie.json

In [None]:
data = pd.read_json('movie.json')
data

In [None]:
%cat movies-90s.jsonl

In [None]:
data = pd.read_json('movies-90s.jsonl', lines=True)
data

### Reindexing

Reindexing 은 새로운 인덱스를 통해 새로운 객체를 만드는 과정이다.

In [None]:
data = pd.Series([3, 1, 2], index=['b', 'a', 'd'])
data

In [None]:
new_data = data.reindex(['a', 'b', 'c', 'd'])
new_data

### 함수 적용시키기
 - 함수를 별도로 만들어 적용가능
 - apply() 함수를 사용

In [None]:
data = pd.DataFrame([[4, 36, 1], [9, 25, 16]],
                    columns=['A', 'B', 'C'],
                    index=['Red', 'Blue'])
data

In [None]:
import numpy as np

np.sqrt(data)

In [None]:
def double_up(x):
    return x * 2

data.applymap(double_up)

In [None]:
data

In [None]:
def difference(x):
    return x.max() - x.min()

data.apply(difference, axis=0)

In [None]:
data.apply(difference, axis=1)

### Sorting, 정렬하기

In [None]:
data

In [None]:
data.sort_index()  # sort by row labels, ascending

In [None]:
data.sort_index(axis=1,           # sort by column labels
                ascending=False)  # descending

In [None]:
data

In [None]:
data.sort_values(by='B')

In [None]:
data.sort_values(by='Blue', axis=1)

### 비어있는 데이터 처리하기
 1. 비어있는 데이터 필터링 하기
 2. 비어있는 데이터 채우기

In [None]:
data = pd.Series([1, 2, np.nan, 3, np.nan])

data

In [None]:
data == None

In [None]:
data.isnull()

In [None]:
data.notnull()

#### 1. 비어있는 데이터 필터링 하기

In [None]:
data.dropna()

In [None]:
data[data.notnull()]

#### 비어있는 데이터 채우기

In [None]:
data.fillna(0)

In [None]:
data.fillna(data.mean())

In [None]:
data.fillna({2: 100, 4: 500})

#### 주의

모든 함수는 새로운 pandas 객체를 생성

객체의 데이터를 교체하려면 `inplace=True` 옵션을 사용