# Jupyter notebook


주피터 노트북은 셀단위로 코드블럭을 작성하여 디버깅, 코딩, 테스트, 문서화 작업을 쉽게 만들어주는 개발 도구이다.

> 1. 셀단위 또는 셀 묶음 단위로 실행이 가능하다  
> 1. 편집 또는 명령 모드가 있다  
> 1. 마크다운 모드로 문서화 작업에 매우 유용하다  
> 1. 변수의 값을 쉽게 확인 가능하다  
> 1. 이미지, 그래프, 영상, 표 등 시각화 자료를 쉽게 확인할 수 있다  
> 1. 주로 데이터 분석 및 실험에 많이 사용된다  
> 1. 코드의 단위 테스트에도 매우 유용하다  

###### 다음은 이미지를 삽입한 예이다  


![intro_ball.gif](attachment:intro_ball.gif)

---
### 유용한 단축키와 기능

#### 명령어 모드에서 단축키 및 기능
> 1. Ctrl + Enter : 현재 셀 실행 (마크다운 소스인 경우 편집 모드 종료되며 최종 보기 형태로 변경됨)  
> 1. Shift + Enter : 셀순서대로 현재 셀까지 실행됨  
> 1. Enter : 편지 모드로 전환  
> 1. B : 아래에 새로운 셀을 만듬  
> 1. A : 현재 선택된 셀위에 새로운 셀을 삽입함  
> 1. M : 마크다운 셀로 변경  
> 1. Y : Code 셀로 변경  
> 1. X : 현재 셀 잘라내기  
> 1. C : 현재 셀 복사  
> 1. V : 현재 셀 아래에 복사한 셀 삽입  
> 1. Shift + V : 현재 셀 위에 복사한 셀 삽입  
> 1. 1 ~ 6 : 마크다운의 헤딩을 단계별로 변경  
> 1. Shift + L : 토글 라인 넘버  


#### 편집 모드에서 단축키 및 기능
> 1. ESC : 명령어 모드로 전환
> 1. Ctrl + Enter : 현재 셀 실행 (마크다운 소스인 경우 편집 모드 종료되며 최종 보기 형태로 변경됨)  
> 1. Shift + Enter : 셀순서대로 현재 셀까지 실행됨  
> 1. tab : intellisence
> 1. Shift + tab : tool tip

### 마크다운 사용법

[마크다운 사용법](https://gist.github.com/ihoneymon/652be052a0727ad59601#2-%EB%A7%88%ED%81%AC%EB%8B%A4%EC%9A%B4-%EC%82%AC%EC%9A%A9%EB%B2%95%EB%AC%B8%EB%B2%95)


---

# Pandas

데이터 분석 및 핸들링(?)에 많이 사용되는 python의 대표적인 라이브러리.  

> 1. Pandas를 사용하여 빅데이터를 분석하고 통계를 내는데 사용한다.  
> 1. Pandas는 데이터들의 연관성을 분석할 수 있고 가독성(?)을 높여준다.  

### Series

- Series는 Table(표)의 컬럼과 같다.  
- 1차원 배열(List)을 저장하고 분석하는데 사용한다.  

In [1]:
import pandas as pd
import random

liScore = [random.randint(40,100) for _ in range(10)]
print(liScore)

[48, 47, 69, 77, 77, 46, 53, 53, 93, 83]


In [2]:
data = pd.Series(liScore)
data     # print()문을 사용하지 않고 바로 데이터를 확인할 수 있다

0    48
1    47
2    69
3    77
4    77
5    46
6    53
7    53
8    93
9    83
dtype: int64

#### Jupyter notebook 기능 1.

print 문을 사용하지 않고 변수명만 한줄에 적으면 바로 그 변수의 데이터를 확인할 수 있다.

In [3]:
data

0    48
1    47
2    69
3    77
4    77
5    46
6    53
7    53
8    93
9    83
dtype: int64

In [4]:
data[0]

48

In [5]:
data[6]

53

In [6]:
data = pd.Series(liScore, index=['유재석', '강호동', '신동엽', '김종국', '지석진', '송지효', '이광수', '김구라', '현빈', '하하'])
data

유재석    48
강호동    47
신동엽    69
김종국    77
지석진    77
송지효    46
이광수    53
김구라    53
현빈     93
하하     83
dtype: int64

In [7]:
data.head()    # 시리즈에 저장된 순서 상위(데이터값에 상관없이) 5(또는 갯수 지정)개를 반환

유재석    48
강호동    47
신동엽    69
김종국    77
지석진    77
dtype: int64

In [8]:
data.tail(3)   # 시리즈에 저장된 순서 하위(데이터값에 상관없이) 5(또는 갯수 지정)개를 반환

김구라    53
현빈     93
하하     83
dtype: int64

In [9]:
data.shape    # Series의 차원을 반환

(10,)

In [10]:
data.size    # 저장된 데이터의 갯수

10

In [11]:
data.index    # 인덱스값

Index(['유재석', '강호동', '신동엽', '김종국', '지석진', '송지효', '이광수', '김구라', '현빈', '하하'], dtype='object')

In [12]:
data.values

array([48, 47, 69, 77, 77, 46, 53, 53, 93, 83])

In [13]:
data.dtype    # 메인 데이터의 타입

dtype('int64')

In [14]:
data.describe()    # 데이터의 분석 개요

count    10.000000
mean     64.600000
std      17.231754
min      46.000000
25%      49.250000
50%      61.000000
75%      77.000000
max      93.000000
dtype: float64

In [15]:
data.sort_values()    # 데이터 값으로 오름차순 정렬

송지효    46
강호동    47
유재석    48
이광수    53
김구라    53
신동엽    69
김종국    77
지석진    77
하하     83
현빈     93
dtype: int64

In [16]:
data.sort_values(ascending=False)    # 데이터 값으로 내림차순 정렬

현빈     93
하하     83
김종국    77
지석진    77
신동엽    69
이광수    53
김구라    53
유재석    48
강호동    47
송지효    46
dtype: int64

In [17]:
data.sort_index()    # 인덱스 값으로 오름차순 정렬

강호동    47
김구라    53
김종국    77
송지효    46
신동엽    69
유재석    48
이광수    53
지석진    77
하하     83
현빈     93
dtype: int64

In [18]:
data.unique()    # 유니크한 데이터들만 반환

array([48, 47, 69, 77, 46, 53, 93, 83])

In [19]:
data.nunique()    # 유니크한 데이터들의 갯수

8

In [20]:
data.value_counts()    # 각 값들이 나타나는 횟수

77    2
53    2
48    1
47    1
69    1
46    1
93    1
83    1
Name: count, dtype: int64

In [21]:
data.isin([55,85])    # 매개변수로 전달된 값(들)이 어디에 존재하는지 체크

유재석    False
강호동    False
신동엽    False
김종국    False
지석진    False
송지효    False
이광수    False
김구라    False
현빈     False
하하     False
dtype: bool

In [22]:
data.fillna({0:85})    # 결측값을 새로운 값으로 대치

유재석    48
강호동    47
신동엽    69
김종국    77
지석진    77
송지효    46
이광수    53
김구라    53
현빈     93
하하     83
dtype: int64

In [23]:
data.apply(lambda a : a-data.mean())   # 각 값에 어떤 함수를 적용한 결과값을 반환

유재석   -16.6
강호동   -17.6
신동엽     4.4
김종국    12.4
지석진    12.4
송지효   -18.6
이광수   -11.6
김구라   -11.6
현빈     28.4
하하     18.4
dtype: float64

In [24]:
newdict = dict()
data.map(newdict)

유재석   NaN
강호동   NaN
신동엽   NaN
김종국   NaN
지석진   NaN
송지효   NaN
이광수   NaN
김구라   NaN
현빈    NaN
하하    NaN
dtype: float64

In [31]:
without_index_data = data.reset_index(drop=True)
subject = pd.Series(['개그맨', '개그맨', '개그맨', '가수', '개그맨', '배우', '배우', '개그맨', '배우', '가수'])
grouped = without_index_data.groupby(subject)
sum_by_subject = grouped.sum()
mean_by_subject = grouped.mean()
print(sum_by_subject)
print(mean_by_subject)
grouped.describe()

가수     160
개그맨    294
배우     192
dtype: int64
가수     80.0
개그맨    58.8
배우     64.0
dtype: float64


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
가수,2.0,80.0,4.242641,77.0,78.5,80.0,81.5,83.0
개그맨,5.0,58.8,13.461055,47.0,48.0,53.0,69.0,77.0
배우,3.0,64.0,25.357445,46.0,49.5,53.0,73.0,93.0


In [26]:
data

유재석    48
강호동    47
신동엽    69
김종국    77
지석진    77
송지효    46
이광수    53
김구라    53
현빈     93
하하     83
dtype: int64

In [27]:
data.sum()     # 데이터들의 합

646

In [28]:
data.mean()    # 데이터들의 평균

64.6

In [29]:
data.std()     # 데이터들의 표준편차

17.23175363488387