# 주요 라이브러리

### 1. pandas 라이브러리
pandas는 데이터 처리와 분석을 위해 만들어진 파이썬 라이브러리로써 R의 data.frame, 엑셀의 cell 등을 본떠 설계된 DataFrame이라는 자료 구조와 Series를 기반으로 작동함

**주요 특징**
- Pandas는 엑셀의 스프레드시트와 비슷한 테이블 형태로 데이터를 조회, 수정, 조작 및 분석 등을 수행함
- 각 열 값의 자료 유형이 달라도 작동함
- SQL, 엑셀파일, CSV 등 다양한 파일을 활용할 수 있음
- 간단한 시각화 명령을 지원함

#### DataFrame 만들기
pandas 라이브러리를 호출한 뒤 raw data를 특정 변수에 대입한 후 호출

In [None]:
# Pandas를 pd이름으로 호출
import pandas as pd

#os라이브러리 호출
import os

In [None]:
#불러올 파일 위치 정의
Path = os.path.expanduser("Week9Data/week9-studentlist.csv")

In [None]:
# 파일을 불러와서 student 변수 값으로 지정 <= DataFrame 생성
student = pd.read_csv(Path, sep=",")

In [None]:
#student 호출하기
student

#### DataFrame의 정보확인하기
DataFrame이름.info()를 이용해 확인할 수 있음

In [None]:
#student의 대략적인 정보 확인하기
student.info()

#### DataFrame의 기술통계량 구하기
DataFrame이름.describe()를 이용해 확인할 수 있음

In [None]:
#숫자 값만 포함한 기술통계
student.describe()

In [None]:
#특정 열(height)값에 대한 기술통계
student.height.describe()

### 2. matplotlib 라이브러리
matplotlib(맷플롯립)은 고품질의 그래프를 만들기 위한 라이브러리로 막대그래프, 상자 그림 등 기본적인 통계 그래프를 만들 수 있으며 모양과 크기, 축의 범위와 단위 등 다양한 서식을 사용자가 조절하여 사용할 수 있음

**주요특징**
- Pandas 내부 메서드를 사용해 시각화를 수행할 수 있으나 그마저 matplotlib 구조를 차용함
- 데이터를 지도에 매핑하는 basemap, cartopy, 3D그래프를 만드는 mplot3d 등 도구를 제공함
- 그래프를 그리는데 사용되는 matplot 라이브러리의 모듈은 pyplot을 많이 사용함
- 주피터 노트북에서 matplotlib를 이용한 그래프를 확인하기 위해서는 %matplotlib inline 명령을 사용해야 함

#### matplolib 라이브러리 호출하기
사용할 라이브러리를 호출함

In [None]:
#matplotlib.pyplot을 plt이름으로 호출
import matplotlib.pyplot as plt

#matplotlib 시각화 결과를 주피터노트북에서 호출
%matplotlib inline

#seaborn을 sns 이름으로 호출
import seaborn as sns

#### DataFrame을 시각화하기
pandas와 matplotplib이 갖고 있는 내장함수(메서드)를 이용해 다양한 시각화를 수행할 수 있음

#### 1) 히스토그램

In [None]:
#DataFrame'student' 중 숫자형태의 열속성을 히스토그램으로 만들기
student.hist(bins="auto") #bins = 히스토그램의 두께

In [None]:
#alpha = 진하기 (0~1)
student.hist(color='red', alpha=0.2, bins="auto", figsize=(15, 10))

#### 2) Box-plot

In [None]:
#’Student’Dataframe 중 heght열을 박스플롯으로 그리기
student.boxplot(column="height")

#### 3) bar chart

In [None]:
#다섯번째까지의 데이터를 bar 차트로 그리기
student.iloc[:5].plot.bar() 

#### 4) area chart

In [None]:
#다섯번째까지의 데이터를 area 차트로 그리기
student.iloc[:5].plot.area()

#### 5) scatter chart

In [None]:
#다섯번째까지의 데이터를 scatter 차트로 그리기
student.iloc[:5].plot.scatter(x="height", y="weight")

#### 6) hexbin chart

In [None]:
#전체 데이터를 hexbin 차트로 그리기
student.plot.hexbin(x="height", y="weight", gridsize=25)

### 3. seaborn 라이브러리
seaborn(시본)은 내부적으로 matplotlib를 호출하는 시각화 전문 라이브러리로 자체적으로는 도식화를 수행하지 않으나 다양한 색상 테마와 통계용 차트를 제공함

**주요특징**
- 색상 테마를 이용해 다양한 색깔의 차트를 이용할 수 있음
- Pandas에 비해 정돈된 데이터 형태가 필요함

#### 1) Joint plot

In [None]:
# joint plot 그리기
sns.jointplot(x="height", y="weight", data=student)

#### 2) boxplot

In [None]:
#boxplot그리기
sns.boxplot(data=student)

#### 3) barplot

In [None]:
#barplot 그리기
sns.barplot(data=student)

#### 4) regression 

In [None]:
#height와 weight의 regresstion 그리기
sns.lmplot(x="height", y="weight", data=student)
#height와 age의 regresstion 그리기
sns.lmplot(x="height", y="age", data=student)