# 주요 라이브러리

### 1. pandas 라이브러리
pandas는 데이터 처리와 분석을 위해 만들어진 파이썬 라이브러리로써 R의 data.frame, 엑셀의 cell 등을 본떠 설계된 DataFrame이라는 자료 구조와 Series를 기반으로 작동함

**주요 특징**
- Pandas는 엑셀의 스프레드시트와 비슷한 테이블 형태로 데이터를 조회, 수정, 조작 및 분석 등을 수행함
- 각 열 값의 자료 유형이 달라도 작동함
- SQL, 엑셀파일, CSV 등 다양한 파일을 활용할 수 있음
- 간단한 시각화 명령을 지원함

#### DataFrame 만들기
pandas 라이브러리를 호출한 뒤 raw data를 특정 변수에 대입한 후 호출

In [None]:
# Pandas를 pd이름으로 호출
import pandas as pd

In [None]:
# 파일을 불러와서 student 변수 값으로 지정 <= DataFrame 생성
pokemon = pd.read_csv('pokemon.csv', engine='python')

In [None]:
#pokemon 데이터 중 쓸모없는 데이터 제거
pokemon.drop(["#", "Type 2", "Generation"], axis=1, inplace=True)

In [None]:
#pokemon 호출하기
pokemon.head()

#### DataFrame의 정보확인하기
DataFrame이름.info()를 이용해 확인할 수 있음

In [None]:
#student의 대략적인 정보 확인하기
pokemon.info()

#### Print를 이용한 DataFrame 데이터 현황 파악

In [None]:
print('기본공격 가장 강한 포켓몬: {}'.format(pokemon.Name[pokemon['Attack'].idxmax()] ))
print('가장 느린 포켓몬: {}'.format(pokemon.Name[pokemon['Speed'].idxmin()] )) 

#### 데이터 샘플링 수행

In [None]:
#pokemon 데이터에서 20개 데이터를 임의추출
PoSample = pokemon.sample(n=20)

#pokemon 데이터에서 1% 데이터를 임의추출
PoSample = pokemon.sample(frac=0.01)

In [None]:
#샘플 확인
PoSample

#### DataFrame의 기술통계량 구하기
DataFrame이름.describe()를 이용해 확인할 수 있음

In [None]:
#숫자 값만 포함한 기술통계
PoSample.describe().round(1)

In [None]:
#특정 열(height)값에 대한 기술통계
PoSample.Speed.describe()

#### 파이차트로 분류해보기

In [None]:
fig = plt.figure(figsize=(7,7))

colours = ["aqua", "orange"]
pokeLeg = pokemon[pokemon['Legendary']==True]
pokeNon = pokemon[pokemon['Legendary']==False]

legDist = [pokeLeg['Name'].count(),pokemon['Name'].count()]
legPie = plt.pie(legDist,
                 labels= ['Legendary', 'Non Legendary'], 
                 autopct ='%1.1f%%', 
                 shadow = True,
                 colors=colours,
                 startangle = 45,
                 explode=(0, 0.1))

### 2. Numpy 라이브러리
Numerical Python의 줄임말인 Numpy는 과학계산 컴퓨팅과 데이터 분석에 필요한 계산통계 패키지임

**주요 특징**
- 다차원 배열인 ndarray를 사용함
- pandas를 이용한 고급 벡터계산 및 배열이 가능

In [None]:
import numpy as np

In [None]:
#추출한 샘플의 상관계수 도출
np.corrcoef(PoSample["Attack"], PoSample["Defense"])

In [None]:
#전체 모집단(포켓몬데이터)의 상관계수 도출
np.corrcoef(pokemon["Attack"], pokemon["Defense"])

In [None]:
#추출한 샘플에 대한 산점도 그리기
###
plt.figure()
plt.scatter(PoSample["Attack"], PoSample["Defense"])
plt.xlabel("Attack")
plt.ylabel("Defense")
plt.title("Attack and Defense")
plt.show()

In [None]:
#추출한 샘플에 대한 산점도 그리기
###
plt.figure()
plt.scatter(pokemon["Attack"], pokemon["Defense"])
plt.xlabel("Attack")
plt.ylabel("Defense")
plt.title("Attack and Defense")
plt.show()

### 3. matplotlib 라이브러리
matplotlib(맷플롯립)은 고품질의 그래프를 만들기 위한 라이브러리로 막대그래프, 상자 그림 등 기본적인 통계 그래프를 만들 수 있으며 모양과 크기, 축의 범위와 단위 등 다양한 서식을 사용자가 조절하여 사용할 수 있음

**주요특징**
- Pandas 내부 메서드를 사용해 시각화를 수행할 수 있으나 그마저 matplotlib 구조를 차용함
- 데이터를 지도에 매핑하는 basemap, cartopy, 3D그래프를 만드는 mplot3d 등 도구를 제공함
- 그래프를 그리는데 사용되는 matplot 라이브러리의 모듈은 pyplot을 많이 사용함
- 주피터 노트북에서 matplotlib를 이용한 그래프를 확인하기 위해서는 %matplotlib inline 명령을 사용해야 함

#### matplolib 라이브러리 호출하기
사용할 라이브러리를 호출함

In [None]:
#matplotlib.pyplot을 plt이름으로 호출
import matplotlib.pyplot as plt

#matplotlib 시각화 결과를 주피터노트북에서 호출
%matplotlib inline

#seaborn을 sns 이름으로 호출
import seaborn as sns

#스타일 지정
plt.style.use('fivethirtyeight')

#### DataFrame을 시각화하기
pandas와 matplotplib이 갖고 있는 내장함수(메서드)를 이용해 다양한 시각화를 수행할 수 있음

#### 1) 히스토그램

In [None]:
#DataFrame'Pokemon' 중 숫자형태의 열속성을 히스토그램으로 만들기
pokemon.Speed.hist(bins=10) #bins = 막대수

In [None]:
#alpha = 진하기 (0~1)
pokemon.hist(color='red', alpha=0.2, bins="auto", figsize=(15, 10))

#### 2) Box-plot

In [None]:
#’Pokemon’Dataframe 중 Speed열을 박스플롯으로 그리기
pokemon.boxplot(column='Speed')

#### 3) bar chart

In [None]:
#다섯번째까지의 데이터를 bar 차트로 그리기
pokemon.iloc[:5].plot.bar() 

#### 4) area chart

In [None]:
#다섯번째까지의 데이터를 area 차트로 그리기
pokemon.iloc[:5].plot.area()

#### 5) scatter chart

In [None]:
#스무번째까지의 데이터를 scatter 차트로 그리기
pokemon.iloc[:20].plot.scatter(x="Attack", y="Defense")

#### 6) hexbin chart

In [None]:
#전체 데이터를 hexbin 차트로 그리기
pokemon.plot.hexbin(x="Attack", y="Defense", gridsize=25)

### 3. seaborn 라이브러리
seaborn(시본)은 내부적으로 matplotlib를 호출하는 시각화 전문 라이브러리로 자체적으로는 도식화를 수행하지 않으나 다양한 색상 테마와 통계용 차트를 제공함

**주요특징**
- 색상 테마를 이용해 다양한 색깔의 차트를 이용할 수 있음
- Pandas에 비해 정돈된 데이터 형태가 필요함

#### 1) Joint plot

In [None]:
# joint plot 그리기
sns.jointplot(x="Attack", y="Defense", data=pokemon)

#### 2) boxplot

In [None]:
#boxplot그리기
#sns.boxplot(data=pokemon)
plt.subplots(figsize = (15,5))
plt.title('Attack by Type')
sns.boxplot(x = "Type 1", y = "Attack",data = pokemon)
plt.ylim(0,200)
plt.show()

#### 3) barplot

In [None]:
#barplot 그리기
sns.barplot(data=pokemon)

#### 4) regression 

In [None]:
#height와 weight의 regresstion 그리기
dt = pokemon.iloc[:20]
sns.lmplot(x="Attack", y="HP", data=dt)
#height와 age의 regresstion 그리기
sns.lmplot(x="Speed", y="HP", data=dt)

#### 일반포켓몬과 전설포켓몬의 공격력 차이 비교

In [None]:
plt.figure(figsize=(12,6))

top_types=pokemon['Type 1'].value_counts()[:10] 
#타입 중 초반 10개만 가져옴

df1 = pokemon[pokemon['Type 1'].isin(top_types.index)] 
#초반 10개 타입에 해당하는 모든 포켓몬을 호출해 데이터 프레임으로 저장함

sns.swarmplot(x='Type 1', y='Attack',data=df1, hue='Legendary') # this plot shows the points belonging to individual pokemons
#Swarmplot을 만들고, 주요 인자값들을 지정함

plt.axhline(df1['Attack'].mean(),color='red', linestyle='dashed')
#분석이 쉽도록공격력에 대한 평균선을 삽입함

plt.show()

In [None]:
sns.kdeplot(pokemon.query('Defense>50').Defense)

In [None]:
sns.kdeplot(pokemon['HP'], pokemon["Attack"])

In [None]:
sns.distplot(pokemon['HP'])

In [None]:
plt.figure(figsize=(20, 10))
sns.heatmap(pokemon.corr(), annot=True)
plt.show()