In [None]:
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import seaborn as sns
import warnings

In [None]:
font = 'C:/Windows/Fonts/malgun.ttf'
font_name = font_manager.FontProperties(fname=font).get_name()
rc('font', family=font_name)
plt.rcParams["figure.figsize"] = (6,4)
plt.rcParams['font.size'] = 12
warnings.filterwarnings('ignore')

sns.set_palette('Reds')

#### 다변량 그래프 -3개 이상 matplotlib

In [None]:
tips=sns.load_dataset('tips')

In [None]:
# 방법2
def recode_gender(gender):
    if gender =="Female":
        return 'magenta'
    else:
        return 'grey'
tips['color']=tips['sex'].apply(recode_gender)
tips

In [None]:
plt.scatter(x=tips['total_bill'], y=tips['tip'], c= tips['color'], s=tips['size']*15, alpha=0.5)

In [None]:
## 방법2
f_tips=tips.groupby('sex')[['total_bill', 'tip']].get_group('Female')
m_tips=tips.groupby('sex')[['total_bill', 'tip']].get_group('Male')

In [None]:
plt.scatter(m_tips['total_bill'], m_tips['tip'])
plt.scatter(f_tips['total_bill'], f_tips['tip'])

In [None]:
plt.hist(m_tips['total_bill'], alpha=0.6)
plt.hist(f_tips['total_bill'], alpha=0.8)

#### seaborn 그래프 그리기

In [None]:
# 산점도 scatter
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='sex', palette='Blues', size='size', legend=False)
plt.grid()
plt.title('산점도 그래프')
plt.show()

In [None]:
# seaborn 색상
# cmap, palette,
# hue 제3의 색상데이터를 넣는 방법:ex) hue='sex'//
# palette 전체 설정은 sns.set_palette('twilight') // Reds 등
# 개별 설정은 plot 만들때 palette='Set2' 넣는다
# cmap은 컬러집단이므로 딘일량 그래프에서는 적합하지 않음

In [None]:
# barplot/coutplot
sns.barplot(x='sex', y='total_bill', data=tips, palette='Reds', estimator='sum', errorbar=('ci',95))
plt.grid()
plt.title('Barplot of Total Bill by Sex')
plt.show()

In [None]:
# countplot은 barplot의 estimator='size'와 같음
sns.countplot(x='sex', data=tips, palette='Set3')
plt.grid()
plt.title('Countplot by Sex')
plt.show()

In [None]:
# vertical: 범주형일때만 x,y값 변경이 가능, 만약 수치형일 경우에는 x,y 변경 안됨
sns.barplot(x='total_bill',y='sex', data=tips, hue='smoker', errorbar=('ci',0))
plt.tight_layout() 
plt.show()

In [None]:
sns.boxplot(x='sex',y='total_bill', data=tips,
    saturation=0.75,
    width=0.7,
    dodge=False,
    fliersize=5,
    linewidth=None,
    whis=1.5,)
plt.title('Boxplot of Total_bill by Gender')

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(x='total_bill', y='sex', hue='smoker', data=tips)

In [None]:
# histplot
sns.histplot(data=tips, x='total_bill', kde=True)  # kde 밀도추정곡선

In [None]:
sns.kdeplot(data=tips, x='total_bill')

In [None]:
plt.figure(figsize=(6,6))
plt.subplot(2,1,1)
sns.histplot(data=tips, x='total_bill')
plt.axvline(20, c='r')
plt.subplot(2,1,2)
sns.boxplot(data=tips, x='total_bill')
print(tips['total_bill'].describe())

In [None]:
# 밀도 관련 그래프
sns.distplot(tips['total_bill'])  ## 사라질테니 쓰지마시오

In [None]:
sns.lineplot(x='total_bill', y='tip', data=tips)

In [None]:
tips2=tips.sort_values('total_bill')
plt.plot(tips2['total_bill'], tips2['tip'], color='darkred')  
# 그룹지어야 위와 같이 됨, seaborn은 자동으로 그룹지워 계산함

In [None]:
# regplot (regression + scatter)
sns.regplot(data=tips, x='total_bill',y='tip')  # fit_reg=True 도 가능
plt.title('Scatter of total bill and tip')
tips['total_bill'].mean()
plt.show()

In [None]:
anscombe=sns.load_dataset('anscombe')
anscombe.head()

In [None]:
sns.regplot(data=anscombe, x='x', y='y', hue='dataset')  # 디시 해볼것

In [None]:
# jointplot
sns.jointplot(x='total_bill', y='tip', data=tips, hue='sex')
plt.suptitle('Jointplot of total Bill and Tip')
plt.tight_layout()

In [None]:
# pairplot  --한 눈에 비교분석을 위해
sns.pairplot(tips, hue='sex')

In [None]:
# kedplot - 변수 2개일때 (1개일 경우 histogram과 비슷하고 2개일 경우에는 scatter와 비슷 )
sns.kdeplot(data=tips, x='total_bill', y='tip', fill=True)

sns.scatterplot(data=tips, x='total_bill', y='tip', color='black', alpha=0.3)

In [None]:
# violineplot : boxplot + kde  
sns.violinplot(x='sex', y='total_bill', data=tips)

In [None]:
sns.violinplot( x='total_bill', data=tips)
plt.show()
sns.boxplot( x='total_bill', data=tips)
plt.show()
sns.kdeplot( x='total_bill', data=tips)
plt.show()

In [None]:
## pairplot 필요한 것만 골라쓰기, 다른 것 지정하여 사용 가능
pair_grid = sns.PairGrid(tips) 
pair_grid = pair_grid.map_upper(sns.regplot) 
pair_grid = pair_grid.map_lower(sns.kdeplot, fill = True)
pair_grid = pair_grid.map_diag(sns.histplot, kde=True)

In [None]:
sns.pairplot(tips, hue='sex')

#### pandas 그래프 그리기: 빠른 속도

In [None]:
tips.plot()  
# line그래프이므로 수치형 컬럼만 찾아서 게산함, 
# plot은 그래프함수만 모아놓은 함수

In [None]:
tips['total_bill'].plot.hist(bins=10)

In [None]:
tips.plot.scatter(x='total_bill',y='tip')

In [None]:
tips['sex'].value_counts().plot(kind='bar')

In [None]:
tips['total_bill'].plot.hist(bins=12)

#### 연습합시당

In [None]:
import pandas as pd

In [None]:
ebola=pd.read_csv('../data/country_timeseries.csv', parse_dates=['Date']) 
# 누락값 필수 삭제 아니라 정리해야함 / date는 문자형임-> date자료형으로 바꿔야

In [None]:
ebola.info()

In [None]:
ebola.head()

In [None]:
# 시계열 데이터 그래프 만드는 법: x측 날짜, 시간/ y측 변화량  // 누적 데이터
ebola[['Date','Cases_Guinea']].head()

In [None]:
plt.figure(figsize=(8,4))
plt.plot(ebola['Date'], ebola['Cases_Guinea'], 'r*-')
plt.tight_layout()

In [None]:
ebola_fill=ebola.fillna(method='bfill').fillna(0)

In [None]:
plt.figure(figsize=(8,3))
plt.plot(ebola_fill['Date'], ebola_fill['Cases_Guinea'], 'r-')
plt.tight_layout()
sns.lineplot(data=ebola, x='Date', y='Cases_Guinea', color='darkblue', alpha=0.4)   # 차이가 확 나네

In [None]:
plt.figure(figsize=(8,3))
sns.lineplot(data=ebola, x='Date', y='Cases_Guinea', color='darkblue')  
#plt.xticks(ticks=['2014-03-22','2015-01-02'], labels=['2014-03-22','2015-01-02'])
plt.tight_layout()
# plt.xticks(rotation=45)
# 자동으로 결측값이 연결됨 interpolate 시킴

In [None]:
# 시계열 데이터 그래프 만드는 법: x측 날짜, 시간/ y측 변화량  // 증가량 그래프
ebola_fill['Cases_Guinea'].diff()   
# 윗값이 아랫값으로 갈때 변화한 값 구함 ==> 뒤집기해야
ebola_fill['Guinea']= ebola_fill.sort_values('Date')['Cases_Guinea'].diff()
ebola_fill

In [None]:
plt.figure(figsize=(8,3))
sns.lineplot(data=ebola_fill, x='Date', y='Guinea', color='darkblue' )
plt.xticks(rotation=30)
plt.tight_layout()

In [None]:
ebola_fill[ebola_fill['Date'].dt.month==10]

In [None]:
ebola_fill.loc[31,'Cases_Guinea'] = 1606   # 이상치  수정하는 법

In [None]:
# diff() : 간격 조정 가능람 / 옮기고 게산(뺄셈) 
# shift() : 데이터를 한칸 등  옮김/ 인덱스가 위아래로 바꿔줄 수 있음 --움직이는 것만 

In [366]:
ebola_fill['Cases_Guinea'].shift(-5)

0      2706.0
1      2695.0
2      2630.0
3      2597.0
4      2571.0
        ...  
117       NaN
118       NaN
119       NaN
120       NaN
121       NaN
Name: Cases_Guinea, Length: 122, dtype: float64