## Pandas 라이브러리와 탐색적 데이터 분석 과정 익히기

### [ 1. EDA를 위한 데이터 시각화 ]

- 데이터 분석을 위해 시각화는 필수이다.
- 주요 시각화 라이브러리 : mathplotlib, seaborn, plotly

 ### [ 손쉽게 시각화 익히기 (최신) ]
 - mathplotlib 은 오래된 전통적인 라이브러리
     - 이 한계를 보완하기 위해 seaborn 라이브러리가 출현
     - 오래된 라이브러리로 인터페이스가 복잡하다.
 
 - 최신 시각화 라이브러리 : plotly
     - pandas 기능과 plotly를 조합해서 최신/가장 빠르게 시각화 가능
     - pandas 데이터프레임.iplot()같은 형태로 데이터프레임을 바로 그래프로 그릴 수 있다.
     - http://plotly.com/python/
  

### [ 2. iplot()으로 시각화 사용하기 ]
- 데이터프레임.iplot(kind = 그래프 종류) 만으로 그래프를 그릴 수 있으므로, 매우 쉽다.
- 하지만! 관련 자료가 부족하고, 세부 기능 조정에 한계가 있다.

#### "따라서, 데이터 분석시!
#### 가볍게 데이터 확인시에는 iplot
#### 디테일하게 시각화할 시에는 plotly, graph_objects를 사용하는 것이 좋다."

#### (1) 라이브러리 설치
- chart_studio는 plotly로 작성된 그래프를 웹상에서 보여주기 위한 라이브러리이다.
- 최근에는 둘다 설치해야한다.

In [None]:
!pip install plotly chart_studio --upgrade

- cufflinks
    - pandas로 그래프를 그리기 위한 기능을 plotly 와 연결시키기 위한 라이브러리

In [None]:
!pip install cufflinks --upgrade

#### (2) 라이브러리 로드
- pandas 데이터프레임.iplot() 함수 호출 전에 로드해야만 한다.

In [3]:
import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected = True)

#### (3) 테스트 예제
- numpy.random.rand(m, n)
    - m 행, n 열로 0 ~ 1의 균일분포(모든 데이터가 나올 확률이 동일)에 맞는 랜덤 데이터 생성

In [4]:
import numpy as np
np.random.rand(5)

array([0.32954792, 0.98567362, 0.97756756, 0.23552196, 0.46876256])

In [5]:
import numpy as np
np.random.rand(5,2)

array([[0.5838046 , 0.31585176],
       [0.43117292, 0.86338169],
       [0.54343316, 0.99503306],
       [0.70227273, 0.50034433],
       [0.61299259, 0.31748138]])

In [10]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.rand(5, 2), columns = ['A', 'B'])
df

Unnamed: 0,A,B
0,0.072819,0.689203
1,0.01052,0.730843
2,0.235828,0.141858
3,0.524698,0.537778
4,0.241028,0.767191


#### (4) 주요 사용법
- 데이터프레임.iplot(kind = 그래프 종류)

In [11]:
# 그래프는 cufflinks 라이브러리에서 help()함수를 통하여 찾아 볼 수 있다.
cf.help()

Use 'cufflinks.help(figure)' to see the list of available parameters for the given figure.
Use 'DataFrame.iplot(kind=figure)' to plot the respective figure
Figures:
	bar
	box
	bubble
	bubble3d
	candle
	choroplet
	distplot
	heatmap
	histogram
	ohlc
	pie
	ratio
	scatter
	scatter3d
	scattergeo
	spread
	surface
	violin


In [13]:
# 그래프마다의 자세한 사용법은 help함수에 삽입하면 알 수 있다.
# 주요 사용법이 웹보다 다음의 help()함수를 통해 그나마 더 잘 설명되어져있다.
cf.help('bar')

BAR
Bar Chart
Supports categories and horizontal bar charts


Parameters:
    bargap : float
        Sets the gap between bars
        	[0,1)
    bargroupgap : float
        Sets the gap between groups
        	[0,1)
    barmode : string
        Bar mode
        	group
        	stack
        	overlay
    categories : string
        Name of the column that contains the categories
    orientation : string
        Sets the orientation of the bars.
        	h
        	v
    sortbars : bool
        Sort bars in descending order


    colors : dict, list or string
        Trace color
        	string : applies to all traces
        	list : applies to each trace in the order specified
        	dict : {column:value} for each column in the dataframe
        values
        	colorname : see cufflinks.colors.cnames
        	hex : '#ffffff'
        	rgb : 'rgb(23,50,23)'
        	rgba : 'rgba(23,50,23,.5)
    colorscale : string
        Color scale name
        If the color is preceded by a minus (-

### [ BAR 그래프 사용 ]

In [14]:
df.iplot(kind = 'bar')

#### [ 누적 그래프 옵션 ]

In [16]:
df.iplot(kind = 'bar', barmode = 'stack') # barmode 옵션 활용

#### [ Series로 그래프 그리기 ]

In [17]:
df['A'].iplot(kind = 'bar')

#### [ 가로로 그래프 그리기 ]

In [19]:
df.iplot(kind = 'bar', barmode = 'stack', orientation = 'h') # orientation 옵션 사용

In [20]:
df['A'].iplot(kind = 'bar', orientation = 'h')

### [ Line (Scatter) 그래프 사용 ]

In [21]:
df.iplot(kind = 'scatter')

#### [ line 그래프 구간 표시하기 ]

In [23]:
df.iplot(kind = 'scatter', mode = 'lines+markers')

#### [ line 그래프 밑구간 채우기 ]

In [26]:
df.iplot(kind = 'scatter', fill = True) # fill 과 line+markers 모드를 같이 쓰면 오류

### [ 그래프 세부요소 설정하기 ]

#### [ x축, y축, 그래프 타이틀 설정하기 ]

In [28]:
df.iplot( kind = 'scatter',
        fill = True,
        xTitle = 'x axis',
        yTitle = 'y axis',
        title = 'Title')

#### [ 그래프 테마 변경하기 ]

In [29]:
graph_themes = cf.getThemes()
graph_themes

['ggplot', 'pearl', 'solar', 'space', 'white', 'polar', 'henanigans']

In [33]:
for type_theme in graph_themes:
    df.iplot(kind = 'scatter',
            theme = type_theme,
            fill = True,
            xTitle = 'x axis',
            yTitle = 'y axis',
            title = type_theme)

#### [ 타이틀 폰트 및 위치 변경하기 ]
- https://plotly.com/python/reference/#layout-title 참조

In [36]:
layout = {
    'title' :
    {
        'text' : '제목',
        'font' : {
            'family': 'consolas',
            'size' : 20,
            'color' : '#ff3d00'
        },
        'x' : 0.5,
        'y' : 0.85
    }
}

df.iplot(kind = 'scatter', layout = layout)

#### [ 그래프 주요 세부 항목 변경 코드 ]
- 그래프 타이틀 변경
- 그래프 x축 (x-axis), y축 (y-axis) 타이틀 변경
- x축 (x-axis), y축 (y-axis) tick 단위 변경 및 tick 노출 여부 설정

In [37]:
df.iplot(kind = 'scatter')

In [59]:
layout = {
    'title' :
    {
        'text' : '<b>Test Graph</b>', #<b>~</b>는 글씨를 굵게!
        'font' : {
            'size' : 25,
            'color' : '#37474F',
        },
        'x' : 0.5,
        'y' : 0.88
    },
    'plot_bgcolor' : '#000000',
    'xaxis' : {
        'showticklabels' : True,
        'dtick' : 0.1,
        'title' : {
            'text' : 'x-axis',
            'font' : {
                'size' : 20,
                'color' : '#37474F'
            }
        }
    },
     'yaxis' : {
        'showticklabels' : True,
        'dtick' : 0.1,
        'title' : {
            'text' : 'x-axis',
            'font' : {
                'size' : 20,
                'color' : '#37474F'
            }
        }
    }
}

In [60]:
df.iplot(kind = 'scatter', mode = 'lines+markers',layout = layout)