In [39]:
import pandas as pd
import numpy as np

import plotly.graph_objects as go
import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected=True)


In [4]:
df = pd.DataFrame(np.random.rand(10, 2),columns=['A', 'B'])
df

Unnamed: 0,A,B
0,0.10371,0.354347
1,0.472474,0.280014
2,0.919098,0.231949
3,0.994754,0.72537
4,0.472465,0.852862
5,0.025862,0.247384
6,0.881057,0.305553
7,0.23256,0.87475
8,0.320193,0.235091
9,0.513538,0.750445


In [None]:
# Bar 그래프

fig = go.Figure()
# fig.add_trace(
#     go.Bar(
#         x=df.index, y=df['A'], name='A', text=df['A'], textposition='auto'
#     )
# )
fig.add_trace(
    go.Bar(
        x=df.index, y=df['A'], name='A',
        text=df['A'], textposition='auto', texttemplate='%{y:.2f}'
    )
)

fig.add_trace(
    go.Bar(
        x=df.index, y=df['B'], name='B',
        text=df['B'], textposition='auto', texttemplate='%{y:.2f}'
    )
)

fig.update_layout(
    {
        'title': {
            'text': 'bar graph',
            'x': 0.5,
            'y': 0.9,
            'font': {
                'size': 20
            }
        },
        'showlegend':True,
        'xaxis': {
            'title': 'random number',
            'showticklabels': True, # 타이틀 위에 있는 틱을 표현할것인가
            'dtick': 1 # 그 틱의 단위, 1마다 표시
        },
        'yaxis': {
            'title': 'A',
            # 'showticklabels': True,  # 타이틀 위에 있는 틱을 표현할것인가
            # 'dtick': 0.01  # 그 틱의 단위, 1마다 표시
        },
        'autosize': False,
        'width': 800,
        'height': 400
    }
)

# fig.show()


----

In [31]:
# 탐색적 데이터 분석 (EDA)
# 1. 데이터의 출처와 주제에 대해 이해
# 2. 데이터의 크기 확인
# 3. 데이터 구성 요소의 속성 확인

In [None]:
# 1. 데이터 분석을 위한 위치 추정과 범위 추정
# - 탐색적 데이터 분석의 세번째, feature 분석을 위한 기본 탐색
#   - 위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출
#   - 변이 추정: 방대한 데이터의 분포를 알아내어, 해당 feature의 일종의 요약 정보 도출

In [None]:
# 1.1 위치 추정
# feature를 대표할 수 있는 대푯값을 찾는 것
# - 평균 (mean): 모든 값을 갯수로 나눈 값
# - 가중 평균 (weighted mean):
#   - 데이터값, 가중치의 총 합을 다시 가중치의 총합으로 나눈 것
# - 중간값 (median): 데이터를 정렬한 후 중간에 위치한 값을 취함
# - 절사평균 (trimmed mean): 데이터를 정렬한 후, 양 끝에서 일정 개수의 값들을 빼고,
#                          남은 데이터를 기반으로 평균을 계산
#                          즉, 특잇값을 평균을 구할 때 제외

In [None]:
# 1.2 변이 추정
# 주로 표준편차를 사용
# - 분산(variance): 평균과 각 데이터간의 차를 제곱한 값들의 합을 데이터 갯수로 나눈 값
# - 표준편차(standard deviation): 분산은 수치가 너무 커서, 분산의 제곱근을 사용

In [33]:
df = pd.DataFrame({
    'A': [1,2,3,4,5,6],
    'B': [1,2,3,4,5,100]
})
df

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,100


In [35]:
df.describe()

Unnamed: 0,A,B
count,6.0,6.0
mean,3.5,19.166667
std,1.870829,39.625329
min,1.0,1.0
25%,2.25,2.25
50%,3.5,3.5
75%,4.75,4.75
max,6.0,100.0


---

In [None]:
# 2. 보다 빠른 분석을 위한 데이터 분류 이해
# - 데이터를 분석, 시각화, 예측하는 전반적인 과정에서 데이터에 대한 큰 그림을 이체하는 것이 도움이 됨

In [None]:
# 1. 수치형 데이터
# - 연속형 데이터: 특정한 범위 안에 어떤 값
# - 이산형 데이터: 횟수와 같은 정수만 가질 수 있는 데이터
# 1) 다섯 수치 요약
# 최소값, 제1사분위수, 중간값, 제2사분위수, 제3사분위수

# 2. 범주형 데이터
# - 명목형 데이터: 카테고리, 타입, 항목 등 데이터 분류를 위해 이미 정해진 값이 있는 데이터
#   - 데이터가 가질 수 있는 값을 수준(levels) 라고 부름
# - 순서형 데이터: 이미 정해진 값 사이의 순서 관계가 있는 데이터

In [None]:
# box 그래프 그려보기
df.iplot('box')

In [None]:
df['A'].iplot('box')

In [None]:
# plotly.graph_objects 로 그려보기
fig = go.Figure()

fig.add_trace(
    go.Box(
        y=df['A'], name='A'
    )
)

fig.add_trace(
    go.Box(
        y=df['B'], name='B'
    )
)

fig.show()

---

In [45]:
# 히스토그램 (도수분포표) 그리기
df = pd.DataFrame(np.random.rand(100000, 1), columns=['A'])
df.head()

Unnamed: 0,A
0,0.436653
1,0.982066
2,0.212944
3,0.179211
4,0.196667


In [None]:
df.iplot(kind='histogram')

In [None]:
# 구간 나누기
# 분포를 확인하는데 유용
df.iplot('histogram', bins=10)

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Histogram(
        x=df['A'], name='A',
        xbins=dict(
            start=0,
            end=1,
            size=0.05 # 0.05 단위로 자르기
        ),
        marker_color='#F50057' # 바 색상
    )
)

fig.update_layout(
    title_text = 'Sample Results',
    xaxis_title_text = 'Value',
    yaxis_title_text='Count',
    bargap=0.1 # 바 사이의 갭을 조정
)

fig.show()