# Visualization

## matplotlib

reference: https://matplotlib.org/stable/plot_types/index.html

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### Scatter Plots
데이터가 어떻게 분포하고 있는지 확인할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make the data
x = 4 + np.random.normal(0, 2, 24)
y = 4 + np.random.normal(0, 2, len(x))

# size and color:
sizes = np.random.uniform(15, 80, len(x))
colors = np.random.uniform(15, 80, len(x))

# plot
fig, ax = plt.subplots()
ax.scatter(x, y, s=sizes, c=colors, vmin=0, vmax=100)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

In [None]:
import matplotlib.pyplot as plt
import numpy as np

np.random.seed(1)

# make the data
x = 4 + np.random.normal(0, 2, 24)
y = 4 + np.random.normal(0, 2, len(x))

# size and color:
sizes = np.random.uniform(15, 80, len(x))
colors = np.random.uniform(15, 80, len(x))

# plot
fig, ax = plt.subplots()
ax.scatter(x, y, s=sizes, c=colors, vmin=0, vmax=100)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()

In [None]:
x

#### Bar Charts
범주별 빈도를 확인할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data:
x = 0.5 + np.arange(8)
y = np.random.uniform(2, 7, len(x))

# plot
fig, ax = plt.subplots()

ax.bar(x, y, width=1, edgecolor="white", linewidth=0.7)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# make data:
x = 0.5 + np.arange(8)
y = np.random.uniform(2, 7, len(x))

# plot
fig, ax = plt.subplots()

ax.bar(x, y, width=1, edgecolor="white", linewidth=0.7)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()

In [None]:
print(x)
print(y)

#### Line Chart
시간의 흐름에 따른 변화를 보고자할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data
x = np.linspace(0, 10, 100)
y = 4 + 2 * np.sin(2 * x)

# plot
fig, ax = plt.subplots()

ax.plot(x, y, linewidth=2.0)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# make data
x = np.linspace(0, 10, 100) #0부터 10까지의 공간을 100개쪼갬
y = 4 + 2 * np.sin(2 * x)

# plot
fig, ax = plt.subplots()

ax.plot(x, y, linewidth=2.0)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()

#### Pie Charts
카테고리별 비율을 시각화하기 위해 사용

```python
import matplotlib.pyplot as plt

# Pie chart, where the slices will be ordered and plotted counter-clockwise:
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice

fig1, ax1 = plt.subplots()
ax1.pie(
  sizes, 
  explode=explode, 
  labels=labels, 
  autopct='%1.1f%%',
  shadow=True, 
  startangle=90
  )
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()
```

In [None]:
# 범주가 많으면 pie차트 지양할 것
# explode는 강조하는 범주
# startangle=90 시작을 90도로 시작하고싶다~
# autopct는 단위를 어떻게 표시를 할 지 보여줌

In [None]:
import matplotlib.pyplot as plt

# Pie chart, where the slices will be ordered and plotted counter-clockwise:
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice

fig1, ax1 = plt.subplots()
ax1.pie(
  sizes, 
  explode=explode, 
  labels=labels, 
  autopct='%1.1f%%',
  shadow=True, 
  startangle=90
  )
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

#### Histograms
데이터의 분포를 확인하기 위해 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data
x = 4 + np.random.normal(0, 1.5, 200)

# plot:
fig, ax = plt.subplots()

ax.hist(x, bins=8, linewidth=0.5, edgecolor="white")

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 56), yticks=np.linspace(0, 56, 9))

plt.show()
```

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# make data
x = 4 + np.random.normal(0, 1.5, 200)

# plot:
fig, ax = plt.subplots()

ax.hist(x, bins=8, linewidth=0.5, edgecolor="white")

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 56), yticks=np.linspace(0, 56, 9))

plt.show()

# 내가 갖고있는 데이터의 최대와 최소를 구한후 bins로 입력한 수 만큼 쪼개 빈도를 나타냄

In [None]:
x

## seaborn

reference: https://seaborn.pydata.org

In [6]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_theme(style='whitegrid')
#plt.rc('font', family='AppleGothic')    # 맥에서 한글이 출력되지 않을 때 사용

### Scatter Plots
x가 continous한 값이라면 산점도 <br>
x가 categorical 값이라면 jitter <br>
<br>
args
  - hue: 그룹 별 다른 색상으로 plot
  - style: 카테고리별 다른 그림으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")

sns.relplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="time",
)
```

In [None]:
tips = sns.load_dataset("tips")

In [None]:
tips.duplicated().sum() # 중복확인

In [None]:
tips ###(244, 7)

In [None]:
tips.drop_duplicates() # 하나 떨궈짐

In [None]:
tips.isnull().sum(axis=0) # 컬럼별로 null값여부 나옴

In [None]:
tips['size'] = tips['size'].astype(str)

In [None]:
tips = tips.sort_values(by = ['size'])

In [None]:
sns.scatterplot(
    tips,
    x= 'total_bill',
    y= 'tip',
    hue = 'size' # hue자리에는 범주형이 오는것이 좋다. 색깔때문에
    # 범례 정렬필수
)

In [None]:
sns.scatterplot(
    tips,
    x= 'sex',
    y= 'tip',
    # hue = 'size' # hue자리에는 범주형이 오는것이 좋다. 색깔때문에
    # 범례 정렬필수
)

### Bar Charts
args
  - hue: 그룹 별 다른 색상으로 plot
  - x: x를 쓰면 일반적인 수직 그래프
  - y: y를 쓰면 수평 그래프
  - kind='count': 빈도 계산
  - palette='pastel': 다양한 색상을 입힘
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
titanic = sns.load_dataset("titanic")

sns.catplot(
    data=titanic, 
    x="deck", hue="class", kind="count",
    palette="pastel",
)
```

In [None]:
titanic = sns.load_dataset('titanic')
titanic

In [None]:
titanic.deck.isnull().sum()

In [None]:
sns.countplot(
    titanic,
    x='deck',
    hue='sex'
)

### Line Charts

>  
x가 continous한 값이라면 일반적 시계열 모양 <br>
x가 중복된 값을 가지고 있으면 95% 신뢰구간을 표현 <br>
<br>
args
  - errorbar
    - None: 신뢰구간 제거
    - sd: 표준편차 신뢰구간
  - hue: 그룹 별 다른 색상으로 plot
  - style: 카테고리별 다른 그림으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
dowjones = sns.load_dataset("dowjones")
sns.relplot(data=dowjones, x="Date", y="Price", kind="line")

fmri = sns.load_dataset("fmri")
sns.relplot(data=fmri, x="timepoint", y="signal", kind="line")
```

In [None]:
dowjones = sns.load_dataset("dowjones")
dowjones

In [None]:
sns.lineplot(
    dowjones,
    x ='Date',
    y ='Price'
)

### Box Plots
>  
args
  - hue: 그룹 별 다른 색상으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")
sns.catplot(data=tips, x="day", y="total_bill")                           # 점도표
sns.catplot(data=tips, x="day", y="total_bill", kind="box")               # boxplot
sns.catplot(
  data=tips, x="total_bill", y="day", hue="sex", 
  kind="violin", split=True
  ) # violin
```

In [None]:
sns.boxplot(
    tips,
    x='sex',
    y='tip',
    hue='day'
)

### Histograms
>  
args
  - binwidth: 구간 범위 설정
  - hue: 그룹 별 다른 색상으로 plot
  - multiple: 다른 그룹을 어떻게 표현할지 설정
    - stack: 합하여 출력
    - dodge: 분리하여 출력
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot
  - stats: 어떤 통계지표로 출력할지 출력
    - density: 밀도 출력
    - probability: 확률 출력

```python
penguins = sns.load_dataset("penguins")
sns.displot(penguins, x="flipper_length_mm", binwidth=3, hue='species', multiple='dodge', stat='density')
```

In [None]:
sns.histplot(
    tips,
    x='tip'
)

# 분포를 확인할 때 쓰이게 됨
# 이거를 피는게 density?

In [None]:
sns.displot(
    tips,
    x='tip',
    kind='kde', #스무딩 방법중하나  y축에는 밀도가 들어가서 토탈합이 1이된다.
    hue= 'sex'
)

# 이 그래프만 봐서 tip의 차이를 구분할 수 없다.
# 그래프안에 그래프가 포함되어있기 때문이다. 유의미한 차이를 보려면 그래프가 서로 다른 곳에 있어야한다.
# 나중에 머신러닝이나 딥러닝 모델링 할 때 이런 변수는 버린다. 의미가 없음

In [None]:
sns.jointplot(
    tips,
    x='total_bill',
    y='tip',
    kind='kde',
    hue='sex'
)

# 등고선이 분리가 되어있어야 모델입장에서 남녀를 구분할 수 있다.
# 마찬가지로 그래프가 분리가 되어 있어야한다.


### Distplots
>args
  - kind: 어떤 타입을 출력할지 설정
    - kde: 커널 분포 출력
    - ecdf: 누적 분포 출력
  - hue: 그룹 별 다른 색상으로 plot
  - multiple: 다른 그룹을 어떻게 표현할지 설정
    - stack: 합하여 출력
    - dodge: 분리하여 출력
  - fill: bool: 면적을 채울지 설정

```python
sns.displot(penguins, x="flipper_length_mm", kind="kde")
```
<br>


**joint plot**
```python
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")

sns.jointplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="species",
    kind="kde"
)

```

### Heatmaps
> 
args
- cmap: colormap 설정
  - Blues
  - Reds
  - YlGnBu

```python
normal_data = np.random.randn(10, 12)
ax = sns.heatmap(normal_data)
```

In [None]:
normal_data = np.random.randn(10, 12)
ax = sns.heatmap(normal_data)

In [None]:
cor = sns.load_dataset('penguins').dropna().drop(columns=['species', 'island', 'sex']).corr()

## correllintion 은 두 변수간의 선형성
## corr이 높을수록 직선의 가까울 것이라고 생각 직접 확인 필요

In [None]:
sns.heatmap(
    cor
)

### Model
>
args
- y_jitter: y값의 출력 옵션 설정
- hue: 그룹 별 다른 색상으로 plot
- markers: 어떤 모양으로 표현할지 설정
- logistic: bool
  - True: logistic regression plot
- lowess
  - True: nonparametric regression by lowess
- col: 해당 컬럼의 값을 기준으로 분할하여 plot
- row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")
sns.lmplot(x="total_bill", y="tip", data=tips)

tips["big_tip"] = (tips.tip / tips.total_bill) > .15
sns.lmplot(x="total_bill", y="big_tip", data=tips, y_jitter=.03, logistic=True)
```
<br>

**joint plot**
```python
sns.jointplot(x="total_bill", y="tip", data=tips, kind="reg");
```

**pair plot**
```python
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             hue="smoker", height=5, kind="reg");
```

In [None]:
sns.lmplot(
    tips,
    x = 'total_bill',
    y = 'flex',
    logistic= True
)

In [None]:
tips['flex'] = tips.tip/tips.total_bill > 0.15

## plotly

reference: https://plotly.com/python/

In [2]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

### Bubble Charts
**px**

```ptyhon
df = px.data.gapminder()

fig = px.scatter(
  df.query("year==2007"), 
  x="gdpPercap", y="lifeExp",
  size="pop", color="continent",
  hover_name="country", 
  log_x=True, size_max=60)
fig.show()
```

**go**

```python
fig = go.Figure(
  data=[go.Scatter(    
    x=[1, 3.2, 5.4, 7.6, 9.8, 12.5],
    y=[1, 3.2, 5.4, 7.6, 9.8, 12.5],
    mode='markers',
    marker=dict(
      color=[120, 125, 130, 135, 140, 145],
      size=[15, 30, 55, 70, 90, 110],
      showscale=True
      ))])

fig.show()
```

px

In [None]:
px.scatter(
    tips,
    x= 'total_bill',
    y= 'tip',
    color='sex'
)

# EDA할 때 좋음

go

In [None]:
df = px.data.gapminder()

In [None]:
px.scatter(
    df,
    x = 'gdpPercap',
    y = 'lifeExp',
    color='continent',
    size='pop',
    log_x=True # x의 스케일이 너무 커서 로그를 줌
)

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(
        x=df.gdpPercap,
        y=df.lifeExp,
        mode='markers',
        #marker=dict(size=df['pop'].values)
    )
)

fig.show()

In [None]:
df.continent.unique() #개수

In [None]:
#fig.add_trace(
#    go.Scatter(
#        x=df.gdpPercap,
#       y=df.lifeExp,
#        mode='markers',
#        #marker=dict(size=df['pop'].values)
#        name='Asia'
# #   )
#)

fig = go.Figure()
for continent in df.continent.unique():
    fig.add_trace(
        go.Scatter(
            x=df.query(f'continent == "{continent}"').gdpPercap,
            y=df.query(f'continent == "{continent}"').lifeExp,
            mode='markers',
            #marker=dict(size=df['pop'].values)
            name=continent,
        )
    )

fig.show()

### Scatter Plots

**px**
  - color: 그룹 별 다른 색상으로 plot
  - marginal_x: 지정된 컬럼의 x축 주변부 분포 출력
  - marginal_y: 지정된 컬럼의 y축 주변부 분포 출력
  - facet_col: 지정된 컬럼별 그래프 column 출력
  - facet_row: 지정된 컬럼별 그래프 row 출력
  - trendline: plot의 모델링 결과 표시
    - ols: 회귀직선

```python
df = px.data.iris()

fig = px.scatter(
  df, x="sepal_width", y="sepal_length", color="species",
  size='petal_length', hover_data=['petal_width'])
fig.show()
```

**go**
```python
import plotly.graph_objects as go

fig = go.Figure(
  data=go.Scatter(
    x=[1, 2, 3, 4],
    y=[10, 11, 12, 13],
    mode='markers',
    marker=dict(
      size=[40, 60, 80, 100],
      color=[0, 1, 2, 3])
      )
    )

fig.show()
```

px

go

### Line Charts

**px**

args
  - markers: bool
    - True: line 상에 점 표시
  - color: 그룹 별 다른 색상으로 plot

```python
df = px.data.gapminder().query("continent == 'Oceania'")

fig = px.line(df, x='year', y='lifeExp', color='country')
fig.show()
```
<br>

**go**

args
  - markers: bool
    - True: line 상에 점 표시
  - color: 그룹 별 다른 색상으로 plot
  - name: legend에 표기될 이름

```python
N = 100
random_x = np.linspace(0, 1, N)
random_y0 = np.random.randn(N) + 5
random_y1 = np.random.randn(N)
random_y2 = np.random.randn(N) - 5

fig = go.Figure()

# Add traces
fig.add_trace(
  go.Scatter(
    x=random_x, y=random_y0,
    mode='markers',
    name='markers'
    )
    )
fig.add_trace(
  go.Scatter(
    x=random_x, y=random_y1,
    mode='lines+markers',
    name='lines+markers')
    )
fig.add_trace(
  go.Scatter(
    x=random_x, y=random_y2,
    mode='lines',
    name='lines')
    )

fig.show()
```

In [None]:
df

px

In [None]:
px.line(
    df,
    x='year',
    y='lifeExp',
    color='country'
)

go

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Scatter( # 이 라인에 적절한 API명 쓰기
        x= df.query('country == "Brazil"').year,
        y= df.query('country == "Brazil"').lifeExp,
        mode='lines+markers'

    )
) 
fig.show()

### Bar Charts

**px**

args
  - color: bar에 입력한 column별로 plot
  - barmode
    - stack: 누적
    - group: 분할
  - title: plot의 제목 입력
  - text_auto
    - True: 수치 표기
  - facet_col: 지정된 컬럼별 그래프 column 출력
  - facet_row: 지정된 컬럼별 그래프 row 출력
  
```python
long_df = px.data.medals_long()

fig = px.bar(
  long_df, x="nation", y="count", color="medal", title="Long-Form Input"
  )
fig.show()
```
<br>

**go**
args
  - barmode
    - stack: 누적
    - group: 분할


```python
months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun',
          'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']

fig = go.Figure()
fig.add_trace(
  go.Bar(
    x=months,
    y=[20, 14, 25, 16, 18, 22, 19, 15, 12, 16, 14, 17],
    name='Primary Product',
    marker_color='indianred'
    )
  )
fig.add_trace(go.Bar(
    x=months,
    y=[19, 14, 22, 14, 16, 19, 15, 14, 10, 12, 12, 16],
    name='Secondary Product',
    marker_color='lightsalmon'
    )
  )

fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

----------
# highlight

colors = ['lightslategray',] * 5
colors[1] = 'crimson'

fig = go.Figure(data=[go.Bar(
    x=['Feature A', 'Feature B', 'Feature C',
       'Feature D', 'Feature E'],
    y=[20, 14, 23, 25, 22],
    marker_color=colors 
)])

-------------
# compare

years = ['2016','2017','2018']

fig = go.Figure()
fig.add_trace(
  go.Bar(
    x=years, y=[500, 600, 700],
    base=[-500,-600,-700],
    marker_color='crimson',
    name='expenses')
    )
fig.add_trace(
  go.Bar(
    x=years, y=[300, 400, 700],
    base=0,
    marker_color='lightslategrey',
    name='revenue'
    )
  )

fig.show()
```

In [None]:
long_df = px.data.medals_long()
long_df

px

In [None]:
# go.bar()

px.bar(
    long_df,
    x= 'nation',
    y='count',
    color='medal',
    barmode='group' # 바를 위가 아닌 옆으로 붙임
)

go

### Box Plots


**px**

args
  - points
    - all: box plot과 데이터 분포를 같이 출력
  - color: 지정한 컬럼을 그룹으로 출력

```python
df = px.data.tips()

fig = px.box(df, x="day", y="total_bill", color="smoker")
fig.show()
```
<br>

**go**

args
  - name: legend에 표기될 이름
  - marker_color: box에 색을 입힘

```python
y0 = np.random.randn(50) - 1
y1 = np.random.randn(50) + 1

fig = go.Figure()
fig.add_trace(go.Box(y=y0))    
fig.add_trace(go.Box(y=y1))    


fig.add_trace(
  go.Box(
    y=y0, name='Sample A',
    marker_color = 'indianred')
    )       # 축을 바꾸기 위해서는 y->x로 입력 (horizontal)
fig.add_trace(
  go.Box(
    y=y1, name = 'Sample B',
    marker_color = 'lightseagreen')
    )       # 축을 바꾸기 위해서는 y->x로 입력 (horizontal)

fig.show()

--------------------------------------------------------
# grouped boxplot

x = ['day 1', 'day 1', 'day 1', 'day 1', 'day 1', 'day 1',
     'day 2', 'day 2', 'day 2', 'day 2', 'day 2', 'day 2']

fig = go.Figure()

fig.add_trace(
  go.Box(
    y=[0.2, 0.2, 0.6, 1.0, 0.5, 0.4, 0.2, 0.7, 0.9, 0.1, 0.5, 0.3],
    x=x,
    name='kale',
    marker_color='#3D9970'
))
fig.add_trace(
  go.Box(
    y=[0.6, 0.7, 0.3, 0.6, 0.0, 0.5, 0.7, 0.9, 0.5, 0.8, 0.7, 0.2],
    x=x,
    name='radishes',
    marker_color='#FF4136'
))
fig.add_trace(
  go.Box(
    y=[0.1, 0.3, 0.1, 0.9, 0.6, 0.6, 0.9, 1.0, 0.3, 0.6, 0.8, 0.5],
    x=x,
    name='carrots',
    marker_color='#FF851B'
))

fig.update_layout(
    yaxis_title='normalized moisture',
    boxmode='group'
fig.update_traces(orientation='h') # horizontal box plots    

fig.show()
```

In [None]:
df = px.data.tips()
df

px

In [None]:
px.box(
    df,
    x= 'day',
    y= 'tip',
    color='smoker'
)

go

### Pie Charts

**px**

args
  - names: 어떤 범주로 pie chart를 그릴 건지 설정
  - values: 비율을 산정할 컬럼

```python
df = px.data.gapminder().query("year == 2007").query("continent == 'Europe'")
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries' 
fig = px.pie(df, values='pop', names='country', title='Population of European continent')
fig.show()
```
<br>

**go**

args
  - hole: 도넛 모양을 만들 때 얼마나 구멍을 만들지 비율
  - pull: 일정 부분을 강조
  - scalegroup: 파이 크기 만큼 그래프를 조정

```python
labels = ['Oxygen','Hydrogen','Carbon_Dioxide','Nitrogen']
values = [4500, 2500, 1053, 500]

fig = go.Figure(
  data=[go.Pie(labels=labels, values=values, hole=.3, pull=[0, 0, 0.2, 0])]
  )
fig.show()

--------------
# 여러 파이 차트 그리기 
labels = ["US", "China", "European Union", "Russian Federation", "Brazil", "India", "Rest of World"]

fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'domain'}]])
fig.add_trace(go.Pie(labels=labels, values=[16, 15, 12, 6, 5, 4, 42], scalegroup='one', name="GHG Emissions"),
              1, 1)
fig.add_trace(go.Pie(labels=labels, values=[27, 11, 25, 8, 1, 3, 25], scalegroup='one', name="CO2 Emissions"),
              1, 2)

fig.update_traces(hole=.4, hoverinfo="label+percent+name")
```

In [None]:
df = px.data.gapminder()
df

px

In [None]:
px.pie(
    df.query("year == 2007 and continent == 'Europe'"),
    values='pop',
    names= 'country',
    title='Europe_POP'
    
)

go

### Histograms

**px**

args
  - color: 그룹 별 다른 색상으로 plot
  - category_order: 범주 순서 설정
  - log_y
    - True: log scale
  - nbins: 구간 수
  - bargap: bar간 간격
  - marginal: 데이터 분포 출력
    - rug
    - box
    - violin
  - text_auto
    - True: 값 출력

```python
df = px.data.tips()
fig = px.histogram(df, x="total_bill", category_orders=dict(day=["Thur", "Fri", "Sat", "Sun"])
fig.update_layout(bargap=0.2)
fig.show()
```
<br>

**go**

args
  - histnorm
    - probability: normalized
  - barmode
    - overlay: 그래프를 겹쳐서 plot
    - stack: 그래프를 쌓아서 plot

```python
x0 = np.random.randn(500)
x1 = np.random.randn(500) + 1

fig = go.Figure()
fig.add_trace(go.Histogram(x=x0))
fig.add_trace(go.Histogram(x=x1))

fig.update_layout(barmode='overlay')
fig.update_traces(opacity=0.75)
fig.show()
```

px

In [None]:
px.histogram(
    df,
    x='lifeExp',
    color='continent',
)

go

### Distplots
**ff**

args
  - curve_type
    - kde: kernel density estimation
    - normal: 정규분포
  - bin_size: 그룹별 bin 크기 조절 
  - show_hist
    - False: 막대그래프를 출력하지 않음
  - show_curve
    - False: curve 그래프를 출력하지 않음
  - show_rug
    - False: 분포 그래프를 출력하지 않음

```python
x1 = np.random.randn(200) - 2
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2
x4 = np.random.randn(200) + 4

hist_data = [x1, x2, x3, x4]

group_labels = ['Group 1', 'Group 2', 'Group 3', 'Group 4']
fig = ff.create_distplot(hist_data, group_labels, bin_size=[.1, .25, .5, 1])
fig.show()
--------------------
# pandas
df = pd.DataFrame({
  '2012': np.random.randn(200),
  '2013': np.random.randn(200) + 1
  })
fig = ff.create_distplot([df[c] for c in df.columns], df.columns, bin_size=.25)
fig.show()
```


In [None]:
df.continent.unique()

In [None]:
hist_data = [
    df.query('continent == "Asia"').lifeExp,
    df.query('continent == "Europe"').lifeExp,
    df.query('continent == "Africa"').lifeExp,
    df.query('continent == "Americas"').lifeExp,
    df.query('continent == "Oceania"').lifeExp,

 ]

In [None]:
group_lables = df.continent.unique()

In [None]:
hist_data = [df.query(f'continent == "{continent}"').lifeExp for continent in group_lables]

In [None]:
group_lables = df.continent.unique()

In [None]:
fig = ff.create_distplot(
    hist_data,
    group_lables,
    show_hist=False,
)

fig.show()

### Heatmaps

**px**
```python
import plotly.express as px

df = px.data.medals_wide(indexed=True, text_auto=True)
fig = px.imshow(df)
fig.show()
```
<br>

**go**
```python
import plotly.graph_objects as go

fig = go.Figure(
  data=go.Heatmap(
    z=[[1, None, 30, 50, 1], [20, 1, 60, 80, 30], [30, 60, 1, -10, 20]],
    x=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday'],
    y=['Morning', 'Afternoon', 'Evening'],
    hoverongaps = False)
    )
fig.show()
```

In [None]:
df.iloc[:, :1]

px

In [None]:
import plotly.express as px

df = px.data.medals_wide(indexed=True)
fig = px.imshow(df)
fig.show()

go

### Time Series and Date Axes

```python
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')

fig = px.line(
  df, x='Date', y='AAPL.High', title='Time Series with Range Slider and Selectors'
  )

fig.update_xaxes(
    rangeslider_visible=True,
    rangeselector=dict(
        buttons=list([
            dict(count=1, label="1m", step="month", stepmode="backward"),
            dict(count=6, label="6m", step="month", stepmode="backward"),
            dict(count=1, label="YTD", step="year", stepmode="todate"),
            dict(count=1, label="1y", step="year", stepmode="backward"),
            dict(step="all")
        ])
    )
)
fig.show()
```

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')
df

In [6]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')

fig = px.line(
  df, x='Date', y='AAPL.High', title='Time Series with Range Slider and Selectors'
  )

fig.update_xaxes(
    rangeslider_visible=True,
    rangeselector=dict(
        buttons=list([
            dict(count=1, label="1m", step="month", stepmode="backward"),
            dict(count=2, label="6m", step="month", stepmode="backward"),
            dict(count=3, label="YTD", step="year", stepmode="todate"), # 연초부터 현재까지 데이터의 표현
            dict(count=4, label="1y", step="year", stepmode="backward"),
            dict(step="all")
        ])
    )
)
fig.show()

In [None]:
df.isna().sum()

In [None]:
df['신장(5cm단위)'].isnull().sum()

In [None]:
df['신장(5cm단위)'].duplicated().sum()

In [None]:
df['신장']= df['신장(5cm단위)'].value_counts()

In [None]:
[df.query(f'신장(5cm단위)')]

In [None]:
# 신장을 5cm 단위로 하여 그 숫자를 센 후 숫자를 나타내는 plot그리기

cm = px.bar(
    df['신장']
    
    
)

cm.show()


In [9]:
df = pd.read_csv('./국민건강보험공단_건강검진정보_2023.csv', encoding='cp949')
df

Unnamed: 0,기준년도,가입자일련번호,시도코드,성별코드,연령대코드(5세단위),신장(5cm단위),체중(5kg단위),허리둘레,시력(좌),시력(우),...,혈청지피티(ALT),감마지티피,흡연상태,음주여부,구강검진수검여부,치아우식증유무,결손치 유무,치아마모증유무,제3대구치(사랑니) 이상,치석
0,2023,34735,46,2,9,155,70,92.0,1.2,1.2,...,24.0,50.0,1.0,1.0,0,,,,,
1,2023,4105118,11,1,17,160,55,86.0,0.9,9.9,...,11.0,31.0,1.0,1.0,0,,,,,
2,2023,362482,36,2,13,150,65,96.0,1.0,0.8,...,29.0,24.0,1.0,1.0,0,,,,,
3,2023,653166,11,1,13,160,70,85.0,1.0,1.2,...,21.0,27.0,3.0,1.0,1,0.0,,,,0.0
4,2023,4152237,41,1,12,165,65,84.5,1.0,1.2,...,33.0,49.0,3.0,1.0,0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999995,2023,3265034,26,1,8,170,65,78.0,1.2,1.0,...,13.0,22.0,1.0,1.0,1,0.0,,,,1.0
999996,2023,1421865,41,1,10,165,80,96.1,0.9,1.2,...,65.0,160.0,2.0,1.0,0,,,,,
999997,2023,3889375,41,2,11,155,65,87.0,0.5,0.7,...,26.0,25.0,1.0,1.0,0,,,,,
999998,2023,2618086,41,2,7,160,55,69.0,1.0,1.2,...,20.0,16.0,1.0,0.0,0,,,,,


In [14]:
df.isna().sum()

기준년도                   0
가입자일련번호                0
시도코드                   0
성별코드                   0
연령대코드(5세단위)            0
신장(5cm단위)              0
체중(5kg단위)              0
허리둘레                 411
시력(좌)                184
시력(우)                177
청력(좌)                137
청력(우)                138
수축기혈압               5747
이완기혈압               5747
식전혈당(공복혈당)          5814
총콜레스테롤            661394
트리글리세라이드          661394
HDL콜레스테롤          661394
LDL콜레스테롤          667247
혈색소                 5817
요단백                11156
혈청크레아티닌             5814
혈청지오티(AST)          5816
혈청지피티(ALT)          5816
감마지티피               5813
흡연상태                  89
음주여부                  56
구강검진수검여부               0
치아우식증유무           653152
결손치 유무           1000000
치아마모증유무          1000000
제3대구치(사랑니) 이상    1000000
치석                653152
dtype: int64

In [16]:
df.isnull().sum()

기준년도                   0
가입자일련번호                0
시도코드                   0
성별코드                   0
연령대코드(5세단위)            0
신장(5cm단위)              0
체중(5kg단위)              0
허리둘레                 411
시력(좌)                184
시력(우)                177
청력(좌)                137
청력(우)                138
수축기혈압               5747
이완기혈압               5747
식전혈당(공복혈당)          5814
총콜레스테롤            661394
트리글리세라이드          661394
HDL콜레스테롤          661394
LDL콜레스테롤          667247
혈색소                 5817
요단백                11156
혈청크레아티닌             5814
혈청지오티(AST)          5816
혈청지피티(ALT)          5816
감마지티피               5813
흡연상태                  89
음주여부                  56
구강검진수검여부               0
치아우식증유무           653152
결손치 유무           1000000
치아마모증유무          1000000
제3대구치(사랑니) 이상    1000000
치석                653152
dtype: int64

In [18]:
df.dropna(subset=['시력(좌)', '시력(우)'])

Unnamed: 0,기준년도,가입자일련번호,시도코드,성별코드,연령대코드(5세단위),신장(5cm단위),체중(5kg단위),허리둘레,시력(좌),시력(우),...,혈청지피티(ALT),감마지티피,흡연상태,음주여부,구강검진수검여부,치아우식증유무,결손치 유무,치아마모증유무,제3대구치(사랑니) 이상,치석
0,2023,34735,46,2,9,155,70,92.0,1.2,1.2,...,24.0,50.0,1.0,1.0,0,,,,,
1,2023,4105118,11,1,17,160,55,86.0,0.9,9.9,...,11.0,31.0,1.0,1.0,0,,,,,
2,2023,362482,36,2,13,150,65,96.0,1.0,0.8,...,29.0,24.0,1.0,1.0,0,,,,,
3,2023,653166,11,1,13,160,70,85.0,1.0,1.2,...,21.0,27.0,3.0,1.0,1,0.0,,,,0.0
4,2023,4152237,41,1,12,165,65,84.5,1.0,1.2,...,33.0,49.0,3.0,1.0,0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999995,2023,3265034,26,1,8,170,65,78.0,1.2,1.0,...,13.0,22.0,1.0,1.0,1,0.0,,,,1.0
999996,2023,1421865,41,1,10,165,80,96.1,0.9,1.2,...,65.0,160.0,2.0,1.0,0,,,,,
999997,2023,3889375,41,2,11,155,65,87.0,0.5,0.7,...,26.0,25.0,1.0,1.0,0,,,,,
999998,2023,2618086,41,2,7,160,55,69.0,1.0,1.2,...,20.0,16.0,1.0,0.0,0,,,,,


In [23]:
data = df[['시력(좌)', '시력(우)']]

In [51]:
(data.stack().reset_index().rename(columns=[{'level_1': '좌우', 0 : '시력' }]))

TypeError: unhashable type: 'dict'

In [54]:
df['혈청지피티(ALT)']

0         24.0
1         11.0
2         29.0
3         21.0
4         33.0
          ... 
999995    13.0
999996    65.0
999997    26.0
999998    20.0
999999    21.0
Name: 혈청지피티(ALT), Length: 1000000, dtype: float64

In [74]:
df['혈청지피티(ALT)'].dropna()

In [80]:
##3 혈청지피티(ALT)의 흡연상태에 따른 분포 출력


px.histogram(
    df.query('`혈청지피티(ALT)` < 200'),
    x='혈청지피티(ALT)',
    #y='흡연상태',
    color='흡연상태',
    #log_x= True,

)