# px.histogram()
- `데이터의 분포를 시각적으로 나타낼 때 사용. 예를 들어, 고객 연령대 분포, 제품 가격대 분포 등 데이터의 빈도수를 보여주는 데 적합함.`

```python
import plotly.express as px

# 히스토그램 생성
fig = px.histogram(
    df,  # 사용할 데이터셋
    x='col_1',  # x축에 사용할 열 이름
    color='col_2',  # 색상으로 구분할 카테고리 열 이름
    barmode='stack/overlay/group',  # 막대 모드 설정 (group/overlay/stack 중 선택)
    marginal="rug", # margin에 추가적인 데이터 포인트 분포 표시
    title='histogram',  # 히스토그램의 제목
    # nbins= 10  # 막대의 개수
)

# 히스토그램 표시
fig.show()
```


In [1]:
import pandas as pd
import plotly.express as px

In [2]:
df = pd.DataFrame( {"value":  [1,2,3,4,4,5,6,]})
df['category'] = 'Regular'
df.at[len(df) - 1, 'category'] = 'Last'  # 마지막 데이터에 대한 표시
fig = px.histogram(df, x='value', color='category', height = 300 , width = 400, nbins = len(df) , title ='히스토그램 생성' )
fig.update_layout(xaxis_title="데이터의 구간(또는 'bin')", yaxis_title="구간에 속하는 데이터의 빈도수")
fig.show()
df.value.value_counts().sort_index()

Unnamed: 0_level_0,count
value,Unnamed: 1_level_1
1,1
2,1
3,1
4,2
5,1
6,1


In [3]:
import seaborn as sns

iris = sns.load_dataset('iris')

In [6]:
import plotly.express as px

# 히스토그램 생성
fig = px.histogram(
    iris,  # 사용할 데이터셋
    x='sepal_length',  # x축에 사용할 열 이름
    color='species',  # 색상으로 구분할 카테고리 열 이름
    barmode='group',  # 막대 모드 설정 (group/overlay/stack 중 선택)
    marginal="rug", # margin에 추가적인 데이터 포인트 분포 표시
    title='histogram',  # 히스토그램의 제목
    nbins= 10  # 막대의 개수
)

# 히스토그램 표시
fig.show()

# add_vline/vrect/annotation, update_xaxes
```python

# 세로선 추가
fig.add_vline(
    x=20,  # 세로선의 x축 위치
    line_color="red/blue/green"  # 선의 색상
)
# 가로선 추가
fig.add_hline(
    y=20,  # 가로선의 y축 위치
    line_color="red/blue/green"  # 선의 색상
)

# 주석 추가
fig.add_annotation(
    x=20 ,  # 주석의 x축 위치
    y=30 ,  # 주석의 y축 위치
    text="텍스트"  # 표시할 텍스트
)

# 세로 스팬 추가
fig.add_vrect(
    x0='20',  # 스팬의 시작 x축 위치
    x1='2019-03-15',  # 스팬의 종료 x축 위치
    fillcolor="red/blue/green",  # 스팬의 색상
    opacity=0.5,  # 스팬의 불투명도
)

# x축 범위 설정 (예: 0부터 20까지)
fig.update_xaxes(range=[0, 20])

# y축 범위 설정 (예: -5부터 5까지)
fig.update_yaxes(range=[-5, 5])
```

In [12]:
# 히스토그램 생성
fig = px.histogram(
    iris,  # 사용할 데이터셋
    x='sepal_length',  # x축에 사용할 열 이름
    # color='col_2',  # 색상으로 구분할 카테고리 열 이름
    # barmode='stack/overlay/group',  # 막대 모드 설정 (group/overlay/stack 중 선택)
    # marginal="rug", # margin에 추가적인 데이터 포인트 분포 표시
    # title='histogram',  # 히스토그램의 제목
    nbins= 30  # 막대의 개수
)

# 세로선 추가
fig.add_vline(
    x=6,  # 세로선의 x축 위치
    # line_color="red/blue/green"  # 선의 색상
)

# 가로선 추가
fig.add_hline(
    y=6,  # 가로선의 y축 위치
    # line_color="red/blue/green"  # 선의 색상
)

# 주석 추가
fig.add_annotation(
    x=6 ,  # 주석의 x축 위치
    y=15 ,  # 주석의 y축 위치
    text="텍스트"  # 표시할 텍스트
)


# 세로 스팬 추가
fig.add_vrect(
    x0='5.5',  # 스팬의 시작 x축 위치
    x1='6.5',  # 스팬의 종료 x축 위치
    fillcolor="red",  # 스팬의 색상
    opacity=0.2,  # 스팬의 불투명도
)

fig.add_hrect(
    y0='15',  # 스팬의 시작 x축 위치
    y1='10',  # 스팬의 종료 x축 위치
    fillcolor="green",  # 스팬의 색상
    opacity=0.2,  # 스팬의 불투명도
)

# 히스토그램 표시
fig.show()

In [20]:
fig = px.histogram(
    iris,
    x = "sepal_length",
    height = 500,
    width = 700
)
avg = iris.sepal_length.mean()

fig.add_vline(
    x = avg
)
fig.add_annotation(
    x = avg
    , y = 30
    , text = f"{avg:.2f}"
)

std  = iris.sepal_length.std()

fig.add_vrect(
    x0 = avg - std
    , x1 = avg + std
    , fillcolor = "red"
    , opacity = 0.2
)

fig.show()


# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요

[문제]
- Seaborn 라이브러리를 사용하여 Iris 데이터셋을 로드합니다.
- for 루프를 사용하여 각 species 별로 별도의 히스토그램을 생성합니다.
- 각 히스토그램은 sepal_length를 x축으로 하고, y축은 빈도수를 나타냅니다.
- 각 히스토그램의 x축 범위는 3에서 10까지, y축 범위는 0에서 12까지로 고정합니다.
- 각 히스토그램에는 해당 species의 sepal_length 평균값을 나타내는 세로선을 추가합니다 (선의 색상은 빨간색으로 설정).
- 평균값 위에 주석을 추가하여 평균값을 표시합니다.
- 각 히스토그램에 평균 ± 표준편차 범위를 나타내는 세로 스팬을 추가합니다 (스팬의 색상은 녹색, 불투명도는 0.3으로 설정).
- 생성된 히스토그램을 표시합니다.
- 힌트
  - Seaborn의 load_dataset 함수를 사용하여 Iris 데이터셋을 로드할 수 있습니다.
  - Plotly Express의 histogram 함수를 사용하여 히스토그램을 생성할 수 있습니다.
  - add_vline 메서드를 사용하여 히스토그램에 세로선을, add_vrect 메서드를 사용하여 세로 스팬을 추가할 수 있습니다.


In [33]:
iris[iris.species == "setosa"]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [41]:
for i in iris.species.unique():
    data = iris[iris.species == i]

    # 히스토그램 생성
    fig = px.histogram(
    data,  # 사용할 데이터셋
    x='sepal_length',  # x축에 사용할 열 이름
    # color='col_2',  # 색상으로 구분할 카테고리 열 이름
    barmode='stack',  # 막대 모드 설정 (group/overlay/stack 중 선택)
    # marginal="rug", # margin에 추가적인 데이터 포인트 분포 표시
    title=i,  # 히스토그램의 제목
    # nbins= 10  # 막대의 개수
    width = 500,
    height = 400
    )
    # x축 범위 설정 (예: 0부터 20까지)
    fig.update_xaxes(range=[3, 10])

    # y축 범위 설정 (예: -5부터 5까지)
    fig.update_yaxes(range=[0, 12])

    avg = data.sepal_length.mean()

    # 세로선 추가
    fig.add_vline(
    x=avg,  # 세로선의 x축 위치
    line_color="red"  # 선의 색상
    )

    # 주석 추가
    fig.add_annotation(
    x=avg ,  # 주석의 x축 위치
    y=avg ,  # 주석의 y축 위치
    text= avg # 표시할 텍스트
    )

    std  = data.sepal_length.std()

    fig.add_vrect(
    x0 = avg - std
    , x1 = avg + std
    , fillcolor = "green"
    , opacity = 0.3
    )


    # 히스토그램 표시
    fig.show()