# 6-2. Plotly Express

## 강의소개

이번 시간에는 Interactive Visualization을 파이썬으로 실습하는 시간을 가져보겠습니다.

앞 강의에서 언급한 Plotly Express를 사용할 예정입니다.

기본 플롯(Scatter, Bar, Line)부터 Seaborn에서 다루었던 다양한 차트까지 구현해보면서 Interactive 시각화의 기본을 익혀보세요.

## Further Reading

- [Plotly Express API docs](https://plotly.com/python-api-reference/plotly.express.html)

## 0. Plotly Express

- plotly의 단순화 버전
    - 간단한 interactive
- 유연한 input (list, dict, DataFrame, GeoDataFrame)
- 적절한 color encoding
- Facet 등 seaborn의 기능 대다수 제공
- 그 외 다수 plotly에서 제공하는 유용한 시각화 제공
- 3D, animation 제공


## 1. Install Plotly

In [11]:
!pip install plotly==4.14.3



In [None]:
!pip install plotly statsmodels



In [12]:
import plotly
import plotly.express as px 
print(plotly.__version__)
import seaborn as sns

4.14.3


In [13]:
iris = px.data.iris() 
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


## 2. Scatter, Bar, Line

기본 플롯을 먼저 보며 plotly express의 기본적인 concept를 살펴보겠습니다.

### 2-1. Scatter

seaborn과 마찬가지로 기본요소 4가지를 사용할 수 있습니다.

- x
- y
- size
- color

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                #  size='sepal_length',
                #  color='species',             
            )

fig.show()

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 size='sepal_length', # size 지정
#                 color='species',             
            )

fig.show()

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 size='sepal_length',
                 color='species', # color 지정        
            )

fig.show()

matplotlib에서 set_xlim과 set_ylim으로 해주었던 내용을 다음과 같이 조정할 수 있습니다.

- range_x
- range_y

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',

                 range_x=[4, 8],
                 range_y=[0, 7],
)

fig.show()

seaborn에서 jointplot에서 사용했던 각 축에 대한 분포는 다음과 같이 살펴볼 수 있습니다.

- marginal_x
- marginal_y

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
       
#                  marginal_y="violin",
                 marginal_x="box", 
)

fig.show()

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
       
                  marginal_y="violin",
#                 marginal_x="box", 
)

fig.show()

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
       
                  marginal_y="violin",
                  marginal_x="box", 
)

fig.show()

각 데이터에 대한 정보량도 다음과 같이 조정할 수 있습니다.

- hover_data
- hover_name

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',

                 hover_data=['sepal_width', 'petal_width'],
                 hover_name='species'
                             
            )

fig.show()

회귀선도 그려줄 수 있습니다.

- trendline


In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
                 trendline="ols",  # 회귀선
               
            )

fig.show()


pandas.util.testing is deprecated. Use the functions in the public API at pandas.testing instead.



Facet Grid의 기능도 한번에 포함하고 있습니다.

- facet_col
- facet_row

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
#                  facet_col='species',
                 facet_row='species',           
               
            )

fig.show()

In [None]:
fig = px.scatter(iris, 
                 x='sepal_length',
                 y='petal_length',
                 color='species',
                 facet_col='species',
#                 facet_row='species',           
               
            )

fig.show()

### 2-2. Line

In [None]:
flights = sns.load_dataset('flights')
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [None]:
fig = px.line(flights, 
              x='year',
              y='passengers',
              color='month',
            )

fig.show()

### 2-3. Bar

In [None]:
medals = px.data.medals_long()
medals

Unnamed: 0,nation,medal,count
0,South Korea,gold,24
1,China,gold,10
2,Canada,gold,9
3,South Korea,silver,13
4,China,silver,15
5,Canada,silver,12
6,South Korea,bronze,11
7,China,bronze,8
8,Canada,bronze,12


In [None]:
fig = px.bar(medals, 
             x="nation", 
             y="count", 
             color="medal")

fig.show()

In [None]:
medals_wide = px.data.medals_wide()
medals_wide

Unnamed: 0,nation,gold,silver,bronze
0,South Korea,24,13,11
1,China,10,15,8
2,Canada,9,12,12


In [None]:
fig = px.bar(medals_wide, 
             x="nation", 
             y=["gold", "silver", "bronze"], 
             )

fig.show()

In [None]:
fig = px.bar(medals, 
             x="nation", 
             y="count", 
             color="medal",
             barmode="group", # barmode default = stack
            )

fig.show()

## 3. 다양한 차트

seaborn의 다양한 내용과 겹치고. 필요에 따라 보면 좋습니다.

- `hist` : `histogram`, `density_heatmap`
- `kdeplot` : `density_contour`
- `boxplot` : `box`
- `violinplot` : `violin`
- `stripplot` : `strip` 
- `heatmap` : `imshow`
- `pairplot` : `scatter_matrix`

plotly에서만 제공하거나, 사용하기 편리한 내용을 살펴보겠습니다.


### 3-1. Part-of-Whole

데이터를 트리 구조로 살필 때 유용한 시각화 방법론입니다.

- Sunburst
- Treemap

In [None]:
tips = px.data.tips()
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


- 성별 또는 흡연여부에 따라서 계층적으로 데이터를 분류했을 때 각각의 분포가 어떻게 될까?

In [None]:
fig = px.sunburst(tips, 
                  path=['day', 'time', 'sex'], 
                  values='total_bill')
fig.show()

In [None]:
fig = px.treemap(tips, 
                  path=['day', 'time', 'sex'], 
                  values='total_bill')
fig.show()

### 3-2. 3-Dimensional

In [15]:
fig = px.scatter_3d(iris, 
                    x='sepal_length',
                    y='sepal_width', 
                    z='petal_width',
#                    symbol='species',
                    color='species')
fig.show()

In [14]:
fig = px.scatter_3d(iris, 
                    x='sepal_length',
                    y='sepal_width', 
                    z='petal_width',
                    symbol='species', # 모양 지정
                    color='species')
fig.show()

### 3-3. Multidimensional 

다차원 데이터를 시각화하는 또 다른 방법론입니다.

- parallel_coordinates
- parallel_categories

In [16]:
fig = px.parallel_coordinates(iris, 
                              color="species_id", 
#                              color_continuous_scale=px.colors.diverging.Tealrose,
                             )
fig.show()


In [17]:
fig = px.parallel_coordinates(iris, 
                              color="species_id", 
                              color_continuous_scale=px.colors.diverging.Tealrose,
                             )
fig.show()


In [18]:
tips = px.data.tips()
tips['sex'] = tips['sex'].apply(lambda x : 'red' if x=='Female' else 'gray')
fig = px.parallel_categories(tips, color='sex')
fig.show()

### 3-4. Geo

- scatter_geo
- choropleth

In [19]:
geo = px.data.gapminder()#.query("year == 2007")
geo.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


In [20]:
fig = px.scatter_geo(geo, 
                     locations="iso_alpha", # 국가 코드
                     color="continent", 
                     size="pop", # 인구수로 사이즈 지정
                     animation_frame="year",
                     projection="natural earth") # 직사각형으로 그릴 때 발생하는 오차 보완
fig.show()

In [21]:
fig = px.choropleth(geo, 
                     locations="iso_alpha",
                     color="continent", 
                     projection="natural earth")
fig.show()