# 여유 있을 때 배우면 좋은 것

- SQL
- Tablou

# 1. 시각화 라이브러리 불러오기

```python
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib_inline.backend_inline 

# 그래프의 폰트 출력을 선명하게 (png2x ,svg, retina 등이 있음)
matplotlib_inline.backend_inline.set_matplotlib_formats("png2x")

# 테마 설정: "default", "classic", "dark_background", "fivethirtyeight", "seaborn"
mpl.style.use("tableau-colorblind10")

# 이미지가 레이아웃 안으로 들어오도록 함
# https://matplotlib.org/stable/users/explain/axes/constrainedlayout_guide.html
mpl.rcParams.update({"figure.constrained_layout.use": True})

# 가능한 스타일 확인해보기
# mpl.style.available
```

- 한글, 마이너스 깨짐 확인
    
    ```python
    # 로컬에서(Window) 
    
    plt.rc("font", family = "Malgun Gothic")
    plt.rcParams["axes.unicode_minus"] = False
    ```
    

# 2. datasaurus (데이터의 숫자만 보고 판단하지 않기!)

```python
datasaurus = pd.read_csv("../datas/datasaurus.csv", encoding="utf-8")

#그림은 다르지만 통계적 수치는 비슷하다. 즉 통계적 수치만 보고 데이터를 판단하지말라!
# 데이터는 항상 시각적으로 확인해 보고 판단하라!!!
datasaurus.groupby(["dataset"]).agg(["mean","std"]).head()
```

|  | **x** |  | **y** |  |
| --- | --- | --- | --- | --- |
|  | **mean** | **std** | **mean** | **std** |
| **dataset** |  |  |  |  |
| away | 54.266100 | 16.769825 | 47.834721 | 26.939743 |
| bullseye | 54.268730 | 16.769239 | 47.830823 | 26.935727 |
| circle | 54.267320 | 16.760013 | 47.837717 | 26.930036 |
| dino | 54.263273 | 16.765142 | 47.832253 | 26.935403 |
| dots | 54.260303 | 16.767735 | 47.839829 | 26.930192 |

자료들의 통계 값 은 비슷하나 실제 그래프는 다르다. 항상 확인해 볼 것!

![0fdc5106-8160-4e4d-a516-1a15925529a3.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/6c2b4fd3-a770-4afc-b9b9-204291a0f669/0fdc5106-8160-4e4d-a516-1a15925529a3.png)

# 3. 카토 그램

- 특정 데이터 값에 따라 왜곡 된 그림, 항상 주의 해야 한다.
    - 3D로 된 도표 등
    - 선거철때 인구 수가 아닌 지역 너비로 그림은 만든 그림 등

# 4. Matplotlib

- `code`
    
    ```python
    import matplotlib.pyplot as plt
    import numpy as np
    
    from matplotlib.patches import Circle
    from matplotlib.patheffects import withStroke
    from matplotlib.ticker import AutoMinorLocator, MultipleLocator
    
    royal_blue = [0, 20/256, 82/256]
    
    # make the figure
    
    np.random.seed(19680801)
    
    X = np.linspace(0.5, 3.5, 100)
    Y1 = 3+np.cos(X)
    Y2 = 1+np.cos(1+X/0.75)/2
    Y3 = np.random.uniform(Y1, Y2, len(X))
    
    fig = plt.figure(figsize=(7.5, 7.5))
    ax = fig.add_axes([0.2, 0.17, 0.68, 0.7], aspect=1)
    
    ax.xaxis.set_major_locator(MultipleLocator(1.000))
    ax.xaxis.set_minor_locator(AutoMinorLocator(4))
    ax.yaxis.set_major_locator(MultipleLocator(1.000))
    ax.yaxis.set_minor_locator(AutoMinorLocator(4))
    ax.xaxis.set_minor_formatter("{x:.2f}")
    
    ax.set_xlim(0, 4)
    ax.set_ylim(0, 4)
    
    ax.tick_params(which='major', width=1.0, length=10, labelsize=14)
    ax.tick_params(which='minor', width=1.0, length=5, labelsize=10,
                   labelcolor='0.25')
    
    ax.grid(linestyle="--", linewidth=0.5, color='.25', zorder=-10)
    
    ax.plot(X, Y1, c='C0', lw=2.5, label="Blue signal", zorder=10)
    ax.plot(X, Y2, c='C1', lw=2.5, label="Orange signal")
    ax.plot(X[::3], Y3[::3], linewidth=0, markersize=9,
            marker='s', markerfacecolor='none', markeredgecolor='C4',
            markeredgewidth=2.5)
    
    ax.set_title("Anatomy of a figure", fontsize=20, verticalalignment='bottom')
    ax.set_xlabel("x Axis label", fontsize=14)
    ax.set_ylabel("y Axis label", fontsize=14)
    ax.legend(loc="upper right", fontsize=14)
    
    # Annotate the figure
    
    def annotate(x, y, text, code):
        # Circle marker
        c = Circle((x, y), radius=0.15, clip_on=False, zorder=10, linewidth=2.5,
                   edgecolor=royal_blue + [0.6], facecolor='none',
                   path_effects=[withStroke(linewidth=7, foreground='white')])
        ax.add_artist(c)
    
        # use path_effects as a background for the texts
        # draw the path_effects and the colored text separately so that the
        # path_effects cannot clip other texts
        for path_effects in [[withStroke(linewidth=7, foreground='white')], []]:
            color = 'white' if path_effects else royal_blue
            ax.text(x, y-0.2, text, zorder=100,
                    ha='center', va='top', weight='bold', color=color,
                    style='italic', fontfamily='monospace',
                    path_effects=path_effects)
    
            color = 'white' if path_effects else 'black'
            ax.text(x, y-0.33, code, zorder=100,
                    ha='center', va='top', weight='normal', color=color,
                    fontfamily='monospace', fontsize='medium',
                    path_effects=path_effects)
    
    annotate(3.5, -0.13, "Minor tick label", "ax.xaxis.set_minor_formatter")
    annotate(-0.03, 1.0, "Major tick", "ax.yaxis.set_major_locator")
    annotate(0.00, 3.75, "Minor tick", "ax.yaxis.set_minor_locator")
    annotate(-0.15, 3.00, "Major tick label", "ax.yaxis.set_major_formatter")
    annotate(1.68, -0.39, "xlabel", "ax.set_xlabel")
    annotate(-0.38, 1.67, "ylabel", "ax.set_ylabel")
    annotate(1.52, 4.15, "Title", "ax.set_title")
    annotate(1.75, 2.80, "Line", "ax.plot")
    annotate(2.25, 1.54, "Markers", "ax.scatter")
    annotate(3.00, 3.00, "Grid", "ax.grid")
    annotate(3.60, 3.58, "Legend", "ax.legend")
    annotate(2.5, 0.55, "Axes", "fig.subplots")
    annotate(4, 4.5, "Figure", "plt.figure")
    annotate(0.65, 0.01, "x Axis", "ax.xaxis")
    annotate(0, 0.36, "y Axis", "ax.yaxis")
    annotate(4.0, 0.7, "Spine", "ax.spines")
    
    # frame around figure
    fig.patch.set(linewidth=4, edgecolor='0.5')
    plt.show()
    ```
    

![60a7aa75-a4ad-4588-81dd-f591f9ee0574.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/2bce14be-eead-4977-99bd-0c64be1f4522/60a7aa75-a4ad-4588-81dd-f591f9ee0574.png)

## 선 그래프

- [matplotlib.axes.Axes.plot — Matplotlib 3.9.0 documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.plot.html)
    
    ```python
    fig, ax = plt.subplots()
    ax.plot()
    ```
    

## 산점도 그래프

- [matplotlib.pyplot.scatter — Matplotlib 3.9.0 documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html)
    
    ```python
    fig, ax = plt.subplots()
    ax.scatter()
    ```
    
    - `예시`
        
        ```python
        # 마커의 색으로 표현
        fig, ax = plt.subplots(figsize=(4, 4))
        
        # "PetalWidthCm"를 반영한 마커 크기 정의
        marker_size_factor = (plt.rcParams["lines.markersize"] ** 2 / iris[feature_additional].mean())
            
        pc = ax.scatter(iris[feature_x],
                        iris[feature_y],
                        c=iris[feature_additional],
                        s = marker_size_factor * iris[feature_additional],
                        cmap='viridis',
                        alpha=0.7)
            
        ax.set(xlabel=feature_x,
               ylabel=feature_y,
               title=f"{feature_additional}을 마커 크기와 색으로 표현");
        
        colorbar = fig.colorbar(pc, label=feature_additional)
        ```
        
        ![9c7033c1-6f94-4e7c-a91d-56a881192511.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/ca394ac2-5018-4c7b-a599-e55fa7f1329e/9c7033c1-6f94-4e7c-a91d-56a881192511.png)
        

## 막대 그래프

- `자료 만드는 코드`
    
    ```python
    film_title = [
        "명량",
        "극한직업",
        "신과함께-죄와 벌",
        "국제시장",
        "어벤져스: 엔드게임",
        "겨울왕국 2",
        "베테랑",
        "아바타",
    ]
    
    admissions = [
        17_613_682,
        16_264_944,
        14_410_754,
        14_257_115,
        13_934_592,
        13_747_792,
        13_414_372,
        13_338_863,
    ]
    ```
    

```python
from matplotlib.ticker import FuncFormatter
admissions_formatter = FuncFormatter(lambda x, pos: f"{x / 10000:,.0f}만")

fig, ax = plt.subplots()

ax.barh(film_title, admissions)
ax.xaxis.set_tick_params(length=0)
ax.xaxis.set_major_formatter(admissions_formatter)
ax.invert_yaxis()

ax.set(
    xlabel="관객수 (명)",
    title="대한민국의 영화 흥행 기록",
)
ax.spines[["top", "right", "bottom"]].set_visible(False)
ax.grid(axis="x")
```

![8e94e7a6-ffbf-41d2-8154-68b12e0da230.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/943b3d9b-2427-4218-8aad-eedc2fb73b76/8e94e7a6-ffbf-41d2-8154-68b12e0da230.png)

## 히스토그램

- 눈금을 빈도수로 할지, 비율로 할지 **`density`** 로 선택가능
    
    ```python
    rng = np.random.default_rng(78)
    
    n = 200
    x = np.concatenate((rng.normal(loc=0, size=n), rng.normal(loc=4, size=n)))
    
    fig, axes = plt.subplots(1, 3, figsize=(9, 3), sharex=True, sharey=True)
    # bin = 값을 몇개로 쪼갤것인가.
    for bins, ax in zip([6, 20, 100], axes.flat):
        ax.hist(x, bins=bins, density=True)
        ax.set_title(f"bins = {bins}", loc="left")
    fig.suptitle("Histogram of x")
    fig.supxlabel("Value of x")
    fig.supylabel("Probability")
    pass
    ```
    
    ![201f52e4-11d0-471f-af5f-79e5e5e9d6a9.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/ff32bdeb-7e5d-4cdd-b883-74ba4e4d11b3/201f52e4-11d0-471f-af5f-79e5e5e9d6a9.png)
    

## 육각 2D히스토그램

```python
x = rng.normal(scale=2, size=n).round(decimals=0)
y = rng.normal(scale=2, size=n).round(decimals=0)

fig, axes = plt.subplots(1, 1)

hb = axes.hexbin(x, y, gridsize=12) # 육각투디 hist 그림 좀더 좋다
fig.colorbar(hb, label="빈도")
axes.set_title("육각형 2D 히스토그램")
axes.spines[:].set_visible(False)
```

![f5466416-6e55-43e9-8c32-d51d51784a24.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/3be6faf9-02cc-4f0f-8a73-ed3e393b57cc/f5466416-6e55-43e9-8c32-d51d51784a24.png)

## 상자, 수염, `boxplot`

참고 [IQR](https://www.notion.so/pandas_5-34be7c2d77604e518f5e8fabaa9fec2d?pvs=21) 

```python
target_feature = "SepalLengthCm"

iris_groupby_species = {
    name: df[target_feature].to_numpy() for name, df in iris.groupby("Species")
}

fig, ax = plt.subplots()
ax.boxplot(iris_groupby_species.values(), labels=iris_groupby_species.keys())
ax.spines[["top", "right", "left"]].set_visible(False)
ax.yaxis.set_tick_params(length=0)
ax.grid(axis="y")
ax.set(
    ylabel=target_feature,
    title="Iris 데이터 종별 상자 수염 그림",
)
pass
```

![323a4038-5939-46df-8524-6eafe369de9e.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/7b4b9a55-1a21-4227-9723-407c33a44ebe/323a4038-5939-46df-8524-6eafe369de9e.png)

## 색상 선택하기

- 다양한 종류의 색상이 있다.
    
    ```python
    color_cycles = [
        ["#FF0000", "#00FF00", "#00FFFF"],
        ["red", "green", "cyan"],
        ["tab:red", "tab:green", "tab:cyan"],
    ]
    ```
    
    ```python
    x = np.linspace(0, 5, 100)
    y = np.linspace(0, 5, 90)
    
    X, Y = np.meshgrid(x, y)
    Z = np.sin(X) ** 5 + np.cos(X) * np.cos(Y)
    
    fig = plt.figure()
    subfigs = fig.subfigures(2, 2)
    for cmap, subfig in zip(["viridis", "turbo", "jet", "hsv"], subfigs.flat):
        ax = subfig.subplots()
        image = ax.imshow(Z, extent=[x[0], x[-1], y[0], y[-1]], origin="lower", cmap=cmap)
        subfig.colorbar(image, ax=ax)
        ax.set(
            xlabel="x",
            ylabel="y",
            title=cmap,
        )
    pass
    ```
    
    ![073bc467-6bd9-4786-b728-fea398c3e154.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/e0e553c3-2760-4bf8-a24f-2ca3617a11cb/073bc467-6bd9-4786-b728-fea398c3e154.png)
    
    - 다양한 파일로 저장할 수 있다.

# 5. Seaborn 으로 시각화 하기

## 필요한 라이브러리 및 로컬 폰트 설정

```python
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib_inline.backend_inline

# 그래프의 폰트 출력을 선명하게 (svg, retina 등이 있음)
matplotlib_inline.backend_inline.set_matplotlib_formats("png2x")
# 테마 설정: "default", "classic", "dark_background", "fivethirtyeight", "seaborn"
mpl.style.use("default")
# 이미지가 레이아웃 안으로 들어오도록 함
# https://matplotlib.org/stable/users/explain/axes/constrainedlayout_guide.html
mpl.rcParams.update({"figure.constrained_layout.use": True})

# seaborn 의 초기설정
#font, line, marker 등의 배율 설정: paper, notebook, talk, poster
sns.set_context("paper") 
#배색 설정: tab10, Set2, Accent, husl
sns.set_palette("Set2") 
#눈금, 배경, 격자 설정: ticks, white, whitegrid, dark, darkgrid
# withegrid: 눈금을 그리고, 각 축의 눈금을 제거
sns.set_style("whitegrid")

# 로컬에서(Window) 

plt.rc("font", family = "Malgun Gothic")
plt.rcParams["axes.unicode_minus"] = False
```

- 산점도 그려보기
    
    ```python
    iris = pd.read_csv("../datas/Iris.csv",
                      encoding="utf-8",
                      index_col = 0)
    ```
    
    ```python
    ## 위의 그래프를 matplotlib을 이용해서 그리시오.
    set_ = iris[iris.Species=='Iris-setosa']
    ver_ = iris[iris.Species=='Iris-versicolor']
    vir_ = iris[iris.Species=='Iris-virginica']
    
    fig, ax = plt.subplots(figsize=(5,5))
    
    list_kind = [set_, ver_, vir_]
    list_color = ["tab:red", "tab:blue", "tab:green"]
    list_name = ["set_","ver_","vir_"]
    
    for iter, color, label_ in zip(list_kind,list_color,list_name ):
        ax.scatter(iter['SepalLengthCm'],
                   iter['SepalWidthCm'],
                #    marker_size = marker_size,
                   c=color,
                   label=label_)
    
    ax.set(xlabel="SepalLength (cm)",
           ylabel="SepalWidth (cm)",
           title="sepal_L vs sepal_W",)
    
    ax.legend();
    ```
    
    ![1cbfe1f0-8dcd-45dd-a94b-8e09f26ca662.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/3bec2aff-3787-46ef-8d40-1d14154b9724/1cbfe1f0-8dcd-45dd-a94b-8e09f26ca662.png)
    
- 객체 지향 방식으로 그리는 방법
    - 상태 기반 방식 : 순서대로 그리는 방식( 지양 합시다!)
        
        ```python
        plt.plot~~
        plt.plot~~
        plt.plot~~
        ...
        ```
        
    - **객체 지향 방식** : 이방법을 이용하는 것으로 습관을 들여야 한다.
        
        ```python
        fig, ax = plt.subplots()
        
        ax1.plot~~
        ax2.plot~~
        ax3.plot~~
        ...
        ```
        

## `violinplot` : 박스 플롯 + 히스토그램

- x : 카테고리
- y : 수치 값
- hue : 또다른 카테고리
- split : 두가지의 그림이 아닌 하나에 그림에 합져지게하기
    
    ```python
    fig, ax = plt.subplots(figsize=(8, 4))
    
    sns.violinplot(data = df_peng,
                   x = "species",
                   y = "bill_length_mm",
                   hue="sex",
                   split=True,
                   ax = ax);
    ```
    
    ![7e0ce47e-7b7f-45ca-a4b7-ca5d2ebbfe0e.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/c0e122a3-5c83-48a0-a08f-c86e32d94bd8/7e0ce47e-7b7f-45ca-a4b7-ca5d2ebbfe0e.png)
    
    ```python
    #위에 코드에 이어서...
    for i, obj in enumerate(ax.collections):
        if i < 6: 
            obj.set_ec("gray")
            obj.set_lw(0.5)
            obj.set_fc(sns.set_hls_values(obj.get_fc(),l = 0.95)) #### 이부분이 상위함수를 가져온다.
        else:
            obj.set_ec("k")
    
    for i, line in enumerate(ax.lines):
        if i > 3:
            line.set_color("k")
    
    ax.spines[["top", "right"]].set_visible(False);
    ax.legend(loc = "lower right"); # 레전드 위치 오른쪽 아래
    ```
    
    ![3b3ee836-5b94-46a4-aa2b-833237284cfa.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/f7d54b8a-5dee-48d9-82a0-639c83c96cd0/3b3ee836-5b94-46a4-aa2b-833237284cfa.png)
    
- 류승룡이 나온 영화만 강조해보기
    
    ```python
    # 류승룡이 나온 영화만 강조해 보자.
    from matplotlib.ticker import FuncFormatter
    admissions_formatter = FuncFormatter(lambda x, pos: f"{x / 10000:,.0f}만")
    
    fig, ax = plt.subplots(figsize=(8, 5))
    
    ax.barh(film_title, admissions)
    ax.xaxis.set_tick_params(length=0)
    ax.xaxis.set_major_formatter(admissions_formatter)
    ax.invert_yaxis()
    
    ax.set(
        xlabel="관객수 (명)",
        title="대한민국의 영화 흥행 기록",
    )
    ax.spines[["top", "right", "bottom"]].set_visible(False)
    ax.grid(axis="x")
    
    for i ,p in enumerate(ax.patches):
        if i > 1:
            p.set_ec("w")
            p.set_lw(0.5)
            p.set_fc(sns.set_hls_values(p.get_fc(), l=0.9))
        else:
            p.set_ec("k")
    ```
    
    ![335fff8b-fd1a-475b-a1fe-b2a8c601c270.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/90e03dd2-1e1b-4a70-83fe-682790689fc8/335fff8b-fd1a-475b-a1fe-b2a8c601c270.png)
    

# 6. 파일로 저장하기

```python
# fig.savefig("image.png")
# fig.savefig("image-transparent.png", transparent=True)
# fig.savefig("image-600dpi.png", dpi=600) # 논문할때는 이정도는 되야함.
# fig.savefig("image.jpg")
# fig.savefig("image.svg")
# fig.savefig("image.pdf")
```

# 7. 타이타닉 데이터를 시각화 하기

- `코드 1`
    
    ```python
    # 새로운 새각화를 위한 라이브라리
    import numpy as np
    import pandas as pd
    import seaborn as sns
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import matplotlib_inline.backend_inline
    
    # 그래프의 폰트 출력을 선명하게 (svg, retina 등이 있음)
    matplotlib_inline.backend_inline.set_matplotlib_formats("png2x")
    # 테마 설정: "default", "classic", "dark_background", "fivethirtyeight", "seaborn"
    mpl.style.use("default")
    # 이미지가 레이아웃 안으로 들어오도록 함
    # https://matplotlib.org/stable/users/explain/axes/constrainedlayout_guide.html
    mpl.rcParams.update({"figure.constrained_layout.use": True})
    
    # seaborn 의 초기설정
    #font, line, marker 등의 배율 설정: paper, notebook, talk, poster
    sns.set_context("paper") 
    #배색 설정: tab10, Set2, Accent, husl
    sns.set_palette("Set2") 
    #눈금, 배경, 격자 설정: ticks, white, whitegrid, dark, darkgrid
    # withegrid: 눈금을 그리고, 각 축의 눈금을 제거
    sns.set_style("whitegrid") 
    
    # 로컬에서(Window) 
    
    plt.rc("font", family = "Malgun Gothic")
    plt.rcParams["axes.unicode_minus"] = False
    
    # 파일 불러오기 및 전처리
    # sibsp = sibling, parch=직계, embarked=어디에서 탔는가
    
    sample = pd.read_csv("../datas/titanic_datas/train.csv",
                         index_col=0).astype({"Survived" : "category"})
    
    sample.info()
    sample.drop(columns="Embarked", inplace=True)
    
    # 2. SibSp, Parch 는 가족이라 생각해서 하나로 합쳐버렸다
    sample["Fam"] = sample["Parch"] + sample["SibSp"]
    sample.drop(columns=["SibSp","Parch"], inplace=True)
    sample.head()
    
    ```
    

```python
# Fare의 범위가 다양하지만 500 불의 값은 너무 높아 보인다.
# Age 값의 범위는 납득할 만하다.
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8,4))
ax1.boxplot(sample["Fare"])
ax1.set_xticklabels(["Fare"])

ax2.boxplot(sample["Age"].dropna())
ax2.set_xticklabels(["Age"])

# 500 이넘는 숫자는 너무 적으므로 제외시켰다.
sample = sample[sample["Fare"] < 500]
# 이상치 파악 하기에는 violinplot 보다는 boxplot 이 더 나아 보여서 내비뒀다. 
```

![29b2309a-dfd8-4983-b19e-9084eeb4371b.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/0df94ffd-813e-48d5-be4f-015338ae5bd2/29b2309a-dfd8-4983-b19e-9084eeb4371b.png)

```python
# 가족 수와 티켓 가격도 관련이 있는지 한 번 확인해 본다.
sample[["Fam","Fare"]].corr(method='pearson', min_periods=1).style.background_gradient(cmap='coolwarm')
# 약간의 관련은 있어 보여 냅뒀다.

# **Renewed
fig, ax = plt.subplots()
sns.heatmap(sample[["Fam","Fare"]].corr(),
            annot=True,
            cmap="coolwarm",
            vmin=-1,vmax=1,
            linewidths=3);
```

![32e6d174-1bb8-48fe-80d7-7749772b8d92.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/3c63c111-83e9-4221-99d8-3496938db08f/32e6d174-1bb8-48fe-80d7-7749772b8d92.png)

```python
# **Renewed
sample.isna().sum()

age_dict = {}
sample["Sex_man_is_one"] = pd.get_dummies(sample["Sex"], drop_first=True)

for i in range(1,4):
    for j in range(1,-1,-1):
        age_sex = (sample["Pclass"] == i) & (sample["Sex_man_is_one"] == j)
        m_o_age = sample[age_sex]["Age"].mean()
        print(f"class{i}, man,{j} : {m_o_age}")
        sample.loc[ age_sex  & sample["Age"].isna() , "Age"] = m_o_age
        age_dict[f"C{i},M{j}"] = m_o_age

age_to_df = pd.DataFrame(age_dict.values(),age_dict.keys(), columns=["mean"])

age_cats = []
for age_ in sample["Age"]:
    if len(str(round(age_))) == 1:
        age_cats.append("10s")
    else:
        age_cats.append(str(round(age_))[0]+"0s")

sample["age_cats"] = age_cats
sample["age_cats"] = sample["age_cats"].astype("category")
sample["Survived"] = sample["Survived"].astype("int")

# **Renewed

fig, (ax, ax2) = plt.subplots(1,2, figsize=(10,4))
sns.barplot(data=age_to_df,
            x=age_to_df.index,
            y="mean",
            ax=ax)
ax.set_xlabel("C = class, M = is male?")
ax.set_ylabel("나이의 평균")
ax.set_title("클래스와 성별별 나이평균")

sns.violinplot(data=sample,
               x="age_cats",
               y="Survived",
               hue="Sex",
               split=True,
               ax = ax2)
ax2.set_title("나이별, 성별별, 생존여부");
```

![99d2d751-0867-443d-b4fd-89844d242f2f.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/9ed516f1-b65e-437d-ab5f-8d918bfd0d7c/99d2d751-0867-443d-b4fd-89844d242f2f.png)

```python
list_of_tickets = []
for tk in sample["Ticket"]:
    st_li = str(tk).split(" ")
    if st_li[0].isdigit():
        list_of_tickets.append("number")
    else:
        list_of_tickets.append("string")
        # list_of_tickets.append(st_li[0].replace("/","").replace(".",""))

sample["ticket_num"] = list_of_tickets

ticket_fare_ = sample[["ticket_num", "Fare","Survived"]].copy()

 # 서브플롯 생성
fig, ax = plt.subplots(1, 1, figsize=(5, 5))

sns.violinplot(data=ticket_fare_,
               x="ticket_num",
               y="Fare",
               hue="Survived",
               split=True,
               ax = ax)

# 의미는 없어 보인다?
```

![ca5c9810-9eaf-4d8e-8d4f-5f9fe056c499.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/e8f11927-b70c-4524-9227-a3efac08e7aa/fbfbdb33-7dc9-4249-a78a-76fda8b0291c/ca5c9810-9eaf-4d8e-8d4f-5f9fe056c499.png)