# 4장 파이썬을 이용한 탐색적 데이터 분석(EDA, Exploratory Data Analysis)
 - [질문1]: 파이썬을 이용한 탐색적 데이터 분석(EDA, Exploratory Data Analysis)을 한다면 어떠한 순서로 하면 좋을까?
    - [질문2]: 이 내용에 따른 강의안을 제시해줘
        - [질문3] : ipynb 파일로 만들어줘

-----
## 1. 데이터 수집 및 로드
- 데이터를 CSV, Excel, SQL 데이터베이스 등에서 불러옵니다.
- 예: `pandas` 라이브러리를 사용하여 데이터를 로드합니다.

## 2. 데이터 구조 확인
- 데이터프레임의 첫 몇 행을 출력하여 데이터의 구조를 파악합니다.
- 데이터의 열 이름, 데이터 타입, 결측치 등의 정보를 확인합니다.

## 3. 데이터 정리 및 전처리
- 결측치 처리 (제거, 대체 등)
- 중복 데이터 제거
- 데이터 타입 변환 (예: 문자열을 날짜 형식으로 변환)
- 필요 없는 열 삭제

## 4. 기술 통계 확인
- 각 열에 대한 기술 통계를 확인하여 데이터의 분포를 파악합니다.
- 히스토그램, 박스플롯 등을 사용하여 데이터 분포를 시각화합니다.

## 5. 데이터 시각화
- 데이터 간의 관계를 시각적으로 탐색합니다.

## 6. 특성 엔지니어링
- 기존 데이터에서 새로운 특성(피처)를 생성합니다.
    - 예: 날짜에서 연도, 월, 일 추출, 범주형 데이터의 인코딩 등
-----

# 1. 데이터 수집 및 로드
- 데이터셋을 로드합니다(예: pandas의 read_csv() 함수).
- 데이터의 구조를 파악합니다(예: head(), info(), describe() 메서드).
- 데이터의 크기(행과 열의 수), 변수의 타입, 결측치 등을 확인합니다.
-----

## 가. 다양한 형태의 데이터 불러오기

1. csv 파일
```python
# CSV 파일 경로
csv_file_path = 'gdp_corruption.csv'
# CSV 파일 불러오기 (구분자 지정, 주석 줄 무시)
df_csv = pd.read_csv(csv_file_path, delimiter=';', skiprows=3)
```

2. Excel 파일
```python
# CSV 파일 불러오기 (구분자 지정, 주석 줄 무시)
df_excel = pd.read_excel('엑셀파일명.xlsx', sheet_name='Sheet1', skiprows=5)
```

3. Stata 파일
```python
# CSV 파일 불러오기 (구분자 지정, 주석 줄 무시)
df_dta = pd.read_stata('데이터.dta')
```

4. fixed format 불러오기
- 제공된 format 정보를 ChatGPT에 입력하면 코드를 제공해줌
```python
import pandas as pd
# 고정 형식 텍스트 파일 경로
fixed_width_file_path = 'path_to_your_file.txt'
# colspecs를 이용해 각 열의 너비를 지정합니다.
colspecs = [(0, 10), (10, 20), (20, 30)]  # 예시로 첫 열은 0-10, 두번째 열은 10-20, 세번째 열은 20-30
# 사용자 지정 열 이름 지정
column_names = ['Column1', 'Column2', 'Column3']
# 고정 형식 텍스트 파일 불러오기
df_fwf = pd.read_fwf(fixed_width_file_path, colspecs=colspecs, names=column_names)
print(df_fwf.head())
```

5. 기타 형식
 - ChatGPT에 해당 형식을 Dataframe으로 불러오는 방법을 질문
    - 예) Spss 파일을 Dataframe으로 불러오는 코드를 제시해줘

In [None]:
#압축 풀기
!unzip 4_EDA.zip

### 1) CSV 불러오기

In [None]:
# 데이터 불러오기
import pandas as pd

df = pd.read_csv('data/gdp.csv')

In [None]:
## 경로를 변수에 입력
csv_file_path = 'data/gdp.csv'
df = pd.read_csv(csv_file_path)

# 2. 데이터 이해하기
## 가. 불러온 데이터 확인

In [None]:
# 데이터가 잘 불러져 왔는지 반드시 확인
##첫 5개 행을 출력
print(df.head())

In [None]:
#첫 n개 행을 출력
df.head(10)

In [None]:
#마지막 5개 행을 출력
df.tail()

- `print(df.head())`와 `df.head()`의 차이 : `print(df.head())`는 출력 방식이 `print` 함수의 규칙을 따르고, `df.head()`는 `pandas`의 출력 규칙을 따름

- `head()`와 `tail()`에 음수(-n)을 넣으면 n개를 제외하고 출력

In [None]:
df.head(-5)

## 가. 데이터 구조 파악
 - 데이터의 열 이름, 데이터 타입, 결측치 등의 정보를 확인

In [None]:
#데이터프레임의 간결한 요약을 제시
df.info()

- 간단한 기술통계

In [None]:
df.describe()

In [None]:
# 기본 출력 대신 지정한 백분위 값을 리턴
df.describe(percentiles=[0.1, 0.5, 0.9])

In [None]:
# 모든 데이터 타입 포함
df.describe(include='all') # unique 값이 포함되어 유용

# 3. Concat / Merge / Join
- [질문] : 파이썬 Dataframe의 데이터 연결을 강의한다면?

## 1) Concat
- stata의 append

In [None]:
# data 폴더에 gdp_1.dta, gdp_2.csv를 불러오기
import pandas as pd

df1 = pd.read_stata('data/gdp_1.dta')
df2 = pd.read_csv('data/gdp_2.csv')

print(df1.head())
print(df2.head())

In [None]:
# 두 데이터프레임을 연결
df = pd.concat([df1, df2])

print(df.head())

print(df.tail())

## 나. Merge

In [None]:
# df3에 gdp_3.csv를 불러오기
df3 = pd.read_csv('data/gdp_3.csv')

print(df2.head())

print(df3.head())

In [None]:
# df2와 df3를 merge, key는 Country, Year 변수 2개
df_merge = pd.merge(df2, df3, on=['country', 'year'])

df_merge.head(10)

- `STATA`의 keepusing 기능은 없음
    - 필요한 변수만 별도 변수로 생성 후 merge

# 3-1. `Pandas`에서 제공하는 `STATA`와의 명령어 비교 설명

- https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_stata.html

# 4. 결측치 처리
 - [질문]: dataframe으로 불러온 데이터의 결측치를 처리하려는데, 여러 상황을 가정하고 방법을 알려줘

## 가. 결측치 확인

In [None]:
# 결측치 확인
print(df.isnull())  # 결측치 위치를 True/False로 반환
print(df.isnull().sum())  # 각 열의 결측치 개수 반환

## 나. 결측이 있는 경우를 삭제하는 다양한 경우
### 1) 1개라도 결측인 경우 행을 삭제
#### 가) 결측을 제거한 변수 생성
- [질문]: python dataframe에 저장된 데이터에 결측이 있는 경우 삭제하려면?
- 결측을 제거한 후 변수를 생성 혹은 덮어쓰는 방법이 있음

In [None]:
# 새로운 변수에 결측치가 제거된 데이터 넣기
df_dropped = df.dropna()

# 아래와 같이 쓰면, 덮어쓰지 않고 보여주고 끝
df.dropna()
df

# 기존 변수와의 비교
print(df_dropped.describe())
print(df.describe())

#### 나) 기존 변수에 덮어쓰기

In [None]:
# df와 같은 df2를 생성
df2 = df

print(df2.describe())

In [None]:
# 새로운 변수에 결측치가 제거된 데이터 넣기
df2.dropna(inplace=True) # True로 설정하면 기존 변수에 덮어쓰기

print(df2.describe())

### 2) 특정 변수가 결측인 경우 삭제

In [None]:
# 특정 열에 결측치가 있는 행 제거
df_dropped = df.dropna(subset=['열 이름'])
df_dropped.describe()

In [None]:
# 'a' 또는 'b' 열에 결측치가 있는 행 제거
#df_dropped = df.dropna(subset=['a', 'b'])
df_dropped.describe()

### 다. 결측이 '99999'로 기록된 경우

In [None]:
#data 폴더 안의 ddp_99999.csv를 불러오기
df_99999 = pd.read_csv('data/gdp_99999.csv')
df_99999.head()

In [None]:
df_99999.replace(99999, np.nan, inplace=True)
df_99999_dropped = df.dropna(subset=['gdp'])
df_99999_dropped.dropna(subset=['corruption'], inplace=True)
df_99999_dropped.head(10)

## 다. 시나리오 - ID를 기준으로 A 변수에 값이 1개라도 결측인 경우 제거
- [질문]: 데이터프레임에서 ID 기준으로 A 변수가 1개라도 결측이면 삭제하는 방법을 설명해줘

In [None]:
df = pd.read_stata('data/gdp_1.dta')
print(df.describe(include='all'))

missing_a = df[df['gdp'].isnull()]['country'].unique()
print(missing_a)

In [None]:
df_cleaned = df[~df['country'].isin(missing_a)]
print(df_cleaned.describe(include='all'))

## 라. 중복 데이터 제거

#### 1) 중복 데이터 확인

In [None]:
df_dup = pd.read_csv('data/gdp_dup.csv')
print(df.describe(include='all'))

# 중복 데이터 확인 (고유 관측만 제시)
df_dup[df_dup.duplicated()]

In [None]:
# 중복 데이터 확인 (모두 표시)
df_dup[df_dup.duplicated(keep=False)]

In [None]:
# 특정 열 기준으로 중복 데이터 확인 (모두 표시)
df_dup[df_dup.duplicated(subset=['Country', 'GDP', 'Year'], keep=False)]

2) 중복 데이터 제거

In [None]:
df_cleaned = df_dup.drop_duplicates()
print(df_dup.describe(include='all'))
print(df_cleaned.describe(include='all'))

- drop_duplicates()의 옵션
    - df.drop_duplicates(subset=['Name', 'Age']) : 중복 여부를 확인할 열의 리스트를 지정
    - df.drop_duplicates(keep='last') : 중복 값 중 어느 행을 유지할지 결정
        - fist, last, False
    - df.drop_duplicates(inplace=True) : 원본 데이터프레임을 수정할지 아니면 수정된 복사본을 반환할지 결정
    - df.drop_duplicates(ignore_index=True) :중복 제거 후 인덱스를 새롭게 재설정할지 결정
        - True: 인덱스를 0부터 재설정, False: 기존 인덱스를 유지

# 4. 기술 통계 확인


In [None]:
# 데이터 기본 정보
df_cleaned.info()

In [None]:
# 데이터 기초 통계 - 모든 열(변수)
df_cleaned.describe()

In [None]:
# 일부 변수만 보려면
basic_stats = df_cleaned[['GDP', 'Corruption']].describe()
print(basic_stats)

In [None]:
# 일부 특정 변수의 조건
df_cleaned[df_cleaned['Corruption'] > 30].describe(include='all')

In [None]:
# 국가명이 Wakanda와 같은 경우
df_cleaned[df_cleaned['Country'] == 'Wakanda'].describe(include='all')

# 5. 데이터 시각화

-----
- Matplotlib과 Seaborn의 차이
    - Matplotlib : 낮은 수준의 기본 기능, 높은 수준의 커스터마이징 옵션 제공
    - Seaborn : Matplotlib 위에 구축된 라이브러리로, 사용하기 쉬움
-----

- [질문]: python seaborn으로 강의를 하려해, 어떤 순서와 내용으로 할지 제안해줘
- [답변]: 1. 강의 소개/ 2. 설치 및 기본 설정 / 3. 기본 그래프 그리기/ 4. Categorical 데이터 시각화 / 5. 다변량 데이터시각화 /6 스타일과 팔레트 설정
- [질문]: (실제 사용 데이터 첨부) + 이 데이터로 위에서 제안한 그래프들의 예시 코드를 제시해줘

In [None]:
# 패키지 불러오기
## seaborn은 matplotlib 위에 구축되어 seaborn과 matblolip 둘 다 import
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

data = pd.read_stata('data/gdp_1.dta')

## 가) 라인 그래프

In [None]:
# Line Plot: GDP over Years for each Country
sns.lineplot(data=data, x='year', y='gdp', hue='country')
plt.title('GDP over Years by Country')
plt.show()

In [None]:
# Line Plot: GDP over Years for each Country
sns.lineplot(data=data, x='year', y='gdp', hue='country')
plt.title('시간에 따른 GDP 변화')
plt.show()

## - 한글 폰트 설정
### Font Family 지정

In [None]:
plt.rcParams['font.family'] = 'Malgun Gothic'  # Windows의 경우
plt.rcParams['axes.unicode_minus'] = False

### 특정 폰트파일을 직접 지정

In [None]:
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 폰트 경로 설정
font_path = 'font/NanumGothic.ttf'  # NanumGothic.ttf 파일의 경로를 지정하세요

# 폰트 등록
fontprop = fm.FontProperties(fname=font_path, size=10)
plt.rcParams['font.family'] = fontprop.get_name()
plt.rcParams['axes.unicode_minus'] = False

### Colab에서 한글폰트 사용

In [None]:
import sys

# Google Colab 환경에서 실행 중인지 확인
if 'google.colab' in sys.modules:
    # debconf를 Noninteractive 모드로 설정
    !echo 'debconf debconf/frontend select Noninteractive' | \
    debconf-set-selections

    # fonts-nanum 패키지를 설치
    !sudo apt-get -qq -y install fonts-nanum

    # Matplotlib의 폰트 매니저 가져오기
    import matplotlib.font_manager as fm

    # 나눔 폰트의 시스템 경로 찾기
    font_files = fm.findSystemFonts(fontpaths=['/usr/share/fonts/truetype/nanum'])

    # 찾은 각 나눔 폰트를 Matplotlib 폰트 매니저에 추가
    for fpath in font_files:
        fm.fontManager.addfont(fpath)

## 나) Bar 그래프

In [None]:
sns.barplot(data=data, x='country', y='gdp')
plt.title('국가별 평균 GDP')
plt.show()

In [None]:
# [질문] : (기존 코드 붙여넣고) x 축 라벨을 45도 회전시켜줘
sns.barplot(data=data, x='country', y='gdp')
plt.title('국가별 평균 GDP')

# x축 라벨 회전
plt.xticks(rotation=45)

# 그래프 보여주기
plt.show()

## 다) 히스토그램

In [None]:
sns.histplot(data=data, x='gdp')
plt.title('GDP 분포', fontproperties=fontprop)
plt.show()

## 라) Scatter Plot

In [None]:
sns.scatterplot(data=data, x='corruption', y='gdp', hue='country')
plt.title('GDP 대 부패도', fontproperties=fontprop)
plt.show()

## 마) BOX Plot

In [None]:
sns.boxplot(data=data, x='country', y='gdp')
plt.title('국가별 GDP 분포', fontproperties=fontprop)
#plt.xticks(rotation=45)
plt.show()

## 바) ChatGPT를 이용한 그래프 그리기

- [질문]: stata의 twoway처럼 그리려면?

In [None]:
# Figure와 Axes 생성
fig, ax = plt.subplots(figsize=(10, 6))

# Scatter Plot
sns.scatterplot(data=data, x='corruption', y='gdp', hue='country', ax=ax)

# Regression Line
sns.regplot(data=data, x='corruption', y='gdp', scatter=False, ax=ax)

# 제목 설정
ax.set_title('부패도 대 GDP', fontproperties=fontprop)

# 그래프 보여주기
plt.show()

- fig, ax = plt.subplots(figsize=(10, 6))의 선언 여부에 따른 차이
    - Axes 객체(ax)를 통해 플롯의 다양한 속성을 더 세밀하게 제어할 수 있습니다. 예를 들어, 제목, 축 레이블, 범례 등을 Axes 객체의 메서드를 통해 설정 가능
    - Figure의 크기를 명시적으로 설정, 선언하지 않는 경우, Figure의 크기는 Matplotlib의 기본 설정을 따름
    - 더 많은 제어와 커스터마이징이 가능하며, 특히 복잡한 플롯을 생성하거나 여러 개의 서브플롯을 배치할 때 유용함

- fig라는 틀에 ax라는 종이를 놓고 그 위에 그래프를 그린다고 생각하라

- [질문]: treated에 따른 GDP의 histogram을 그리려면?


In [None]:
# 히스토그램 그리기
sns.histplot(data=data, x='gdp', hue='treated', multiple='stack')
plt.title('처리 상태에 따른 GDP 히스토그램', fontproperties=fontprop)
plt.xlabel('GDP', fontproperties=fontprop)
plt.ylabel('빈도', fontproperties=fontprop)
plt.legend(title='Treated', labels=['미처리', '처리'], prop=fontprop)
plt.show()

- [질문]: 프롬프터에 기존 제시 코드 입력 & 요구사항 제시
    - [주의]: 한번에 여러 지시를 하면 기존 그래프와 전혀 다른 그래프를 내놓을 가능성이 있으므로, 순차적으로 요청
    - 미처리 범례에 해당하는 히스토그램의 선을 red dotted로 하고, 내부 색상의 alpha를 0.5로 하려면?

- [주의]: 경우에 따라 패키지를 추가로 불러와야 할 수 있음

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# 히스토그램 그리기
sns.histplot(data=data[data['treated'] == 0], x='gdp', color='green', label='처리', edgecolor='green', alpha=0.5)
sns.histplot(data=data[data['treated'] == 1], x='gdp', color='red', label='미처리', edgecolor='red', linestyle='--', alpha=0.3)

plt.title('처리 상태에 따른 GDP 히스토그램', fontproperties=fontprop)
plt.xlabel('GDP', fontproperties=fontprop)
plt.ylabel('빈도', fontproperties=fontprop)
plt.legend(title='Treated', labels=['미처리', '처리'], prop=fontprop)
plt.show()

- [질문] : (원하는 그래프 그림 첨부) 이런 그래프를 그리려면?
    - 본인의 데이터 예시와 함께 첨부하고, 변수를 잘 설명하면 더 좋은 코드를 제시

## 사) 여러 그래프 동시에 배치하기
- [질문]: 이 데이터로 gpd와 corruption을 이용해 treated에 따라 scatter를 병렬로 배치하는 코드를 제시해줘

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

data = pd.read_stata('data/gdp_1.dta')

# 데이터 프레임을 Treated 값에 따라 분할
treated_data = data[data['treated'] == 1]
not_treated_data = data[data['treated'] == 0]

# 플롯 크기 설정
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(14, 6))

# Treated 데이터 산포도
sns.scatterplot(x='corruption', y='gdp', data=treated_data, ax=axes[0])
axes[0].set_title('Treated')
axes[0].set_xlabel('Corruption')
axes[0].set_ylabel('GDP')

# Not Treated 데이터 산포도
sns.scatterplot(x='corruption', y='gdp', data=not_treated_data, ax=axes[1])
axes[1].set_title('Not Treated')
axes[1].set_xlabel('Corruption')
axes[1].set_ylabel('GDP')

# 플롯 보여주기
plt.show()

In [None]:
- [추가 질문]: 원하는 부분을 수정해달라고 요청(마커 색, 모양, 크기 등)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

data = pd.read_stata('data/gdp_1.dta')

# 데이터 프레임을 Treated 값에 따라 분할
treated_data = data[data['treated'] == 1]
not_treated_data = data[data['treated'] == 0]

# 플롯 크기 설정
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(14, 6))

# Treated 데이터 산포도
sns.scatterplot(x='corruption', y='gdp', data=treated_data, ax=axes[0], s=200, color='blue', marker='o')
axes[0].set_title('Treated')
axes[0].set_xlabel('Corruption')
axes[0].set_ylabel('GDP')

# Not Treated 데이터 산포도
sns.scatterplot(x='corruption', y='gdp', data=not_treated_data, ax=axes[1], s=300, color='red', marker='s')
axes[1].set_title('Not Treated')
axes[1].set_xlabel('Corruption')
axes[1].set_ylabel('GDP')

# 플롯 보여주기
plt.show()

## 사) Anatomy of a Figure

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from matplotlib.patches import Circle
from matplotlib.patheffects import withStroke
from matplotlib.ticker import AutoMinorLocator, MultipleLocator

royal_blue = [0, 20/256, 82/256]


# make the figure

np.random.seed(19680801)

X = np.linspace(0.5, 3.5, 100)
Y1 = 3+np.cos(X)
Y2 = 1+np.cos(1+X/0.75)/2
Y3 = np.random.uniform(Y1, Y2, len(X))

fig = plt.figure(figsize=(7.5, 7.5))
ax = fig.add_axes([0.2, 0.17, 0.68, 0.7], aspect=1)

ax.xaxis.set_major_locator(MultipleLocator(1.000))
ax.xaxis.set_minor_locator(AutoMinorLocator(4))
ax.yaxis.set_major_locator(MultipleLocator(1.000))
ax.yaxis.set_minor_locator(AutoMinorLocator(4))
ax.xaxis.set_minor_formatter("{x:.2f}")

ax.set_xlim(0, 4)
ax.set_ylim(0, 4)

ax.tick_params(which='major', width=1.0, length=10, labelsize=14)
ax.tick_params(which='minor', width=1.0, length=5, labelsize=10,
               labelcolor='0.25')

ax.grid(linestyle="--", linewidth=0.5, color='.25', zorder=-10)

ax.plot(X, Y1, c='C0', lw=2.5, label="Blue signal", zorder=10)
ax.plot(X, Y2, c='C1', lw=2.5, label="Orange signal")
ax.plot(X[::3], Y3[::3], linewidth=0, markersize=9,
        marker='s', markerfacecolor='none', markeredgecolor='C4',
        markeredgewidth=2.5)

ax.set_title("Anatomy of a figure", fontsize=20, verticalalignment='bottom')
ax.set_xlabel("x Axis label", fontsize=14)
ax.set_ylabel("y Axis label", fontsize=14)
ax.legend(loc="upper right", fontsize=14)


# Annotate the figure

def annotate(x, y, text, code):
    # Circle marker
    c = Circle((x, y), radius=0.15, clip_on=False, zorder=10, linewidth=2.5,
               edgecolor=royal_blue + [0.6], facecolor='none',
               path_effects=[withStroke(linewidth=7, foreground='white')])
    ax.add_artist(c)

    # use path_effects as a background for the texts
    # draw the path_effects and the colored text separately so that the
    # path_effects cannot clip other texts
    for path_effects in [[withStroke(linewidth=7, foreground='white')], []]:
        color = 'white' if path_effects else royal_blue
        ax.text(x, y-0.2, text, zorder=100,
                ha='center', va='top', weight='bold', color=color,
                style='italic', fontfamily='monospace',
                path_effects=path_effects)

        color = 'white' if path_effects else 'black'
        ax.text(x, y-0.33, code, zorder=100,
                ha='center', va='top', weight='normal', color=color,
                fontfamily='monospace', fontsize='medium',
                path_effects=path_effects)


annotate(3.5, -0.13, "Minor tick label", "ax.xaxis.set_minor_formatter")
annotate(-0.03, 1.0, "Major tick", "ax.yaxis.set_major_locator")
annotate(0.00, 3.75, "Minor tick", "ax.yaxis.set_minor_locator")
annotate(-0.15, 3.00, "Major tick label", "ax.yaxis.set_major_formatter")
annotate(1.68, -0.39, "xlabel", "ax.set_xlabel")
annotate(-0.38, 1.67, "ylabel", "ax.set_ylabel")
annotate(1.52, 4.15, "Title", "ax.set_title")
annotate(1.75, 2.80, "Line", "ax.plot")
annotate(2.25, 1.54, "Markers", "ax.scatter")
annotate(3.00, 3.00, "Grid", "ax.grid")
annotate(3.60, 3.58, "Legend", "ax.legend")
annotate(2.5, 0.55, "Axes", "fig.subplots")
annotate(4, 4.5, "Figure", "plt.figure")
annotate(0.65, 0.01, "x Axis", "ax.xaxis")
annotate(0, 0.36, "y Axis", "ax.yaxis")
annotate(4.0, 0.7, "Spine", "ax.spines")

# frame around figure
fig.patch.set(linewidth=4, edgecolor='0.5')
plt.show()

# 99. 연습문제
- [질문]: iris data를 불러와서 seaborn을 이용해 다양한 그래프를 그리는 연습문제를 출제한다면?

# 가. 데이터 불러오기 및 기본 정보 확인
- Iris 데이터셋을 seaborn의 load_dataset 함수를 이용해 불러오세요.
- 데이터의 기본 정보를 확인하고, 각 열의 데이터 타입, 결측치 여부, 기본 통계량 등을 출력하세요.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

iris = sns.load_dataset("iris")
print(iris.info())
print(iris.describe())

## 나. Scatter Plot
- sepal_length와 sepal_width의 관계를 나타내는 산점도를 그리세요. 이때, 꽃의 종류(species)에 따라 색상을 다르게 표현하세요.

In [None]:
sns.scatterplot(data=iris, x="sepal_length", y="sepal_width", hue="species")
plt.title("Sepal Length vs Sepal Width")
plt.show()

## 다. 히스토그램 및 커널 밀도 추정 (KDE)
- 각 수치형 변수(sepal_length, sepal_width, petal_length, petal_width)에 대해 히스토그램과 커널 밀도 추정(KDE) 그래프를 그리세요. 이때, 꽃의 종류(species)에 따라 색상을 다르게 표현하고, 한 그래프에 제시하세요.

In [None]:
# 서브플롯 생성 (2x2 레이아웃)
fig, axs = plt.subplots(2, 2, figsize=(12, 10))

# Sepal Length의 히스토그램 및 KDE
sns.histplot(data=iris, x="sepal_length", hue="species", kde=True, ax=axs[0, 0])
axs[0, 0].set_title("Histogram and KDE of Sepal Length")

# Sepal Width의 히스토그램 및 KDE
sns.histplot(data=iris, x="sepal_width", hue="species", kde=True, ax=axs[0, 1])
axs[0, 1].set_title("Histogram and KDE of Sepal Width")

# Petal Length의 히스토그램 및 KDE
sns.histplot(data=iris, x="petal_length", hue="species", kde=True, ax=axs[1, 0])
axs[1, 0].set_title("Histogram and KDE of Petal Length")

# Petal Width의 히스토그램 및 KDE
sns.histplot(data=iris, x="petal_width", hue="species", kde=True, ax=axs[1, 1])
axs[1, 1].set_title("Histogram and KDE of Petal Width")

# 레이아웃 조정
plt.tight_layout()
plt.show()

# 100.번외

## 가. ChatGPT로 그래프를 그리는 방법

- 그래프를 제공하고 코드를 짜달라고 하는 방법
<p float="center">
  <img src="images/Graph.png" alt="Graph Image 1" width="45%" />
  <img src="images/histogram.png" alt="Graph Image 2" width="45%" />
</p>

나. 나만의 Cheat Sheet
- 그래프를 제공하고 코드를 짜달라고 하는 방법
<p float="center">
  <img src="images/histogram_stata.png" alt="Graph Image 1" width="45%" />
  <img src="images/scatter_stata.png" alt="Graph Image 2" width="45%" />
</p>