# Graph Analysis
Author: inryeol
Date: 2024-08-05

그래프를 통한 탐색적 자료분석을 진행해보자.

In [None]:
# Remove all objects from the environment
%reset -f

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 변수 가져오기

1.  변수 이름 : pollution
2.  변수들의 타입 지정하기 (순서대로)
   - numeric, character, factor, numeric, numeric

In [None]:
pollution = pd.read_csv('../../dataset/avgpm25.csv', dtype={
    'column1': float,       # Replace 'column1' with the actual column name
    'column2': str,         # Replace 'column2' with the actual column name
    'column3': 'category',  # Replace 'column3' with the actual column name
    'column4': float,       # Replace 'column4' with the actual column name
    'column5': float        # Replace 'column5' with the actual column name
})

> 이후 구조를 확인한다.

In [None]:
# Display the first few rows and the structure of the dataframe
print(pollution.head())
print(pollution.info())

# 1차원 그래프
## 요약통계량

In [None]:
# Summary statistics for the pm25 column
print(pollution['pm25'].describe())

결과

-   크게 기울지는 않았다.
-   상당수가 12를 넘고 있다.

## boxplot

> pollution 중 pm25의 Boxplot을 보자.

In [None]:
import matplotlib.pyplot as plt

plt.boxplot(pollution['pm25'])
plt.title('Boxplot of PM2.5')
plt.show()

-   여기서 5와 15를 콧수염(whiskers)이라고 한다.
-   IQR = 사분위간 범위 = (3사분위수) - (1사분위수) = (전체 자료의 중간값)
-   whiskers를 벗어나는 경우를 이상치(outlier)로 볼 수 있나?
    -   꼭 그렇지는 않다. 다만 평균에서 먼 자료 정도로 보면 된다.

> pm25가 15보다 큰 케이스를 살펴보자.

In [None]:
# Method 1: Display the first few values of pm25 greater than 15
print(pollution[pollution['pm25'] > 15].head())

# Method 2: Subset of the dataframe where pm25 is greater than 15
print(pollution[pollution['pm25'] > 15])

# Method 3: Display the first 8 rows where pm25 is greater than 15
print(pollution[pollution['pm25'] > 15].head(8))

-   지역은 전부 서부라고 나온다.
-   west이면서 fips 코드 앞자리가 06인 곳 : 캘리포니아

## Histogram

pm25의 히스토그램을 한번 보자.

breaks=100으로 해서 잘게 짜르고, 밀집도를 볼 수 있게 한다.


In [None]:
# Plot histogram with 100 bins and density plot
plt.hist(pollution['pm25'], bins=100, color='green', density=True)
plt.title('Histogram of PM2.5')
plt.show()

## Low-level Graphics

그래프 위에 무언가를 씌울 때 사용한다.

주로 선을 그려 중위수나 기준을 표기한다.

### Example 1
pm25의 histogram. 기준선1을 10에, 기준선2를 12에 그려준다.

In [None]:
# Histogram with vertical lines for threshold
plt.hist(pollution['pm25'], color='green')
plt.axvline(x=12, color='red', linewidth=2, linestyle='--')
plt.axvline(x=pollution['pm25'].median(), color='blue', linewidth=4)
plt.title('Histogram of PM2.5 with Median and Threshold')
plt.show()

### Example 2

pm25의 boxplot. 기준선을 파란색으로, y=12에 그려준다.

In [None]:
# Boxplot with horizontal line for threshold
plt.boxplot(pollution['pm25'])
plt.axhline(y=12, color='red', linestyle='--')
plt.title('Boxplot of PM2.5 with Threshold Line')
plt.show()

## Barplot

범주형 자료(categorical data)를 정리할 때 좋다.

먼저 table을 써서 정리를 한 다음, barplot을 그려준다.

In [None]:
# Barplot of the region variable
pollution['region'].value_counts().plot(kind='bar', color='wheat')
plt.title('Barplot of Region')
plt.show()

**west와 east의 순서를 바꾸고 싶다면?**
-   factor를 다시 지정해야 한다.

In [None]:
# Reorder the factor levels
pollution['region'] = pd.Categorical(pollution['region'], categories=['west', 'east'], ordered=True)

# Create the barplot
pollution['region'].value_counts().plot(kind='bar', color='purple')

plt.title('Barplot of Region with Reordered Categories')
plt.xlabel('Region')
plt.ylabel('Count')
plt.show()

# 2차원 그래픽

## 다차원 boxplot

> 지역별 pm2.5을 도출해보자.

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='region', y='pm25', data=pollution, palette='Reds')

plt.title('Boxplot of PM2.5 by Region')
plt.xlabel('Region')
plt.ylabel('PM2.5')
plt.show()

## 다차원 histogram

> 지역별 pm2.5의 수치를 구해보자.

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='region', y='pm25', data=pollution, palette='Reds')

plt.title('Boxplot of PM2.5 by Region')
plt.xlabel('Region')
plt.ylabel('PM2.5')
plt.show()

## Scatterplot

> latitude에 따른 pm2.5를 구해보자.

In [None]:
# Scatter plot of pm25 versus latitude
plt.figure(figsize=(8, 6))
plt.scatter(pollution['latitude'], pollution['pm25'], alpha=0.5)

# Adding horizontal line at y=12
plt.axhline(y=12, color='red', linestyle='--')

# Setting labels and title
plt.xlabel('Latitude')
plt.ylabel('PM2.5')
plt.title('Scatterplot of PM2.5 vs Latitude')

# Display the plot
plt.show()

> **latitude에 따른 pm2.5. 색으로 region 구분해주기**

In [None]:
plt.figure(figsize=(8, 6))

# Scatter plot of pm25 versus latitude with color coding by region
sns.scatterplot(x='latitude', y='pm25', hue='region', data=pollution, palette='viridis', alpha=0.7)

# Adding horizontal line at y=12
plt.axhline(y=12, color='red', linestyle='--')

# Setting labels and title
plt.xlabel('Latitude')
plt.ylabel('PM2.5')
plt.title('Scatterplot of PM2.5 vs Latitude with Region Coloring')

# Display the plot
plt.legend(title='Region')
plt.show()

> 지역에 따른 구분. latitude별 pm25

In [None]:
plt.figure(figsize=(12, 6))

# Plot for West region
plt.subplot(1, 2, 1)
sns.scatterplot(x='latitude', y='pm25', data=pollution[pollution['region'] == 'West'], color='blue', alpha=0.7)
plt.title('West')
plt.xlabel('Latitude')
plt.ylabel('PM2.5')

# Plot for East region
plt.subplot(1, 2, 2)
sns.scatterplot(x='latitude', y='pm25', data=pollution[pollution['region'] == 'East'], color='orange', alpha=0.7)
plt.title('East')
plt.xlabel('Latitude')
plt.ylabel('PM2.5')

# Adjust layout to prevent overlap
plt.tight_layout()

# Show the plots
plt.show()

In [None]:
# Assuming 'pollution' is a DataFrame

plt.figure(figsize=(12, 6))

# Plot for West region
plt.subplot(1, 2, 1)
sns.scatterplot(x='latitude', y='pm25', data=pollution[pollution['region'] == 'west'], color='blue', alpha=0.7)
plt.title('West')
plt.xlabel('Latitude')
plt.ylabel('PM2.5')

# Plot for East region
plt.subplot(1, 2, 2)
sns.scatterplot(x='latitude', y='pm25', data=pollution[pollution['region'] == 'east'], color='orange', alpha=0.7)
plt.title('East')
plt.xlabel('Latitude')
plt.ylabel('PM2.5')

# Adjust layout to prevent overlap
plt.tight_layout()

# Show the plots
plt.show()

**tip : 여백을 지정할때 mar()을 사용한다.**

# 그래픽용 도구

여러 창을 한번에 띄울때는 다음과 같은 함수를 사용한다.

-   `quartz()` : 맥에서 사용

-   `windows()` : 윈도우에서 사용

-   `x11()` : 리눅스에서 사용

또한 pdf로 저장할 때는 다음과 같은 절차를 따른다.

1.  `pdf()` 함수로 열어준다.

2.  그래프를 편집한다.

3.  `dev.off()`로 닫아준다. (닫아야 그래프 편집내용이 저장.)