In [9]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

def loadData(file_path='dataset/PollutionData.csv'):
    try:
        df = pd.read_csv(file_path)
        print(f"데이터 로드 성공: {file_path}")
        print(f"데이터 크기: {df.shape}")
    except FileNotFoundError:
        print(f"Error: {file_path} 파일을 찾을 수 없습니다.")
        return None
    
    # 모든 관련 변수 선택
    selected_features = [
        'Temperature', 'Humidity', 
        'PM2.5', 'PM10', 'NO2', 'SO2', 'CO',
        'Proximity_to_Industrial_Areas', 'Population_Density',
        'Air Quality'
    ]
    df = df[selected_features]
    
    # 결측치 확인 및 처리
    print("\n결측치 현황:")
    print(df.isnull().sum())
    
    # 기술통계량 확인
    print("\n기술통계량:")
    print(df.describe())
    
    return df


In [18]:
import pandas as pd
import numpy as np
from ydata_profiling import ProfileReport

def loadData(file_path='dataset/PollutionData.csv'):
    try:
        df = pd.read_csv(file_path)
        print(f"데이터 로드 성공: {file_path}")
        print(f"데이터 크기: {df.shape}")
        
        # 모든 변수 선택 (이전보다 확장)
        selected_features = [
            'Temperature', 'Humidity', 
            'PM2.5', 'PM10', 'NO2', 'SO2', 'CO',
            'Proximity_to_Industrial_Areas', 'Population_Density',
            'Air Quality'
        ]
        df = df[selected_features]
        
        # 결측치 확인
        print("\n결측치 현황:")
        print(df.isnull().sum())
        
        # 기술통계량
        print("\n기술통계량:")
        print(df.describe())
        
        return df
    
    except FileNotFoundError:
        print(f"Error: {file_path} 파일을 찾을 수 없습니다.")
        return None

def perform_eda(df):
    # 전체 데이터에 대한 프로파일링
    print("\n전체 데이터 프로파일링 리포트 생성 중...")
    profile = ProfileReport(df, title="대기질 데이터 분석 리포트")
    profile.to_file("air_quality_report.html")
    
    # 주요 변수들에 대한 프로파일링
    print("\n주요 변수 프로파일링 리포트 생성 중...")
    key_features = ['Population_Density', 'PM2.5', 'PM10', 'NO2', 'SO2', 
                    'Proximity_to_Industrial_Areas', 'Air Quality']
    selected_df = df[key_features]
    selected_profile = ProfileReport(selected_df, title="주요 변수 분석 리포트")
    selected_profile.to_file("./report/key_features_report.html")

def main_eda():
    # 데이터 로드
    df = loadData(file_path='dataset/PollutionData.csv')
    
    if df is not None:
        # EDA 수행
        perform_eda(df)
        
        # 기본 통계량 출력
        print("\n기본 통계 정보:")
        print(df.describe())
        
        # 결측치 확인
        print("\n결측치 현황:")
        print(df.isnull().sum())
        
        # 대기질 등급 분포
        print("\n대기질 등급 분포:")
        print(df['Air Quality'].value_counts())
        
        # 추가: 오염물질 간의 상관계수
        pollutants = ['PM2.5', 'PM10', 'NO2', 'SO2', 'CO']
        print("\n오염물질 간 상관계수:")
        print(df[pollutants].corr().round(3))

if __name__ == "__main__":
    main_eda()

데이터 로드 성공: dataset/PollutionData.csv
데이터 크기: (5000, 10)

결측치 현황:
Temperature                      0
Humidity                         0
PM2.5                            0
PM10                             0
NO2                              0
SO2                              0
CO                               0
Proximity_to_Industrial_Areas    0
Population_Density               0
Air Quality                      0
dtype: int64

기술통계량:
       Temperature     Humidity        PM2.5         PM10          NO2  \
count  5000.000000  5000.000000  5000.000000  5000.000000  5000.000000   
mean     30.029020    70.056120    20.142140    30.218360    26.412100   
std       6.720661    15.863577    24.554546    27.349199     8.895356   
min      13.400000    36.000000     0.000000    -0.200000     7.400000   
25%      25.100000    58.300000     4.600000    12.300000    20.100000   
50%      29.000000    69.800000    12.000000    21.700000    25.300000   
75%      34.000000    80.300000    26.100000  

  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
  plt.savefig(
Summarize dataset: 100%|██████████| 100/100 [00:30<00:00,  3.32it/s, Completed]                                                         
Generate report structure: 100%|██████████| 1/1 [00:03<00:00,  3.76s/it]
Render HTML: 100%|██████████| 1/1 [00:14<00:00, 14.14s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00,  3.49it/s]



주요 변수 프로파일링 리포트 생성 중...


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={"index": "df_index"}, inplace=True)
Summarize dataset: 100%|██████████| 52/52 [00:05<00:00,  9.74it/s, Completed]                                                           
Generate report structure: 100%|██████████| 1/1 [00:02<00:00,  2.62s/it]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  1.03it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 121.68it/s]


기본 통계 정보:
       Temperature     Humidity        PM2.5         PM10          NO2  \
count  5000.000000  5000.000000  5000.000000  5000.000000  5000.000000   
mean     30.029020    70.056120    20.142140    30.218360    26.412100   
std       6.720661    15.863577    24.554546    27.349199     8.895356   
min      13.400000    36.000000     0.000000    -0.200000     7.400000   
25%      25.100000    58.300000     4.600000    12.300000    20.100000   
50%      29.000000    69.800000    12.000000    21.700000    25.300000   
75%      34.000000    80.300000    26.100000    38.100000    31.900000   
max      58.600000   128.100000   295.000000   315.800000    64.900000   

               SO2           CO  Proximity_to_Industrial_Areas  \
count  5000.000000  5000.000000                    5000.000000   
mean     10.014820     1.500354                       8.425400   
std       6.750303     0.546027                       3.610944   
min      -6.200000     0.650000                       2.50




In [10]:
def analyze_correlations(df):
    """변수들 간의 상관관계를 분석하는 함수"""
    # 수치형 변수만 선택 (Air Quality 제외)
    numeric_df = df.select_dtypes(include=[np.number])
    
    plt.figure(figsize=(12, 10))
    sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', center=0)
    plt.title('환경 변수 간 상관관계')
    plt.tight_layout()
    plt.show()

    # 오염물질 간의 산점도
    pollutants = ['PM2.5', 'PM10', 'NO2', 'SO2', 'CO']
    plt.figure(figsize=(15, 5))
    for i, pollutant in enumerate(pollutants[1:], 1):
        plt.subplot(1, 4, i)
        plt.scatter(df['PM2.5'], df[pollutant], alpha=0.5)
        plt.xlabel('PM2.5')
        plt.ylabel(pollutant)
    plt.tight_layout()
    plt.show()

In [11]:
def preprocess_data(df):
    # 특성과 타겟 분리
    features = [
        'Temperature', 'Humidity',
        'PM2.5', 'PM10', 'NO2', 'SO2', 'CO',
        'Proximity_to_Industrial_Areas', 'Population_Density'
    ]
    X = df[features]
    
    # Label Encoding for Air Quality
    le = LabelEncoder()
    y = le.fit_transform(df['Air Quality'])
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    return X_scaled, y, le.classes_, features

In [12]:
def analyze_feature_patterns(df):
    """대기질 등급별 주요 변수들의 패턴 분석"""
    variables = ['PM2.5', 'PM10', 'NO2', 'Population_Density', 'Proximity_to_Industrial_Areas']
    
    plt.figure(figsize=(15, 10))
    for i, var in enumerate(variables, 1):
        plt.subplot(2, 3, i)
        sns.boxplot(x='Air Quality', y=var, data=df)
        plt.title(f'{var} by Air Quality')
        plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [13]:
def train_and_evaluate_model(X, y, feature_names):
    # 데이터 분할
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Random Forest 모델 학습
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
    rf_model.fit(X_train, y_train)
    
    # 예측 및 평가
    y_pred = rf_model.predict(X_test)
    
    # 평가 지표 출력
    print("\n분류 보고서:")
    print(classification_report(y_test, y_pred))
    
    # 특성 중요도 시각화
    feature_importance = pd.DataFrame({
        'feature': feature_names,
        'importance': rf_model.feature_importances_
    }).sort_values('importance', ascending=True)
    
    plt.figure(figsize=(10, 8))
    sns.barplot(x='importance', y='feature', data=feature_importance)
    plt.title('환경 변수 중요도 순위')
    plt.show()
    
    return rf_model, X_test, y_test

In [14]:
def analyze_industrial_impact(df):
    """산업단지 근접성과 대기오염물질의 관계 분석"""
    plt.figure(figsize=(15, 5))
    
    pollutants = ['PM2.5', 'NO2', 'SO2']
    for i, pollutant in enumerate(pollutants, 1):
        plt.subplot(1, 3, i)
        plt.scatter(df['Proximity_to_Industrial_Areas'], df[pollutant], alpha=0.5)
        plt.xlabel('산업단지 근접성')
        plt.ylabel(pollutant)
        
        # 추세선 추가
        z = np.polyfit(df['Proximity_to_Industrial_Areas'], df[pollutant], 1)
        p = np.poly1d(z)
        plt.plot(df['Proximity_to_Industrial_Areas'], p(df['Proximity_to_Industrial_Areas']), "r--", alpha=0.8)
    
    plt.tight_layout()
    plt.show()

In [15]:
def main():
    # 데이터 로드 및 준비
    df = loadData(file_path='dataset/PollutionData.csv')
    
    if df is not None:
        # 상관관계 분석
        analyze_correlations(df)
        
        # 패턴 분석
        analyze_feature_patterns(df)
        
        # 산업단지 영향 분석
        analyze_industrial_impact(df)
        
        # 데이터 전처리
        X_scaled, y, class_names, feature_names = preprocess_data(df)
        
        # 모델 학습 및 평가
        model, X_test, y_test = train_and_evaluate_model(X_scaled, y, feature_names)

if __name__ == "__main__":
    main()

데이터 로드 성공: dataset/PollutionData.csv
데이터 크기: (5000, 10)

결측치 현황:
Temperature                      0
Humidity                         0
PM2.5                            0
PM10                             0
NO2                              0
SO2                              0
CO                               0
Proximity_to_Industrial_Areas    0
Population_Density               0
Air Quality                      0
dtype: int64

기술통계량:
       Temperature     Humidity        PM2.5         PM10          NO2  \
count  5000.000000  5000.000000  5000.000000  5000.000000  5000.000000   
mean     30.029020    70.056120    20.142140    30.218360    26.412100   
std       6.720661    15.863577    24.554546    27.349199     8.895356   
min      13.400000    36.000000     0.000000    -0.200000     7.400000   
25%      25.100000    58.300000     4.600000    12.300000    20.100000   
50%      29.000000    69.800000    12.000000    21.700000    25.300000   
75%      34.000000    80.300000    26.100000  

  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.show()
  plt.show()
  plt.show()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.tight_layout()
  plt.show()



분류 보고서:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       409
           1       0.92      0.88      0.90       111
           2       0.97      0.97      0.97       294
           3       0.88      0.90      0.89       186

    accuracy                           0.96      1000
   macro avg       0.94      0.94      0.94      1000
weighted avg       0.96      0.96      0.96      1000



  plt.show()
