In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:

# 데이터 로드
# 'your_data.csv'를 실제 데이터 파일 경로로 변경하세요.
data = pd.read_csv('miribul-2024-main/data/environmentsB.csv')
data['datetime'] = pd.to_datetime(data['datetime'], format='%Y-%m-%d %H:%M')
data = data.drop(['farm'], axis = 1)


# 기본 정보 확인
print("기본 정보:")
print(data.info())  # 데이터의 데이터 타입과 결측치 개수 제공
print("\n")

In [None]:
# 기술 통계 확인
print("기술 통계:")
print(data.describe(include='all'))  # 수치형 및 범주형 특성의 요약 통계량 제공
print("\n")

In [None]:
# 결측치 확인
print("결측치:")
print(data.isnull().sum())  # 각 열의 결측치 개수 확인
print("\n")

In [None]:
# 데이터 타입 확인
print("데이터 타입:")
print(data.dtypes)  # 각 열의 데이터 타입 확인
print("\n")

In [None]:
# 범주형 열의 고유값 개수 확인
print("범주형 열의 고유값 개수:")
categorical_columns = data.select_dtypes(include=['object']).columns
for col in categorical_columns:
    print(f"{col}: {data[col].nunique()}개의 고유값")

print("\n")

In [None]:

# 수치형 열의 분포 확인
print("수치형 열의 분포:")
numerical_columns = data.select_dtypes(include=[np.number]).columns
for col in numerical_columns:
    plt.figure(figsize=(10, 4))
    sns.histplot(data[col], kde=True, bins=30)
    plt.title(f'{col}의 분포')
    plt.show()

print("\n")

In [None]:

# 상관 행렬 및 히트맵
print("상관 행렬 및 히트맵:")
correlation_matrix = data.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', vmin=-1, vmax=1)
plt.title('HEATMAP')
plt.show()

print("\n")

In [None]:
# 수치형 특성의 페어플롯
print("수치형 특성의 페어플롯:")
sns.pairplot(data[numerical_columns])
plt.show()

print("\n")

In [None]:
# 수치형 열의 박스플롯 (이상치 탐지)
print("수치형 열의 박스플롯:")
for col in numerical_columns:
    plt.figure(figsize=(10, 4))
    sns.boxplot(x=data[col])
    plt.title(f'{col} Box Plot')
    plt.show()

print("\n")

In [None]:
# 범주형 열의 값 카운트
print("범주형 열의 값 카운트:")
categorical_columns = data.select_dtypes(include=['object']).columns
for col in categorical_columns:
    print(f"\n{col}의 값 카운트:")
    print(data[col].value_counts())

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 예시 데이터프레임 생성
df = data

# 상관계수 계산
corr_matrix = df.corr()

# 타겟 열과 다른 피처들 간의 상관관계를 추출
target_corr = corr_matrix['innerSolar']

# 타겟과의 상관계수를 내림차순으로 정렬
target_corr_sorted = target_corr.sort_values(ascending=False)

# 결과를 데이터프레임으로 변환
df_temp = pd.DataFrame(target_corr_sorted, columns=['innerSolar'])

# 히트맵 시각화
plt.figure(figsize=(10, 8))  # 그림 크기 설정
sns.heatmap(df_temp, annot=True, cmap='viridis', center=0, vmin=-1, vmax=1, fmt='.2f')
plt.title('TARGET HEAT MAP')
plt.show()