In [None]:
# 필수 패키지 설치
!pip install pandas openpyxl

# pandas 패키지 불러옴
import pandas as pd

# 데이터 파일 상대 경로 설정
file_path = "./한국어평가_최종데이터취합.xlsx"

# Excel 파일 불러옴
data = pd.ExcelFile(file_path)

# 시트 이름 출력
print("Available sheets:", data.sheet_names)

# "문법 결과" 시트 불러옴
df = data.parse('문법 결과')

# 데이터 첫 몇 행 출력
print("First few rows of the data:")
print(df.head())

In [None]:
# 데이터 전반적 내용 확인
import pandas as pd

# 데이터 구조 및 기본 정보 출력
print("1. 데이터 기본 정보")
print(df.info())

print("\n2. 데이터 통계 요약")
print(df.describe(include='all'))  # 숫자형, 범주형 모두 포함

# 결측치 분석
print("\n3. 결측치 확인")
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])

# 중복 데이터 확인
print("\n4. 중복 데이터 개수")
duplicate_count = df.duplicated().sum()
print(f"중복 데이터 개수: {duplicate_count}")

# 각 열의 고유값 확인 (범주형 데이터 탐색)
print("\n5. 각 열의 고유값 개수")
for column in df.columns:
    unique_values = df[column].nunique()
    print(f"{column}: {unique_values}개 고유값")

# 범주형 데이터 분포 시각화
import matplotlib.pyplot as plt

print("\n6. 범주형 데이터 분포 시각화")
categorical_columns = df.select_dtypes(include='object').columns
for column in categorical_columns:
    plt.figure(figsize=(10, 5))
    df[column].value_counts().plot(kind='bar', title=f"{column} 분포", rot=45)
    plt.show()

# 상관관계 분석
print("\n7. 숫자형 데이터 상관관계")
correlation_matrix = df.corr()
print(correlation_matrix)

# 상관관계 히트맵 시각화
import seaborn as sns

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title("상관관계 히트맵")
plt.show()

# 데이터 샘플 확인
print("\n8. 데이터 샘플")
print(df.sample(5))
