In [6]:
import pandas as pd

# 다양한 인코딩을 시도해보는 함수
def read_csv_with_encoding(file_path):
    encodings = ['utf-8', 'cp949', 'euc-kr', 'utf-8-sig', 'latin1']
    
    for encoding in encodings:
        try:
            print(f"{encoding} 인코딩으로 시도 중...")
            df = pd.read_csv(file_path, encoding=encoding)
            print(f"✓ {encoding} 인코딩으로 성공!")
            return df
        except Exception as e:
            print(f"✗ {encoding} 실패: {str(e)}")
            continue
    
    print("모든 인코딩 실패. 파일을 확인해주세요.")
    return None

# CSV 파일 읽기
df = read_csv_with_encoding('/Users/sonzyun/Desktop/VScode/ABCD_C/25.09.09/data(Sheet1).csv')

if df is not None:
    # 데이터 확인
    print("\n" + "="*50)
    print("데이터 크기:", df.shape)
    print("\n첫 5행:")
    print(df.head())
    print("\n컬럼명:")
    print(df.columns.tolist())
else:
    print("파일을 읽을 수 없습니다. 파일 경로와 형식을 확인해주세요.")

utf-8 인코딩으로 시도 중...
✓ utf-8 인코딩으로 성공!

데이터 크기: (4, 4)

첫 5행:
    이름   국어  영어  수학
0  홍길동   10  70  70
1  이순신  100  10  80
2  고기동   90  50  40
3  김진균    7   4   2

컬럼명:
['이름', '국어', '영어', '수학']


In [7]:
import pandas as pd

# 다양한 인코딩을 시도해보는 함수
def read_csv_with_encoding(file_path):
    encodings = ['utf-8', 'cp949', 'euc-kr', 'utf-8-sig', 'latin1']
    
    for encoding in encodings:
        try:
            print(f"{encoding} 인코딩으로 시도 중...")
            df = pd.read_csv(file_path, encoding=encoding)
            print(f"✓ {encoding} 인코딩으로 성공!")
            return df
        except Exception as e:
            print(f"✗ {encoding} 실패: {str(e)}")
            continue
    
    print("모든 인코딩 실패. 파일을 확인해주세요.")
    return None

# CSV 파일 읽기
df = read_csv_with_encoding('/Users/sonzyun/Desktop/VScode/ABCD_C/25.09.09/data(Sheet1).csv')

if df is not None:
    # 기본 데이터 정보
    print("\n" + "="*50)
    print("데이터 크기:", df.shape)
    print("\n첫 5행:")
    print(df.head())
    print("\n컬럼명:")
    print(df.columns.tolist())
    
    # 숫자형 컬럼만 추출
    numeric_cols = df.select_dtypes(include=['number']).columns.tolist()
    print(f"\n숫자형 컬럼: {numeric_cols}")
    
    if len(numeric_cols) > 0:
        # 1. 컬럼별 평균값
        print("\n" + "="*50)
        print("📊 컬럼별 평균값:")
        print("-" * 30)
        for col in numeric_cols:
            mean_val = df[col].mean()
            print(f"{col}: {mean_val:.2f}")
        
        # 2. 레코드별 전체 평균 (각 행의 평균)
        print("\n" + "="*50)
        print("📋 레코드별 전체 평균 (처음 10개 행):")
        print("-" * 40)
        df_numeric = df[numeric_cols]
        row_means = df_numeric.mean(axis=1)
        for i, mean_val in enumerate(row_means.head(10)):
            print(f"레코드 {i+1}: {mean_val:.2f}")
        
        # 레코드별 평균을 데이터프레임에 추가
        df['레코드_평균'] = row_means
        
        # 3. 각 컬럼별 상세 통계 요약
        print("\n" + "="*50)
        print("📈 컬럼별 상세 통계 요약:")
        print("-" * 50)
        
        for col in numeric_cols:
            print(f"\n▶ {col} 통계:")
            print(f"  평균(Mean): {df[col].mean():.2f}")
            print(f"  중앙값(Median): {df[col].median():.2f}")
            print(f"  표준편차(Std): {df[col].std():.2f}")
            print(f"  최솟값(Min): {df[col].min():.2f}")
            print(f"  최댓값(Max): {df[col].max():.2f}")
            print(f"  결측값(Null): {df[col].isnull().sum()}개")
        
        # 4. 전체 통계 요약표
        print("\n" + "="*50)
        print("📋 전체 통계 요약표:")
        print("-" * 50)
        print(df[numeric_cols].describe())
        
        # 5. 레코드별 평균의 통계
        print("\n" + "="*50)
        print("📊 레코드별 평균의 통계:")
        print("-" * 30)
        print(f"레코드 평균의 평균: {row_means.mean():.2f}")
        print(f"레코드 평균의 최솟값: {row_means.min():.2f}")
        print(f"레코드 평균의 최댓값: {row_means.max():.2f}")
        print(f"레코드 평균의 표준편차: {row_means.std():.2f}")
        
    else:
        print("\n⚠️  숫자형 데이터가 없어서 통계 계산을 할 수 없습니다.")
        print("데이터 타입 정보:")
        print(df.dtypes)
        
else:
    print("파일을 읽을 수 없습니다. 파일 경로와 형식을 확인해주세요.")

utf-8 인코딩으로 시도 중...
✓ utf-8 인코딩으로 성공!

데이터 크기: (4, 4)

첫 5행:
    이름   국어  영어  수학
0  홍길동   10  70  70
1  이순신  100  10  80
2  고기동   90  50  40
3  김진균    7   4   2

컬럼명:
['이름', '국어', '영어', '수학']

숫자형 컬럼: ['국어', '영어', '수학']

📊 컬럼별 평균값:
------------------------------
국어: 51.75
영어: 33.50
수학: 48.00

📋 레코드별 전체 평균 (처음 10개 행):
----------------------------------------
레코드 1: 50.00
레코드 2: 63.33
레코드 3: 60.00
레코드 4: 4.33

📈 컬럼별 상세 통계 요약:
--------------------------------------------------

▶ 국어 통계:
  평균(Mean): 51.75
  중앙값(Median): 50.00
  표준편차(Std): 50.12
  최솟값(Min): 7.00
  최댓값(Max): 100.00
  결측값(Null): 0개

▶ 영어 통계:
  평균(Mean): 33.50
  중앙값(Median): 30.00
  표준편차(Std): 31.76
  최솟값(Min): 4.00
  최댓값(Max): 70.00
  결측값(Null): 0개

▶ 수학 통계:
  평균(Mean): 48.00
  중앙값(Median): 55.00
  표준편차(Std): 35.06
  최솟값(Min): 2.00
  최댓값(Max): 80.00
  결측값(Null): 0개

📋 전체 통계 요약표:
--------------------------------------------------
              국어        영어        수학
count    4.00000   4.00000   4.00000
mean    51.75000  33.500

In [8]:
import pandas as pd

# 다양한 인코딩을 시도해보는 함수
def read_csv_with_encoding(file_path):
    encodings = ['utf-8', 'cp949', 'euc-kr', 'utf-8-sig', 'latin1']
    
    for encoding in encodings:
        try:
            print(f"{encoding} 인코딩으로 시도 중...")
            df = pd.read_csv(file_path, encoding=encoding)
            print(f"✓ {encoding} 인코딩으로 성공!")
            return df
        except Exception as e:
            print(f"✗ {encoding} 실패: {str(e)}")
            continue
    
    print("모든 인코딩 실패. 파일을 확인해주세요.")
    return None

# CSV 파일 읽기
df = read_csv_with_encoding('/Users/sonzyun/Desktop/VScode/ABCD_C/25.09.09/data(Sheet1).csv')

if df is not None:
    # 기본 데이터 정보
    print("\n" + "="*50)
    print("데이터 크기:", df.shape)
    print("\n첫 5행:")
    print(df.head())
    print("\n컬럼명:")
    print(df.columns.tolist())
    
    # 첫 번째 컬럼을 이름으로, 나머지를 숫자형 컬럼으로 분리
    name_col = df.columns[0]  # 첫 번째 컬럼 (이름)
    numeric_cols = df.select_dtypes(include=['number']).columns.tolist()
    
    print(f"\n이름 컬럼: {name_col}")
    print(f"숫자형 컬럼: {numeric_cols}")
    
    if len(numeric_cols) > 0:
        # 1. 각 사람(레코드)별 평균 계산
        print("\n" + "="*50)
        print("👥 각 사람별 평균점수:")
        print("-" * 40)
        
        df_numeric = df[numeric_cols]
        person_averages = df_numeric.mean(axis=1)  # 각 행(사람)의 평균
        
        # 이름과 평균을 함께 출력
        for i, (name, avg) in enumerate(zip(df[name_col], person_averages)):
            print(f"{name}: {avg:.2f}")
        
        # 2. 사람별 평균을 데이터프레임에 추가
        df['개인평균'] = person_averages
        
        # 3. 컬럼별 평균값 (과목별 평균)
        print("\n" + "="*50)
        print("📊 과목별 전체 평균:")
        print("-" * 30)
        for col in numeric_cols:
            mean_val = df[col].mean()
            print(f"{col}: {mean_val:.2f}")
        
        # 4. 개인별 상세 점수와 평균 테이블
        print("\n" + "="*50)
        print("📋 개인별 상세 점수표:")
        print("-" * 50)
        result_df = df[[name_col] + numeric_cols + ['개인평균']].copy()
        print(result_df.to_string(index=False, float_format='%.2f'))
        
        # 5. 개인 평균의 통계
        print("\n" + "="*50)
        print("📈 개인 평균 점수 통계:")
        print("-" * 30)
        print(f"전체 개인평균의 평균: {person_averages.mean():.2f}")
        print(f"가장 높은 개인평균: {person_averages.max():.2f}")
        print(f"가장 낮은 개인평균: {person_averages.min():.2f}")
        print(f"개인평균의 표준편차: {person_averages.std():.2f}")
        
        # 6. 최고점, 최저점 학생 찾기
        print("\n" + "="*50)
        print("🏆 성적 순위:")
        print("-" * 20)
        
        best_student_idx = person_averages.idxmax()
        worst_student_idx = person_averages.idxmin()
        
        print(f"최고 평균: {df.loc[best_student_idx, name_col]} ({person_averages[best_student_idx]:.2f})")
        print(f"최저 평균: {df.loc[worst_student_idx, name_col]} ({person_averages[worst_student_idx]:.2f})")
        
        # 7. 각 과목별 1등 학생
        print("\n📚 과목별 1등:")
        print("-" * 20)
        for col in numeric_cols:
            top_student_idx = df[col].idxmax()
            top_score = df.loc[top_student_idx, col]
            top_student_name = df.loc[top_student_idx, name_col]
            print(f"{col}: {top_student_name} ({top_score}점)")
        
        # 8. 전체 통계 요약
        print("\n" + "="*50)
        print("📊 전체 통계 요약:")
        print("-" * 50)
        print(df[numeric_cols].describe())
        
    else:
        print("\n⚠️  숫자형 데이터가 없어서 통계 계산을 할 수 없습니다.")
        print("데이터 타입 정보:")
        print(df.dtypes)
        
else:
    print("파일을 읽을 수 없습니다. 파일 경로와 형식을 확인해주세요.")

utf-8 인코딩으로 시도 중...
✓ utf-8 인코딩으로 성공!

데이터 크기: (4, 4)

첫 5행:
    이름   국어  영어  수학
0  홍길동   10  70  70
1  이순신  100  10  80
2  고기동   90  50  40
3  김진균    7   4   2

컬럼명:
['이름', '국어', '영어', '수학']

이름 컬럼: 이름
숫자형 컬럼: ['국어', '영어', '수학']

👥 각 사람별 평균점수:
----------------------------------------
홍길동: 50.00
이순신: 63.33
고기동: 60.00
김진균: 4.33

📊 과목별 전체 평균:
------------------------------
국어: 51.75
영어: 33.50
수학: 48.00

📋 개인별 상세 점수표:
--------------------------------------------------
 이름  국어  영어  수학  개인평균
홍길동  10  70  70 50.00
이순신 100  10  80 63.33
고기동  90  50  40 60.00
김진균   7   4   2  4.33

📈 개인 평균 점수 통계:
------------------------------
전체 개인평균의 평균: 44.42
가장 높은 개인평균: 63.33
가장 낮은 개인평균: 4.33
개인평균의 표준편차: 27.32

🏆 성적 순위:
--------------------
최고 평균: 이순신 (63.33)
최저 평균: 김진균 (4.33)

📚 과목별 1등:
--------------------
국어: 이순신 (100점)
영어: 홍길동 (70점)
수학: 이순신 (80점)

📊 전체 통계 요약:
--------------------------------------------------
              국어        영어        수학
count    4.00000   4.00000   4.00000
mean    51.75000  33