In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

# 데이터 로드

In [None]:
# CSV 파일 경로
fer2013_path = '/data/face1/fer/fer2013/fer2013.csv'

# CSV 파일 읽기
data = pd.read_csv(fer2013_path)

# 데이터 확인
print(data.head())  # 상위 5개 행 출력
print(data.info())  # 데이터 정보 출력

In [None]:
# Usage 열의 값 종류 확인
usage_values = data['Usage'].unique()
print("Usage 열의 고유 값:", usage_values)

In [None]:
# 감정 라벨 정의
emotion_labels = {
    0: 'Angry',
    1: 'Disgust',
    2: 'Fear',
    3: 'Happy',
    4: 'Sad',
    5: 'Surprise',
    6: 'Neutral'
}

# emotion 값별 데이터 개수 세기
emotion_counts = data['emotion'].value_counts().sort_index()  # 감정별 데이터 개수
emotion_counts.index = emotion_counts.index.map(emotion_labels)  # 숫자 라벨을 감정 이름으로 매핑

# 출력
print("감정별 데이터 개수")
print(emotion_counts)

# Usage 칼럼 기준으로 데이터 나누기

In [None]:
# Usage 값에 따라 데이터 분리
training_data = data[data['Usage'] == 'Training']
public_test_data = data[data['Usage'] == 'PublicTest']
private_test_data = data[data['Usage'] == 'PrivateTest']

In [None]:
# Training 데이터의 감정 라벨별 갯수
training_emotion_counts = training_data['emotion'].value_counts()

# PublicTest 데이터의 감정 라벨별 갯수
public_test_emotion_counts = public_test_data['emotion'].value_counts()

# PrivateTest 데이터의 감정 라벨별 갯수
private_test_emotion_counts = private_test_data['emotion'].value_counts()

In [None]:
# 감정 라벨별 분포를 시각화하는 함수
def plot_emotion_distribution(emotion_counts, title):
    plt.figure(figsize=(8, 6))
    sns.barplot(x=emotion_counts.index, y=emotion_counts.values, palette="viridis")
    plt.title(title, fontsize=16)
    plt.xlabel("Emotion Label", fontsize=14)
    plt.ylabel("Count", fontsize=14)
    plt.xticks(fontsize=12)
    plt.yticks(fontsize=12)
    plt.show()


In [None]:
import seaborn as sns

# Training 데이터 감정 라벨 분포
plot_emotion_distribution(training_emotion_counts, "Training Data Emotion Distribution")