In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from google.colab import files
uploaded = files.upload()

In [1]:
data = pd.read_csv('student_age15.csv')

# 'legal group'과 'illegal group'을 분류
data['group'] = ['legal' if (row['Dalc'] == 1 and row['Walc'] == 1) else 'illegal' for index, row in data.iterrows()]

# 학교별로 legal과 illegal 그룹의 수를 다시 계산
school_counts = data.groupby(['school', 'group']).size().unstack(fill_value=0)

fig, axes = plt.subplots(1, 2, figsize=(10, 6))

# 왼쪽 그래프: 학교별 legal, illegal 그룹의 수
school_counts.plot(kind='bar', stacked=False, ax=axes[0], color=['orange', 'green'])
axes[0].set_title('Number of Students in Legal and Illegal')
axes[0].set_xlabel('School')
axes[0].set_ylabel('Count')
axes[0].legend(title='Group', labels=['Illegal', 'Legal'])

# 각 막대 위에 숫자 표기
for p in axes[0].patches:
    axes[0].annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()), ha='center', va='center', xytext=(0, 10), textcoords='offset points')

# 오른쪽 그래프: 학교별 legal, illegal 그룹의 비율
school_ratios= school_counts.div(school_counts.sum(axis=1), axis=0)
school_ratios.plot(kind='bar', stacked=True, ax=axes[1], color=['orange', 'green'])
axes[1].set_title('Percentage of Students in Legal and Illegal')
axes[1].set_xlabel('School')
axes[1].set_ylabel('Percentage')
axes[1].legend(title='Group', labels=['Illegal', 'Legal'])

# 비율 표시 추가
for rect in axes[1].patches:
    height = rect.get_height()
    axes[1].text(rect.get_x() + rect.get_width() / 2, rect.get_y() + height / 2, f'{height:.2%}', ha='center', va='center')

plt.tight_layout()
plt.show()

gp_data = data[data['school'] == 'GP']
ms_data = data[data['school'] == 'MS']

# 박스 플롯 그리기 (x축 순서 조정)
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# GP 학교에서 illegal과 legal 그룹의 G1 분포 (x축 순서 조정)
sns.boxplot(ax=axes[0], x='group', y='G1', data=gp_data, order=['illegal', 'legal'], palette=['orange', 'green'])
axes[0].set_title('G1 Scores Distribution in GP School')
axes[0].set_xlabel('Group')
axes[0].set_ylabel('G1 Score')

# MS 학교에서 illegal과 legal 그룹의 G1 분포 (x축 순서 조정)
sns.boxplot(ax=axes[1], x='group', y='G1', data=ms_data, order=['illegal', 'legal'], palette=['orange', 'green'])
axes[1].set_title('G1 Scores Distribution in MS School')
axes[1].set_xlabel('Group')
axes[1].set_ylabel('G1 Score')

# y축 눈금자 동일하게 설정
y_max = max(axes[0].get_ylim()[1], axes[1].get_ylim()[1])
axes[0].set_ylim(0, y_max)
axes[1].set_ylim(0, y_max)

plt.tight_layout()
plt.show()

gp_data = data[data['school'] == 'GP']
ms_data = data[data['school'] == 'MS']

# 박스 플롯 그리기
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# GP 학교에서 illegal과 legal 그룹의 G2 분포 (x축 순서 조정)
sns.boxplot(ax=axes[0], x='group', y='G2', data=gp_data, order=['illegal', 'legal'], palette=['orange', 'green'])
axes[0].set_title('G2 Scores Distribution in GP School')
axes[0].set_xlabel('Group')
axes[0].set_ylabel('G2 Score')

# MS 학교에서 illegal과 legal 그룹의 G2 분포 (x축 순서 조정)
sns.boxplot(ax=axes[1], x='group', y='G2', data=ms_data, order=['illegal', 'legal'], palette=['orange', 'green'])
axes[1].set_title('G2 Scores Distribution in MS School')
axes[1].set_xlabel('Group')
axes[1].set_ylabel('G2 Score')

# y축 눈금자 동일하게 설정
y_max = max(axes[0].get_ylim()[1], axes[1].get_ylim()[1])
axes[0].set_ylim(0, y_max)
axes[1].set_ylim(0, y_max)

plt.tight_layout()
plt.show()

# 엄마 또는 아빠의 교육 수준이 1인 경우의 legal과 illegal 비교
# 엄마 또는 아빠 교육 수준이 1인 경우 필터링
parent_education_1 = ms_data[(ms_data['Medu'] == 1) | (ms_data['Fedu'] == 1)]

# 그룹별 카운트 계산
group_counts = parent_education_1['group'].value_counts()

# 그래프 사이즈 설정 및 시각화
plt.figure(figsize=(8, 6))
group_counts.plot(kind='bar', color=['orange', 'green'])
plt.title('Comparison of Legal and Illegal Groups (At Least One Parent with Education Level 1)')
plt.xlabel('Group')
plt.ylabel('Count')
plt.xticks(rotation=0)
plt.show()

# 데이터 파일 불러오기
ms_legal_data = pd.read_csv('MS_legal_age15.csv')
ms_illegal_data = pd.read_csv('MS_illegal_age15.csv')

# 원형 파이 차트 시각화를 위한 데이터 준비
# legal 그룹의 가족 지원(famsup) 분포
legal_famsup_distribution = ms_legal_data['famsup'].value_counts()

# illegal 그룹의 가족 지원(famsup) 분포
illegal_famsup_distribution = ms_illegal_data['famsup'].value_counts()

# 원형 파이 차트 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Legal 그룹의 가족 지원 비율
axes[0].pie(legal_famsup_distribution, labels=legal_famsup_distribution.index, autopct='%1.1f%%', startangle=140, colors=['lightblue', 'lightcoral'])
axes[0].set_title('Legal Group: Family Support')

# Illegal 그룹의 가족 지원 비율
axes[1].pie(illegal_famsup_distribution, labels=illegal_famsup_distribution.index, autopct='%1.1f%%', startangle=140, colors=['lightblue', 'lightcoral'])
axes[1].set_title('Illegal Group: Family Support')

plt.tight_layout()
plt.show()

# 각 데이터 세트에 'group' 열 추가
ms_legal_data['group'] = 'Legal'
ms_illegal_data['group'] = 'Illegal'

# 두 데이터 세트를 합침
combined_data = pd.concat([ms_legal_data, ms_illegal_data])

# 'travel time'의 분포를 막대 그래프로 시각화
plt.figure(figsize=(10, 6))
sns.countplot(x='traveltime', hue='group', data=combined_data, palette=['green', 'orange'])

plt.title("Travel Time Distribution for Legal and Illegal Groups in MS School")
plt.xlabel("Travel Time")
plt.ylabel("Count")
plt.legend(title='Group', labels=['Legal', 'Illegal'])

plt.show()

# 원형 파이 차트 시각화를 위한 데이터 준비
# legal 그룹의 도시/시골 거주 분포
legal_address_distribution = ms_legal_data['address'].value_counts()

# illegal 그룹의 도시/시골 거주 분포
illegal_address_distribution = ms_illegal_data['address'].value_counts()

# 원형 파이 차트 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Legal 그룹의 도시/시골 거주 비율
axes[0].pie(legal_address_distribution, labels=legal_address_distribution.index, autopct='%1.1f%%', startangle=140, colors=['skyblue', 'lightgreen'])
axes[0].set_title('Legal Group: Urban vs Rural')

# Illegal 그룹의 도시/시골 거주 비율
axes[1].pie(illegal_address_distribution, labels=illegal_address_distribution.index, autopct='%1.1f%%', startangle=140, colors=['skyblue', 'lightgreen'])
axes[1].set_title('Illegal Group: Urban vs Rural')

plt.tight_layout()

fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Legal group plot
ms_legal_data['famrel'].value_counts().sort_index().reindex(range(1, 6), fill_value=0).plot(kind='bar', ax=axes[0], color='green')
axes[0].set_title('Legal Group Family Relationship Satisfaction')
axes[0].set_xlabel('Family Relationship Satisfaction')
axes[0].set_ylabel('Frequency')
axes[0].set_xticklabels(range(1, 6), rotation=0)

# Illegal group plot
ms_illegal_data['famrel'].value_counts().sort_index().reindex(range(1, 6), fill_value=0).plot(kind='bar', ax=axes[1], color='orange')
axes[1].set_title('Illegal Group Family Relationship Satisfaction')
axes[1].set_xlabel('Family Relationship Satisfaction')
axes[1].set_ylabel('Frequency')
axes[1].set_xticklabels(range(1, 6), rotation=0)

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# School support for the legal group with 'yes' included on x-axis
ms_legal_data['schoolsup'].value_counts().reindex(['no', 'yes'], fill_value=0).plot(kind='bar', ax=axes[0], color='green')
axes[0].set_title('Legal Group School Support')
axes[0].set_xlabel('School Support')
axes[0].set_ylabel('Frequency')
axes[0].set_xticklabels(['no', 'yes'], rotation=0)

# School support for the illegal group
ms_illegal_data['schoolsup'].value_counts().plot(kind='bar', ax=axes[1], color='orange')
axes[1].set_title('Illegal Group School Support')
axes[1].set_xlabel('School Support')
axes[1].set_ylabel('Frequency')
axes[1].set_xticklabels(ms_illegal_data['schoolsup'].value_counts().index, rotation=0)

plt.tight_layout()
plt.show()

KeyboardInterrupt: 