In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

In [None]:
font_path = 'C:\\windows\\Fonts\\malgun.ttf'
font_prop = fm.FontProperties(fname=font_path).get_name()
print(font_prop)
matplotlib.rc('font', family=font_prop)

In [None]:
# 인구현황.csv 로드하여 DataFrame 객체생성 , 변수명은 df_all 
df_all = pd.read_csv('data/인구현황.csv', encoding='utf-8')
df_all.head()

In [None]:
# 전국 데이터는 제거하고 새로운 DataFrame 생성, 변수명은 df
df = df_all.loc[df_all['행정기관'] != '전국'].copy()
df.head()

In [None]:
print("\n결측치 확인:")
print(df.isnull().sum())

##### 1. 지역별 총인구수 Top5


In [None]:
print("1. 지역별 총인구수 Top5")

df[['행정기관', '총인구수']].sort_values(by='총인구수', ascending=False).head(5)
#df.loc[:, ['행정기관', '총인구수']].sort_values(by='총인구수', ascending=False).head(5)

##### 1-1. 지역별 총인구수 Plot

In [None]:
plt.figure(figsize=(10,5))
# plt.subplots(nrows=1, ncols=1)

# seaborn의 barplot() 함수사용
sns.barplot(x='행정기관', y='총인구수', data=df.sort_values(by='총인구수',ascending=False), hue='행정기관')
plt.xticks(rotation=45)
plt.title('지역별 총인구수')
plt.tight_layout()
plt.show()

##### 2. 세대당 인구수 높은 지역 Top5

In [None]:
# df.loc[df['세대당 인구'].nlargest(5).index, ['행정기관', '세대당 인구']].reset_index(drop=True)
df[['행정기관', '세대당 인구']].sort_values(by='세대당 인구', ascending=False).head(5).reset_index(drop=True)

# df_top_five_people_per_household = df.loc[df['세대당 인구'].nlargest(5).index, ['행정기관', '세대당 인구']].reset_index(drop=True)

# plt.figure(figsize=(10,5))
# plt.subplots(nrows=1, ncols=1)

# # seaborn의 barplot() 함수사용
# sns.barplot(x='행정기관', y='세대당 인구', data=df_top_five_people_per_household.sort_values(by='세대당 인구', ascending=False), hue='행정기관')
# plt.xticks(rotation=45)
# plt.title('세대당 인구수 높은 지역 Top5')
# plt.tight_layout()
# plt.show()


##### 2-1. 지역별 세대당 인구 Plot

In [None]:
plt.figure(figsize=(10,5))
plt.subplots(nrows=1, ncols=1)

# seaborn의 barplot() 함수사용
sns.barplot(x='행정기관', y='세대당 인구', data=df.sort_values(by='세대당 인구', ascending=False), hue='행정기관')
plt.xticks(rotation=45)
plt.title('지역별 세대당 인구 Plot')
plt.tight_layout()
plt.show()


##### 3. 남녀 비율 분석

In [None]:
df[['행정기관', '남여 비율']].sort_values(by='남여 비율', ascending=False).reset_index(drop=True).head(5)


##### 3-1. 지역별 남녀 비율 Plot
* 기준이 되는 빨간선은 pyplot의 axhline() 함수를 사용해 보세요.

In [None]:
plt.figure(figsize=(10,5))
plt.subplots(nrows=1, ncols=1)

# seaborn의 barplot() 함수사용
sns.barplot(x='행정기관', y='남여 비율', data=df.sort_values(by='남여 비율', ascending=False), hue='남여 비율')
plt.axhline(1, color='r', linestyle='--')
plt.xticks(rotation=45)
plt.title('지역별 남녀 비율')
plt.tight_layout()
plt.show()


##### 4. 남자초과 / 여자초과 분석
* 남초(남자초과) => 남자 인구가 여자 인구보다 많은 지역	남여 비율 > 1 또는 남자 인구수 > 여자 인구수
* 여초(여자초과) => 여자 인구가 남자 인구보다 많은 지역	남여 비율 < 1 또는 여자 인구수 > 남자 인구수

* 남초여초 컬럼을 추가합니다. 

In [None]:
df_sex_ratio = df[['행정기관', '남여 비율']].copy()
df_sex_ratio['남초여초'] = df_sex_ratio['남여 비율'].apply(lambda x: '동일' if x == 1 else('남초' if x > 1 else '여초'))
df_sex_ratio.head(10)

In [None]:
df['남초여초'].value_counts()

##### 5. 세대당 인구 평균보다 높은 지역

In [None]:
print("5. 세대당 인구 평균보다 높은 지역")
avg_people_per_household = round(df['세대당 인구'].mean(), 2)
print(f"전국 평균 세대당 인구수: {avg_people_per_household}")

df.loc[df['세대당 인구'] > avg_people_per_household, ['행정기관', '세대당 인구']].reset_index(drop=True)


##### 5-1. 남초 vs 여초 개수 Plot  /  지역별 세대수 Plot

In [None]:
# 1x2 subplot 생성 (1행 2열의 플롯 영역)
fig, axes = plt.subplots(2,1, figsize=(10, 5)) # figsize로 전체 Figure 크기 조절

# 첫 번째 플롯 (countplot)
plot_01 = sns.countplot(data=df_sex_ratio, x='남초여초', hue='남초여초', ax=axes[0]) # axes[0]에 그림
plot_01.set_title('남초 vs 여초 지역 개수')

# 두 번째 플롯 (barplot)
plot_02 = sns.barplot(x='행정기관', y='세대당 인구', data=df.sort_values(by='세대당 인구', ascending=False), ax=axes[1], hue='행정기관') # axes[1]에 그림
plot_02.set_title('지역별 세대수')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


##### 6. 남자 인구 vs 여자 인구 비교 Plot

In [None]:
print("6. 남자 인구 vs 여자 인구 비교")

plt.figure(figsize=(15,7))
df.loc[:,['행정기관', '남자 인구수', '여자 인구수']].plot(kind='bar', x='행정기관', figsize=(15,7))

plt.title('남자 vs 여자 인구 비교')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# melt 로 데이터 형태 변환 (long-form)
df_melt = df.melt(id_vars='행정기관', value_vars=['남자 인구수', '여자 인구수'], 
                  var_name='성별', value_name='인구수')

df_melt

In [None]:
figure, ax1 = plt.subplots(nrows=1, ncols=1)
figure.set_size_inches(18,12)

# seaborn barplot
pop_plot = sns.barplot(data=df_melt, x='행정기관', y='인구수', hue='성별',ax=ax1)
pop_plot.set_title('남자 vs 여자 인구 비교')

for item in ax1.get_xticklabels(): 
    item.set_rotation(45)

#plt.title('남자 vs 여자 인구 비교')
#plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### 엑셀 리포트 자동 생성 코드

In [None]:
# 엑셀 저장용
from pandas import ExcelWriter
from datetime import datetime

# 분석 데이터 준비
top5_population = df[['행정기관', '총인구수']].sort_values(by='총인구수', ascending=False).head(5)
top5_family = df[['행정기관', '세대당 인구']].sort_values(by='세대당 인구', ascending=False).head(5)
male_vs_female = df[['행정기관', '남자 인구수', '여자 인구수']]

# 남초/여초 컬럼 추가
df['남초여초'] = df['남여 비율'].apply(lambda x: '남초' if x > 1 else ('여초' if x < 1 else '동일'))

today = datetime.now().strftime('%Y%m%d')
filename = f'data/인구분석리포트_{today}.xlsx'

# Excel 파일로 저장
with ExcelWriter(filename, engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='원본데이터', index=False)
    top5_population.to_excel(writer, sheet_name='총인구 Top5', index=False)
    top5_family.to_excel(writer, sheet_name='세대당 인구 Top5', index=False)
    male_vs_female.to_excel(writer, sheet_name='남자vs여자', index=False)
    
print("엑셀 리포트 저장 완료 → '인구분석리포트.xlsx'")


In [None]:
# 남녀 인구 차이 컬럼 추가
df['남여차이'] = abs(df['남자 인구수'] - df['여자 인구수'])

# 남녀 비율 TOP5 (남초)
male_dom = df.sort_values(by='남여 비율', ascending=False).head(5)

# 남녀 비율 TOP5 (여초)
female_dom = df.sort_values(by='남여 비율', ascending=True).head(5)

# 세대당 인구 TOP5 (가구당 인구 많은 지역)
big_family = df.sort_values(by='세대당 인구', ascending=False).head(5)

# 세대수 대비 총인구 비율
df['인구/세대'] = df['총인구수'] / df['세대수']

# 수도권 vs 비수도권 비교
capital = df[df['행정기관'].isin(['서울특별시', '경기도', '인천광역시'])]
non_capital = df[~df['행정기관'].isin(['서울특별시', '경기도', '인천광역시'])]


In [None]:
df.head()

In [None]:

print("남초 TOP5")
male_dom[['행정기관','남여 비율']].reset_index(drop=True)


In [None]:

print("여초 TOP5")
female_dom[['행정기관','남여 비율']].reset_index(drop=True)


In [None]:

print("세대당 인구 많은 TOP5")
big_family[['행정기관','세대당 인구']].reset_index(drop=True)


In [None]:

print("수도권 평균 세대당 인구:", capital['세대당 인구'].mean())
print("비수도권 평균 세대당 인구:", non_capital['세대당 인구'].mean())

In [None]:
# 전국 총인구수
total_population = df_all[df_all['행정기관'] == '전국']['총인구수'].values[0]

# 인구비율(%) 컬럼 추가하기
df['인구비율(%)'] = df['총인구수'] / total_population * 100

df

In [None]:
# 전국 제외
df_plot = df.sort_values(by='인구비율(%)', ascending=False)
df_plot

In [None]:

# 시각화
plt.figure(figsize=(12, 8))
bars = plt.barh(df_plot['행정기관'], df_plot['인구비율(%)'], color='cornflowerblue')

plt.xlabel('인구비율 (%)')
plt.title('행정기관별 인구 비율')

# 값 표시
for bar in bars:
    plt.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2,
             f"{bar.get_width():.2f}%", va='center')

plt.gca().invert_yaxis()
plt.show()