## 공공데이터 분석 실습
- 공공데이터포털에 공개된 데이터를 이용
- 연도별 지역별 등록외국인수 데이터 분석
- 연도별 국적별 출입국별 입국자수 데이터 분석(Optional)

In [1]:
import pandas as pd

In [2]:
# 샘플파일 읽기
# 파일이 열리지 않는 경우 encoding="cp949"를 설정

df = pd.read_csv("pandas_sample#1.csv", encoding="cp949")
df

Unnamed: 0,년,월,시도,시군구,등록외국인수
0,2022,1,강원도,강릉시,2344
1,2022,1,강원도,고성군,1202
2,2022,1,강원도,동해시,724
3,2022,1,강원도,삼척시,632
4,2022,1,강원도,속초시,1035
...,...,...,...,...,...
9272,2025,1,충청북도,청주시 상당구,1487
9273,2025,1,충청북도,청주시 서원구,3711
9274,2025,1,충청북도,청주시 청원구,7071
9275,2025,1,충청북도,청주시 흥덕구,6959


In [3]:
df.head() # 데이터프레임 첫 5개 행만 조회

Unnamed: 0,년,월,시도,시군구,등록외국인수
0,2022,1,강원도,강릉시,2344
1,2022,1,강원도,고성군,1202
2,2022,1,강원도,동해시,724
3,2022,1,강원도,삼척시,632
4,2022,1,강원도,속초시,1035


In [4]:
# "년" 칼럼 고유값 조회

df["년"].unique()

array([2022, 2023, 2024, 2025])

In [5]:
# "시도" 칼럼 고유값 조회

df["월"].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [6]:
# 데이터프레임의 칼럼 정보 조회

df.columns

Index(['년', '월', '시도', '시군구', '등록외국인수'], dtype='object')

In [16]:
# 2025년 데이터를 제외해보자!

df1 = df[df["년"]<2025]
df1

Unnamed: 0,년,월,시도,시군구,등록외국인수
0,2022,1,강원도,강릉시,2344
1,2022,1,강원도,고성군,1202
2,2022,1,강원도,동해시,724
3,2022,1,강원도,삼척시,632
4,2022,1,강원도,속초시,1035
...,...,...,...,...,...
9020,2024,12,충청북도,청주시 상당구,1493
9021,2024,12,충청북도,청주시 서원구,3741
9022,2024,12,충청북도,청주시 청원구,7038
9023,2024,12,충청북도,청주시 흥덕구,7028


In [17]:
# 연도별 등록외국인수를 파악해보자!(2022~2024년 3년간)

df2 = df1.groupby("년")["등록외국인수"].sum()
df2

년
2022    13494484
2023    15291426
2024    17122350
Name: 등록외국인수, dtype: int64

In [18]:
# 위에서 만들어진 df2는 시리즈 데이터임.
# 데이터프레임으로 변환해보자!
# reset_index() 함수를 이용하여 인덱스 정보를 칼럼 데이터로 변경 가능

df3 = df2.reset_index()
df3

Unnamed: 0,년,등록외국인수
0,2022,13494484
1,2023,15291426
2,2024,17122350


In [21]:
# 2024년 데이터만 추출해보자!

df = pd.read_csv("pandas_sample#1.csv", encoding="cp949")
df1 = df[df["년"] == 2024]
df1

Unnamed: 0,년,월,시도,시군구,등록외국인수
6000,2024,1,강원도,강릉시,3408
6001,2024,1,강원도,고성군,1782
6002,2024,1,강원도,동해시,983
6003,2024,1,강원도,삼척시,855
6004,2024,1,강원도,속초시,1384
...,...,...,...,...,...
9020,2024,12,충청북도,청주시 상당구,1493
9021,2024,12,충청북도,청주시 서원구,3741
9022,2024,12,충청북도,청주시 청원구,7038
9023,2024,12,충청북도,청주시 흥덕구,7028


In [22]:
# 2024년 월별 등록외국인수를 조회해보자!

df2 = df1.groupby("월")["등록외국인수"].sum()
df2

월
1     1358123
2     1354954
3     1374272
4     1392491
5     1409950
6     1421870
7     1434896
8     1437286
9     1459388
10    1480673
11    1488091
12    1510356
Name: 등록외국인수, dtype: int64

In [12]:
print(df2.index)

Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], dtype='int64', name='월')


In [23]:
# reset_index() 함수를 이용하여 시리즈를 데이터프레임으로 변환

df3 = df2.reset_index()
df3

Unnamed: 0,월,등록외국인수
0,1,1358123
1,2,1354954
2,3,1374272
3,4,1392491
4,5,1409950
5,6,1421870
6,7,1434896
7,8,1437286
8,9,1459388
9,10,1480673


In [24]:
# 2024년 지역별 등록외국인수를 조회해보자!

df4 = df1.groupby("시도")["등록외국인수"].sum()
df4

시도
강원도         326959
경기도　       5374381
경상남도       1156871
경상북도        878697
광주광역시       311553
대구광역시       417271
대전광역시       298857
부산광역시       628851
서울특별시      3058633
세종특별자치시      71403
울산광역시       312813
인천광역시      1027475
전라남도        666448
전라북도        523701
제주특별자치도     320773
충청남도       1104467
충청북도        643197
Name: 등록외국인수, dtype: int64

In [25]:
df5 = df4.reset_index()
df5

Unnamed: 0,시도,등록외국인수
0,강원도,326959
1,경기도,5374381
2,경상남도,1156871
3,경상북도,878697
4,광주광역시,311553
5,대구광역시,417271
6,대전광역시,298857
7,부산광역시,628851
8,서울특별시,3058633
9,세종특별자치시,71403


In [26]:
# df5에 "비중" 칼럼을 추가해보자!

df5["비중"] = df5["등록외국인수"]/df5["등록외국인수"].sum()
df5

Unnamed: 0,시도,등록외국인수,비중
0,강원도,326959,0.019095
1,경기도,5374381,0.313881
2,경상남도,1156871,0.067565
3,경상북도,878697,0.051319
4,광주광역시,311553,0.018196
5,대구광역시,417271,0.02437
6,대전광역시,298857,0.017454
7,부산광역시,628851,0.036727
8,서울특별시,3058633,0.178634
9,세종특별자치시,71403,0.00417


In [27]:
# "비중" 칼럼 데이터를 %로 변환 후 "비중(%)"에 저장

df5["비중(%)"] = round(df5["비중"]*100, 2)
df5

Unnamed: 0,시도,등록외국인수,비중,비중(%)
0,강원도,326959,0.019095,1.91
1,경기도,5374381,0.313881,31.39
2,경상남도,1156871,0.067565,6.76
3,경상북도,878697,0.051319,5.13
4,광주광역시,311553,0.018196,1.82
5,대구광역시,417271,0.02437,2.44
6,대전광역시,298857,0.017454,1.75
7,부산광역시,628851,0.036727,3.67
8,서울특별시,3058633,0.178634,17.86
9,세종특별자치시,71403,0.00417,0.42


In [29]:
# df5를 엑셀파일 형태로 PC에 저장

df5.to_excel("output_#1.xlsx")

In [28]:
# df5를 csv파일 형태로 PC에 저장

df5.to_csv("output_#1.csv")

In [31]:
# 지역별 월별 등록외국인수 추이 분석

df = pd.read_csv("pandas_sample#1.csv", encoding="cp949")
df1 = df[df["년"] == 2024]
df_pivot = df1.pivot_table(index=["시도"], columns=["월"], values=["등록외국인수"], aggfunc = "sum")
df_pivot

Unnamed: 0_level_0,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수,등록외국인수
월,1,2,3,4,5,6,7,8,9,10,11,12
시도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
강원도,23455,23248,24029,25156,27266,29286,30255,30709,31103,29650,26728,26074
경기도,429166,430521,435018,438489,442422,444780,449692,452345,457368,461815,465367,467398
경상남도,91122,91972,93606,94364,95178,95915,96434,96854,98242,99771,101080,102333
경상북도,67269,67246,68254,70171,72121,73677,75171,75349,76611,78294,77766,76768
광주광역시,25556,25394,25607,25930,25906,25935,25990,25997,25963,26317,26401,26557
대구광역시,33484,33218,33674,34196,34309,34576,34718,34561,35571,36081,36173,36710
대전광역시,23649,23472,24072,24624,24751,24741,24851,24561,25583,26097,26207,26249
부산광역시,49876,49310,50181,51685,51983,52068,52129,51805,53356,55155,55498,55805
서울특별시,251966,247028,250706,252838,254222,253578,252867,249801,254424,260154,265505,265544
세종특별자치시,5772,5812,5843,5840,5821,5835,5842,5870,6209,6190,6187,6182


In [32]:
# df_pivot을 엑셀파일 형태로 PC에 저장

df_pivot.to_excel("output_#2.xlsx")

In [None]:
# 실습1
# 2023년 데이터를 집계해보시오!
# 월별 등록외국인수를 분석해보시오!
# 시도별 등록외국인수를 분석해보시오!
# 비중 칼럼을 추가해보시오.
# 비중 칼럼을 %로 변환한 후 비중(%) 칼럼을 추가해보시오.
# 데이터프레임을 엑셀파일 형태로 저장해보시오.

In [None]:
# 실습2
# 2022년 데이터를 집계해보시오!
# 시도별 월별 등록외국인수 추이를 분석해보시오!(pivot_table() 함수 이용)
# 데이터프레임을 엑셀파일 형태로 저장해보시오.

## Optional
- 연도별 월별 국적별 입국자수 분석

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("pandas_sample#2.csv", encoding="cp949")
df

Unnamed: 0,년,월,국적지역,입국자수
0,2022,1,미국,20123
1,2022,1,필리핀,9478
2,2022,1,중국,8408
3,2022,1,미얀마,5228
4,2022,1,인도네시아,4591
...,...,...,...,...
7231,2025,1,에리트레아,1
7232,2025,1,중앙아프리카공화국,1
7233,2025,1,차드,1
7234,2025,1,콩고,1


In [4]:
# 2025년 데이터 삭제!

df1 = df[df["년"]<2025]
df1

Unnamed: 0,년,월,국적지역,입국자수
0,2022,1,미국,20123
1,2022,1,필리핀,9478
2,2022,1,중국,8408
3,2022,1,미얀마,5228
4,2022,1,인도네시아,4591
...,...,...,...,...
7032,2024,12,차드,2
7033,2024,12,에리트레아,1
7034,2024,12,적도기니,1
7035,2024,12,코모로,1


In [5]:
# 년도별 입국자수 분석!(2022~2024년)

df2 = df1.groupby("년")["입국자수"].sum()
df2

년
2022     3390009
2023    11501060
2024    17644452
Name: 입국자수, dtype: int64

In [6]:
# 2024년 데이터 추출

df3 = df[df["년"] == 2024]
df3

Unnamed: 0,년,월,국적지역,입국자수
4652,2024,1,중국,277719
4653,2024,1,일본,146878
4654,2024,1,타이완,95371
4655,2024,1,필리핀,28756
4656,2024,1,베트남,25649
...,...,...,...,...
7032,2024,12,차드,2
7033,2024,12,에리트레아,1
7034,2024,12,적도기니,1
7035,2024,12,코모로,1


In [7]:
# 2024년 월별 입국자수 추이 분석

df4 = df3.groupby("월")["입국자수"].sum()
df4

월
1      924645
2     1099545
3     1849883
4     1504888
5     1462326
6     1461674
7     1458185
8     1633243
9     1521194
10    2016731
11    1401672
12    1310466
Name: 입국자수, dtype: int64

In [8]:
# 2024년 국적별 입국자수 추이 분석

df5 = df3.groupby("국적지역")["입국자수"].sum()
df5

국적지역
가나          2302
가봉           272
가이아나         277
감비아          241
과테말라        1748
           ...  
필리핀       531099
한국계중국인    292433
헝가리         9106
홍콩        567638
홍콩거주난민         5
Name: 입국자수, Length: 210, dtype: int64

In [9]:
df5 = df5.reset_index()
df5

Unnamed: 0,국적지역,입국자수
0,가나,2302
1,가봉,272
2,가이아나,277
3,감비아,241
4,과테말라,1748
...,...,...
205,필리핀,531099
206,한국계중국인,292433
207,헝가리,9106
208,홍콩,567638


In [10]:
df5["국적지역"].unique()

array(['가나', '가봉', '가이아나', '감비아', '과테말라', '교황청', '그레나다', '그리스', '기니',
       '기니비사우', '기타', '나미비아', '나우루', '나이지리아', '남수단공화국', '남아프리카공화국',
       '네덜란드', '네팔', '노르웨이', '노퍽', '뉴질랜드', '뉴칼레도니아', '니제르', '니카라과', '대만',
       '덴마크', '도미니카공화국', '도미니카연방', '독일', '라오스', '라이베리아', '라트비아',
       '러시아(연방)', '레바논', '레소토', '루마니아', '룩셈부르크', '르완다', '리비아', '리투아니아',
       '리히텐슈타인', '마다가스카르', '마샬군도', '마카오', '말라위', '말레이시아', '말리', '멕시코',
       '모나코', '모로코', '모리셔스', '모리타니', '모잠비크', '몬테네그로', '몰도바', '몰디브', '몰타',
       '몽골', '미국', '미얀마', '미이크로네시아', '바누아투', '바레인', '바베이도스', '바하마',
       '방글라데시', '베냉', '베네수엘라', '베트남', '벨기에', '벨라루스', '벨리즈', '보스니아-헤르체고비나',
       '보츠와나', '볼리비아', '부룬디', '부르키나파소', '부탄', '북마케도니아', '불가리아', '브라질',
       '브루나이', '사모아', '사우디아라비아', '산마리노', '상투메프린시페', '세네갈', '세르비아', '세이셸',
       '세인트루시아', '세인트빈센트그레나딘', '세인트크리스토퍼네비스', '소말리아', '솔로몬군도', '수단',
       '수리남', '스리랑카', '스웨덴', '스위스', '스페인', '슬로바크', '슬로베니아', '시리아',
       '시에라리온', '싱가포르', '아랍에미리트연합', '아르메니아', '아르헨티나', '아이슬란드', '아이티',
       '아일랜드

In [16]:
df5["비중(%)"] = df5["입국자수"].apply(lambda x: round(x/df5["입국자수"].sum()*100, 3))
df5                            

Unnamed: 0,국적지역,입국자수,비중,비중(%)
0,가나,2302,0.013047,0.013
1,가봉,272,0.001542,0.002
2,가이아나,277,0.001570,0.002
3,감비아,241,0.001366,0.001
4,과테말라,1748,0.009907,0.010
...,...,...,...,...
205,필리핀,531099,3.010006,3.010
206,한국계중국인,292433,1.657365,1.657
207,헝가리,9106,0.051608,0.052
208,홍콩,567638,3.217091,3.217


In [19]:
df5 = df5.sort_values(by = "비중(%)", ascending=False)
df5

Unnamed: 0,국적지역,입국자수,비중,비중(%)
151,중국,4590836,26.018581,26.019
146,일본,3258742,18.468933,18.469
180,타이완,1496000,8.478586,8.479
58,미국,1416233,8.026506,8.027
157,총계,676365,3.833301,3.833
...,...,...,...,...
84,산마리노,23,0.000130,0.000
22,니제르,33,0.000187,0.000
85,상투메프린시페,12,0.000068,0.000
21,뉴칼레도니아,1,0.000006,0.000


In [20]:
df5 = df5.drop(157, axis=0)
df5

Unnamed: 0,국적지역,입국자수,비중,비중(%)
151,중국,4590836,26.018581,26.019
146,일본,3258742,18.468933,18.469
180,타이완,1496000,8.478586,8.479
58,미국,1416233,8.026506,8.027
68,베트남,596462,3.380451,3.380
...,...,...,...,...
84,산마리노,23,0.000130,0.000
22,니제르,33,0.000187,0.000
85,상투메프린시페,12,0.000068,0.000
21,뉴칼레도니아,1,0.000006,0.000


In [22]:
# iloc 함수를 이용하여 입국자수 기준 Top 10 국가 조회

df5 = df5.iloc[:10, :]
df5

Unnamed: 0,국적지역,입국자수,비중,비중(%)
151,중국,4590836,26.018581,26.019
146,일본,3258742,18.468933,18.469
180,타이완,1496000,8.478586,8.479
58,미국,1416233,8.026506,8.027
68,베트남,596462,3.380451,3.38
208,홍콩,567638,3.217091,3.217
205,필리핀,531099,3.010006,3.01
104,싱가포르,376489,2.133753,2.134
145,인도네시아,339037,1.921494,1.921
45,말레이시아,302409,1.713904,1.714


In [29]:
# loc 함수를 이용하는 경우에는 reset_index() 함수를 이용해서 인덱스 정보를 초기화해야 함.

df = pd.read_csv("pandas_sample#2.csv", encoding="cp949")
df1 = df[df["년"] == 2024]
df2 = df1.groupby("국적지역")["입국자수"].sum().reset_index()
df2["비중"] = df2["입국자수"].apply(lambda x: round(x/df2["입국자수"].sum()*100, 2))
df3 = df2.sort_values(by="비중", ascending=False)
df3 = df3.drop(157, axis=0)
df_final = df3.reset_index().drop("index", axis=1).loc[:10, :]
df_final

Unnamed: 0,국적지역,입국자수,비중
0,중국,4590836,26.02
1,일본,3258742,18.47
2,타이완,1496000,8.48
3,미국,1416233,8.03
4,베트남,596462,3.38
5,홍콩,567638,3.22
6,필리핀,531099,3.01
7,싱가포르,376489,2.13
8,인도네시아,339037,1.92
9,말레이시아,302409,1.71


In [30]:
# df3를 엑셀파일로 저장

df3.to_excel("output_immigration.xlsx")