# 결측값/문자열/자료형/필터링 연습문제 (정답 포함)

사용 문법: `import pandas as pd`, `pd.DataFrame`, `df.isnull()`, `df.isnull().any(axis=0/1)`, `df.dropna(subset=[...])`, `df.loc[...]`, `df.select_dtypes(include=["object"])`, `Series.value_counts()`, `df.nlargest(n, col)`, `Series/DataFrame.fillna(...)`, `Series/DataFrame.interpolate(...)`

## 0) 공통 데이터셋 (학교별, 12행)

In [None]:

import pandas as pd

data = {
    "학교":      ["한빛대", "청솔대", "해오름대", "누리대", "한빛대 분교", "수성대", "대명대", "강북대", "남산대", "동성대", "가온대", "별무리대"],
    "지역":      ["서울", "대구", "부산", "대구", "서울", "대구", "대구", "서울", "부산", "대전", None, "서울"],
    "설립구분":   ["사립", "국립", "사립", "사립", "사립", "국립", "사립", "사립", "국립", "사립", "사립", "국립"],
    "학생수":     [12000, 8000, None, 5000, 6000, 7000, None, 9000, 11000, 4000, 3000, None],
    "평균등록금": [720.0, 680.0, 750.0, None, 710.0, 690.0, 720.0, 705.0, None, 660.0, 640.0, 730.0],
    "전화번호":   ["02-1111-2222", None, "051-222-3333", "053-444-5555", "02-7777-8888", None, "053-999-0000", "02-333-4444", None, "042-111-2222", "02-555-6666", None],
    "홈페이지":   ["hanbit.ac.kr", "chs.ac.kr", "sunrise.ac.kr", "nuri.ac.kr", None, "susung.ac.kr", "daemyeong.ac.kr", "gb.ac.kr", "namsan.ac.kr", None, "gaon.ac.kr", "star.ac.kr"],
    "만족도":     [4.1, None, 3.8, 4.0, None, 4.2, None, 3.9, 4.3, None, 3.7, 4.0],
    "개교연도":   [1980, 1975, 1990, 2001, 2005, 1988, 1995, 1972, 1983, 2003, 2010, 1999]
}

df = pd.DataFrame(data)
df


## 1) 결측값이 있는 **열 정보** 식별

In [None]:

missing_cols_mask = df.isnull().any(axis=0)
missing_cols_mask

cols_with_na = missing_cols_mask[missing_cols_mask == True]
cols_with_na


## 2) 결측치가 있는 **전체 행** 필터링

In [None]:

row_has_na = df.isnull().any(axis=1)
df[row_has_na]


## 3) **2개 열에 있는 결측치** 행 필터링 (예: 학생수, 평균등록금 중 하나라도 NaN)

In [None]:

target_cols = ["학생수", "평균등록금"]
mask_2col_na = df[target_cols].isnull().any(axis=1)
df[mask_2col_na]


## 4) 결측치가 **없는 전체 행** 필터링

In [None]:

no_na_rows = df.loc[~df.isnull().any(axis=1), :]
no_na_rows


## 5) **2개 열에 결측치가 없는** 행 필터링 (subset 활용: 학생수, 평균등록금)

In [None]:

df_no_na_subset = df.dropna(subset=["학생수", "평균등록금"])
df_no_na_subset


## 6) 범주형 데이터 열에서 '설립구분, 지역' 열에 대해서 **유형별 갯수** 구하기 (힌트: value_counts)

In [None]:

df["설립구분"].value_counts(), df["지역"].value_counts()


## 7) **수치형 열 별 상위 Top3 값** 구하기 (예: 평균등록금, 학생수)

In [None]:

top3_fee = df.nlargest(3, "평균등록금")
top3_student = df.nlargest(3, "학생수")
top3_fee, top3_student


## 8) **문자열(객체) dtype인 모든 열만** 선택해서 보기 (select_dtypes)

In [None]:

df_str_only = df.select_dtypes(include=["object"])
df_str_only.head(10)


## 9) **단일 값으로 결측값 처리** (fillna): 평균등록금=700.0, 전화번호='정보없음'

In [None]:

df_fill_fee = df.copy()
df_fill_fee["평균등록금"] = df_fill_fee["평균등록금"].fillna(700.0)
df_fill_phone = df.copy()
df_fill_phone["전화번호"] = df_fill_phone["전화번호"].fillna("정보없음")
df_fill_fee[["학교","평균등록금"]].head(), df_fill_phone[["학교","전화번호"]].head()


## 10) 보간법용 별도 데이터셋 (연도별 평균등록금)

In [None]:

import pandas as pd

df_fee_year = pd.DataFrame({
    "연도": [2018, 2019, 2020, 2021, 2022, 2023],
    "평균등록금": [700, 710, None, 730, None, 750]
})
df_fee_year


## 10) **보간법으로 결측값 처리** (interpolate) — 별도 데이터셋(df_fee_year)의 평균등록금 보간

In [None]:

df_fee_year_interp = df_fee_year.copy()
df_fee_year_interp["평균등록금_보간"] = df_fee_year_interp["평균등록금"].interpolate()
df_fee_year_interp


## 11) **특정 열에서 결측값이 있는 모든 행** 삭제 (예: 홈페이지)

In [None]:

df_drop_home = df.dropna(subset=["홈페이지"])
df_drop_home
