# H&M 고객 데이터 (customer_hm.csv) — 정답 및 해설

In [14]:
import pandas as pd
df = pd.read_csv("customer_hm.csv")
print("컬럼:", df.columns.tolist())
df.head()


컬럼: ['customer_id', 'FN', 'Active', 'club_member_status', 'fashion_news_frequency', 'age']


Unnamed: 0,customer_id,FN,Active,club_member_status,fashion_news_frequency,age
0,00000dbacae5abe5e23885899a1fa44253a17956c6d1c3...,0,0,ACTIVE,NONE,49
1,0000423b00ade91418cceaf3b26c6af3dd342b51fd051e...,0,0,ACTIVE,NONE,25
2,000058a12d5b43e67d225668fa1f8d618c13dc232df0ca...,0,0,ACTIVE,NONE,24
3,00005ca1c9ed5f5146b52ac8639a40ca9d57aeff4d1bd2...,0,0,ACTIVE,NONE,54
4,00006413d8573cd20ed7128e53b7b13819fe5cfc2d801f...,1,1,ACTIVE,Regularly,52


### 문제 1 정답 — 조건 필터링
- 해설: 나이가 40 이상인 행만 **불린 인덱싱**으로 선택합니다.

In [2]:
elder_40 = df[df['age'] >= 40]
print(elder_40.head())
print("행 개수:", len(elder_40))

                                          customer_id  FN  Active  \
0   00000dbacae5abe5e23885899a1fa44253a17956c6d1c3...   0       0   
3   00005ca1c9ed5f5146b52ac8639a40ca9d57aeff4d1bd2...   0       0   
4   00006413d8573cd20ed7128e53b7b13819fe5cfc2d801f...   1       1   
11  00009c2aeae8761f738e4f937d9be6b49861a66339c2b1...   0       0   
12  00009d946eec3ea54add5ba56d5210ea898def4b46c685...   1       1   

   club_member_status fashion_news_frequency  age  
0              ACTIVE                   NONE   49  
3              ACTIVE                   NONE   54  
4              ACTIVE              Regularly   52  
11             ACTIVE                   NONE   49  
12             ACTIVE              Regularly   56  
행 개수: 403011


### 문제 2 정답 — 다중 조건(AND)
- 해설: 두 조건을 **괄호로 감싸고** `&`로 결합합니다.

In [3]:
active_fn = df[(df['club_member_status'] == 'ACTIVE') & (df['FN'] == 1)]
print(active_fn.head())
print("행 개수:", len(active_fn))

                                          customer_id  FN  Active  \
4   00006413d8573cd20ed7128e53b7b13819fe5cfc2d801f...   1       1   
6   00007d2de826758b65a93dd24ce629ed66842531df6699...   1       1   
12  00009d946eec3ea54add5ba56d5210ea898def4b46c685...   1       1   
13  0000ae1bbb25e04bdc7e35f718e852adfb3fbb72ef38b3...   1       1   
14  0000b2f1829e23b24feec422ef13df3ccedaedc85368e6...   1       1   

   club_member_status fashion_news_frequency  age  
4              ACTIVE              Regularly   52  
6              ACTIVE              Regularly   32  
12             ACTIVE              Regularly   56  
13             ACTIVE              Regularly   29  
14             ACTIVE              Regularly   54  
행 개수: 368317


### 문제 3 정답 — 다중 조건(OR)
- 해설: 두 범위 조건을 `|`로 결합합니다.

In [4]:
young_or_senior = df[(df['age'] < 18) | (df['age'] >= 65)]
print(young_or_senior.head())
print("행 개수:", len(young_or_senior))

                                           customer_id  FN  Active  \
15   0000b7a134c3ec0d8842fad1fd4ca28517424c14fc4848...   0       0   
30   00018385675844f7a6babbed41b5655b5727fb16483b6e...   1       1   
48   000270f6018e827d6d678efe815565a22668fb801b2b89...   1       1   
81   0003e56a4332b2503e34640be92031ad48f1280ee6e3a7...   1       1   
102  00048f2f68760664d2d0fa1e7fbfe083f05287f342484c...   0       0   

    club_member_status fashion_news_frequency  age  
15              ACTIVE                   NONE   75  
30              ACTIVE              Regularly   68  
48              ACTIVE              Regularly   17  
81              ACTIVE              Regularly   70  
102             ACTIVE                   NONE   67  
행 개수: 41020


### 문제 4 정답 — 특정 값 OR
- 해설: 열의 값이 두 값 중 하나인지 **OR** 조건으로 필터링합니다.

In [5]:
freq_sel = df[(df['fashion_news_frequency'] == 'Monthly') | (df['fashion_news_frequency'] == 'Regularly')]
print(freq_sel.head())
print("행 개수:", len(freq_sel))

                                          customer_id  FN  Active  \
4   00006413d8573cd20ed7128e53b7b13819fe5cfc2d801f...   1       1   
6   00007d2de826758b65a93dd24ce629ed66842531df6699...   1       1   
12  00009d946eec3ea54add5ba56d5210ea898def4b46c685...   1       1   
13  0000ae1bbb25e04bdc7e35f718e852adfb3fbb72ef38b3...   1       1   
14  0000b2f1829e23b24feec422ef13df3ccedaedc85368e6...   1       1   

   club_member_status fashion_news_frequency  age  
4              ACTIVE              Regularly   52  
6              ACTIVE              Regularly   32  
12             ACTIVE              Regularly   56  
13             ACTIVE              Regularly   29  
14             ACTIVE              Regularly   54  
행 개수: 373876


### 문제 5 정답 — 결측치 조건
- 해설: `isnull()`로 결측 여부를 확인하여 **True인 행만 선택**합니다.

In [6]:
freq_na = df[df['fashion_news_frequency'].isnull()]
print(freq_na.head())
print("결측 행 개수:", len(freq_na))

                                              customer_id  FN  Active  \
876108  a79d9cbfaceb0d25a91caccfad167d4d6391fd5bb4292b...   1       0   

       club_member_status fashion_news_frequency  age  
876108             ACTIVE                    NaN   38  
결측 행 개수: 1


### 문제 6 정답 — 정렬
- 해설: `sort_values`로 나이를 **내림차순** 정렬합니다.

In [7]:
age_desc = df.sort_values(by='age', ascending=False)
print(age_desc[['customer_id','age']].head(5))

                                              customer_id  age
847058  a2106ba216f519880fbebd7a1fe1929802ac1258adabbf...   99
311081  3b9ec1854ba779c3c11389985299e642b5779947ff8395...   99
308676  3b28156770e0a17436b29831e41394528f74b4ec2c37d3...   99
546159  687c675e64e5f5d962c99ebf915da230be8c907a65a1d5...   99
836730  a01bd2e0e8bbf8db61f0e623a05325cde84955a37415b7...   99


### 문제 7 정답 — 다중 정렬
- 해설: `by`에 컬럼 목록, `ascending`에 각 기준의 정렬 방향을 리스트로 지정합니다.

In [8]:
multi_sorted = df.sort_values(by=['Active','age'], ascending=[False, True])
print(multi_sorted[['customer_id','Active','age']].head(10))

                                              customer_id  Active  age
1539    0049c08ee3fbe0bee305a3b30153e76f38a0640044db16...       1   16
19066   03ad8309930e4978125c3e1a00f7d6b975995b64aa5d17...       1   16
35880   06e49a51cb667123ab815bef64d4ac94ac5ed7299b3b10...       1   16
41552   07fa3e88cfda69773153e19dd1bc46fb3391c9df2883b2...       1   16
51361   09d5e6bb83786d81e5cd0c7c32827e3b04b680e973daac...       1   16
100677  1343f303df9b8ed971eef83c1f97bc6e6e2b535f21888c...       1   16
150191  1cb3e839b310028e470ce6a7e5620341707aa6d8733899...       1   16
151960  1d0879b99e08441d164905a8c14d32ae421a6c99f0f8b0...       1   16
215145  2929a568760c4d7fafd5f8119314cc6e7db21a28ff104a...       1   16
221272  2a57695a54f49bd0132a4353a09a3852fd4797aeb15271...       1   16


### 문제 8 정답 — 열 제거
- 해설: `drop(columns=...)`로 특정 열을 제거한 **새 DataFrame**을 만듭니다.

In [9]:
df_no_fn = df.drop(columns=['FN'])
print("열 제거 후 컬럼:", df_no_fn.columns.tolist()[:10])

열 제거 후 컬럼: ['customer_id', 'Active', 'club_member_status', 'fashion_news_frequency', 'age']


### 문제 9 정답 — 열 이름 변경
- 해설: `rename(columns=...)`로 열 이름을 변경합니다.

In [10]:
df_ren = df.rename(columns={'age':'나이', 'Active':'활성'})
print("열 변경 후 컬럼:", df_ren.columns.tolist())

열 변경 후 컬럼: ['customer_id', 'FN', '활성', 'club_member_status', 'fashion_news_frequency', '나이']


### 문제 10 정답 — 결측치 개수
- 해설: 각 열의 결측치 개수를 `isnull().sum()`으로 확인합니다.

In [11]:
print(df.isnull().sum())

customer_id               0
FN                        0
Active                    0
club_member_status        0
fashion_news_frequency    1
age                       0
dtype: int64


### 문제 11 정답 — 결측치 채우기
- 구독 여부(FN)/활성(Active) 기반으로 fashion_news_frequency를 의미 있게 채워보자

- 선행 작업
    - fashion_news_frequency의 표기값이 NONE, None처럼 섞여있으면 모두 'None'으로 정규화(대소문자/표기 통일)

- 규칙
    - (Rule A) fashion_news_frequency가 결측이고 FN == 1이면 -> 'Regularly'
        - 패션 뉴스 구독(FN)이 켜져 있으면, 최소 정기 수신/확인 성향이 있다는 가정

    - (Rule B) fashion_news_frequency가 결측이고 FN != 1 또는 결측이면 -> 'None'

    - (Rule C) 단, club_member_status가 'ACTIVE'(또는 Active 의미)인데도 fashion_news_frequency가 결측이면 -> 'Monthly'로 채워라
        - 활성 멤버십이지만 정기구독(FN)은 불명확하니, Regularly 보단 약한 월간으로 같은 합리화

In [15]:
import numpy as np
import pandas as pd

df2 = df.copy()

# 값 정규화: NONE/None 등 -> 'None'으로 통일
df2["fashion_news_frequency"] = (
    df2["fashion_news_frequency"]
      .astype("string")                 # 문자열 안전 처리
      .str.strip()
)

df2.loc[~df2["fashion_news_frequency"].isin(["Regularly", "Monthly"]), "fashion_news_frequency"] = "None"

# 규칙 기반 결측 대체
# Rule A: 결측 & FN==1 -> Regularly
mask_A = df2["fashion_news_frequency"].isna() & (df2["FN"] == 1)
df2.loc[mask_A, "fashion_news_frequency"] = "Regularly"

# Rule C: 결측 & club_member_status가 Active(표기 다양할 수 있어 upper로 통일) -> Monthly
cms = df2["club_member_status"].astype("string").str.upper()
mask_C = df2["fashion_news_frequency"].isna() & (cms == "ACTIVE")
df2.loc[mask_C, "fashion_news_frequency"] = "Monthly"

# Rule B: 남은 결측 -> None
df2["fashion_news_frequency"] = df2["fashion_news_frequency"].fillna("None")

print("처리 후 fashion_news_frequency 결측치:", df2["fashion_news_frequency"].isna().sum())
print(df2["fashion_news_frequency"].value_counts(dropna=False))


처리 후 fashion_news_frequency 결측치: 0
fashion_news_frequency
None         674699
Regularly    373218
Monthly         658
Name: count, dtype: Int64


### 문제 12 정답 — 중복 확인 및 제거
- 해설: `duplicated().sum()`으로 중복 개수를 확인하고 `drop_duplicates()`로 제거합니다.

In [13]:
dup_cnt = df.duplicated().sum()
df_unique = df.drop_duplicates()
print("중복 개수:", dup_cnt)
print("제거 전/후:", len(df), "->", len(df_unique))

중복 개수: 0
제거 전/후: 1048575 -> 1048575
