AI 데이터 분석에서 **리스트 컴프리헨션(List Comprehension)**과 그 안에서의 if 문은 데이터 전처리, 라벨 필터링, 피처 선택 에서 매우 자주 사용됨

In [None]:
#1. 결측값(None 또는 np.(Not a Number, 숫자가 아님)) 제거
#- 용도: 모델 학습 전에 결측값을 제거

data = [23, None, 12, None, 55]
cleaned = [x for x in data if x is not None]
print(cleaned)  

data = [10, None, 25, None, 30]
clean_data = [x for x in data if x is not None]
print(clean_data)


[23, 12, 55]
[10, 25, 30]


In [None]:
#2. 특정 조건을 만족하는 샘플 필터링
#- 이진 분류 문제에서 positive class만 추출

scores = [78, 45, 92, 88, 35]
passed = [s for s in scores if s >= 60] 
print(passed)

# 숫자형 데이터 중 양수만 필터링
values = [-3, 5, 0, -1, 8]
positive_values = [v for v in values if v > 0]
print(positive_values)

#문자열 리스트에서 특정 키워드 포함 항목만 필터링
texts = ["AI is awesome", "I love pizza", "Machine Learning", "Deep Learning"]
ai_texts = [t for t in texts if "Learning" in t]
print(ai_texts)


[78, 92, 88]
[5, 8]


In [13]:
#3. 텍스트에서 stopword 제거
#- 자연어 처리에서 불용어(stop word, 텍스트를 분석할 때 큰 의미를 갖지 않아 분석에 불필요하다고 판단되는 단어들) 제거
words = ["this", "is", "a", "sample", "of", "text"]
stopwords = {"is", "a", "of"}
filtered = [w for w in words if w not in stopwords]
print(filtered)

['this', 'sample', 'text']


In [14]:
#4. 정답 라벨만 추출 (tuple 데이터에서)
#- label이 1에 해당하는 데이터만 뽑아 샘플링

dataset = [("img1.png", 0), ("img2.png", 1), ("img3.png", 0)] # 리스트 안에 튜플(이미지파일, lable)이 여러 개 들어있는 구조
la = [label for label in dataset if label]
print(la)
label = [label for _, label in dataset if label == 1]
print(label)
labe = [symbol for symbol, label in dataset if label == 1]
print(labe)

[('img1.png', 0), ('img2.png', 1), ('img3.png', 0)]
[1]
['img2.png']


In [11]:
# 5. 이미지 픽셀 정규화 (255로 나누기) + 조건 필터
# - 픽셀 값 정규화 + 이상치 제거 (0 제외)

pixels = [0, 34, 128, 255, 10]
normalized = [p / 255 for p in pixels if p > 0]
print(normalized)

[0.13333333333333333, 0.5019607843137255, 1.0, 0.0392156862745098]


In [21]:
#6. 데이터 타입 필터링 (예: 숫자만 추출)
mixed = [1, 'a', 3.5, 'hello', 42]
numbers = [x for x in mixed if isinstance(x, (int, float))]
print(numbers)

# 데이터 중에서 숫자 문자열만 숫자(float)로 변환
raw = ["123", "abc", "45", "", "7.6"]
cleaned = [float(x) for x in raw if x.replace('.', '', 1).isdigit()] 
# replace(찾을 내용, 바꿀 내용)함수 : replace('.', '')는 .을 공백으로 변환함
# replace(찾을 내용, 바꿀 내용, 바꿀 최대 횟수)함수 : replace('.', '', 1)는 .을 공백으로 앞에서부터 1개만 변환함
# isdigit() 메소드 : 특정 문자열이 오직 '숫자(digit)'로만 구성되어 있는지 확인 (모두 숫자면 True/아니면(./-) False를 반환)
print(cleaned)

[1, 3.5, 42]
[123.0, 45.0, 7.6]


In [22]:
#7. 조건에 따라 다른 값으로 변환 (if-else 사용)
nums = [10, -5, 0, 3]
labels = ["positive" if x > 0 else "non-positive" for x in nums]
print(labels)

['positive', 'non-positive', 'non-positive', 'positive']
