In [2]:
import pandas as pd
from googletrans import Translator
import time

In [5]:
# 1. CSV 파일 읽기
df = pd.read_csv("data/전처리.csv", encoding="utf-8")

# 2. 데이터 탐색
print(df.info())
print(df.describe())

# 3. 숫자형 컬럼 변환
num_cols = ['1회 섭취량(g)', 'kcal', '탄수화물(g)', '단백질(g)', '지방(g)', '당류(g)']
df[num_cols] = df[num_cols].apply(pd.to_numeric, errors='coerce')

# 4. 결측치 확인 및 처리
print(df.isnull().sum())
df = df.dropna()

# 5. 중복 제거
df = df.drop_duplicates()

# 6. 숫자값 반올림 (예: 소수점 1자리)
df[num_cols] = df[num_cols].round(1)

# 7.고유 식별자 생성 – 예를 들어, 식품종류와 상세분류을 결합
df['고유ID'] = df['식품종류'] + "_" + df['상세분류']

# 8. 필요없는 columns 제거
df = df.drop(['Unnamed: 0', '식품종류', '상세분류'], axis=1)

# 9. column 정렬
df_col = ['고유ID', '식품명', '1회 섭취량(g)', 'kcal', '탄수화물(g)', '단백질(g)', '지방(g)', '당류(g)']
df = df[df_col]

# 10. 전처리 완료된 데이터를 새 CSV로 저장
df.to_csv("data/data1.csv", index=False, encoding="utf-8")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52940 entries, 0 to 52939
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  52940 non-null  int64  
 1   식품종류        52940 non-null  object 
 2   식품명         52940 non-null  object 
 3   상세분류        52940 non-null  object 
 4   1회 섭취량(g)   52940 non-null  float64
 5   kcal        52940 non-null  object 
 6   탄수화물(g)     52940 non-null  object 
 7   단백질(g)      52940 non-null  object 
 8   지방(g)       52940 non-null  object 
 9   당류(g)       52940 non-null  object 
dtypes: float64(1), int64(1), object(8)
memory usage: 4.0+ MB
None
         Unnamed: 0       1회 섭취량(g)
count  52940.000000    52940.000000
mean   26469.500000      378.158917
std    15282.605962    15055.322609
min        0.000000        0.030000
25%    13234.750000       70.000000
50%    26469.500000      100.000000
75%    39704.250000      189.000000
max    52939.000000  1000000.000000
Unnamed:

In [12]:
food_data = pd.read_csv('data/data1.csv')
food_data

Unnamed: 0,고유ID,식품명,1회 섭취량(g),kcal,탄수화물(g),단백질(g),지방(g),당류(g)
0,음식_육류구이,꿩불고기,500.0,368.8,39.7,33.5,8.5,16.9
1,음식_육류구이,닭갈비,400.0,595.6,44.9,45.9,25.8,21.2
2,음식_육류구이,닭갈비,300.0,558.5,23.1,45.5,31.6,8.5
3,음식_육류구이,닭꼬치,70.0,176.7,13.3,11.6,8.6,3.2
4,음식_채소류구이,더덕구이,100.0,184.0,31.1,3.1,5.2,11.6
...,...,...,...,...,...,...,...,...
42337,가공식품_캔디류,블루하와이 젤리,42.0,156.0,36.0,3.0,0.0,27.0
42338,가공식품_캔디류,라임모히또 젤리,70.0,264.0,61.0,5.0,0.0,44.0
42339,가공식품_캔디류,꼬마쮸 복숭아맛,40.0,175.0,36.0,0.0,3.6,29.0
42340,가공식품_캔디류,올리렉스 로젠지,120.0,300.0,120.0,0.0,0.0,0.0


# 다이어트 식단 추천 data 정리

In [41]:
diet_keywords = ["채소", "나물", "김치", "죽", "국", "탕", "어패류"]

# 고유ID 컬럼에 diet_keywords 중 하나라도 포함되어 있으면 True를 반환하는 함수 정의
def is_diet_related(food_id):
    return any(keyword in food_id for keyword in diet_keywords)

# 고유ID 컬럼에 위 함수가 True인 행만 필터링
filtered_data = food_data[food_data["고유ID"].apply(is_diet_related)].reset_index(drop=True)

# 결과 확인
print(filtered_data)

          고유ID             식품명  1회 섭취량(g)   kcal  탄수화물(g)  단백질(g)  지방(g)  \
0     음식_채소류구이            더덕구이      100.0  184.0     31.1     3.1    5.2   
1     음식_어패류구이            도미구이      250.0  397.0      2.1    61.1   16.5   
2     음식_어패류구이            병어구이      250.0  488.0      0.2    54.6   30.8   
3     음식_어패류구이         붕장어소금구이      100.0  296.5     11.6    26.0   16.2   
4     음식_어패류구이          양념장어구이      150.0  433.4      8.8    30.8   30.6   
...        ...             ...        ...    ...      ...     ...    ...   
2862  가공식품_유탕면         우육탕큰사발면      115.0  520.0     77.0    10.0   19.0   
2863  가공식품_유탕면         새우탕큰사발면      115.0  500.0     77.0    10.0   18.0   
2864  가공식품_유탕면         굴진짬뽕 용기      110.0  455.0     67.0     8.0   17.0   
2865  가공식품_유탕면        참치마요큰사발면      119.0  530.0     67.0     9.0   25.0   
2866  가공식품_유탕면  삼육 우리밀로만든감자라면컵       73.0  325.0     45.0     6.0   14.0   

      당류(g)  
0      11.6  
1       0.0  
2       0.0  
3       0.4  
4       4.2  
...