In [None]:
# [상품 카테고리로 텍스트 마이닝]

import pandas as pd

pd.set_option("display.max_rows", None)

# 파일 불러오기
df = pd.read_csv("Data/order_items_with_product_category.csv")

In [None]:
print(df)

In [None]:
# 고유값 확인
df["product_category_name"].unique()

In [None]:
# 고유값 갯수
df["product_category_name"].nunique()

In [None]:
# 열 갯수
df["product_category_name"].value_counts()

In [None]:
# product_category_name = unknown 행 삭제
df.drop(df[df["product_category_name"] == "unknown"].index, inplace=True)

In [None]:
# 고유값 갯수
df["product_category_name"].nunique()

In [None]:
"""
[카테고리(총 74개_unknown 포함) -> 총 13개 그룹 지정]

1. **가정용품**: 5개
    - cama_mesa_banho (침구, 테이블웨어, 욕실 용품) 
        - utilidades_domesticas (가정용품)  -> 가정용품
        - casa_conforto (가정용품1)
        - casa_conforto_2 (가정용품2)
    - la_cuisine (주방용품)

2. **가구 및 인테리어**: 6개
    - moveis_decoracao (가구 및 장식)
    - moveis_sala (거실 가구)
    - moveis_quarto (침실 가구)
    - moveis_colchao_e_estofado (매트리스 및 소파)
    - moveis_cozinha_area_de_servico_jantar_e_jardim (주방, 식당, 정원 가구)
    - moveis_escritorio (사무용 가구)
    
3. **전자제품**: 8개
    - eletronicos (전자제품)                 
        - eletrodomesticos (가전제품)   -> 가전제품
        - eletrodomesticos_2 (가전제품 2)
        - eletroportateis (소형 가전제품)   -> 소형 가전제품
        - portateis_cozinha_e_preparadores_de_alimentos (소형 주방 가전)
        - portateis_casa_forno_e_cafe (소형 가전, 오븐, 커피)
    - audio (오디오)
    - consoles_games (콘솔 게임)

4. **정보기술**: 6개
    - informatica_acessorios (정보기술 액세서리)   
    - pcs (컴퓨터)
    - pc_gamer (게임용 PC)
    - tablets_impressao_imagem (태블릿, 인쇄용품, 이미지용품)
    - telefonia (전화)
    - telefonia_fixa (유선 전화)

5. **패션**: 8개
    - fashion_bolsas_e_acessorios (패션, 가방 및 액세서리)  
    - malas_acessorios (여행가방 및 액세서리)
    - fashion_calcados (신발)
    - fashion_roupa_masculina (남성 의류)
    - fashion_roupa_feminina (여성 의류)
    - fashion_roupa_infanto_juvenil (아동 및 청소년 의류)
    - fashion_underwear_e_moda_praia (속옷, 해변 패션)
    - relogios_presentes (시계, 선물) / 5991

6. **스포츠 및 레저**: 2개
    - esporte_lazer (스포츠 용품)                
    - fashion_esporte (스포츠 패션)

7. **미용 및 건강**: 3개
    - beleza_saude (미용, 건강)                 
    - perfumaria (향수)
    - fraldas_higiene (기저귀, 위생용품)

8. **유아용품**: 2개 
    - bebes (아기용품)                       
    - brinquedos (장난감)

9. **미디어 및 도서**: 6개
    - cds_dvds_musicais (음악 CD 및 DVD)       
    - dvds_blu_ray (DVD 및 블루레이)
    - cine_foto (영화, 사진)
    - livros_interesse_geral (일반 도서)
    - livros_tecnicos (기술 도서)
    - livros_importados (수입 도서)

10. **건축, 공구 및 산업**: 9개
    - ferramentas_jardim (도구, 정원)         
        - construcao_ferramentas_construcao (건설 도구)   -> 건설 도구
        - construcao_ferramentas_iluminacao (건설 도구 및 조명)
        - construcao_ferramentas_jardim (건설 도구 및 정원)
        - construcao_ferramentas_ferramentas (건설 도구)
        - construcao_ferramentas_seguranca (건설 도구 및 보안)
        - casa_construcao (집 건설)
    - industria_comercio_e_negocios (산업, 상업 및 비즈니스)
    - agro_industria_e_comercio (농업 산업 및 상업)

11. **예술**: 4개
        - artes_e_artesanato (예술 및 공예)   -> 예술     
        - artes (예술)
    - instrumentos_musicais (악기)
    - musica (음악)

12. **이동수단**: 1개                       
    - automotivo (자동차)

13. **식음료**: 3개 
    - bebidas (음료)                          
    - alimentos_bebidas (식품 및 음료)
    - alimentos (식품)

13. **반려동물**: 1개
    - pet_shop (애완동물 가게) / 1947

14. **문구류**: 1개
    - papelaria (문구류) / 2517

15. **기타**: 8개
    - cool_stuff (멋진 물건들) / 3796                    
    - market_place (마켓플레이스) / 311
    - artigos_de_natal (크리스마스 용품) / 153
    - artigos_de_festas (파티 용품) / 43
    - seguros_e_servicos (보험 및 서비스) / 2
    - sinalizacao_e_seguranca (신호 및 보안) / 199
    - climatizacao (공기조절) / 297
    - flores (꽃) / 33
    - [삭제] unknown / 1603  -> nan 
"""

In [None]:
mapping_dict = {
    # 가정용품
    "cama_mesa_banho": "침구, 테이블웨어, 욕실 용품",
    "utilidades_domesticas": "가정용품",
    "casa_conforto": "가정용품",
    "casa_conforto_2": "가정용품",
    "la_cuisine": "주방용품",
    # 가구 및 인테리어
    "moveis_decoracao": "가구 및 장식",
    "moveis_sala": "거실 가구",
    "moveis_quarto": "침실 가구",
    "moveis_colchao_e_estofado": "매트리스 및 소파",
    "moveis_cozinha_area_de_servico_jantar_e_jardim": "주방, 식당, 정원 가구",
    "moveis_escritorio": "사무용 가구",
    # 전자제품
    "eletronicos": "전자제품",
    "eletrodomesticos": "가전제품",
    "eletrodomesticos_2": "가전제품",
    "eletroportateis": "소형 가전제품",
    "portateis_cozinha_e_preparadores_de_alimentos": "소형 가전제품",
    "portateis_casa_forno_e_cafe": "소형 가전제품",
    "audio": "오디오",
    "consoles_games": "콘솔 게임",
    # 정보기술
    "informatica_acessorios": "정보기술 액세서리",
    "pcs": "컴퓨터",
    "pc_gamer": "게임용 PC",
    "tablets_impressao_imagem": "태블릿, 인쇄용품, 이미지용품",
    "telefonia": "전화",
    "telefonia_fixa": "유선 전화",
    # 패션
    "fashion_bolsas_e_acessorios": "패션, 가방 및 액세서리",
    "malas_acessorios": "여행가방 및 액세서리",
    "fashion_calcados": "신발",
    "fashion_roupa_masculina": "남성 의류",
    "fashion_roupa_feminina": "여성 의류",
    "fashion_roupa_infanto_juvenil": "아동 및 청소년 의류",
    "fashion_underwear_e_moda_praia": "속옷, 해변 패션",
    "relogios_presentes": "시계, 선물",
    # 스포츠 및 레저
    "esporte_lazer": "스포츠 및 레저",
    "fashion_esporte": "스포츠 및 레저",
    # 미용 및 건강
    "beleza_saude": "미용 및 건강",
    "perfumaria": "향수",
    "fraldas_higiene": "기저귀, 위생용품",
    # 유아용품
    "bebes": "아기용품",
    "brinquedos": "장난감",
    # 미디어 및 도서
    "cds_dvds_musicais": "음악 CD 및 DVD",
    "dvds_blu_ray": "DVD 및 블루레이",
    "cine_foto": "영화, 사진",
    "livros_interesse_geral": "일반 도서",
    "livros_tecnicos": "기술 도서",
    "livros_importados": "수입 도서",
    # 건축/공구 및 산업
    "ferramentas_jardim": "도구, 정원",
    "construcao_ferramentas_construcao": "건설 도구",
    "construcao_ferramentas_iluminacao": "건설 도구",
    "construcao_ferramentas_jardim": "건설 도구",
    "construcao_ferramentas_ferramentas": "건설 도구",
    "construcao_ferramentas_seguranca": "건설 도구",
    "casa_construcao": "건설 도구",
    "industria_comercio_e_negocios": "산업, 상업 및 비즈니스",
    "agro_industria_e_comercio": "농업 산업 및 상업",
    # 예술
    "artes_e_artesanato": "예술",
    "artes": "예술",
    "instrumentos_musicais": "악기",
    "musica": "음악",
    # 이동수단
    "automotivo": "자동차",
    # 식음료
    "bebidas": "식음료",
    "alimentos_bebidas": "식음료",
    "alimentos": "식음료",
    # 반려동물
    "pet_shop": "반려동물",
    # 문구류
    "papelaria": "문구류",
    # 기타
    "cool_stuff": "기타",
    "market_place": "마켓플레이스",
    "artigos_de_natal": "크리스마스 용품",
    "artigos_de_festas": "파티 용품",
    "seguros_e_servicos": "보험 및 서비스",
    "sinalizacao_e_seguranca": "신호 및 보안",
    "climatizacao": "기타",
    "flores": "꽃",
}

In [None]:
for row in df.itertuples():
    index = row[0]
    product_category_name = row.product_category_name

    key = df.loc[index, "product_category_name"]
    df.loc[index, "major_category"] = mapping_dict.get(key)

In [None]:
"""
[코드 해석]

# itertuples() : df의 각 행을 튜플로 반환 -> (0, 행1,행2,행3,...), (1, 행1,행2,행3,...), ... 전체 열에대한 0, 1, ..번째 전체 행을 튜플로 반환
# 이걸 반복문으로 작성 : 한번 순회시 하나의 튜플씩 뽑아옴
for row in df.itertuples():
    # index = 뽑아온 하나의 튜플 중 왼쪽에 위치한 항목을 index라 지정
    index = row[0]
    # product_category_name : 뽑아온 하나의 튜플중, 'product_category_name' 열에 해당하는 행만 사용  
    product_category_name = row.product_category_name
    # df에서 행(index), 열(product_category_name) 인 값을 key에 저장
    key = df.loc[index, "product_category_name"]
    # df에 행(index), 열(major_category) 을 추가로 생성하여 저장
    # 사전에 만들어둔 mapping_dict을 이용하여 key 값을 가져옴; 이 값을 'major_category'열에 저장
    df.loc[index, "major_category"] = mapping_dict.get(key)
    """

In [None]:
df.to_csv("Data/order_items_with_major_category.csv", index=False)