```python
from collections import deque
```

```python
from collections import Counter
```

```python
from collections import defaultdict
```

```python
from collections import namedtuple
```

In [1]:
from collections import deque

# Step 1: Initialize deque with customers
# A deque (double-ended queue) is initialized with customer names.
queue = deque(["Alice", "Bob", "Charlie", "David", "Eve"])

# Display the initial queue
print(f"Initial Queue: {queue}")

# Step 2: Adding new customers to the queue
# 'append' adds a customer to the end, and 'appendleft' adds to the front.
queue.append("Frank")       # Adding Frank to the end
queue.appendleft("Grace")   # Adding Grace to the front

# Step 3: Simulating ticket cancellation
# 'remove' is used to cancel a specific customer's ticket.
queue.remove('Charlie') # Remove Charlie from the queue

# Step 4: Rotating the deque
# Rotate moves elements cyclically; -2 means move two elements from the front to the back.
queue.rotate(-2)

# Display the final state of the queue
print(f'Final Queue: {queue}')

Initial Queue: deque(['Alice', 'Bob', 'Charlie', 'David', 'Eve'])
Final Queue: deque(['Bob', 'David', 'Eve', 'Frank', 'Grace', 'Alice'])


- deque 와 일반 리스트의 차이점
    - 왜 deque가 리스트보다 효율적인지 고민
    - 리스트로 구현했을 때의 시간 복잡도와 비교

- 데이터 구조의 선택 기준
    - 특정 상황에서 deque를 사용하는 것이 적합한 이유를 분석
    - 고객 대기열, 작업 큐 관리 등의 실제 사례에 어떻게 적용될 수 있을지 고민

- rotate 메서드의 활용
    - 회전 연산이 실제로 어떤 시나리오에서 유용한지 고민
    - 우선순위 변경, 원형 데이터 처리 등에 대한 활용 방안

In [3]:
from collections import Counter
import string

# Step 1: Define sample text
# The text contains punctuation and a mix of uppercase and lowercase letters.
text = '''Text mining is and interdisciplinary field that uses algorithms to derive patterns, information, and insights from texts.'''

# Step 2: Clean the text
# Remove punctuation and convert all letters to lowercase for uniformity.
text_cleaned = text.translate(str.maketrans('', '', string.punctuation)).lower().split()

# Step 3: Define stop words
# Stop words are common words that are usually excluded from analysis.
stop_words = {'is', 'an', 'to', 'and', 'from', 'that'}

# Step 4: Count words excluding stop words
# Use Counter to count the occurrences of each word, excluding stop words.
word_counts = Counter(word for word in text_cleaned if word not in stop_words)

# Step 5: Display the top 5 most frequent words
# Print the 5 most common words with their frequencies.
print(word_counts.most_common(5))

[('text', 1), ('mining', 1), ('interdisciplinary', 1), ('field', 1), ('uses', 1)]


- 텍스트 전처리의 중요성
    - 불필요한 기호 제거와 소문자 변환이 결과에 어떤 영향을 미치는지 고민.
    - 특정 도메인(예: 법률, 의학)에서 적합한 전처리 방법 탐구.

- Stop Words의 정의
    - 어떤 단어를 불용어로 정의해야 하는지 고민.
    - 분석의 목적에 따라 불용어 리스트를 어떻게 조정할 수 있을지.

- 빈도 분석의 한계
    - 단순히 빈도를 계산하는 것이 텍스트 의미를 충분히 반영할 수 있는지 고민.
    - 반도 기반 접근법과 다른 분석 기법(예: TF-IDF, Word Embedding)의 비교.

In [1]:
from collections import defaultdict

# Step 1: List of products with categories
# Each tuple contains a category and a product.
products = [
    ('Electronics', 'Smartphone'),
    ('Electronics', 'Laptop'),
    ('Groceries', 'Apple'),
    ('Groceries', 'Milk'),
    ('Clothing', 'Shirt'),
    ('Electronics', 'Headphones')
]

# Step 2: Create a defaultdict to group products by category
# defaultdict allows creating a list automatically for new keys.
category_dict = defaultdict(list)

# Step 3: Populate the defaultdict
# Iterate through the products list and group items by category.
for category, product in products:
    category_dict[category].append(product)

# Step 4: Display categorized products
# Iterate through the dictionary and print items for each category.
for category, items in category_dict.items():
    print(f'{category}: {', '.join(items)}')

Electronics: Smartphone, Laptop, Headphones
Groceries: Apple, Milk
Clothing: Shirt


- defaultdict와 일반 딕셔너리의 차이
    - 일반 딕셔너리를 사용할 때 발생하는 에러(KeyError)와 비교.
    - defaultdict의 자동 초기화 기능이 실제 프로젝트에서 어떻게 유용한지 고민.

- 데이터 분류의 구조화
    - 데이터가 잘 분류되지 않았을 때 발생하는 문제점.
    - 분류 기준이 모호하거나 데이터가 중첩되는 경우 어떻게 처리할지 고민.

- 다른 데이터 구조와의 비교
    - defaultdict 외에 데이터를 분류하기 위한 다른 방법(예: Pandas DataFrame)과 비교.

In [None]:
from collections import namedtuple

# Step 1: Define a namedtuple for employees
# namedtuple crates a lightweight class for storing attributes.
Employee = namedtuple("Employee", ["name", "role", "salary"])

# Step 2: List of employees
# Each employee is represented as and instance of the Employee namedtuple.
employees = {
    Employee('Alice', 'Developer', 80000),
    Employee('Bob', 'Manager', 95000),
    Employee('Charlie', 'Designer', 70000)
}

# Step 3: Calculate the total salary
# Use a generator expression to sum the salaries of all employees.
total_salary = sum(emp.salary for emp in employees)

# Step 4: Display employee details
# Iterate through the list and display each employees's details.
print("Employee Details:")
for emp in employees:
    print(f'Name: {emp.name}, Role: {emp.role}, Salary: ${emp.salary}')
print(f'Total Salary: ${total_salary}')

Employee Details:
Name: Bob, Role: Manager, Salary: $95000
Name: Charlie, Role: Designer, Salary: $70000
Name: Alice, Role: Developer, Salary: $80000
Total Salary: $245000


- namedtuple의 장점
    - 왜 일반 튜플이나 딕셔너리 대신 namedtuple을 사용하는지 고민
    - 읽기 쉽고 직관적인 코드 작성의 중요성

- 유사한 데이터 구조와의 비교
    - namedtuple과 클래스를 사용하는 경우의 장단점 비교
    - 프로젝트 규모나 데이터 복잡성에 따른 적합한 선택

- 데이터 조작의 확장성
    - namedtuple이 제공하는 불변성(immutable)이 코드 유지보수에 미치는 영향
    - 불변 데이터 구조를 활용해야 할 상황과 그렇지 않은 상황의 구분

In [5]:
from collections import Counter
import math

# Step 1: Sample documents
# Each document is a string, representing some text content.
documents = [
    "text mining algorithms analyze text",
    "text data mining finds patterns in text",
    "patterns and algorithms are used in text mining"
]

# Step 2: Preprocess documents and calculate term frequencies (TF)
# For each document, split it into words and count occurrences using Counter.
tf = [Counter(doc.split()) for doc in documents]

# Step 3: Calculate document frequency (DF) for each term
# DF counts the number of documents containing each term.
df = Counter()
for doc_tf in tf:
    df.update(doc_tf.keys())

# Step 4: Calculate TF-IDF for each term in each document
# Use the formula TF-IDF = TF * log(N / DF), where N is the total number of documents.
N = len(documents)
tf_idf = []
for doc_index, doc_tf in enumerate(tf):
    doc_tfidf = {}
    for term, count in doc_tf.items():
        idf = math.log(N / df[term])    # Inverse Document Frequency (IDF)
        doc_tfidf[term] = count * idf
    tf_idf.append(doc_tfidf)

# Step 5: Display TF-IDF scores
# Print TF-IDF scores for each document.
for doc_index, scores in enumerate(tf_idf):
    print(f'Document {doc_index + 1}:')
    for term, score in scores.items():
        print(f'    {term}: {score:.2f}')

Document 1:
    text: 0.00
    mining: 0.00
    algorithms: 0.41
    analyze: 1.10
Document 2:
    text: 0.00
    data: 1.10
    mining: 0.00
    finds: 1.10
    patterns: 0.41
    in: 0.41
Document 3:
    patterns: 0.41
    and: 1.10
    algorithms: 0.41
    are: 1.10
    used: 1.10
    in: 0.41
    text: 0.00
    mining: 0.00


- TF-IDF의 장단점
    - 단어의 상대적 주요도를 평가할 수 있는 TF-IDF의 장점과 한계 고민.
    - TF-IDF가 문맥이나 단어 간 관계를 반영하지 못하는 문제점 탐구.

- IDF 계산 방식의 의의
    - 왜 전체 문서 수와 단어가 등장한 문서 수의 비율을 로그로 계산하는지 이해.
    - 로그 변환의 의미와 다른 스케일링 기법의 비교.

- 다른 텍스트 분석 기법과의 비교
    - Word2Vec, BERT 등의 임베딩 기법과 TF-IDF의 차이점.
    - TF-IDF를 사용할 때와 임베딩 모델을 사용할 때의 적합한 상황 고민.

- Counter 활용과 대규모 데이터
    - Counter를 사용한 빈도 계산이 대규모 데이터에서 가지는 한계.
    - 실제 대규모 데이터 처리 시 적합한 라이브러리(예: Scikit-learn, Pandas) 탐구.