In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# **질문 유형 및 해당 유형의 질문 수 추출**

제공된 코드는 데이터 코퍼스에서 각 프로그래밍 언어와 관련된 질문 유형 및 해당 유형의 질문 수를 분석하는 코드입니다. 코드는 다음을 수행합니다:

주어진 디렉토리에서 모든 txt 파일을 읽어옵니다.

각 파일을 순회하면서 질문 데이터를 읽어옵니다.

각 질문의 언어를 확인하고 해당 언어를 설정합니다.

현재 언어가 설정된 경우, 질문 유형을 확인하고 해당 유형을 설정합니다. 여기서는 "Problem" (문제 해결), "How To" (어떻게 하는지), 그리고 "Other" (기타) 세 가지 유형을 고려하고 있습니다.

현재 언어와 질문 유형에 따라 질문 수를 계산하고 딕셔너리에 저장합니다.

각 언어별로 질문 유형 및 해당 유형의 질문 수를 출력합니다.

이 코드를 실행하면 각 프로그래밍 언어에 대한 다양한 질문 유형이 어떤 언어와 관련이 있는지, 그리고 해당 유형의 질문이 몇 개씩 있는지를 분석할 수 있습니다. 이를 통해 데이터 질문의 성격을 파악하고, 어떤 유형의 질문이 특정 언어와 관련이 있는지를 이해할 수 있습니다.

In [None]:
import os
import re
from collections import defaultdict

# 데이터 코퍼스 디렉토리 경로
corpus_folder = '/content/drive/MyDrive/four programming/four programming_Q_list'  # 실제 데이터 디렉토리 경로로 수정

# 프로그래밍 언어와 관련된 키워드 정의
languages = ['Python', 'Java', 'C', 'Prolog']  # 분석하려는 언어들을 나열합니다.

# 각 언어별 질문 유형과 질문 수를 저장할 딕셔너리 초기화
language_question_types = {language: defaultdict(int) for language in languages}

# 모든 txt 파일의 경로를 가져오기
txt_files = [os.path.join(corpus_folder, filename) for filename in os.listdir(corpus_folder) if filename.endswith('.txt')]

# 각 파일을 순회하면서 질문 데이터 읽어오기
for txt_file in txt_files:
    with open(txt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        current_language = None
        current_question_type = None

        for line in lines:
            # 질문의 언어를 확인하여 현재 언어 설정
            for language in languages:
                if re.search(r'\b{}\b'.format(re.escape(language)), line, re.IGNORECASE):
                    current_language = language
                    break

            # 현재 언어가 설정된 경우 질문 유형 확인
            if current_language:
                if re.search(r'\b{}\b'.format(re.escape('problem')), line, re.IGNORECASE):
                    current_question_type = 'Problem'
                elif re.search(r'\b{}\b'.format(re.escape('how to')), line, re.IGNORECASE):
                    current_question_type = 'How To'
                else:
                    current_question_type = 'Other'

                # 현재 언어와 질문 유형에 따라 질문 수 계산
                language_question_types[current_language][current_question_type] += 1

# 결과 출력
for language, question_types in language_question_types.items():
    print(f'언어: {language}')
    for question_type, count in question_types.items():
        print(f'{question_type} 질문 수: {count}')
    print()

언어: Python
Other 질문 수: 2536
How To 질문 수: 583
Problem 질문 수: 46

언어: Java
Other 질문 수: 2315
How To 질문 수: 535
Problem 질문 수: 65

언어: C
Other 질문 수: 2545
How To 질문 수: 361
Problem 질문 수: 61

언어: Prolog
Other 질문 수: 2441
How To 질문 수: 455
Problem 질문 수: 54



# **결과 엑셀로 저장**

In [None]:
import os
import re
import pandas as pd
from collections import defaultdict

# 데이터 코퍼스 디렉토리 경로
corpus_folder = '/content/drive/MyDrive/four programming/four programming_Q_list'  # 실제 데이터 디렉토리 경로로 수정

# 프로그래밍 언어와 관련된 키워드 정의
languages = ['Python', 'Java', 'C', 'Prolog']  # 분석하려는 언어들을 나열합니다.

# 각 언어별 질문 유형과 질문 수를 저장할 딕셔너리 초기화
language_question_types = {language: defaultdict(int) for language in languages}

# 모든 txt 파일의 경로를 가져오기
txt_files = [os.path.join(corpus_folder, filename) for filename in os.listdir(corpus_folder) if filename.endswith('.txt')]

# 각 파일을 순회하면서 질문 데이터 읽어오기
for txt_file in txt_files:
    with open(txt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        current_language = None
        current_question_type = None

        for line in lines:
            # 질문의 언어를 확인하여 현재 언어 설정
            for language in languages:
                if re.search(r'\b{}\b'.format(re.escape(language)), line, re.IGNORECASE):
                    current_language = language
                    break

            # 현재 언어가 설정된 경우 질문 유형 확인
            if current_language:
                if re.search(r'\b{}\b'.format(re.escape('problem')), line, re.IGNORECASE):
                    current_question_type = 'Problem'
                elif re.search(r'\b{}\b'.format(re.escape('how to')), line, re.IGNORECASE):
                    current_question_type = 'How To'
                else:
                    current_question_type = 'Other'

                # 현재 언어와 질문 유형에 따라 질문 수 계산
                language_question_types[current_language][current_question_type] += 1

# 결과를 데이터프레임으로 변환
data = []
for language, question_types in language_question_types.items():
    for question_type, count in question_types.items():
        data.append([language, question_type, count])

df = pd.DataFrame(data, columns=['Language', 'Question Type', 'Question Count'])

# 결과를 엑셀 파일로 저장
output_excel_path = '/content/drive/MyDrive/four programming(질문 유형 및 해당 유형의 질문 수).xlsx'  # 저장할 엑셀 파일 경로 설정
df.to_excel(output_excel_path, index=False)

print(f'결과가 {output_excel_path}에 저장되었습니다.')

결과가 /content/drive/MyDrive/four programming(질문 유형 및 해당 유형의 질문 수).xlsx에 저장되었습니다.


# **질문 유형 및 해당 유형의 질문 수에 해당되는 질문 내용 추출**

In [None]:
import os
import re
import pandas as pd
from collections import defaultdict

# 데이터 코퍼스 디렉토리 경로
corpus_folder = '/content/drive/MyDrive/four programming/four programming_Q_list'  # 실제 데이터 디렉토리 경로로 수정

# 프로그래밍 언어와 관련된 키워드 정의
languages = ['Python', 'Java', 'C', 'Prolog']  # 분석하려는 언어들을 나열합니다.

# 각 언어별 질문 유형과 질문 수를 저장할 딕셔너리 초기화
language_question_types = {language: defaultdict(int) for language in languages}

# 각 언어별 질문 유형과 해당 질문 내용을 저장할 딕셔너리 초기화
language_question_contents = {language: defaultdict(list) for language in languages}

# 모든 txt 파일의 경로를 가져오기
txt_files = [os.path.join(corpus_folder, filename) for filename in os.listdir(corpus_folder) if filename.endswith('.txt')]

# 각 파일을 순회하면서 질문 데이터 읽어오기
for txt_file in txt_files:
    with open(txt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        current_language = None
        current_question_type = None
        current_question_content = None

        for line in lines:
            # 질문의 언어를 확인하여 현재 언어 설정
            for language in languages:
                if re.search(r'\b{}\b'.format(re.escape(language)), line, re.IGNORECASE):
                    current_language = language
                    break

            # 현재 언어가 설정된 경우 질문 유형 확인
            if current_language:
                if re.search(r'\b{}\b'.format(re.escape('problem')), line, re.IGNORECASE):
                    current_question_type = 'Problem'
                elif re.search(r'\b{}\b'.format(re.escape('how to')), line, re.IGNORECASE):
                    current_question_type = 'How To'
                else:
                    current_question_type = 'Other'

                # 질문 내용을 저장
                current_question_content = line.strip()

                # 현재 언어와 질문 유형에 따라 질문 수 계산 및 질문 내용 저장
                language_question_types[current_language][current_question_type] += 1
                language_question_contents[current_language][current_question_type].append(current_question_content)

# 결과 출력
for language, question_types in language_question_types.items():
    print(f'Language: {language}')
    for question_type, count in question_types.items():
        print(f'  Question Type: {question_type}')
        print(f'  Question Count: {count}')
        print('  Question Contents:')
        for question_content in language_question_contents[language][question_type]:
            print(f'    - {question_content}')
        print('\n')

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
    - Why sqlite is allowing second process to do write operation while first process is already doing write
    - Get details from PKCS7 (CMS) via C++
    - What does inptr and outptr meanDoes anyone know what inptr and outptr mean?
    - sorting in ascending order using bubble sort with pointers
    - Collect2.exe error: ld returned 5 exit status I am creating an Operating System with BootLoader and Kerne l and a Linker.
    - Hitting return terminates 2 scanf("%[^\n]%*c")
    - Why char value increasing 3?
    - Error: AES Encryption key: invalid conversion from ‘char*’ to ‘unsigned char’ I'm trying to encrypt with AES using aes.h
    - Behavior of sizeof on variable length arrays (C only)
    - Assembly mov instruction suffix?
    - How can I do scanf() to the elements of dynamic 2D array in C?
    - Find longest sub-array with no repetitions
    - Create a Portable Static Library from a Project Based on OpenCV Static Libraries
    

# **결과 엑셀로 저장**

In [None]:
import os
import re
import pandas as pd
from collections import defaultdict

# 데이터 코퍼스 디렉토리 경로
corpus_folder = '/content/drive/MyDrive/four programming/four programming_Q_list'  # 실제 데이터 디렉토리 경로로 수정

# 프로그래밍 언어와 관련된 키워드 정의
languages = ['Python', 'Java', 'C', 'Prolog']  # 분석하려는 언어들을 나열합니다.

# 각 언어별 질문 유형과 질문 수를 저장할 딕셔너리 초기화
language_question_types = {language: defaultdict(int) for language in languages}

# 각 언어별 질문 유형과 해당 질문 내용을 저장할 딕셔너리 초기화
language_question_contents = {language: defaultdict(list) for language in languages}

# 모든 txt 파일의 경로를 가져오기
txt_files = [os.path.join(corpus_folder, filename) for filename in os.listdir(corpus_folder) if filename.endswith('.txt')]

# 각 파일을 순회하면서 질문 데이터 읽어오기
for txt_file in txt_files:
    with open(txt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        current_language = None
        current_question_type = None
        current_question_content = None

        for line in lines:
            # 질문의 언어를 확인하여 현재 언어 설정
            for language in languages:
                if re.search(r'\b{}\b'.format(re.escape(language)), line, re.IGNORECASE):
                    current_language = language
                    break

            # 현재 언어가 설정된 경우 질문 유형 확인
            if current_language:
                if re.search(r'\b{}\b'.format(re.escape('problem')), line, re.IGNORECASE):
                    current_question_type = 'Problem'
                elif re.search(r'\b{}\b'.format(re.escape('how to')), line, re.IGNORECASE):
                    current_question_type = 'How To'
                else:
                    current_question_type = 'Other'

                # 질문 내용을 저장
                current_question_content = line.strip()

                # 현재 언어와 질문 유형에 따라 질문 수 계산 및 질문 내용 저장
                language_question_types[current_language][current_question_type] += 1
                language_question_contents[current_language][current_question_type].append(current_question_content)

# 결과를 데이터프레임으로 변환
data = []
for language, question_types in language_question_types.items():
    for question_type, count in question_types.items():
        for question_content in language_question_contents[language][question_type]:
            data.append([language, question_type, count, question_content])

df = pd.DataFrame(data, columns=['Language', 'Question Type', 'Question Count', 'Question Content'])

# 결과를 엑셀 파일로 저장
output_excel_path = '/content/drive/MyDrive/four programming(질문 유형 및 해당 유형의 질문 수에 해당되는 질문 내용).xlsx'  # 저장할 엑셀 파일 경로 설정
df.to_excel(output_excel_path, index=False)

print(f'결과가 {output_excel_path}에 저장되었습니다.')

결과가 /content/drive/MyDrive/four programming(질문 유형 및 해당 유형의 질문 수에 해당되는 질문 내용).xlsx에 저장되었습니다.


이 코드를 실행하면 두 가지 주요 분석을 수행할 수 있습니다:

각 언어별로 특정 키워드에 대한 질문 빈도 분석:

코드에서는 Python과 Java 두 가지 프로그래밍 언어를 대상으로 합니다.
각 언어별로 특정 키워드(예: '파일', '데이터 분석', '데이터베이스' 등)에 대한 질문이 얼마나 많이 나왔는지를 분석합니다.
이를 통해 각 언어가 어떤 주제 또는 키워드에 관심이 많은지를 확인할 수 있습니다.

두 언어 간의 특징 비교:

각 언어별로 특정 키워드에 대한 질문 수를 비교하여, 어떤 언어가 어떤 주제 또는 키워드에 대해 더 많은 관심을 받았는지를 비교합니다.
예를 들어, 'Python'과 'Java' 언어 중 어떤 언어가 '파일'에 관한 질문이 더 많은지, '데이터 분석'에 대한 질문이 어느 언어에서 더 많은지를 확인할 수 있습니다.


이런 분석을 통해 언어별 관심사나 특징을 이해하고, 해당 언어의 사용 분야나 트렌드를 파악하는 데 도움이 될 수 있습니다.

# **언어별로 특정 키워드에 대한 질문 빈도 및 키워드로 언어 간 비교(2가지)**

In [None]:
import pandas as pd

# 텍스트 파일 경로
python_file_path = '/content/drive/MyDrive/four programming/four programming_Q_list/Python_data_Q_list.txt'
java_file_path = '/content/drive/MyDrive/four programming/four programming_Q_list/java_data_Q_list.txt'


# 텍스트 파일 읽어오기
with open(python_file_path, 'r', encoding='utf-8') as python_file:
    python_questions = python_file.readlines()

with open(java_file_path, 'r', encoding='utf-8') as java_file:
    java_questions = java_file.readlines()

# 개행 문자 및 불필요한 공백 제거
python_questions = [question.strip() for question in python_questions]
java_questions = [question.strip() for question in java_questions]

# 데이터프레임 생성
df = pd.DataFrame({
    'Language': ['Python'] * len(python_questions) + ['Java'] * len(java_questions),
    'Question': python_questions + java_questions
})

# 각 언어별로 키워드 추출
keywords = {
    #'Python': ['File', 'Data Analysis', 'Database'],
    #'Java': ['Object-oriented programming','compiled language', 'interpreter language']
    #'Java': ['object-oriented programming', 'compiled language', 'JVM']
    #'Java': ['object-oriented programming', 'OOP', 'compiled language', 'JVM', 'web application', 'enterprise']
    #'Python': ['python', 'data', 'file', 'code', 'error'],
    #'Java': ['java', 'object', 'class', 'method', 'error'],
    'Python': ['python', 'programming', 'code', 'data', 'error'],
    'Java': ['java', 'programming', 'code', 'object', 'method'],

}

# 각 언어별로 키워드 빈도 분석
def keyword_frequency(language):
    keyword_count = {}
    for keyword in keywords[language]:
        count = df[df['Language'] == language]['Question'].str.contains(keyword).sum()
        keyword_count[keyword] = count
    return keyword_count

python_keywords_count = keyword_frequency('Python')
java_keywords_count = keyword_frequency('Java')

print("Python 키워드 빈도:", python_keywords_count)
print("Java 키워드 빈도:", java_keywords_count)

# 각 언어의 특징 비교
def compare_languages(language1, language2):
    print(f"{language1} vs. {language2} 키워드 비교:")
    for keyword in keywords[language1]:
        if keyword in python_keywords_count and keyword in java_keywords_count:
            if python_keywords_count[keyword] > java_keywords_count[keyword]:
                print(f"{language1}에서 '{keyword}' 관련 질문이 더 많습니다.")
            elif python_keywords_count[keyword] < java_keywords_count[keyword]:
                print(f"{language2}에서 '{keyword}' 관련 질문이 더 많습니다.")
            else:
                print(f"{language1}와 {language2}에서 '{keyword}' 관련 질문 수가 동일합니다.")
        else:
            print(f"'{keyword}' 키워드는 두 언어 모두에 대해 비교할 수 없습니다.")

compare_languages('Python', 'Java')

Python 키워드 빈도: {'python': 458, 'programming': 10, 'code': 132, 'data': 332, 'error': 137}
Java 키워드 빈도: {'java': 345, 'programming': 6, 'code': 132, 'object': 105, 'method': 155}
Python vs. Java 키워드 비교:
'python' 키워드는 두 언어 모두에 대해 비교할 수 없습니다.
Python에서 'programming' 관련 질문이 더 많습니다.
Python와 Java에서 'code' 관련 질문 수가 동일합니다.
'data' 키워드는 두 언어 모두에 대해 비교할 수 없습니다.
'error' 키워드는 두 언어 모두에 대해 비교할 수 없습니다.


# **언어별로 특정 키워드에 대한 질문 빈도 및 키워드로 언어 간 비교(4가지)**

In [None]:
import pandas as pd

# Define text file paths for each programming language
python_file_path = 'python_questions.txt'
java_file_path = 'java_questions.txt'
javascript_file_path = 'javascript_questions.txt'
csharp_file_path = 'csharp_questions.txt'

# Function to read and preprocess text data from a file
def read_and_preprocess_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        questions = file.readlines()
    questions = [question.strip() for question in questions]
    return questions

# Read and preprocess questions for each programming language
python_questions = read_and_preprocess_text(python_file_path)
java_questions = read_and_preprocess_text(java_file_path)
javascript_questions = read_and_preprocess_text(javascript_file_path)
csharp_questions = read_and_preprocess_text(csharp_file_path)

# Create a DataFrame
df = pd.DataFrame({
    'Language': ['Python'] * len(python_questions) + ['Java'] * len(java_questions) + ['JavaScript'] * len(javascript_questions) + ['C#'] * len(csharp_questions),
    'Question': python_questions + java_questions + javascript_questions + csharp_questions
})

# Define keywords for each programming language
keywords = {
    'Python': ['python', 'programming', 'code', 'data', 'error'],
    'Java': ['java', 'programming', 'code', 'object', 'method'],
    'JavaScript': ['javascript', 'web', 'frontend', 'nodejs', 'react'],
    'C#': ['csharp', 'dotnet', 'visual studio', 'windows', 'aspnet']
}

# Function to calculate keyword frequency for a language
def keyword_frequency(language):
    keyword_count = {}
    for keyword in keywords[language]:
        count = df[df['Language'] == language]['Question'].str.contains(keyword).sum()
        keyword_count[keyword] = count
    return keyword_count

# Calculate keyword frequencies for each language
python_keywords_count = keyword_frequency('Python')
java_keywords_count = keyword_frequency('Java')
javascript_keywords_count = keyword_frequency('JavaScript')
csharp_keywords_count = keyword_frequency('C#')

# Function to compare languages based on keyword frequencies
def compare_languages(language1, language2):
    print(f"{language1} vs. {language2} Keyword Comparison:")
    for keyword in keywords[language1]:
        if keyword in python_keywords_count and keyword in keywords[language2]:
            if python_keywords_count[keyword] > keywords[language2][keyword]:
                print(f"{language1} has more questions related to '{keyword}'.")
            elif python_keywords_count[keyword] < keywords[language2][keyword]:
                print(f"{language2} has more questions related to '{keyword}'.")
            else:
                print(f"{language1} and {language2} have the same number of questions related to '{keyword}'.")
        else:
            print(f"'{keyword}' cannot be compared between {language1} and {language2}.")

# Compare Python with other languages
compare_languages('Python', 'Java')
compare_languages('Python', 'JavaScript')
compare_languages('Python', 'C#')