In [1]:
import os
import json
from tqdm import tqdm
from openai import OpenAI
import pandas as pd
import matplotlib.pyplot as plt
import re

os.environ['OPENAI_API_KEY'] = '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'

class DataLoader:
    def __init__(self, file_path,limit):
        self.file_path = file_path
        self.limit=limit

    def load_data(self):
        with open(self.file_path, 'r') as file:
            lines = file.readlines()
        question = lines[0].strip()
        answers = [line.strip() for line in lines[1:self.limit+1]]
        return question, answers

class Categorizer:
    def __init__(self, categories, api_client,model="gpt-4o"):
        self.categories_dict = {category: [] for category in categories}
        self.api_client = api_client
        self.model = model

    def categorize_answers(self, answers):
        formatted_answers = "\n".join([f"{i+1}. {answer}" for i, answer in enumerate(answers)])
        system_prompt = (
            "You will receive multiple employee survey answers and a list of existing categories. "
            "For each answer, assign up to 3 relevant category labels from the existing categories. "
            "Provide the results as a JSON array where each element is an array of categories corresponding to each answer. "
            "the response must contain only the JSON array no other string or leading/ending character"
            "Use only the Hungarian language for the category labels."
        )
        user_prompt = (
            f"Existing categories: [{', '.join(self.categories_dict.keys())}].\n\n"
            f"Survey Answers:\n{formatted_answers}\n\n"
            "Please provide the category assignments as specified."
        )
        response = self.api_client.chat.completions.create(
            model=self.model,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt}
            ],
            max_tokens=1500,
            temperature=0.2,
            n=1,
            stop=None
        )
        response_text = response.choices[0].message.content.strip().replace("```json","").replace("```","")
        categories_list = json.loads(response_text)
        for i in range(len(answers)):
            categories = categories_list[i]
            for category in categories:
                if category in self.categories_dict:
                    self.categories_dict[category].append(answers[i])
                else:
                    self.categories_dict[category] = [answers[i]]
        return self.categories_dict

    def find_keys_by_value(self, target_value):
        matching_keys = []
        for key, values_list in self.categories_dict.items():
            if target_value in values_list:
                matching_keys.append(key)
        return matching_keys

class Chunker:
    def __init__(self,chunk_size):
        self.chunk_size=chunk_size
    def chunk_list(self,data):
        for i in range(0, len(data), self.chunk_size):
            yield data[i:i + self.chunk_size]

class Exporter:
    def __init__(self, categorizor, answers):
        self.categorizer = categorizor
        self.answers = answers
    
    def sanitize_filename(self,name):
        """
        Sanitize a string to be a valid filename by removing or replacing invalid characters.
        """
        # Define a pattern for invalid filename characters
        invalid_chars = r'[\s<>:"/\\|?*]'
        # Replace invalid characters with underscores
        sanitized = re.sub(invalid_chars, '_', name)
        # Optionally, remove leading/trailing whitespace and dots
        sanitized = sanitized.strip().strip('.')
        return sanitized
    def make_valid_xlsx_filename(self,name):
        """
        Convert a random string to a valid .xlsx filename.
        """
        sanitized = self.sanitize_filename(name)
        # Ensure the filename ends with .xlsx
        if not sanitized.lower().endswith('.xlsx'):
            sanitized += '.xlsx'
        return sanitized

    def dump_to_excel(self, df_sorted, sheet_name='Answers and Categories' ,excel_file='result_data.xlsx'):
        excel_file=self.make_valid_xlsx_filename(excel_file)
        sheet_name=self.sanitize_filename(sheet_name)
        data = []
        for answer in self.answers:
            categories = self.categorizer.find_keys_by_value(answer)
            data.append([answer] + categories)
        max_categories = max(len(item) - 1 for item in data)
        column_names = ['Answer'] + [f'Category{i+1}' for i in range(max_categories)]
        df = pd.DataFrame(data, columns=column_names)
        with pd.ExcelWriter(excel_file) as writer:
            df.to_excel(writer, sheet_name=sheet_name[:15], index=False)
            df_sorted.to_excel(writer, sheet_name='Summary', index=False)
        print(f"Data has been written to '{excel_file}'.")

    def plot_result(self, df_sorted):
        plt.figure(figsize=(10, 6))
        bars = plt.bar(df_sorted['Category'], df_sorted['Length'], color='skyblue')
        plt.xlabel('Category')
        plt.ylabel('Length of Arrays')
        plt.title('Histogram of Array Lengths in Descending Order')
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        for bar in bars:
            yval = bar.get_height()
            plt.text(bar.get_x() + bar.get_width() / 2, yval, int(yval), ha='center', va='bottom')
        plt.show()

class SurveyAnalyzer:
    def __init__(self, file_path, categories,model="gpt-4o",result_excel='result_data.xlsx',answer_limit=None,chunk_size=10):
        self.loader = DataLoader(file_path,answer_limit)
        self.client = OpenAI()
        self.categorizer = Categorizer(categories, self.client,model)
        self.chunker = Chunker(chunk_size)
        self.excel_file = result_excel
        self.chunk_size=chunk_size

    def find_keys_by_value(self, target_value):
        return self.categorizer.find_keys_by_value(target_value)

    def sorted_summary_df(self):
        lengths = {key: len(value) for key, value in self.categorizer.categories_dict.items()}
        df = pd.DataFrame(lengths.items(), columns=['Category', 'Length'])
        return df.sort_values(by='Length', ascending=False)

    def categorize_all_answers(self, answers):
        for answer_chunk in tqdm(self.chunker.chunk_list(answers), desc="Categorizing answers", unit=" chunk", total=round(len(answers)/self.chunk_size)):
            self.categorizer.categorize_answers(answer_chunk)

    def export_results(self,question):
        exporter = Exporter(self.categorizer, self.answers)
        df_sorted = self.sorted_summary_df()
        exporter.dump_to_excel(df_sorted,question, self.excel_file)
        exporter.plot_result(df_sorted)

    def run(self):
        question, self.answers = self.loader.load_data()
        self.categorize_all_answers(self.answers)
        self.export_results(question)


In [2]:

categories = [
    "csapat",
    "környezet|iroda",
    "vezető",
    "work life balance",
    "home office",
    "rugalmas munkavégzés",
    "munkahelyi légkör",
    "juttatások",
    "munka|feladatok|kihívás",
    "elismerés|megbecsülés",
    "stabilitás",
    "fizetés",
    "fejlődés|karrier",
    "korrekt munkáltató",
    "családbarát",
    "céges kultúra",
    "programok",
    "iparág",
    "innováció"
]
file_path = 'answers1.txt'
analyzer = SurveyAnalyzer(file_path, categories,'gpt-4o',"Question1_result.xlsx")
analyzer.run()

TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'

In [1]:
from services import *
file_path = "survey_results.xlsx"
loader = DataLoader(file_path)

In [2]:
loader.df.columns

'Answer'

In [3]:
loader.get_answers(0,10)

['közösség, iroda, a vezet?m',
 'emberek, légkör, juttatások',
 '1. Változatos feladatok 2. Segít?kész kollégák 3. Elismerve érzem magam',
 'Kollegák, szakmai kihívások, munkahelyi környezet',
 'a kollégáim, a környezet, az épület',
 'közösség, üzleti stabilitás, juttatási csomag,',
 'Barátok, Homeoffice, Cafetéria',
 'Környezet, munkatársak, home office lehet?ség',
 'Munkahelyi körülmények, jutattások, megbecsülés',
 '1. Stabil háttér 2. Megfelel? fizetés 3. Továbblépési lehet?ségek']

In [4]:
categories = [
    "csapat",
    "környezet|iroda",
    "vezető",
    "work life balance",
    "home office",
    "rugalmas munkavégzés",
    "munkahelyi légkör",
    "juttatások",
    "munka|feladatok|kihívás",
    "elismerés|megbecsülés",
    "stabilitás",
    "fizetés",
    "fejlődés|karrier",
    "korrekt munkáltató",
    "családbarát",
    "céges kultúra",
    "programok",
    "iparág",
    "innováció"
]
categorizer = Categorizer(categories, "gpt-4")

In [5]:
categorizer.categorize_answers(loader.df.columns[0],loader.get_answers(0,10))

({'csapat': ['közösség, iroda, a vezet?m',
   '1. Változatos feladatok 2. Segít?kész kollégák 3. Elismerve érzem magam',
   'Kollegák, szakmai kihívások, munkahelyi környezet',
   'a kollégáim, a környezet, az épület',
   'közösség, üzleti stabilitás, juttatási csomag,',
   'Környezet, munkatársak, home office lehet?ség'],
  'környezet|iroda': ['közösség, iroda, a vezet?m',
   'Kollegák, szakmai kihívások, munkahelyi környezet',
   'a kollégáim, a környezet, az épület',
   'Környezet, munkatársak, home office lehet?ség',
   'Munkahelyi körülmények, jutattások, megbecsülés'],
  'vezető': ['közösség, iroda, a vezet?m'],
  'work life balance': [],
  'home office': ['Barátok, Homeoffice, Cafetéria',
   'Környezet, munkatársak, home office lehet?ség'],
  'rugalmas munkavégzés': [],
  'munkahelyi légkör': ['emberek, légkör, juttatások'],
  'juttatások': ['emberek, légkör, juttatások',
   'közösség, üzleti stabilitás, juttatási csomag,',
   'Barátok, Homeoffice, Cafetéria',
   'Munkahelyi kör

In [7]:
categorizer.answers_categories

{'Answer_2': ['közösség, iroda, a vezet?m',
  'emberek, légkör, juttatások',
  '1. Változatos feladatok 2. Segít?kész kollégák 3. Elismerve érzem magam',
  'Kollegák, szakmai kihívások, munkahelyi környezet',
  'a kollégáim, a környezet, az épület',
  'közösség, üzleti stabilitás, juttatási csomag,',
  'Barátok, Homeoffice, Cafetéria',
  'Környezet, munkatársak, home office lehet?ség',
  'Munkahelyi körülmények, jutattások, megbecsülés',
  '1. Stabil háttér 2. Megfelel? fizetés 3. Továbblépési lehet?ségek'],
 'Answer_category_0': ['csapat',
  'munkahelyi légkör',
  'munka|feladatok|kihívás',
  'csapat',
  'csapat',
  'csapat',
  'home office',
  'környezet|iroda',
  'környezet|iroda',
  'stabilitás'],
 'Answer_category_1': ['környezet|iroda',
  'juttatások',
  'csapat',
  'munka|feladatok|kihívás',
  'környezet|iroda',
  'stabilitás',
  'juttatások',
  'csapat',
  'juttatások',
  'fizetés'],
 'Answer_category_2': ['vezető',
  None,
  'elismerés|megbecsülés',
  'környezet|iroda',
  None

In [8]:
pd.concat([loader.df,pd.DataFrame(categorizer.answers_categories)], axis=1)

Unnamed: 0,Answer,Category1,Category2,Category3,Category4,Answer_2,Answer_category_0,Answer_category_1,Answer_category_2
0,"közösség, iroda, a vezet?m",csapat,környezet|iroda,vezető,,"közösség, iroda, a vezet?m",csapat,környezet|iroda,vezető
1,"emberek, légkör, juttatások",csapat,munkahelyi légkör,juttatások,,"emberek, légkör, juttatások",munkahelyi légkör,juttatások,
2,1. Változatos feladatok 2. Segít?kész kollégák...,csapat,munka|feladatok|kihívás,elismerés|megbecsülés,,1. Változatos feladatok 2. Segít?kész kollégák...,munka|feladatok|kihívás,csapat,elismerés|megbecsülés
3,"Kollegák, szakmai kihívások, munkahelyi környezet",csapat,környezet|iroda,munka|feladatok|kihívás,,"Kollegák, szakmai kihívások, munkahelyi környezet",csapat,munka|feladatok|kihívás,környezet|iroda
4,"a kollégáim, a környezet, az épület",csapat,környezet|iroda,,,"a kollégáim, a környezet, az épület",csapat,környezet|iroda,
...,...,...,...,...,...,...,...,...,...
827,"Stabilitás, nagyvállalati légkör, juttatások",munkahelyi légkör,juttatások,stabilitás,,,,,
828,Munkáltatói - kultúra értékek Rugalmasság Jut...,rugalmas munkavégzés,juttatások,céges kultúra,,,,,
829,Jó a csapat és a légkör. Folyamatosan van lehe...,csapat,munkahelyi légkör,fejlődés|karrier,,,,,
830,"Flexibilis munkahely, szuperkedves kollégák, m...",környezet|iroda,rugalmas munkavégzés,emberek,,,,,


In [1]:
from services import *
surveyanalizer=SurveyAnalyzer(file_path="uploaded_files/0fa16f2e199f4492ab13ad57314689cc_VM_EPD-Bp Partner feedback survey 2024(1-45).xlsx")

In [2]:
categories_per_columnId={9:[
]}
categories_per_columnId

{9: []}

In [3]:
surveyanalizer.run([9],categories_per_columnId,2,6)

Categorizing answers for What is your op...:   0%|          | 0/4 [00:00<?, ? chunk/s]

[]


Categorizing answers for What is your op...:  25%|██▌       | 1/4 [00:08<00:24,  8.31s/ chunk]

["Motivation", "Performance", "Cooperation", "Teamwork", "Support", "Urgent Matters", "Meetings", "Colleague Relations", "None", "Team Reachability", "Experience", "Timelines", "Communication", "Efficiency", "Domain Knowledge"]


Categorizing answers for What is your op...:  50%|█████     | 2/4 [00:10<00:09,  4.66s/ chunk]

["Motivation", "Performance", "Cooperation", "Teamwork", "Support", "Urgent Matters", "Meetings", "Colleague Relations", "None", "Team Reachability", "Experience", "Timelines", "Communication", "Efficiency", "Domain Knowledge"]


Categorizing answers for What is your op...:  75%|███████▌  | 3/4 [00:13<00:03,  3.82s/ chunk]

["Motivation", "Performance", "Cooperation", "Teamwork", "Support", "Urgent Matters", "Meetings", "Colleague Relations", "None", "Team Reachability", "Experience", "Timelines", "Communication", "Efficiency", "Domain Knowledge", "Trust", "Training"]


Categorizing answers for What is your op...: 100%|██████████| 4/4 [00:14<00:00,  2.93s/ chunk]

["Motivation", "Performance", "Cooperation", "Teamwork", "Support", "Urgent Matters", "Meetings", "Colleague Relations", "None", "Team Reachability", "Experience", "Timelines", "Communication", "Efficiency", "Domain Knowledge", "Trust", "Training", "Problem Solving"]


Categorizing answers for What is your op...: 5 chunk [00:16,  3.21s/ chunk]                   

Data has been written to 'result_data.xlsx'.





In [6]:
",".join({
  "Motivation": [
    "Understandably, not the most sexy topicAt the beginning low motivation and topic rather slowGood motivation and performance towards the end"
  ],
  "Performance": [
    "Understandably, not the most sexy topicAt the beginning low motivation and topic rather slowGood motivation and performance towards the end"
  ],
  "Cooperation": [
    "Good cooperation, and like working the HoP team. Very helpful.",
    "Have regular meetings for field case information exchange, good cooperation with BP and CN team.Proactive and fast feedback for urgent field case support requirement from CN market.",
    "\u2022 Cooperation is going well, open for discussions and brainstorming all the time\u2022 Colleagues are supportive if there is a problem to solve\u2022 We are available for support\u2022 Prompt support is available if needed and could join to meetings if needed --> Helpful in the NA projects",
    "- Good cooperation between the teams (between the development team stakeholders, users, BSPA counterparts around the world)- We like working together and their work is helpful for us.- The team is self motivated.- Our expectation from work package point of view is fulfilled but it is expected to have more domain knowledge in the team. For example for future components the development workload will increase. This will require higher domain knowledge and stronger connection between the teams to implement the new components and calculations.- Proactive enough to do the necessary task- The team has \"can do\" attitude and high flexibility to find a solution to the given development topics"
  ],
  "Teamwork": [
    "Good cooperation, and like working the HoP team. Very helpful."
  ],
  "Support": [
    "Always supported as in times of urgent matters (corrections due to mistakes done by project team)",
    "\u2022 Cooperation is going well, open for discussions and brainstorming all the time\u2022 Colleagues are supportive if there is a problem to solve\u2022 We are available for support\u2022 Prompt support is available if needed and could join to meetings if needed --> Helpful in the NA projects",
    "a. Good understanding of the timelines.b. Complete support from the App PCMs.C. Weekly sync meeting to check the timely progess is very helpful to share the status."
  ],
  "Urgency": [
    "Always supported as in times of urgent matters (corrections due to mistakes done by project team)"
  ],
  "Meetings": [
    "Have regular meetings for field case information exchange, good cooperation with BP and CN team.Proactive and fast feedback for urgent field case support requirement from CN market."
  ],
  "Colleague Relations": ["Like to work with my colleague"],
  "": ["Like to work with my colleague"],
  "Team Reachability": [
    "\u2022 Team is reachable and takes up tasks\u2022 Experienced colleagues always able to answer questions\u2022 New colleagues have less experience --> To be improved\u2022 Motivation is fine\u2022 Energy could be improved for some associates"
  ],
  "Experience": [
    "\u2022 Team is reachable and takes up tasks\u2022 Experienced colleagues always able to answer questions\u2022 New colleagues have less experience --> To be improved\u2022 Motivation is fine\u2022 Energy could be improved for some associates"
  ],
  "Timelines": [
    "a. Good understanding of the timelines.b. Complete support from the App PCMs.C. Weekly sync meeting to check the timely progess is very helpful to share the status."
  ],
  "Communication": [
    "Proactive communication and approach towards the work, fast reaction and feedback time, efficient information flow.User oriented priorization and approach"
  ],
  "Efficiency": [
    "Proactive communication and approach towards the work, fast reaction and feedback time, efficient information flow.User oriented priorization and approach"
  ],
  "Domain Knowledge": [
    "- Good cooperation between the teams (between the development team stakeholders, users, BSPA counterparts around the world)- We like working together and their work is helpful for us.- The team is self motivated.- Our expectation from work package point of view is fulfilled but it is expected to have more domain knowledge in the team. For example for future components the development workload will increase. This will require higher domain knowledge and stronger connection between the teams to implement the new components and calculations.- Proactive enough to do the necessary task- The team has \"can do\" attitude and high flexibility to find a solution to the given development topics"
  ]
}.keys())


'Motivation,Performance,Cooperation,Teamwork,Support,Urgency,Meetings,Colleague Relations,,Team Reachability,Experience,Timelines,Communication,Efficiency,Domain Knowledge'

In [13]:
abc=surveyanalizer.dfs_2_excel['Mi az a három l_stat_groupby'].columns[2]

In [17]:
surveyanalizer.dfs_2_excel['Mi az a három l_stat_groupby'].sort_values(["Az alábbiak közül, melyik igaz Rád?\n\n",abc],ascending=False)

Unnamed: 0,"Az alábbiak közül, melyik igaz Rád?\n\n",Category,"Mi az a három legfontosabb dolog, ami miatt szeretsz a SOMECOMPANYnél dolgozni? \n\n"
123,Retailben dolgozom,csapat,144
134,Retailben dolgozom,juttatások,124
130,Retailben dolgozom,fizetés,82
139,Retailben dolgozom,munkahelyi légkör,76
129,Retailben dolgozom,fejlődés|karrier,74
...,...,...,...
22,Call Centerben dolgozom,új kategória: előadások,1
23,Call Centerben dolgozom,új kategória: kollégák,1
24,Call Centerben dolgozom,új kategória: kommunikáció,1
25,Call Centerben dolgozom,új kategória: kutyás nap,1


In [29]:
res_df=pd.concat([surveyanalizer.loader.df,pd.DataFrame(surveyanalizer.categorizer.answers_categories)],axis=1)

In [37]:

def aggregate_categories(self,df,question,aggregate_by,number_of_max_categories):
    categories=[f"{question}_category_{i}" for i in range(number_of_max_categories)]
    return df.melt(id_vars=[question, aggregate_by], value_vars=categories,
                    var_name='CategoryType', value_name='Category').drop('CategoryType', axis=1).groupby([aggregate_by,'Category']).count().reset_index()


In [39]:
surveyanalizer.loader.df.columns[38]

'Az alábbiak közül, melyik igaz Rád?\n\n'

In [40]:

a=aggregate_categories(res_df,surveyanalizer.loader.df.columns[6    ],"Az alábbiak közül, melyik igaz Rád?\n\n",[f"{surveyanalizer.loader.df.columns[6]}_category_{i}" for i in range(3)])

In [44]:
a

Unnamed: 0,"Az alábbiak közül, melyik igaz Rád?\n\n",Category,"Mi az a három legfontosabb dolog, ami miatt szeretsz a SOMECOMPANYnél dolgozni? \n\n"
0,HQ-ban dolgozom (nem IT területen),juttatások,1
1,HQ-ban dolgozom (nem IT területen),munkahelyi légkör,1
2,HQ-ban dolgozom (non IT),csapat,1
3,HQ-ban dolgozom (non IT),környezet|iroda,1
4,HQ-ban dolgozom (non IT),vezető,1


In [4]:
a.groupby("Category")[surveyanalizer.loader.df.columns[6]].sum().reset_index()

NameError: name 'a' is not defined

In [16]:
for i in surveyanalizer.chunker.chunk_list(surveyanalizer.answers):
    print(i)

[nan, nan, nan, 'közösség, iroda, a vezet?m', nan, 'a b c ', nan, 'a', 'teszt', 'emberek, légkör, juttatások']
['1. Változatos feladatok2. Segít?kész kollégák3. Elismerve érzem magam', 'Kollegák, szakmai kihívások, munkahelyi környezet', 'a kollégáim, a környezet, az épület', 'közösség, üzleti stabilitás, juttatási csomag,', 'Barátok, Homeoffice, Cafetéria', 'Környezet, munkatársak, home office lehet?ség', 'Munkahelyi körülmények, jutattások, megbecsülés', '1. Stabil háttér2. Megfelel? fizetés3. Továbblépési lehet?ségek', 'mobilhálózat, fizetés, Recharge program', 'A közvetlen kollégáim, a munka jellege, az elég kötetelen munkavégzés.']
['Munka-Magánélet egyensúly, Munkakörülmények (iroda), Fizetés', 'Munka&Magánélet egyensúlyJuttatások (fizetés, bónusz, cafe)Légkör, társaság, kollégák', 'A csapatom, akik a második családom. Az érzés, hogy figyelnek rám és szeretnek, valamint a megbecsülés, amit a munkám után kapok.', 'Csapat, Környezet, Munkám', 'Megbízható, abszolút korrekt munkáltat

In [6]:
surveyanalizer.categorizer.answers_categories

{'Mi az a három legfontosabb dolog, ami miatt szeretsz a SOMECOMPANYnél dolgozni?\xa0\n\n_2': ['Körülvev? csapat , Rugalmasság, Megbízhatóság',
  'Juttatások, légkör, munkatársak',
  'Csapat, munkakörnyezet, kihívás',
  ' - a céges kultúra és hangulat - a természetközeli irodaház - a telco mint iparág',
  'Közösség, iroda, a telekommunikáció folytonos fejl?dése',
  'Kiszámíthatóság, rugalmasság, korrekt fizetés',
  'Szeretek segíteni az embereken, szeretek csapatban dolgozni és azért mert itt önmagam vagyok, azt csinálom, amit szeretek.',
  'kollégák, munkakörnyezet (épület és környék), heti 2 home office',
  'Emberek, kihívások, változatosság',
  'Juttatási csomag, biztos háttér, támogatás'],
 'Mi az a három legfontosabb dolog, ami miatt szeretsz a SOMECOMPANYnél dolgozni?\xa0\n\n_category_0': ['csapat',
  'juttatások',
  'csapat',
  'céges kultúra',
  'csapat',
  'stabilitás',
  'csapat',
  'csapat',
  'csapat',
  'juttatások'],
 'Mi az a három legfontosabb dolog, ami miatt szeretsz 

In [19]:
import pandas as pd

# Sample DataFrame
data = {
    'ID': [1, 2, 3],
    'Category1': ['CatA', 'CatB', 'CatC'],
    'Category2': ['CatB', 'CatA', 'CatA'],
    'Category3': ['CatC', 'CatD', 'CatB'],
    'Value': [10, 20, 10]
}

df = pd.DataFrame(data)


In [31]:
import pandas as pd

In [34]:
df=pd.read_excel("uploaded_files/0fa16f2e199f4492ab13ad57314689cc_VM_EPD-Bp Partner feedback survey 2024(1-45).xlsx")

In [38]:
df.columns[9]

'What is your opinion about our cooperation?\xa0\nDo you like working with us?\nAre we help for you?\nDo we have self motivation?\nAre our expectations valid towards you?\nAre we proactive?\nDo we have the ...'

In [16]:
melted_df.groupby(['Value','Category']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID
Value,Category,Unnamed: 2_level_1
10,CatA,1
10,CatB,1
10,CatC,1
15,CatA,1
15,CatB,1
15,CatC,1
20,CatA,1
20,CatB,1
20,CatD,1


In [None]:

# Now perform the aggregation based on 'Category'
aggregated_df = melted_df.groupby('Category')['Value'].sum().reset_index()

print(aggregated_df)