In [1]:
import pandas as pd
import numpy as np

# 1. Încarcă fișierul CSV
# Asigură-te că fișierul "Date Fillout si Typeform Combinate.csv" se află în același director cu scriptul
# sau specifică calea completă către fișier.
df = pd.read_csv("Date Fillout si Typeform Combinate.csv", sep=";")

# 2. Lista exactă de coloane de simptome
# Această listă este folosită pentru a identifica coloanele pe care dorim să le normalizăm.
symptom_cols = [
    "obezitate abdominala", "rezistenta la insulina", "prediabet", "diabet zaharat tip 2",
    "sindromul ovarelor polichistice", "ficat gras", "hipertensiune arteriala",
    "dislipidemie (grăsimi crescute in sânge)", "Niciunele de mai sus",
    "slăbesc greu", "mă îngraș ușor", "depun grasime in zona abdominala",
    "oboseala permanenta", "urinare nocturna", "lipsa de energie",
    "pofte de dulce", "foame greu de controlat", "niciunele"
]

# 3. Iterează prin coloanele de simptome și normalizează-le conform cerințelor
for col in symptom_cols:
    # Normalizează numele coloanei (la litere mici și fără spații la început/sfârșit)
    # pentru a fi folosit în comparația 'contains'.
    col_normalized_for_contains = col.lower().strip()

    # Verifică dacă coloana simptomului există deja în DataFrame.
    # Dacă nu există, o adaugă și o umple cu valori 0 (presupunând că simptomul nu este prezent).
    if col not in df.columns:
        df[col] = 0
        continue # Trece la următoarea coloană din listă.

    # Funcție ajutătoare pentru a normaliza fiecare celulă.
    # Aceasta verifică dacă valoarea este deja 0 sau 1. Dacă da, o păstrează.
    # Altfel, normalizează textul și verifică dacă conține numele simptomului.
    def normalize_cell(cell_value, col_normalized_name):
        # Încearcă să convertească valoarea numeric.
        # Dacă este deja 0 sau 1 (ca număr sau șir), o păstrează.
        try:
            num_val = int(float(str(cell_value).strip())) # Gestionează și float-uri precum 1.0
            if num_val == 0 or num_val == 1:
                return num_val
        except ValueError:
            pass # Nu este un număr simplu 0 sau 1, continuă cu verificarea textului.

        # Dacă nu este 0 sau 1, sau dacă este text, normalizează textul.
        text_val = str(cell_value).lower().strip()
        # Verifică dacă textul celulei conține numele simptomului.
        if col_normalized_name in text_val:
            return 1
        return 0

    # Aplică funcția de normalizare pe fiecare celulă din coloana curentă.
    df[col] = df[col].apply(lambda x: normalize_cell(x, col_normalized_for_contains))

# 5. Afișează rezultatul final
# Se afișează primele 4000 de rânduri din coloanele de simptome, conform cerinței tale.
# Pentru o vizualizare mai ușoară, de obicei se folosește un număr mai mic (ex: .head(10) sau .head()).
df.head(4000)


Unnamed: 0,*Vârstă*,*Ești *,*Unde locuiești*?,*Ocupatia*,*Care este înălțimea ta? *,*Care este greutatea ta actuala?*,"*Care este circumferința taliei tale, măsurata deasupra de ombilicului?*",obezitate abdominala,rezistenta la insulina,prediabet,...,pofte de dulce,foame greu de controlat,niciunele,*Ce alte simptome sau boli prezinți?*,*Care sunt obiectivele tale legate de sănătate? Ce îți dorești sa obții? *,*Greutatea la care vrei sa ajungi?*,"*In prezent, care este cea mai mare provocare a ta? Ce crezi ca te împiedica sa slăbești si sa ai o stare buna de sănătate? *",*De ce îți dorești sa slăbești?*,*Ai mai încercat in trecut sa slăbești? *,*Ce te-a împiedicat in trecut sa slăbești? De ce ai eșuat la alte încercări? *
0,45,Femeie,Londra,Angajat,1.66m,82.00kg,106cm,1,0,0,...,0,1,0,Infecții urinare dese,"Energie, scăderea în greutate, tonus și o alim...",57kg,"Stresul, starea mea emoțională nu este una bun...","Pentru a mea sănătate, fizică și psihică, ca s...",1,Lipsa consecvenți.
1,38,Femeie,Ilfov,Angajat,170,72,82cm,1,0,0,...,1,0,0,Litiaza renala,Sa scap de constipatie si grasimea abdominala,65kg,Balonarea si constipatia,Sa ma simt mai bine,1,Problemele de sanatate
2,35,Femeie,București,Angajat,171.1,69,69,0,0,0,...,1,0,0,Na,Valori scazute in sange,61,Sedentarismul,Stare generala buna,1,Am slabit dar nu suficient
3,20,Femeie,Alexandria,Angajat,160,72,"Nu știu, nu am la îndemână un centimetru",1,1,0,...,1,0,0,Cele menționate sunt simptomele,Să slăbesc și să îmi reglez menstruatia,60,Sedentarismul și dulcele,"M am îngrășat prea tare, îmi afectează sanatatea",1,Am slăbit și după nu m am mai continuat
4,38,Femeie,ORADEA,Antreprenor,160,60,80,1,0,0,...,1,0,0,"ENDOMETRIOZA, HEMOROIZI, CHISTURI SIMPLE SANI","STARE DE BINE, REDUCEREA GRASIMI ABDOMINALE",52,MOTIVATIA,SA MA SIMT MAI BINE,1,SUSTINEREA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,47.0,Femeie,Bistrita,Angajat,170.0,95.0,98.0,1,0,0,...,1,1,0,Astm bronsic,Sa slabesc,75.0,Mancarea.Sunt pofticioasa,"Sa ma simt bine,sa arat bine",Da,"Am slabit,m-am mentinut un timp,apoi m-am ingr..."
3996,50.0,Femeie,Buzău,Altceva,158.0,69.0,96.0,0,1,1,...,0,0,0,"Hipertensiune arteriala, Histerectomie totala ...","Sa fiu sănătoasă, sa slăbesc câteva kg..și sa ...",60.0,"Teama de a nu esua ,am mai slăbit, dar am pus ...","Sa ma simt bine eu cu mine, și sa îmi recapăt ...",Da,"Am slăbit, dar nu am știut sa ma mențin! Proba..."
3997,54.0,Femeie,Pitești,Angajat,170.0,78.0,100.0,0,0,0,...,1,1,1,.,Greutate normală,75.0,"Mancat haotic, lipsa de control la dulciuri",Pentru Sănătate,Da,Nu stiu de ce nu am reușit
3998,48.0,Femeie,Oras Pantelimon Ilfov Str.Sos Viilor nr69 A,Angajat,155.0,122.0,133.0,1,0,0,...,0,0,0,uneori stari de ameteala cu senzatie de lesin,sa mai slabesc si sa mi imbunatatesc starea de...,90.0,"nu reusesc sa mi schimb stilul de viata,cred c...",in primul rand sa pot merge pe jos fara sa mai...,Da,Vizitele la nature house plus mesele si suplim...
