In [6]:
import pandas as pd

In [7]:
assessment_df = pd.read_csv('Cleaned_Assessment.csv')
diagnosis_df = pd.read_csv('Diagnosis.csv')
assessment_df.head()

Unnamed: 0,fFolder,PatientNum,Description,Question_Name,Answer_Text
0,A,640001,מגורים ותמיכה חברתית,מצב מגורים,מוסד
1,A,640001,מגורים ותמיכה חברתית,תמיכה,מתגורר בבית אבות
2,A,640001,אוכלוסיה בסיכון,מצב הכרה,בהכרה
3,A,640001,אוכלוסיה בסיכון,מצב קוגניטיבי,"מתמצא (בזמן, במקום, באנשים)"
4,A,640001,אוכלוסיה בסיכון,מצב ריגשי,תקין


In [8]:
diagnosis_df.columns

Index(['fFolder', 'PatientNum', 'AdmissionNum', 'TransferNum', 'Description',
       'Entry_Date', 'MP', 'SP', 'Recurrent', 'Side', 'Name', 'ICD9'],
      dtype='object')

In [9]:
# --- Health Status Data Exploration ---
# This cell investigates why the 'health_status' fact is not being populated.
# It searches for the expected answers ('טוב', 'סביר', etc.) and identifies
# the corresponding 'Description' and 'Question_Name' from the assessment data.

print("--- Health Status Data Exploration ---")
try:
    assessment_df = pd.read_csv('Cleaned_Assessment.csv')
    
    health_status_answers = ['טוב', 'סביר', 'לא טוב', 'רע']
    
    # Find all rows that contain a self-rated health answer
    health_df = assessment_df[assessment_df['Answer_Text'].isin(health_status_answers)]
    
    if not health_df.empty:
        print("Found rows with health status answers. Analyzing descriptions and questions...\n")
        
        # Show the unique combinations of Description and Question_Name
        unique_combinations = health_df[['Description', 'Question_Name']].drop_duplicates()
        
        print("--- Unique 'Description' and 'Question_Name' for Health Status ---")
        print(unique_combinations)
        
    else:
        print("Could not find any of the expected health status answers in 'Cleaned_Assessment.csv'.")

except FileNotFoundError:
    print("Error: Cleaned_Assessment.csv not found.")
except Exception as e:
    print(f"An error occurred: {e}")

--- Health Status Data Exploration ---
Found rows with health status answers. Analyzing descriptions and questions...

--- Unique 'Description' and 'Question_Name' for Health Status ---
            Description    Question_Name
17                תפקוד         מצב פיזי
32    אמדן וזיהוי צרכים         מצב פיזי
357                הזנה         מצב פיזי
1826               הזנה  מצב פיזי נורטון
1867  אמדן וזיהוי צרכים  מצב פיזי נורטון
3795              תפקוד  מצב פיזי נורטון
Found rows with health status answers. Analyzing descriptions and questions...

--- Unique 'Description' and 'Question_Name' for Health Status ---
            Description    Question_Name
17                תפקוד         מצב פיזי
32    אמדן וזיהוי צרכים         מצב פיזי
357                הזנה         מצב פיזי
1826               הזנה  מצב פיזי נורטון
1867  אמדן וזיהוי צרכים  מצב פיזי נורטון
3795              תפקוד  מצב פיזי נורטון


In [11]:
# --- Full Assessment Data Exploration ---
# This cell lists all unique Description and Question_Name pairs in the 
# Cleaned_Assessment.csv file. This will help us identify other potential 
# proxy indicators for a patient's health status when it is not explicitly stated.

print("--- Full Assessment Data Exploration ---")
try:
    assessment_df = pd.read_csv('Cleaned_Assessment.csv')
    
    # Get all unique combinations of 'Description' and 'Question_Name'
    all_unique_combinations = assessment_df[['Description', 'Question_Name']].drop_duplicates()
    
    print("--- All Unique 'Description' and 'Question_Name' Combinations ---")
    with pd.option_context('display.max_rows', None, 'display.max_columns', None):
        print(all_unique_combinations)

except FileNotFoundError:
    print("Error: Cleaned_Assessment.csv not found.")
except Exception as e:
    print(f"An error occurred: {e}")

--- Full Assessment Data Exploration ---
--- All Unique 'Description' and 'Question_Name' Combinations ---
                                        Description  \
0                              מגורים ותמיכה חברתית   
1                              מגורים ותמיכה חברתית   
2                                   אוכלוסיה בסיכון   
3                                   אוכלוסיה בסיכון   
4                                   אוכלוסיה בסיכון   
5                                             חושים   
6                                             חושים   
7                                             חושים   
8                                            תרופות   
9                                            תרופות   
10                                             הזנה   
11                                             הזנה   
12                                             הזנה   
13                                             הזנה   
14                                           הפרשות   
15           