<a href="https://colab.research.google.com/github/Armin-Abdollahi/WhiteTree-International-Academy/blob/main/Z_Score.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Z-Score
### Psychomotor Vigilance Test

In [9]:
import pandas as pd

# Read the original Excel file
df = pd.read_excel('/content/Z-Score_Source_Psychomotor_Vigilance_Test.xlsx')

def normalize(value, min_val, max_val, invert=False):
    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

# Normalize specified columns
columns_to_normalize = {
    'Accuracy': (0, 100, False),
    'Accuracy in high demand': (0, 100, False),
    'Accuracy in low demand': (0, 100, False),
    'Commission errors': (0, 8, True),
    'Omission errors': (0, 24, True),
    'Omission errors (percentage)': (0, 100, True),
    'Omission errors in high demand': (0, 8, True),
    'Omission errors in low demand': (0, 16, True),
    'Response time': (0, 5000, True),
    'Response time in high demand': (0, 5000, True),
    'Response time in low demand': (0, 5000, True)
}

for column, (min_val, max_val, invert) in columns_to_normalize.items():
    df[column] = df[column].apply(lambda x: normalize(x, min_val, max_val, invert))

# Convert all numeric columns to float data type
numeric_columns = list(columns_to_normalize.keys())
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

# Calculate the average of values in each row
df['Average'] = df[numeric_columns].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
df.to_excel('normalized_Source_Psychomotor_Vigilance_Test.xlsx', index=False)

### Digit Span Test

In [10]:
import pandas as pd

df_digit_span = pd.read_excel('/content/Z-Score_Source_Digit_Span_Test.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_digit_span = {
    'Memory span': (0, 10, False),  # Higher is better, no invert
    'Response time': (250, 10000, True), # Lower response time is better, invert
    'Average number of trials in correct series': (1, 2, True), # Values closer to 1 are better, invert
    'Omission errors': (0, 10, True) # Assuming 0 to 10 is a reasonable range for omission errors, lower is better, invert
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_digit_span.items():
    if column in df_digit_span.columns:
        df_digit_span[column] = pd.to_numeric(df_digit_span[column], errors='coerce')
        df_digit_span[column] = df_digit_span[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Digit Span Test data. Skipping normalization for this column.")

# Convert all normalized numeric columns to float data type (already done by pd.to_numeric, but good for consistency)
normalized_numeric_columns = [col for col in columns_to_normalize_digit_span.keys() if col in df_digit_span.columns]
df_digit_span[normalized_numeric_columns] = df_digit_span[normalized_numeric_columns].apply(pd.to_numeric, errors='coerce')

df_digit_span['Average'] = df_digit_span[normalized_numeric_columns].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Digit_Span_Test.xlsx'
df_digit_span.to_excel(output_filename, index=False)

print(f"Normalization for Digit Span Test completed. Results saved to '{output_filename}'")

Normalization for Digit Span Test completed. Results saved to 'normalized_Source_Digit_Span_Test.xlsx'


### Eye Hand MUD

In [11]:
import pandas as pd

df_eye_hand = pd.read_excel('/content/Z-Score_Source_Eye_Hand_MUD.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_eye_hand = {
    'Accuracy': (0, 100, False),  # Higher accuracy is better, no invert
    'Distance from the ball center': (0, 1200, True), # Lower distance is better, invert
    'Accuracy in fast speed': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in long segments duration': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in short segments duration': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in slow speed': (0, 100, False) # Assuming higher is better, no invert
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_eye_hand.items():
    if column in df_eye_hand.columns:
        # Convert column to numeric before applying normalization to handle potential non-numeric entries
        df_eye_hand[column] = pd.to_numeric(df_eye_hand[column], errors='coerce')
        df_eye_hand[column] = df_eye_hand[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Eye-Hand Coordination Test data. Skipping normalization for this column.")

# Filter for columns that were actually normalized
normalized_numeric_columns = [col for col in columns_to_normalize_eye_hand.keys() if col in df_eye_hand.columns]
df_eye_hand[normalized_numeric_columns] = df_eye_hand[normalized_numeric_columns].apply(pd.to_numeric, errors='coerce')

df_eye_hand['Average'] = df_eye_hand[normalized_numeric_columns].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Eye_Hand_MUD.xlsx'
df_eye_hand.to_excel(output_filename, index=False)

print(f"Normalization for Eye-Hand Coordination Test completed. Results saved to '{output_filename}'")

Normalization for Eye-Hand Coordination Test completed. Results saved to 'normalized_Source_Eye_Hand_MUD.xlsx'


### Eye-Hand Coordination Test

In [12]:
import pandas as pd

df_eye_hand_ftpd = pd.read_excel('/content/Z-Score_Source_Eye_Hand.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_eye_hand_ftpd = {
    'Accuracy': (0, 100, False),  # Higher accuracy is better, no invert (Page 6)
    'Distance from the ball center': (0, 1200, True), # Lower distance is better, invert (Page 5)
    'Accuracy in fast speed': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in long segments duration': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in short segments duration': (0, 100, False), # Assuming higher is better, no invert
    'Accuracy in slow speed': (0, 100, False) # Assuming higher is better, no invert
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_eye_hand_ftpd.items():
    if column in df_eye_hand_ftpd.columns:
        # Convert column to numeric before applying normalization to handle potential non-numeric entries
        df_eye_hand_ftpd[column] = pd.to_numeric(df_eye_hand_ftpd[column], errors='coerce')
        df_eye_hand_ftpd[column] = df_eye_hand_ftpd[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Eye-Hand Coordination Test (FT&PD) data. Skipping normalization for this column.")

# Filter for columns that were actually normalized
normalized_numeric_columns_ftpd = [col for col in columns_to_normalize_eye_hand_ftpd.keys() if col in df_eye_hand_ftpd.columns]
df_eye_hand_ftpd[normalized_numeric_columns_ftpd] = df_eye_hand_ftpd[normalized_numeric_columns_ftpd].apply(pd.to_numeric, errors='coerce')

df_eye_hand_ftpd['Average'] = df_eye_hand_ftpd[normalized_numeric_columns_ftpd].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Eye_Hand_FTPD.xlsx'
df_eye_hand_ftpd.to_excel(output_filename, index=False)

print(f"Normalization for Eye-Hand Coordination Test (FT&PD) completed. Results saved to '{output_filename}'")

Normalization for Eye-Hand Coordination Test (FT&PD) completed. Results saved to 'normalized_Source_Eye_Hand_FTPD.xlsx'


### Maze

In [13]:
import pandas as pd

df_maze = pd.read_excel('/content/Z-Score_Source_Maze.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_maze = {
    # Additional steps - lower is better
    'Additional steps': (0, 200, True), # Page 4: ranges from 0 to 200, lower is better.
    'Additional steps (direct score)': (0, 200, True), # Assuming same range/logic as 'Additional steps'
    'Additional steps in first maze': (0, 200, True), # Assuming max 200 additional steps for any single maze, lower is better
    'Additional steps in second maze': (0, 200, True), # Assuming max 200 additional steps for any single maze, lower is better
    'Additional steps in third maze': (0, 200, True), # Assuming max 200 additional steps for any single maze, lower is better

    # Completion time - lower is better
    'Completion time': (0, 120000, True), # Page 4: ranges from 0 to 120000ms, lower is better.
    'Completion time in first maze': (0, 40000, True), # Page 4: ranges from 0 to 40000ms, lower is better.
    'Completion time in second maze': (0, 60000, True), # Page 4: ranges from 0 to 60000ms, lower is better.
    'Completion time in third maze': (0, 120000, True), # Page 5: ranges from 0 to 120000ms, lower is better.

    # Mazes completed - higher is better
    'Mazes completed': (0, 3, False), # Page 5: ranges from 0 to 3, higher is better.
    'Mazes completed with additional steps': (0, 3, False), # Max 3 mazes, higher is better
    'Mazes completed without additional steps': (0, 3, False), # Max 3 mazes, higher is better

    # Mazes not completed due to reaching max steps - lower (ideally 0) is better
    'Mazes not completed due to reaching max steps': (0, 3, True), # Page 6: 0 is valid, implying lower is better, max 3 mazes.

    # Omission errors - lower is better
    'Omission errors': (0, 100, True), # Page 5: ranges from 0 to 100, lower is better.

    # Steps in mazes - lower is better. Min steps are specified on Page 2. Max steps based on 'Additional steps' max.
    'Steps in first maze': (5, 205, True), # Min 5 steps (Page 2), assuming max total steps = 5 + 200 (max additional)
    'Steps in second maze': (7, 207, True), # Min 7 steps (Page 2), assuming max total steps = 7 + 200
    'Steps in third maze': (10, 210, True) # Min 10 steps (Page 2), assuming max total steps = 10 + 200
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_maze.items():
    if column in df_maze.columns:
        # Convert column to numeric before applying normalization to handle potential non-numeric entries
        df_maze[column] = pd.to_numeric(df_maze[column], errors='coerce')
        df_maze[column] = df_maze[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Maze Test data. Skipping normalization for this column.")

# Filter for columns that were actually normalized
normalized_numeric_columns_maze = [col for col in columns_to_normalize_maze.keys() if col in df_maze.columns]
df_maze[normalized_numeric_columns_maze] = df_maze[normalized_numeric_columns_maze].apply(pd.to_numeric, errors='coerce')

df_maze['Average'] = df_maze[normalized_numeric_columns_maze].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Maze_Test.xlsx'
df_maze.to_excel(output_filename, index=False)

print(f"Normalization for Maze Test completed. Results saved to '{output_filename}'")

Normalization for Maze Test completed. Results saved to 'normalized_Source_Maze_Test.xlsx'


### Visual Memory Test

In [14]:
import pandas as pd

df_visual_memory = pd.read_excel('/content/Z-Score_Source_Visual_Memory_Test.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_visual_memory = {
    # Accuracy metrics - higher is better
    'Accuracy': (0, 100, False), # Page 6: between 0 and 100
    'Accuracy in long distance': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in long exposure time': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in medium exposure time': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in medium-long distance': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in medium-short distance': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in short distance': (0, 100, False), # Assuming same as 'Accuracy'
    'Accuracy in short exposure time': (0, 100, False), # Assuming same as 'Accuracy'

    # Omission errors - lower is better
    'Omission errors': (0, 5, True), # Page 7: value is below 6 (so 0-5), lower is better
    'Omission errors (percentage)': (0, 100, True), # Assuming 0-100%, lower is better

    # Response time metrics - lower is better
    'Response time': (250, 5000, True), # Page 7: between 250 and 5000ms
    'Response time in long distance': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in long exposure time': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in medium exposure time': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in medium-long distance': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in medium-short distance': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in short distance': (250, 5000, True), # Assuming same as 'Response time'
    'Response time in short exposure time': (250, 5000, True) # Assuming same as 'Response time'
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_visual_memory.items():
    if column in df_visual_memory.columns:
        # Convert column to numeric before applying normalization to handle potential non-numeric entries
        df_visual_memory[column] = pd.to_numeric(df_visual_memory[column], errors='coerce')
        df_visual_memory[column] = df_visual_memory[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Visual Memory Test data. Skipping normalization for this column.")

# Filter for columns that were actually normalized
normalized_numeric_columns_visual_memory = [col for col in columns_to_normalize_visual_memory.keys() if col in df_visual_memory.columns]
df_visual_memory[normalized_numeric_columns_visual_memory] = df_visual_memory[normalized_numeric_columns_visual_memory].apply(pd.to_numeric, errors='coerce')

df_visual_memory['Average'] = df_visual_memory[normalized_numeric_columns_visual_memory].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Visual_Memory_Test.xlsx'
df_visual_memory.to_excel(output_filename, index=False)

print(f"Normalization for Visual Memory Test completed. Results saved to '{output_filename}'")

Normalization for Visual Memory Test completed. Results saved to 'normalized_Source_Visual_Memory_Test.xlsx'


### Visual Working Memory Span Test

In [15]:
import pandas as pd

df_vwm_span = pd.read_excel('/content/Z-Score_Source_Visual_Working_Memory_Span.xlsx')

def normalize(value, min_val, max_val, invert=False):
    if pd.isna(value):
        return value # Return NaN if the value is NaN

    # Ensure min_val and max_val are not equal to avoid division by zero
    if max_val == min_val:
        return 100.0 if not invert else 0.0

    normalized_value = (value - min_val) / (max_val - min_val) * 100
    if invert:
        normalized_value = 100 - normalized_value
    return normalized_value

columns_to_normalize_vwm_span = {
    # Average number of trials in correct series - lower is better (closer to 1)
    'Average number of trials in correct series': (1, 2, True), # Page 6: ranges from 1 to 2, closer to 1 is better.

    # Memory span metrics - higher is better
    'Memory span': (0, 10, False), # Page 6: between 0 and 10
    'Memory span in Phase 1': (0, 10, False), # Assuming same range/logic as 'Memory span'
    'Memory span in Phase 2': (0, 10, False), # Assuming same range/logic as 'Memory span'

    # Omission errors - lower is better
    # NOTE: The provided PDF ('Visual Working Memory Span Test.pdf') does not explicitly
    # define a range for 'Omission errors'. A common range of 0-10 with lower being
    # better is assumed here, consistent with similar metrics in other tests.
    'Omission errors': (0, 10, True),

    # Response time - lower is better
    'Response time': (250, 10000, True) # Page 6: between 250 and 10000ms
}

# Apply normalization to the specified columns
for column, (min_val, max_val, invert) in columns_to_normalize_vwm_span.items():
    if column in df_vwm_span.columns:
        # Convert column to numeric before applying normalization to handle potential non-numeric entries
        df_vwm_span[column] = pd.to_numeric(df_vwm_span[column], errors='coerce')
        df_vwm_span[column] = df_vwm_span[column].apply(lambda x: normalize(x, min_val, max_val, invert))
    else:
        print(f"Warning: Column '{column}' not found in the Visual Working Memory Span Test data. Skipping normalization for this column.")

# Filter for columns that were actually normalized
normalized_numeric_columns_vwm_span = [col for col in columns_to_normalize_vwm_span.keys() if col in df_vwm_span.columns]
df_vwm_span[normalized_numeric_columns_vwm_span] = df_vwm_span[normalized_numeric_columns_vwm_span].apply(pd.to_numeric, errors='coerce')

df_vwm_span['Average'] = df_vwm_span[normalized_numeric_columns_vwm_span].mean(axis=1)

# Save the normalized and averaged data to a new Excel file
output_filename = 'normalized_Source_Visual_Working_Memory_Span.xlsx'
df_vwm_span.to_excel(output_filename, index=False)

print(f"Normalization for Visual Working Memory Span Test completed. Results saved to '{output_filename}'")

Normalization for Visual Working Memory Span Test completed. Results saved to 'normalized_Source_Visual_Working_Memory_Span.xlsx'


# Calculate Statistical population

In [1]:
import pandas as pd
import io
from google.colab import files
from datetime import datetime

# --- بخش آپلود فایل ---
print("لطفاً فایل CSV خود را انتخاب و آپلود کنید...")
uploaded = files.upload()

# دریافت نام فایل آپلود شده و خواندن آن به صورت دیتافریم
# این کد فرض می‌کند که شما فقط یک فایل آپلود می‌کنید
file_name = next(iter(uploaded))
df = pd.read_csv(io.BytesIO(uploaded[file_name]))

print(f"\nفایل '{file_name}' با موفقیت بارگذاری و به عنوان دیتافریم خوانده شد. ✅")

لطفاً فایل CSV خود را انتخاب و آپلود کنید...


MessageError: CustomError: Timed out waiting for iframe configuration. URL: https://colab.research.google.com/drive/16dH0-ONHyDKQnTWpKtETi2Cgc6FzLYR-#scrollTo=w6I_7m-xDt0D

# جامعه آماری برای Inhibition of Return Test

In [11]:
# --- مرحله ۱: لیست User ID ها و متغیرهای مورد نظر ---
user_ids_to_find = [
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
]

variables_to_extract = [
    'Accuracy', 'Accuracy in cued trials', 'Accuracy in uncued trials',
    'Inhibition of return effect in accuracy', 'Inhibition of return effect in response time',
    'Omision errors', 'Omission errors (percentage)', 'Omission errors in cued trials',
    'Omission errors in cued trials (percentage)', 'Omission errors in uncued trials',
    'Omission errors in uncued trials (percentage)', 'Response time',
    'Response time in cued trials', 'Response time in uncued trials'
]

# --- مرحله ۲: فیلتر کردن داده‌ها بر اساس ساختار جدید ---
# اطمینان از اینکه ستون‌های لازم برای فیلتر کردن، نوع داده درستی دارند
df['user_id'] = pd.to_numeric(df['user_id'], errors='coerce')
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# فیلتر کردن بر اساس user_id، نوع تست و متغیرهای مورد نظر
filtered_long_df = df[
    (df['user_id'].isin(user_ids_to_find)) &
    (df['assessment_type'] == 'Inhibition of Return Test') &
    (df['variable'].isin(variables_to_extract))
].copy()

# --- مرحله ۳: تبدیل ساختار داده از طویل به عریض (Pivot) ---
# این کار باعث می‌شود هر متغیر، ستون مخصوص به خود را داشته باشد
wide_df = filtered_long_df.pivot_table(
    index=['user_id', 'birthdate'],
    columns='variable',
    values='value'
).reset_index()

# --- مرحله ۴: محاسبه سن ---
# تبدیل ستون birthdate به فرمت تاریخ
wide_df['birthdate'] = pd.to_datetime(wide_df['birthdate'], errors='coerce')
wide_df.dropna(subset=['birthdate'], inplace=True) # حذف ردیف‌های بدون تاریخ تولد معتبر

# محاسبه سن
from datetime import datetime
today = datetime.today()
wide_df['age'] = wide_df['birthdate'].apply(
    lambda birth_date: today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
)

# --- مرحله ۵: گروه‌بندی بر اساس سن و محاسبه میانگین ---
# ستون‌هایی که حالا برای میانگین‌گیری در دسترس هستند
final_columns_to_average = [col for col in variables_to_extract if col in wide_df.columns]
age_grouped_mean = wide_df.groupby('age')[final_columns_to_average].mean()

# --- مرحله ۶: نمایش نتایج نهایی ---
print("\n✅ پردازش با موفقیت انجام شد.")
print("--- نتایج نهایی میانگین‌گیری بر اساس سن ---\n")
if age_grouped_mean.empty:
    print("هیچ داده‌ای برای نمایش یافت نشد. لطفاً مقادیر ورودی و محتوای فایل را بررسی کنید.")
else:
    display(age_grouped_mean)


✅ پردازش با موفقیت انجام شد.
--- نتایج نهایی میانگین‌گیری بر اساس سن ---



variable,Accuracy,Accuracy in cued trials,Accuracy in uncued trials,Inhibition of return effect in accuracy,Inhibition of return effect in response time,Omision errors,Omission errors (percentage),Omission errors in cued trials,Omission errors in cued trials (percentage),Omission errors in uncued trials,Omission errors in uncued trials (percentage),Response time,Response time in cued trials,Response time in uncued trials
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
4,90.0,92.5,87.5,-5.0,-595.78526,1.0,2.5,1.0,5.0,0.0,0.0,1117.083333,824.216374,1420.001634
5,95.208333,98.333333,92.083333,-6.25,-133.353428,0.25,0.625,0.166667,0.833333,0.083333,0.416667,1054.767894,992.333991,1125.687419
6,94.761905,96.071429,93.452381,-2.619048,-140.812216,0.52381,1.309524,0.261905,1.309524,0.261905,1.309524,951.636861,882.211253,1023.023468
7,98.125,100.0,96.25,-3.75,12.665132,0.0,0.0,0.0,0.0,0.0,0.0,697.656571,705.08125,692.416118
8,98.636364,97.727273,99.545455,1.818182,-42.682955,0.0,0.0,0.0,0.0,0.0,0.0,673.828982,652.710347,695.393301
9,98.4375,98.75,98.125,-0.625,-1.673491,0.0,0.0,0.0,0.0,0.0,0.0,600.180609,599.499671,601.173162
10,99.166667,99.166667,99.166667,0.0,11.741228,0.0,0.0,0.0,0.0,0.0,0.0,563.002632,568.873246,557.132018
11,99.285714,99.285714,99.285714,0.0,-5.585714,0.0,0.0,0.0,0.0,0.0,0.0,546.193773,543.621429,549.207143
12,100.0,100.0,100.0,0.0,117.05,0.0,0.0,0.0,0.0,0.0,0.0,716.725,775.25,658.2
13,100.0,100.0,100.0,0.0,43.95,0.0,0.0,0.0,0.0,0.0,0.0,512.475,534.45,490.5


In [12]:
# محاسبه تعداد افراد در هر گروه سنی
age_counts = wide_df['age'].value_counts().sort_index()

# تبدیل نتیجه به یک دیتافریم برای نمایش زیباتر
age_counts_df = age_counts.to_frame(name='تعداد افراد (N)')
age_counts_df.index.name = 'سن'

print("\n--- تعداد افراد در هر گروه سنی ---")
display(age_counts_df)


--- تعداد افراد در هر گروه سنی ---


Unnamed: 0_level_0,تعداد افراد (N)
سن,Unnamed: 1_level_1
4,2
5,12
6,21
7,8
8,11
9,8
10,6
11,7
12,1
13,1


In [13]:
# لیست کامل user_id های اولیه
initial_ids = set([
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
])

# لیست user_id هایی که در تحلیل نهایی باقی مانده‌اند
# (این دیتافریم از کد قبلی شما ساخته شده است)
final_ids = set(wide_df['user_id'])

# پیدا کردن شناسه‌هایی که حذف شده‌اند
missing_ids = initial_ids - final_ids

print(f"تعداد کل کاربران حذف شده: {len(missing_ids)}")
print("--- بررسی دلیل حذف کاربران زیر ---\n")

# بررسی دلیل حذف برای هر کاربر
for user_id in missing_ids:
    # ۱. آیا کاربر در فایل اصلی وجود دارد؟
    user_data = df[df['user_id'] == user_id]
    if user_data.empty:
        print(f"کاربر {user_id}: ❌ در فایل CSV اصلی یافت نشد.")
        continue

    # ۲. آیا داده‌ای برای تست مورد نظر دارد؟
    test_data = user_data[user_data['assessment_type'] == 'Inhibition of Return Test']
    if test_data.empty:
        print(f"کاربر {user_id}: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.")
        continue

    # ۳. آیا تاریخ تولد معتبر دارد؟
    # (چون کاربر حذف شده، به احتمال زیاد تاریخ تولدش مشکل داشته)
    birthdate = test_data['birthdate'].iloc[0]
    print(f"کاربر {user_id}: 🎂 تاریخ تولد نامعتبر یا خالی است (مقدار ثبت شده: {birthdate}).")

تعداد کل کاربران حذف شده: 106
--- بررسی دلیل حذف کاربران زیر ---

کاربر 5103105: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5232135: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 4714505: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 4592150: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5264918: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5105193: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5201450: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5107248: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5065266: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5105204: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5065269: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5310521: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 4592191: ❓ برای تست 'Inhibition of Return Test' داده‌ای ندارد.
کاربر 5212224: ❓ برای تست 'Inhibition of Return Test' داده‌ای 

# جامعه آماری برای Selective Attention Test

In [2]:
# --- مرحله ۱: لیست User ID ها و متغیرهای مورد نظر ---
user_ids_to_find = [
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
]

variables_to_extract = [
    'Accuracy',
    'Commission errors (percentage)', 'Completion time',
    'Correct trials (percentage)', 'Omission errors (percentage)',
    'Timeouts', 'Timeouts (percentage)'
]

# --- مرحله ۲: فیلتر کردن داده‌ها بر اساس ساختار جدید ---
# اطمینان از اینکه ستون‌های لازم برای فیلتر کردن، نوع داده درستی دارند
df['user_id'] = pd.to_numeric(df['user_id'], errors='coerce')
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# فیلتر کردن بر اساس user_id، نوع تست و متغیرهای مورد نظر
filtered_long_df = df[
    (df['user_id'].isin(user_ids_to_find)) &
    (df['assessment_type'] == 'Selective Attention Test') &
    (df['variable'].isin(variables_to_extract))
].copy()

# --- مرحله ۳: تبدیل ساختار داده از طویل به عریض (Pivot) ---
# این کار باعث می‌شود هر متغیر، ستون مخصوص به خود را داشته باشد
wide_df = filtered_long_df.pivot_table(
    index=['user_id', 'birthdate'],
    columns='variable',
    values='value'
).reset_index()

# --- مرحله ۴: محاسبه سن ---
# تبدیل ستون birthdate به فرمت تاریخ
wide_df['birthdate'] = pd.to_datetime(wide_df['birthdate'], errors='coerce')
wide_df.dropna(subset=['birthdate'], inplace=True) # حذف ردیف‌های بدون تاریخ تولد معتبر

# محاسبه سن
from datetime import datetime
today = datetime.today()
wide_df['age'] = wide_df['birthdate'].apply(
    lambda birth_date: today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
)

# --- مرحله ۵: گروه‌بندی بر اساس سن و محاسبه میانگین ---
# ستون‌هایی که حالا برای میانگین‌گیری در دسترس هستند
final_columns_to_average = [col for col in variables_to_extract if col in wide_df.columns]
age_grouped_mean = wide_df.groupby('age')[final_columns_to_average].mean()

# --- مرحله ۶: نمایش نتایج نهایی ---
print("\n✅ پردازش با موفقیت انجام شد.")
print("--- نتایج نهایی میانگین‌گیری بر اساس سن ---\n")
if age_grouped_mean.empty:
    print("هیچ داده‌ای برای نمایش یافت نشد. لطفاً مقادیر ورودی و محتوای فایل را بررسی کنید.")
else:
    display(age_grouped_mean)


✅ پردازش با موفقیت انجام شد.
--- نتایج نهایی میانگین‌گیری بر اساس سن ---



variable,Accuracy,Commission errors (percentage),Completion time,Correct trials (percentage),Omission errors (percentage),Timeouts,Timeouts (percentage)
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
4,60.0,5.0,144323.0,0.0,75.0,0.0,0.0
5,72.538462,8.769231,138386.615385,9.230769,46.153846,0.153846,3.076923
6,68.055556,15.888889,132535.466667,1.111111,48.0,0.0,0.0
7,74.25,8.75,126909.0,2.5,42.75,0.0,0.0
8,79.818182,11.272727,130300.181818,25.454545,29.090909,0.0,0.0
9,83.75,7.0,112047.25,15.0,25.5,0.0,0.0
10,85.833333,7.333333,109862.5,23.333333,21.0,0.0,0.0
11,88.571429,2.285714,126911.571429,28.571429,20.571429,0.0,0.0
12,91.0,6.0,150061.0,0.0,12.0,0.0,0.0
13,99.0,0.0,61156.0,80.0,2.0,0.0,0.0


In [3]:
# محاسبه تعداد افراد در هر گروه سنی
age_counts = wide_df['age'].value_counts().sort_index()

# تبدیل نتیجه به یک دیتافریم برای نمایش زیباتر
age_counts_df = age_counts.to_frame(name='تعداد افراد (N)')
age_counts_df.index.name = 'سن'

print("\n--- تعداد افراد در هر گروه سنی ---")
display(age_counts_df)


--- تعداد افراد در هر گروه سنی ---


Unnamed: 0_level_0,تعداد افراد (N)
سن,Unnamed: 1_level_1
4,2
5,13
6,18
7,8
8,11
9,8
10,6
11,7
12,1
13,1


In [4]:
# لیست کامل user_id های اولیه
initial_ids = set([
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
])

# لیست user_id هایی که در تحلیل نهایی باقی مانده‌اند
# (این دیتافریم از کد قبلی شما ساخته شده است)
final_ids = set(wide_df['user_id'])

# پیدا کردن شناسه‌هایی که حذف شده‌اند
missing_ids = initial_ids - final_ids

print(f"تعداد کل کاربران حذف شده: {len(missing_ids)}")
print("--- بررسی دلیل حذف کاربران زیر ---\n")

# بررسی دلیل حذف برای هر کاربر
for user_id in missing_ids:
    # ۱. آیا کاربر در فایل اصلی وجود دارد؟
    user_data = df[df['user_id'] == user_id]
    if user_data.empty:
        print(f"کاربر {user_id}: ❌ در فایل CSV اصلی یافت نشد.")
        continue

    # ۲. آیا داده‌ای برای تست مورد نظر دارد؟
    test_data = user_data[user_data['assessment_type'] == 'Selective Attention Test']
    if test_data.empty:
        print(f"کاربر {user_id}: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.")
        continue

    # ۳. آیا تاریخ تولد معتبر دارد؟
    # (چون کاربر حذف شده، به احتمال زیاد تاریخ تولدش مشکل داشته)
    birthdate = test_data['birthdate'].iloc[0]
    print(f"کاربر {user_id}: 🎂 تاریخ تولد نامعتبر یا خالی است (مقدار ثبت شده: {birthdate}).")

تعداد کل کاربران حذف شده: 109
--- بررسی دلیل حذف کاربران زیر ---

کاربر 5103105: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5232135: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 4714505: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 4592150: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5264918: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5105193: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5201450: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5107248: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5065266: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5105204: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5065269: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5310521: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 4592191: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 5212224: ❓ برای تست 'Selective Attention Test' داده‌ای ندارد.
کاربر 

# جامعه آماری برای Digit Span Test

In [2]:
# --- مرحله ۱: لیست User ID ها و متغیرهای مورد نظر ---
user_ids_to_find = [
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
]

variables_to_extract = [
    'Average number of trials in correct series',
    'Memory span', 'Omission errors', 'Response time'
]

# --- مرحله ۲: فیلتر کردن داده‌ها بر اساس ساختار جدید ---
# اطمینان از اینکه ستون‌های لازم برای فیلتر کردن، نوع داده درستی دارند
df['user_id'] = pd.to_numeric(df['user_id'], errors='coerce')
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# فیلتر کردن بر اساس user_id، نوع تست و متغیرهای مورد نظر
filtered_long_df = df[
    (df['user_id'].isin(user_ids_to_find)) &
    (df['assessment_type'] == 'Digit Span Test') &
    (df['variable'].isin(variables_to_extract))
].copy()

# --- مرحله ۳: تبدیل ساختار داده از طویل به عریض (Pivot) ---
# این کار باعث می‌شود هر متغیر، ستون مخصوص به خود را داشته باشد
wide_df = filtered_long_df.pivot_table(
    index=['user_id', 'birthdate'],
    columns='variable',
    values='value'
).reset_index()

# --- مرحله ۴: محاسبه سن ---
# تبدیل ستون birthdate به فرمت تاریخ
wide_df['birthdate'] = pd.to_datetime(wide_df['birthdate'], errors='coerce')
wide_df.dropna(subset=['birthdate'], inplace=True) # حذف ردیف‌های بدون تاریخ تولد معتبر

# محاسبه سن
from datetime import datetime
today = datetime.today()
wide_df['age'] = wide_df['birthdate'].apply(
    lambda birth_date: today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
)

# --- مرحله ۵: گروه‌بندی بر اساس سن و محاسبه میانگین ---
# ستون‌هایی که حالا برای میانگین‌گیری در دسترس هستند
final_columns_to_average = [col for col in variables_to_extract if col in wide_df.columns]
age_grouped_mean = wide_df.groupby('age')[final_columns_to_average].mean()

# --- مرحله ۶: نمایش نتایج نهایی ---
print("\n✅ پردازش با موفقیت انجام شد.")
print("--- نتایج نهایی میانگین‌گیری بر اساس سن ---\n")
if age_grouped_mean.empty:
    print("هیچ داده‌ای برای نمایش یافت نشد. لطفاً مقادیر ورودی و محتوای فایل را بررسی کنید.")
else:
    display(age_grouped_mean)


✅ پردازش با موفقیت انجام شد.
--- نتایج نهایی میانگین‌گیری بر اساس سن ---



variable,Average number of trials in correct series,Memory span,Omission errors,Response time
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,1.0,1.0,1.5,1658.5
5,1.255556,2.333333,1.111111,3368.382222
6,1.253788,3.173913,0.782609,3134.631241
7,1.060606,3.636364,0.454545,1977.541414
8,1.145833,4.0,0.333333,1692.985979
9,1.114815,4.222222,0.0,1469.894356
10,1.0,4.166667,0.166667,1372.457672
11,1.028571,5.857143,0.285714,1247.808163
12,1.125,5.0,0.0,1182.0
13,1.0,5.0,1.0,1509.214286


In [3]:
# محاسبه تعداد افراد در هر گروه سنی
age_counts = wide_df['age'].value_counts().sort_index()

# تبدیل نتیجه به یک دیتافریم برای نمایش زیباتر
age_counts_df = age_counts.to_frame(name='تعداد افراد (N)')
age_counts_df.index.name = 'سن'

print("\n--- تعداد افراد در هر گروه سنی ---")
display(age_counts_df)


--- تعداد افراد در هر گروه سنی ---


Unnamed: 0_level_0,تعداد افراد (N)
سن,Unnamed: 1_level_1
4,2
5,18
6,23
7,11
8,12
9,9
10,6
11,7
12,2
13,1


In [4]:
# لیست کامل user_id های اولیه
initial_ids = set([
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
])

# لیست user_id هایی که در تحلیل نهایی باقی مانده‌اند
# (این دیتافریم از کد قبلی شما ساخته شده است)
final_ids = set(wide_df['user_id'])

# پیدا کردن شناسه‌هایی که حذف شده‌اند
missing_ids = initial_ids - final_ids

print(f"تعداد کل کاربران حذف شده: {len(missing_ids)}")
print("--- بررسی دلیل حذف کاربران زیر ---\n")

# بررسی دلیل حذف برای هر کاربر
for user_id in missing_ids:
    # ۱. آیا کاربر در فایل اصلی وجود دارد؟
    user_data = df[df['user_id'] == user_id]
    if user_data.empty:
        print(f"کاربر {user_id}: ❌ در فایل CSV اصلی یافت نشد.")
        continue

    # ۲. آیا داده‌ای برای تست مورد نظر دارد؟
    test_data = user_data[user_data['assessment_type'] == 'Digit_Span_Test']
    if test_data.empty:
        print(f"کاربر {user_id}: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.")
        continue

    # ۳. آیا تاریخ تولد معتبر دارد؟
    # (چون کاربر حذف شده، به احتمال زیاد تاریخ تولدش مشکل داشته)
    birthdate = test_data['birthdate'].iloc[0]
    print(f"کاربر {user_id}: 🎂 تاریخ تولد نامعتبر یا خالی است (مقدار ثبت شده: {birthdate}).")

تعداد کل کاربران حذف شده: 88
--- بررسی دلیل حذف کاربران زیر ---

کاربر 5103105: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5232135: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 4714505: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 4592150: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5105193: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5107248: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5065266: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5105204: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5065269: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 4592191: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5212224: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5289549: ❌ در فایل CSV اصلی یافت نشد.
کاربر 4714575: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 4721745: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5114963: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 4714580: ❓ برای تست 'Digit_Span_Test' داده‌ای ندارد.
کاربر 5106789: ❓ برای

# جامعه آماری برای Eye-Hand Coordination Test (FTUD)

In [2]:
# --- مرحله ۱: لیست User ID ها و متغیرهای مورد نظر ---
user_ids_to_find = [
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
]

variables_to_extract = [
    'Accuracy', 'Accuracy in fast speed', 'Accuracy in long segments duration',
    'Accuracy in short segments duration', 'Accuracy in slow speed', 'Distance from the ball center'
]

# --- مرحله ۲: فیلتر کردن داده‌ها بر اساس ساختار جدید ---
# اطمینان از اینکه ستون‌های لازم برای فیلتر کردن، نوع داده درستی دارند
df['user_id'] = pd.to_numeric(df['user_id'], errors='coerce')
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# فیلتر کردن بر اساس user_id، نوع تست و متغیرهای مورد نظر
filtered_long_df = df[
    (df['user_id'].isin(user_ids_to_find)) &
    (df['task_name'] == 'Eye-Hand Coordination Test (FTUD)') &
    (df['variable'].isin(variables_to_extract))
].copy()

# --- مرحله ۳: تبدیل ساختار داده از طویل به عریض (Pivot) ---
# این کار باعث می‌شود هر متغیر، ستون مخصوص به خود را داشته باشد
wide_df = filtered_long_df.pivot_table(
    index=['user_id', 'birthdate'],
    columns='variable',
    values='value'
).reset_index()

# --- مرحله ۴: محاسبه سن ---
# تبدیل ستون birthdate به فرمت تاریخ
wide_df['birthdate'] = pd.to_datetime(wide_df['birthdate'], errors='coerce')
wide_df.dropna(subset=['birthdate'], inplace=True) # حذف ردیف‌های بدون تاریخ تولد معتبر

# محاسبه سن
from datetime import datetime
today = datetime.today()
wide_df['age'] = wide_df['birthdate'].apply(
    lambda birth_date: today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
)

# --- مرحله ۵: گروه‌بندی بر اساس سن و محاسبه میانگین ---
# ستون‌هایی که حالا برای میانگین‌گیری در دسترس هستند
final_columns_to_average = [col for col in variables_to_extract if col in wide_df.columns]
age_grouped_mean = wide_df.groupby('age')[final_columns_to_average].mean()

# --- مرحله ۶: نمایش نتایج نهایی ---
print("\n✅ پردازش با موفقیت انجام شد.")
print("--- نتایج نهایی میانگین‌گیری بر اساس سن ---\n")
if age_grouped_mean.empty:
    print("هیچ داده‌ای برای نمایش یافت نشد. لطفاً مقادیر ورودی و محتوای فایل را بررسی کنید.")
else:
    display(age_grouped_mean)


✅ پردازش با موفقیت انجام شد.
--- نتایج نهایی میانگین‌گیری بر اساس سن ---



variable,Accuracy,Accuracy in fast speed,Accuracy in long segments duration,Accuracy in short segments duration,Accuracy in slow speed,Distance from the ball center
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,34.47,34.915,31.095,44.55,34.02,59.542411
5,71.962133,67.8468,72.564133,70.159733,76.0748,33.722635
6,77.814024,73.392929,77.666929,78.266119,82.225952,31.018495
7,90.228083,87.059217,90.5399,89.299183,93.397367,32.13263
8,92.847143,90.818929,92.98,92.452857,94.8725,24.276846
9,97.604472,96.310889,97.311806,98.469944,98.897125,10.54469
10,97.943,97.206167,98.170167,97.268,98.678667,10.485092
11,93.312738,91.23869,93.827143,91.780476,95.390238,14.120756
12,98.014375,97.379375,98.532813,96.464687,98.646563,10.378928
13,97.3676,96.6288,97.6148,96.6219,98.1057,10.492152


In [3]:
# محاسبه تعداد افراد در هر گروه سنی
age_counts = wide_df['age'].value_counts().sort_index()

# تبدیل نتیجه به یک دیتافریم برای نمایش زیباتر
age_counts_df = age_counts.to_frame(name='تعداد افراد (N)')
age_counts_df.index.name = 'سن'

print("\n--- تعداد افراد در هر گروه سنی ---")
display(age_counts_df)


--- تعداد افراد در هر گروه سنی ---


Unnamed: 0_level_0,تعداد افراد (N)
سن,Unnamed: 1_level_1
4,2
5,25
6,35
7,24
8,15
9,12
10,10
11,14
12,8
13,5


In [4]:
# لیست کامل user_id های اولیه
initial_ids = set([
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
])

# لیست user_id هایی که در تحلیل نهایی باقی مانده‌اند
# (این دیتافریم از کد قبلی شما ساخته شده است)
final_ids = set(wide_df['user_id'])

# پیدا کردن شناسه‌هایی که حذف شده‌اند
missing_ids = initial_ids - final_ids

print(f"تعداد کل کاربران حذف شده: {len(missing_ids)}")
print("--- بررسی دلیل حذف کاربران زیر ---\n")

# بررسی دلیل حذف برای هر کاربر
for user_id in missing_ids:
    # ۱. آیا کاربر در فایل اصلی وجود دارد؟
    user_data = df[df['user_id'] == user_id]
    if user_data.empty:
        print(f"کاربر {user_id}: ❌ در فایل CSV اصلی یافت نشد.")
        continue

    # ۲. آیا داده‌ای برای تست مورد نظر دارد؟
    test_data = user_data[user_data['task_name'] == 'Eye-Hand Coordination Test (FTUD)']
    if test_data.empty:
        print(f"کاربر {user_id}: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.")
        continue

    # ۳. آیا تاریخ تولد معتبر دارد؟
    # (چون کاربر حذف شده، به احتمال زیاد تاریخ تولدش مشکل داشته)
    birthdate = test_data['birthdate'].iloc[0]
    print(f"کاربر {user_id}: 🎂 تاریخ تولد نامعتبر یا خالی است (مقدار ثبت شده: {birthdate}).")

تعداد کل کاربران حذف شده: 16
--- بررسی دلیل حذف کاربران زیر ---

کاربر 5201382: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5289639: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.
کاربر 5328264: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5289706: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.
کاربر 5252906: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5115020: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.
کاربر 5140588: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5289549: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5142865: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.
کاربر 5065266: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5114963: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.
کاربر 5325265: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5273527: ❌ در فایل CSV اصلی یافت نشد.
کاربر 4714456: ❌ در فایل CSV اصلی یافت نشد.
کاربر 5329723: ❌ در فایل CSV اصلی یافت نشد.
کاربر 4610780: ❓ برای تست 'Eye-Hand Coordination Test (FTUD)' داده‌ای ندارد.


# جامعه آماری برای Eye-Hand Coordination Test (MUD)

In [None]:
# --- مرحله ۱: لیست User ID ها و متغیرهای مورد نظر ---
user_ids_to_find = [
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
]

variables_to_extract = [
    'Accuracy', 'Accuracy in fast speed', 'Accuracy in long segments duration',
    'Accuracy in short segments duration', 'Accuracy in slow speed', 'Distance from the ball center'
]

# --- مرحله ۲: فیلتر کردن داده‌ها بر اساس ساختار جدید ---
# اطمینان از اینکه ستون‌های لازم برای فیلتر کردن، نوع داده درستی دارند
df['user_id'] = pd.to_numeric(df['user_id'], errors='coerce')
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# فیلتر کردن بر اساس user_id، نوع تست و متغیرهای مورد نظر
filtered_long_df = df[
    (df['user_id'].isin(user_ids_to_find)) &
    (df['task_name'] == 'Eye-Hand Coordination Test (MUD)') &
    (df['variable'].isin(variables_to_extract))
].copy()

# --- مرحله ۳: تبدیل ساختار داده از طویل به عریض (Pivot) ---
# این کار باعث می‌شود هر متغیر، ستون مخصوص به خود را داشته باشد
wide_df = filtered_long_df.pivot_table(
    index=['user_id', 'birthdate'],
    columns='variable',
    values='value'
).reset_index()

# --- مرحله ۴: محاسبه سن ---
# تبدیل ستون birthdate به فرمت تاریخ
wide_df['birthdate'] = pd.to_datetime(wide_df['birthdate'], errors='coerce')
wide_df.dropna(subset=['birthdate'], inplace=True) # حذف ردیف‌های بدون تاریخ تولد معتبر

# محاسبه سن
from datetime import datetime
today = datetime.today()
wide_df['age'] = wide_df['birthdate'].apply(
    lambda birth_date: today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
)

# --- مرحله ۵: گروه‌بندی بر اساس سن و محاسبه میانگین ---
# ستون‌هایی که حالا برای میانگین‌گیری در دسترس هستند
final_columns_to_average = [col for col in variables_to_extract if col in wide_df.columns]
age_grouped_mean = wide_df.groupby('age')[final_columns_to_average].mean()

# --- مرحله ۶: نمایش نتایج نهایی ---
print("\n✅ پردازش با موفقیت انجام شد.")
print("--- نتایج نهایی میانگین‌گیری بر اساس سن ---\n")
if age_grouped_mean.empty:
    print("هیچ داده‌ای برای نمایش یافت نشد. لطفاً مقادیر ورودی و محتوای فایل را بررسی کنید.")
else:
    display(age_grouped_mean)

In [None]:
# محاسبه تعداد افراد در هر گروه سنی
age_counts = wide_df['age'].value_counts().sort_index()

# تبدیل نتیجه به یک دیتافریم برای نمایش زیباتر
age_counts_df = age_counts.to_frame(name='تعداد افراد (N)')
age_counts_df.index.name = 'سن'

print("\n--- تعداد افراد در هر گروه سنی ---")
display(age_counts_df)

In [None]:
# لیست کامل user_id های اولیه
initial_ids = set([
    1412986, 4577675, 4591808, 4591861, 4591983, 4592057, 4592117,
    4592150, 4592157, 4592191, 4592231, 4592306, 4592324, 4592351,
    4592352, 4592378, 4592426, 4592435, 4592468, 4610780, 4714407,
    4714410, 4714455, 4714456, 4714461, 4714505, 4714575, 4714580,
    4714621, 4718810, 4718904, 4719038, 4720459, 4721745, 4725355,
    4832435, 4832513, 4842643, 4871972, 4872985, 4882251, 4882263,
    4882309, 4891627, 4891652, 4961087, 4961164, 4961225, 5057751,
    5064190, 5065266, 5065269, 5065462, 5065522, 5066404, 5081790,
    5100432, 5103105, 5103211, 5103282, 5103364, 5105190, 5105193,
    5105204, 5105577, 5106673, 5106789, 5107075, 5107248, 5109994,
    5112596, 5114618, 5114702, 5573271, 5114963, 5115020, 5121341,
    5129776, 5131289, 5131368, 5140588, 5140592, 5140666, 5142865,
    5144237, 5145319, 5145361, 5149526, 5149822, 5151693, 5153048,
    5159970, 5188526, 5199110, 5199189, 5199241, 5199458, 5201282,
    5201382, 5201384, 5201450, 5201485, 5209159, 5211717, 5211767,
    5212093, 5212224, 5219462, 5232135, 5232256, 5232523, 5244081,
    5251061, 5252906, 5252937, 5264527, 5264918, 5265020, 5269370,
    5273527, 5273532, 5273581, 5276870, 5285293, 5288628, 5289549,
    5289639, 5289706, 5289734, 5297771, 5297931, 5299534, 5299618,
    5310521, 5310666, 5323811, 5325265, 5328264, 5328270, 5329723,
    5329727, 5329733, 5329875, 5329896, 5330986, 5338039, 5339399,
    5341834, 5341839, 5348795, 5348931, 5359484, 5360848, 5363823,
    5383469, 5384996, 5387902, 5387910, 5387928, 5406397, 5406426,
    5407303, 5415727, 5417704, 5420436, 5428741, 5432752, 5440671,
    5442160, 5458218, 5458242, 5462562, 5462566, 5526197, 5536619,
    5538457, 5549509, 5549632, 5558742, 5562806, 5573277, 5576781,
    5576882, 5578167, 5579552, 5589207, 5589209, 5601887, 5603820,
    5614117, 5614242, 5619040, 5619044, 5626028, 5626031, 5630833,
    5630868
])

# لیست user_id هایی که در تحلیل نهایی باقی مانده‌اند
# (این دیتافریم از کد قبلی شما ساخته شده است)
final_ids = set(wide_df['user_id'])

# پیدا کردن شناسه‌هایی که حذف شده‌اند
missing_ids = initial_ids - final_ids

print(f"تعداد کل کاربران حذف شده: {len(missing_ids)}")
print("--- بررسی دلیل حذف کاربران زیر ---\n")

# بررسی دلیل حذف برای هر کاربر
for user_id in missing_ids:
    # ۱. آیا کاربر در فایل اصلی وجود دارد؟
    user_data = df[df['user_id'] == user_id]
    if user_data.empty:
        print(f"کاربر {user_id}: ❌ در فایل CSV اصلی یافت نشد.")
        continue

    # ۲. آیا داده‌ای برای تست مورد نظر دارد؟
    test_data = user_data[user_data['task_name'] == 'Eye-Hand Coordination Test (MUD)']
    if test_data.empty:
        print(f"کاربر {user_id}: ❓ برای تست 'Eye-Hand Coordination Test (MUD)' داده‌ای ندارد.")
        continue

    # ۳. آیا تاریخ تولد معتبر دارد؟
    # (چون کاربر حذف شده، به احتمال زیاد تاریخ تولدش مشکل داشته)
    birthdate = test_data['birthdate'].iloc[0]
    print(f"کاربر {user_id}: 🎂 تاریخ تولد نامعتبر یا خالی است (مقدار ثبت شده: {birthdate}).")