### 1. Import the Libraries

In [1]:
import os
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print("Libraries imported successfully.")

Libraries imported successfully.


### 2. Load Raw Registration Data

In this step, I load each registration dataset into separate pandas DataFrames. The code reads Excel file from the directory. For each file, the session ID is extracted from the filename and added to the DataFrame a new column named `Session_ID`.

All DataFrames are stored in a list named `all_registration_dfs` for the next steps.


In [2]:
# The directory where the registration files are located.
raw_data_dir = r'C:\Users\avaza\Desktop\BHOS Cinema Club Data Analysis Project\data\raw\raw_registrations'

# A list of Excel files of Registrations
registration_files = [f for f in os.listdir(raw_data_dir) if f.endswith('.xlsx')]
registration_files

['session-01_registration_black-mirror-bandersnatch_20231020.xlsx',
 'session-02_registration_encanto_20231106.xlsx',
 'session-03_registration_the-truman-show_20231123.xlsx',
 'session-04_registration_the-thing_20231208.xlsx',
 'session-05_registration_klaus_20231229.xlsx',
 'session-06_registration_upgrade_20240216.xlsx',
 'session-07_registration_vizontele_20240307.xlsx',
 'session-08_registration_wall-e_20240606.xlsx',
 'session-09_registration_soul_20241011.xlsx',
 'session-10_registration_edward-scissorhands_20241227.xlsx',
 'session-11_registration_1917_20250131.xlsx',
 "session-12_registration_howl's-moving-castle_20250314.xlsx",
 'session-13_registration_12-angry-men_20250520.xlsx']

In [3]:
# A list to store the DataFrames
all_registration_dfs = []

for file_name in registration_files:
    file_path = os.path.join(raw_data_dir, file_name)

    # Read Excel files
    df = pd.read_excel(file_path)

    # Extract Session ID from the filename
    match = re.search(r'session-(\d+)_registration', file_name, re.IGNORECASE)
    session_id = int(match.group(1))
    print(f"Session ID: {session_id}")
    
    # Add a 'session_id' column to the DataFrame
    df['session_id'] = session_id

    # Add the DataFrame to the list
    all_registration_dfs.append(df)
    print(f"Successfully loaded {file_name}. Rows: {len(df)}")

Session ID: 1
Successfully loaded session-01_registration_black-mirror-bandersnatch_20231020.xlsx. Rows: 169
Session ID: 2
Successfully loaded session-02_registration_encanto_20231106.xlsx. Rows: 138
Session ID: 3
Successfully loaded session-03_registration_the-truman-show_20231123.xlsx. Rows: 156
Session ID: 4
Successfully loaded session-04_registration_the-thing_20231208.xlsx. Rows: 165
Session ID: 5
Successfully loaded session-05_registration_klaus_20231229.xlsx. Rows: 109
Session ID: 6
Successfully loaded session-06_registration_upgrade_20240216.xlsx. Rows: 130
Session ID: 7
Successfully loaded session-07_registration_vizontele_20240307.xlsx. Rows: 57
Session ID: 8
Successfully loaded session-08_registration_wall-e_20240606.xlsx. Rows: 93
Session ID: 9
Successfully loaded session-09_registration_soul_20241011.xlsx. Rows: 184
Session ID: 10
Successfully loaded session-10_registration_edward-scissorhands_20241227.xlsx. Rows: 137
Session ID: 11
Successfully loaded session-11_registrat

In [4]:
print(f"Number of files loaded: {len(all_registration_dfs)}")

display(all_registration_dfs[0].head())
display(all_registration_dfs[1].head())
display(all_registration_dfs[-1].head())

# The column names and numbers are inconsistent. 

Number of files loaded: 13


Unnamed: 0,Zaman damgası,Ad və Soyad:,Soyad:,Əlaqə nömrəsi:,İxtisas:,Kurs:,session_id
0,2023-10-15 22:54:46.875,Abdullayev İsmayıl,,0777003300,İnformasiya Təhlükəsizliyi,Foundation,1
1,2023-10-14 18:42:58.890,Adil Abbasov,,+9947633695,Biznesin İdarəedilməsi,Foundation,1
2,2023-10-15 22:23:29.237,Ali Musayev,,077-742-41-31,Proseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,1
3,2023-10-16 19:22:03.973,Ali Rustamli,,0702890410,Kimya Mühəndisliyi,Foundation,1
4,2023-10-14 20:51:58.676,Anar Nəcəfli,,0559804400,Proseslərin Avtomatlaşdırılması Mühəndisliyi,3,1


Unnamed: 0,Zaman damgası,Ad və Soyad:,Əlaqə nömrəsi:,İxtisas:,Kurs:,session_id
0,2023-11-01 20:10:45.452,Abas siltanli,077 713 00 33,Biznesin İdarəedilməsi,1,2
1,2023-11-01 19:03:13.035,Abbas Ələkbərli,055 997 66 47,Kompüter Mühəndisliyi,Foundation,2
2,2023-11-01 19:04:11.833,Abdullayeva Fidan,0773066942,Kimya Mühəndisliyi,Foundation,2
3,2023-11-01 19:03:42.980,Adil Abbasov,+9947633695,Biznesin İdarəedilməsi,Foundation,2
4,2023-11-02 11:01:28.385,Afsar Baqirov,0508342544,Kompüter Mühəndisliyi,Foundation,2


Unnamed: 0,Timestamp,Ad və soyad:,Əlaqə nömrəsi:,Universitet:,İxtisas:,Kurs:,"Yuxarıda qeyd olunan ""Şərtlər və qaydalar""ı :",session_id
0,2025-05-18 13:35:40.700,Elmar Salimov,050 897 99 00,Bakı Ali Neft Məktəbi,Prosseslərin Avtomatlaşdırılması Mühəndisliyi,3,"Oxudum, qəbul edirəm.",13
1,2025-05-18 15:34:13.418,Sənani Zeynallı,050-975-45-16,Bakı Ali Neft Məktəbi,İnformasiya Təhlükəsizliyi,2,"Oxudum, qəbul edirəm.",13
2,2025-05-18 15:41:55.613,Aylin Quliyeva,055 200 09 23,Bakı Ali Neft Məktəbi,Prosseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,"Oxudum, qəbul edirəm.",13
3,2025-05-18 15:49:44.039,Ülvi Bayramov,0559918597,Bakı Ali Neft Məktəbi,Kompüter Elmləri,Foundation,"Oxudum, qəbul edirəm.",13
4,2025-05-18 15:50:50.802,Səma Həsənzadə,0516510507,Bakı Ali Neft Məktəbi,Biznesin İdarəedilməsi,Foundation,"Oxudum, qəbul edirəm.",13


### 3. Handling Inconsistent Columns & Cleanup

The columns across the registration DataFrames are inconsistent. This is due to three main reasons:

* **1. 'Soyad:' Column:** The 'Soyad:' column is present in the first DataFrame, but its values are entirely NaN. This column will be removed as it provides no useful information.
* **2. Missing University Information (Sessions 1-2):** Until the 3rd movie session, external students were not allowed to attend. Consequently, the DataFrames for the first two sessions lack a 'University' column. Since all students during these sessions were from Baku Higher Oil School, an additional column named 'University' will be added to these DataFrames, with all its values set to 'Baku Higher Oil School'.
* **3. Terms and Conditions Column (Sessions 5+):** Starting from the 5th session, a "Terms and Conditions" question was added to the Google Form. All responses to this question are identical, simply indicating acceptance of the terms. This column, titled `Yuxarıda qeyd olunan "Şərtlər və qaydalar"ı`, will be removed as it provides no analytical value.

Regarding the column names themselves, I will use a **mapping** to rename all inconsistent column headers to a set of standardized, consistent English names: `registration_date`, `full_name`, `phone_number`, `university_name`, `major`, and `course`.

After these individual DataFrame transformations, I will combine all the processed data into a single 'master DataFrame' (`master_registration_df`) by concatenating them vertically using `pandas.concat()`.

In [5]:
# A mapping dictionary
column_standardization_map = {
    'Zaman damgası': 'registration_date',
    'Timestamp': 'registration_date',
    'Column 1': 'registration_date',

    'Ad və Soyad': 'full_name',
    'Ad və Soyad:': 'full_name', 
    'Ad və soyad:': 'full_name', 

    'Əlaqə nömrəsi:': 'phone_number',
    'Əlaqə nömrəsi (məs: 050 123 45 67):': 'phone_number',

    'Universitet:': 'university_name',  
    'Universitet': 'university_name', 

    'İxtisas:': 'major',  
    'İxtisas': 'major', 
    
    'Kurs:': 'course',  
    'Kurs': 'course',
}

In [6]:
# A list to store DataFrames for this step
consistent_column_dfs = []

all_terms_and_conditions_variants = [
    'Yuxarıda qeyd olunan "Şərtlər və qaydalar"ı :',
    'Yuxarıda qeyd olunan "Şərtlər və qaydaları" :',
    'Yuxarıda qeyd olunan "Şərtlər və qaydalar"ı',
    'Yuxarıda qeyd olunan "Şərtlər və qaydaları"'
]

for df in all_registration_dfs:
    session_id = df['session_id'].iloc[0]

    # 1. Drop "Soyad:" column
    if 'Soyad:' in df.columns:
        df.drop(columns=['Soyad:'], inplace=True)
    
    # 2. Rename using mapping
    df.rename(columns=column_standardization_map, inplace=True) 

    # 3. Add "Baku Higher Oil School" to 'Universitet:' for Sessions 1 & 2
    if session_id <= 2:
        df['university_name'] = 'Baku Higher Oil School'

    # 4. Drop `Yuxarıda qeyd olunan "Şərtlər və qaydalar"ı' column
    if session_id >= 5:
        # Which terms columns exist in the DataFrame
        column_to_drop = [col for col in all_terms_and_conditions_variants if col in df.columns]
        
        if column_to_drop:
            df.drop(columns=column_to_drop, inplace=True)

    consistent_column_dfs.append(df)

all_registration_dfs = consistent_column_dfs

In [7]:
display(all_registration_dfs[0].head())
display(all_registration_dfs[1].head())
display(all_registration_dfs[-1].head())

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name
0,2023-10-15 22:54:46.875,Abdullayev İsmayıl,0777003300,İnformasiya Təhlükəsizliyi,Foundation,1,Baku Higher Oil School
1,2023-10-14 18:42:58.890,Adil Abbasov,+9947633695,Biznesin İdarəedilməsi,Foundation,1,Baku Higher Oil School
2,2023-10-15 22:23:29.237,Ali Musayev,077-742-41-31,Proseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,1,Baku Higher Oil School
3,2023-10-16 19:22:03.973,Ali Rustamli,0702890410,Kimya Mühəndisliyi,Foundation,1,Baku Higher Oil School
4,2023-10-14 20:51:58.676,Anar Nəcəfli,0559804400,Proseslərin Avtomatlaşdırılması Mühəndisliyi,3,1,Baku Higher Oil School


Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name
0,2023-11-01 20:10:45.452,Abas siltanli,077 713 00 33,Biznesin İdarəedilməsi,1,2,Baku Higher Oil School
1,2023-11-01 19:03:13.035,Abbas Ələkbərli,055 997 66 47,Kompüter Mühəndisliyi,Foundation,2,Baku Higher Oil School
2,2023-11-01 19:04:11.833,Abdullayeva Fidan,0773066942,Kimya Mühəndisliyi,Foundation,2,Baku Higher Oil School
3,2023-11-01 19:03:42.980,Adil Abbasov,+9947633695,Biznesin İdarəedilməsi,Foundation,2,Baku Higher Oil School
4,2023-11-02 11:01:28.385,Afsar Baqirov,0508342544,Kompüter Mühəndisliyi,Foundation,2,Baku Higher Oil School


Unnamed: 0,registration_date,full_name,phone_number,university_name,major,course,session_id
0,2025-05-18 13:35:40.700,Elmar Salimov,050 897 99 00,Bakı Ali Neft Məktəbi,Prosseslərin Avtomatlaşdırılması Mühəndisliyi,3,13
1,2025-05-18 15:34:13.418,Sənani Zeynallı,050-975-45-16,Bakı Ali Neft Məktəbi,İnformasiya Təhlükəsizliyi,2,13
2,2025-05-18 15:41:55.613,Aylin Quliyeva,055 200 09 23,Bakı Ali Neft Məktəbi,Prosseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,13
3,2025-05-18 15:49:44.039,Ülvi Bayramov,0559918597,Bakı Ali Neft Məktəbi,Kompüter Elmləri,Foundation,13
4,2025-05-18 15:50:50.802,Səma Həsənzadə,0516510507,Bakı Ali Neft Məktəbi,Biznesin İdarəedilməsi,Foundation,13


In [8]:
# Combine all the DataFrame
master_registration_df = pd.concat(all_registration_dfs, ignore_index=True) 
display(master_registration_df)

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name
0,2023-10-15 22:54:46.875,Abdullayev İsmayıl,0777003300,İnformasiya Təhlükəsizliyi,Foundation,1,Baku Higher Oil School
1,2023-10-14 18:42:58.890,Adil Abbasov,+9947633695,Biznesin İdarəedilməsi,Foundation,1,Baku Higher Oil School
2,2023-10-15 22:23:29.237,Ali Musayev,077-742-41-31,Proseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,1,Baku Higher Oil School
3,2023-10-16 19:22:03.973,Ali Rustamli,0702890410,Kimya Mühəndisliyi,Foundation,1,Baku Higher Oil School
4,2023-10-14 20:51:58.676,Anar Nəcəfli,0559804400,Proseslərin Avtomatlaşdırılması Mühəndisliyi,3,1,Baku Higher Oil School
...,...,...,...,...,...,...,...
1749,2025-05-20 00:14:36.546,Elnurə Süleymanova,0509939131,Biznesin İdarəedilməsi,4,13,Bakı Dövlət Universiteti
1750,2025-05-20 00:36:00.710,Elnurə Süleymanova,0509939131,Biznesin İdarəedilməsi,4,13,Bakı Dövlət Universiteti
1751,2025-05-20 02:37:25.017,Elvin Bayramlı,077 520 04 12,Neft-qaz Mühəndisliyi,Foundation,13,Bakı Ali Neft Məktəbi
1752,2025-05-20 09:22:09.039,Şahməmmədli Aysel,054-967-01-12,Prosseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,13,Bakı Ali Neft Məktəbi


### 4. Unique Participant IDs & Duplicate Handling

In [9]:
# Add a unique 'registration_id' for each row
master_registration_df['registration_id'] = range(1, len(master_registration_df) + 1)
display(master_registration_df.head())

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name,registration_id
0,2023-10-15 22:54:46.875,Abdullayev İsmayıl,0777003300,İnformasiya Təhlükəsizliyi,Foundation,1,Baku Higher Oil School,1
1,2023-10-14 18:42:58.890,Adil Abbasov,+9947633695,Biznesin İdarəedilməsi,Foundation,1,Baku Higher Oil School,2
2,2023-10-15 22:23:29.237,Ali Musayev,077-742-41-31,Proseslərin Avtomatlaşdırılması Mühəndisliyi,Foundation,1,Baku Higher Oil School,3
3,2023-10-16 19:22:03.973,Ali Rustamli,0702890410,Kimya Mühəndisliyi,Foundation,1,Baku Higher Oil School,4
4,2023-10-14 20:51:58.676,Anar Nəcəfli,0559804400,Proseslərin Avtomatlaşdırılması Mühəndisliyi,3,1,Baku Higher Oil School,5


In [10]:
master_registration_df['full_name'] = master_registration_df['full_name'].fillna('').astype(str).str.lower().str.strip()
master_registration_df['phone_number'] = master_registration_df['phone_number'].fillna('').astype(str).str.lower().str.strip()

In [11]:
# Sort the DataFrame
master_registration_df.sort_values(
    by=['full_name', 'phone_number', 'registration_date'],
    inplace=True,
    ignore_index=True
)

# Generate a unique 'participant_id' for each distinct registartion 
master_registration_df['participant_unique_key'] =  (
    master_registration_df['full_name'].astype(str) + "_" +
    master_registration_df['phone_number'].astype(str)
)

# Use pf.factorize()
master_registration_df['participant_id'] = master_registration_df['participant_unique_key'].factorize()[0] + 1
print(f"Generated 'participant_id' for {master_registration_df['participant_id'].nunique()} unique participants.")

Generated 'participant_id' for 1102 unique participants.


In [12]:
# Remove duplicate registrations within the same session
# keep='first' to keet only the earliest one

initial_rows = len(master_registration_df)
master_registration_df.drop_duplicates(
    subset=['participant_id', 'session_id'],
    keep='first',                           
    inplace=True                            
)

duplicates_removed = initial_rows - len(master_registration_df)

print(f"Removed {duplicates_removed} duplicate rows.")

Removed 107 duplicate rows.


In [13]:
# Drop the 'participant_unique_key' column as it's no longer needed
master_registration_df.drop(columns=['participant_unique_key'], inplace=True)

In [14]:
display(master_registration_df.head())

master_registration_df.info()

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name,registration_id,participant_id
0,2023-11-01 20:10:45.452,abas siltanli,077 713 00 33,Biznesin İdarəedilməsi,1,2,Baku Higher Oil School,170,1
1,2024-03-05 18:37:38.605,abbas,ələkbərli,Kompüter Mühəndisliyi,Foundation,7,Bakı Ali Neft Məktəbi,868,2
2,2025-01-28 12:44:15.940,abbas ramazanov,070 886 05 32,İnformasiya Texnalogiyaları,4,11,ADNSU,1467,3
3,2023-11-01 19:03:13.035,abbas ələkbərli,055 997 66 47,Kompüter Mühəndisliyi,Foundation,2,Baku Higher Oil School,171,4
4,2024-02-10 01:35:32.278,abbas ələkbərli,055 997 66 47,Kompüter Mühəndisliyi,Foundation,6,Bakı Ali Neft Məktəbi,738,4


<class 'pandas.core.frame.DataFrame'>
Index: 1647 entries, 0 to 1753
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   registration_date  1647 non-null   datetime64[ns]
 1   full_name          1647 non-null   object        
 2   phone_number       1647 non-null   object        
 3   major              1647 non-null   object        
 4   course             1647 non-null   object        
 5   session_id         1647 non-null   int64         
 6   university_name    1647 non-null   object        
 7   registration_id    1647 non-null   int64         
 8   participant_id     1647 non-null   int64         
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 128.7+ KB


### 5. Standardize and Categorize Majors

In the DataFrames, major names are inconsistent. They are in different variations of the same major due to spelling, language, or capitalization. As a result, this can affect the analysis and reporting. 

In this step, I will standardize all major names and then categorizing them into broader, predefined academic groups.

The major categories used are:
* **STEM** 
* **Health & Medical**
* **Business & Economics**
* **Arts, Humanities & Social Sciences**
* **Education & Environmental Studies**
* **Other/Not Specified** 

In [15]:
# Lowercase & Trim
master_registration_df['major'] = master_registration_df['major'].fillna('').astype(str).str.lower().str.strip()
display(master_registration_df[['major']].head())

Unnamed: 0,major
0,biznesin i̇darəedilməsi
1,kompüter mühəndisliyi
2,i̇nformasiya texnalogiyaları
3,kompüter mühəndisliyi
4,kompüter mühəndisliyi


In [16]:
# Unique major names
unique_majors = master_registration_df['major'].unique().tolist()

for major in unique_majors:
    print(f"- {major}")

- biznesin i̇darəedilməsi
- kompüter mühəndisliyi
- i̇nformasiya texnalogiyaları
- i̇nformasiya təhlükəsizliyi
- proseslərin avtomatlaşdırılması mühəndisliyi
- kimya mühəndisliyi
- prosseslərin avtomatlaşdırılması mühəndisliyi
- idman muellimliyi ( su alti sahmat )
- tarix
- neft-qaz mühəndisliyi
- psixologiya
- tarix müəllimliyi
- logistika
- kompüter elmləri
- maliyyə
- biznesin idarəedilməsi
- komputer elmleri
- computer science
- hüquqşünaslıq (tədris ingilis)
- mühəndis fizikası
- dövlət və i̇ctimai münasibətlər
- i̇ctimai səhiyyə
- stomatologiya
- hüquqşünaslıq
- alman dili tərcümə
- beynəlxalq ticarət və logistika
- dövlət və ictimai münasibətlər
- turizm
- jurnalistika
- hüquq (ingilis sektoru)
- informasiya texnologiyalari
- i̇nformasiya texnologiyaları
- sənaye mühəndisliyi
- dizayn
- tərcümə fakültəsi
- aerokosmik mühəndislik
- math
- filologiya
- logistika və nəqiliyat
- finance
- i̇nşaat mühəndisliyi
- elektrik elektronika mühəndisliyi
- komputer elmləri
- müalicə işi
- is

In [17]:
# Mapping dictionary
major_groups = {
    'STEM': [
        'kompüter mühəndisliyi',
        'informasiya texnologiyaları',
        'informasiya texnologiyalari',
        'i̇nformasiya texnalogiyaları',
        'i̇nformasiya təhlükəsizliyi',
        'i̇nformasiya texnologiyaları',
        'kompüter elmləri',
        'komputer elmleri',
        'komputer elmləri',
        'computer science',
        'it',
        'proseslərin avtomatlaşdırılması mühəndisliyi',
        'prosseslərin avtomatlaşdırılması mühəndisliyi',
        'aerokosmik mühəndislik',
        'elektrik və elektronika mühəndisliyi',
        'elektrik elektronika mühəndisliyi',
        'elektronika muhendisliyi',
        'elektrik və elektronika mühəndisi',
        'telekommunikasiya mühəndisliyi',
        'radiotexnika və telekommunikasiya mühəndisliyi',
        'kimya mühəndisliyi',
        'kimya',
        'fizika',
        'math',
        'geoology and geophysics engineering',
        'mühəndis fizikası',
        'meliorasiya mühəndisliyi',
        'dəniz naviqasiya mühəndisliyi',
        'aviasiya təhlükəsizliyi mühəndisliyi',
        'aviasiya tehlukesizliyi muhendisliyi',
        'aviasiya tehlukesizliyi mühəndisliyi',
        'energetika mühəndisliyi (sabah)',
        'sənaye mühəndisliyi',
        'sistemlər mühəndisliyi',
        'logistika və nəqliyyat texnologiyaları mühəndisliyi (eng)',
        'logistika və nəqliyyat teznologiyaları mühəndisliyi',
        'mechanical engineering',
        'inşaat mühəndisliyi',
        'memarlıq',
        'ikili diplom mühəndislik proqramı',
        'astronomi ve uzay bilimleri',
        'ekologiya mühendisliyi',
        'ekologiya muhendisliyi',
        'biologiya',
        'neft-qaz mühındisliyi',
        'neft-qaz mühəndisliyi',
        'i̇nşaat mühəndisliyi'
    ],
    'Health & Medical': [
        'müalicə işi',
        'müalicə-profilaktika',
        'stomatologiya',
        'hərbi stomatologiya',
        'tibb',
        'tibb bacısı',
        'i̇ctimai səhiyyə'
    ],
    'Business & Economics': [
        'biznesin idarəedilməsi',
        'biznesin i̇darəedilməsi',
        'maliyyə',
        'finance',
        'marketinq',
        'marketing',
        'logistika',
        'beynəlxalq ticarət və logistika',
        'beynəlxalq ticarər və logistika',
        'logistika və nəqiliyat',
        'i̇qtisadiyyat',
        'iqtisadiyyat',
        'bais',
        'ise',
        'turizm'
    ],
    'Arts, Humanities & Social Sciences': [
        'hüquq',
        'hüquqşünaslıq',
        'hüquqşünaslıq (tədris ingilis)',
        'hüquq (ingilis sektoru)',
        'dövlət və ictimai münasibətlər',
        'dövlət və i̇ctimai münasibətlər',
        'sosiologiya',
        'sosial iş',
        'jurnalistika',
        'tarix',
        'tarixçi',
        'tarix fakultesi (tədris ingilis)',
        'tarix(ingilis)',
        'tarix (ingilis) fakültəsi',
        'alman dili tərcümə',
        'i̇span dili tərcüməçi',
        'tərcümə fakültəsi',
        'tərcüməçi (ingilis dili)',
        'filologiya',
        'psixologiya',
        'dizayn',
        'i̇nstrumental ifaçılıq',
        'bmr fakültəsi norveçşunaslıq ixtisası',
        'bmr (region: norveç)'
    ],
    'Education & Environmental Studies': [
        'ingilis dili müəllimliyi',
        'kimya müəllimliyi',
        'ingilis dili muellimliyi',
        'i̇ngilis dili müəllimliyi',
        'təsviri-incəsənət müəllimliyi',
        'i̇ng muellim',
        'xarici dil müəllimliyi(ingilis)',
        'coğrafiya müəllimliyi',
        'tarix müəllimliyi',
        'fizika müəllimliyi',
        'riyaziyyat müəllimliyi',
        'idman muellimliyi ( su alti sahmat )',
        'ekologiya'
    ],
    'Other/Not Specified': [
        '4cü sinif',
    ]
}

In [18]:
# Flatten the mapping automatically
major_name_mapping = {
    variant: category
    for category, variants in major_groups.items()
    for variant in variants
}

print(f"Created mapping with {len(major_name_mapping)} entries.")

Created mapping with 107 entries.


In [19]:
# Apply mapping
master_registration_df['major_category'] = master_registration_df['major'].apply(
    lambda x: major_name_mapping.get(x, 'Other/Not Specified')
)

In [20]:
print(master_registration_df['major_category'].value_counts(dropna=False))

major_category
STEM                                  1314
Business & Economics                   250
Arts, Humanities & Social Sciences      46
Education & Environmental Studies       20
Health & Medical                        16
Other/Not Specified                      1
Name: count, dtype: int64


In [21]:
# Identify 'Other/Not Specified' majors
other_majors_df = master_registration_df[master_registration_df['major_category'] == 'Other/Not Specified']

unique_uncategorized_majors = other_majors_df['major'].unique().tolist()

if unique_uncategorized_majors:
    print(f"Found {len(unique_uncategorized_majors)} unique major names in 'Other/Not Specified':")
    for major_name in unique_uncategorized_majors:
        print(f"- {major_name}")
else:
    print("No majors are currently categorized as 'Other/Not Specified'.")

Found 1 unique major names in 'Other/Not Specified':
- 4cü sinif


In [22]:
display(master_registration_df.head())

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name,registration_id,participant_id,major_category
0,2023-11-01 20:10:45.452,abas siltanli,077 713 00 33,biznesin i̇darəedilməsi,1,2,Baku Higher Oil School,170,1,Business & Economics
1,2024-03-05 18:37:38.605,abbas,ələkbərli,kompüter mühəndisliyi,Foundation,7,Bakı Ali Neft Məktəbi,868,2,STEM
2,2025-01-28 12:44:15.940,abbas ramazanov,070 886 05 32,i̇nformasiya texnalogiyaları,4,11,ADNSU,1467,3,STEM
3,2023-11-01 19:03:13.035,abbas ələkbərli,055 997 66 47,kompüter mühəndisliyi,Foundation,2,Baku Higher Oil School,171,4,STEM
4,2024-02-10 01:35:32.278,abbas ələkbərli,055 997 66 47,kompüter mühəndisliyi,Foundation,6,Bakı Ali Neft Məktəbi,738,4,STEM


### 6. Standardize University Names

In the DataFrames, university names are inconsistent due to varied spellings, different languages, or the use of abbreviations. It can affact the analysis and aggregation. 

Since the participants are usually from the same set of universities, I will perform a manual mapping in this step, ensuring each unique university entry is correctly mapped.

In [23]:
# Lower & Trim
master_registration_df['university_name'] = master_registration_df['university_name'].fillna('').astype(str).str.lower().str.strip()
display(master_registration_df[['university_name']].head())

Unnamed: 0,university_name
0,baku higher oil school
1,bakı ali neft məktəbi
2,adnsu
3,baku higher oil school
4,bakı ali neft məktəbi


In [24]:
# Unique university names
unique_universities = master_registration_df['university_name'].unique().tolist()

for university in unique_universities:
    print(f"- {university}")

- baku higher oil school
- bakı ali neft məktəbi
- adnsu
- adbita
- bakı dövlət universiteti
- xəzər universiteti
- azərbaycan dövlət pedaqoji universiteti
- unec
- ada
- milli aviasiya akademiyası
- ufaz
- di̇a
- azərbaycan tibb universiteti
- dövlət i̇darəçilik akademiyası
- azərbaycan dillər universiteti
- azərbaycan respunlikasının prezidenti yanında dövlət i̇darəçilik akademiyası
- admiu hk
- türkiyə azərbaycan universiteti
- azərbaycan memarlıq və i̇nşaat universiteti
- azərbaycan dövlət i̇qtisad universiteti
- memarlıq və i̇nşaat universiteti
- bdu
- aztu
- unec ise
- bakı mühəndislik universiteti
- atu
- azərbaycan respublikasının prezidenti yanında dövlət i̇darəçilik akademiyası
- bakı musiqi akademiyası
- simmons university (amerika, massaçusets)
- 1 nömrəli məktəb
- azərbaycan texniki universiteti
- bakı avrasiya universiteti
- azərbaycan dövlət dəniz akademiyası
- bakı biznes universiteti
- azərbaycan dövlət iqtisadiyyat universiteti
- adu
- azərbaycan dövlət neft və sənaye

In [25]:
# A mapping dictionary
standardized_university_aliases = {
    'Baku Higher Oil School': [
        'baki ali neft məktəbi',
        'bakı ali neft məktəbi',
        'baku higher oil school'
    ],
    'National Aviation Academy': [
        'milli aviasiya akademiyası',
        'maa',
        'milli aviasiya akademiyasi',
        'naa'
    ],
    'French-Azerbaijani University': [
        'ufaz'
    ],
    'ADA University': [
        'ada',
        'ada university',
        'ada universiteti'
    ],
    'Azerbaijan State University of Economics (UNEC)': [
        'unec',
        'unec ise',
        'unec ıse',
        'azərbaycan dövlət ıqtisad universiteti',
        'azərbaycan dövlət iqtisadiyyat universiteti',
        'azərbaycan dövlət i̇qtisad umiversiteti',
        'azərbaycan dövlət i̇qtisad universiteti',
        'azərbaycan dövlət iqtisadiyyat universiteti',
        'azərbaycan dövlət iqtisad universiteti',
        'azərbaycan dövlət i̇qtisadiyyat universiteti'
    ],
    'Baku Music Academy': [
        'bakı musiqi akademiyası'
    ],
    'Azerbaijan University of Languages': [
        'adu',
        'azərbaycan dillər universiteti'
    ],
    'Baku State University': [
        'bakı dövlət universiteti',
        'bdu',
        'baku state university',
        'bakı dövlət univeristeti'
    ],
    'Azerbaijan Technical University': [
        'aztu',
        'azərbaycantexniki universitet',
        'azərbaycan texniki universiteti',
        'texniki universitet'
    ],
    'Azerbaijan Medical University': [
        'atu',
        'azərbaycan tibb universiteti',
        'azerbaycan tibb universiteti',
        'azərbaycan tibb univarsiteti',
        'ən böyük atu'
    ],
    'Academy of Public Administration under the President of the Republic of Azerbaijan': [
        'azərbaycan respublikasının prezidenti yanında dövlət idarəçilik akademiyası',
        'azərbaycan respunlikasının prezidenti yanında dövlət idarəçilik akademiyası',
        'azərbaycan respublikasının prezidenti yanında dövlət i̇darəçilik akademiyası',
        'azərbaycan respunlikasının prezidenti yanında dövlət i̇darəçilik akademiyası',
        'dövlət idarəçilik akademiyası',
        'dövlət i̇darəçilik akademiyası',
        'di̇a',
    ],
    'Azerbaijan University of Architecture and Construction': [
        'memarlıq və inşaat universiteti',
        'azərbaycan memarlıq və inşaat universiteti',
        'azərbaycan memarlıq və i̇nşaat üniversiteti',
        'azərbaycan memarlıq və i̇nşaat universiteti',
        'azmiu',
        'azmi̇u',
        'memarlıq və inşaat',
        'memarlıq və i̇nşaat universiteti'
    ],
    'Azerbaijan State Oil and Industry University': [
        'adnsu',
        'azərbaycan dövlət neft və sənaye universiteti',
        'azərbaycan neft və sənaye universiteti',
        'azərbaycan dövlət nedt və sənaye universiteti'
    ],
    'Baku Engineering University': [
        'bakı mühəndislik universiteti',
        'baki mühəndislik universiteti',
        'bakı mühəndislik üniversiteti',
        'baku engineering university',
        'beu',
        'bmu',
        'bakı mühəndislik universitetinin'
    ],
    'Baku Business University': [
        'bakı biznes universiteti',
        'bbu'
    ],
    'Azerbaijan State Pedagogical University': [
        'azərbaycan dövlət pedaqoji universiteti',
        'azərbaycan dövlət pedoqoji universiteti'
    ],
    'Azerbaijan State Marine Academy': [
        'azərbaycan dövlət dəniz akademiyası'
    ],
    'Azerbaijan State University of Culture and Arts': [
        'azərbaycan dövlət mədəniyyət və incəsənət universiteti',
        'admiu hk'
    ],
    'Azerbaijan State Academy of Physical Education and Sport': [
        'adbita',
        'adbıta'
    ],
    'Khazar University': [
        'xəzər universiteti',
        'khazar',
        'khazar university'
    ],
    'Baku Eurasian University': [
        'bakı avrasiya universiteti'
    ],
    'Baku Medical College No. 1': [
        '1 nömrəli bakı tibb kolleci'
    ],
    'School No. 1': [
        '1 nömrəli məktəb'
    ],
    'Middle East Technical University': [
        'odtü'
    ],
    'Turkey-Azerbaijan University': [
        'tau',
        'azərbaycan türkiyə universiteti',
        'türkiyə azərbaycan universiteti'
    ],
    'Karabakh University': [
        'qarabağ universiteti'
    ],
    'Simmons University (USA, Massachusetts)': [
        'simmons university (amerika, massaçusets)'
    ],
    'Gazi University (Turkey)': [
        'gazi universiteti',
        'gazi üniversiteti',
        'gazı üniversiteti'
    ],
    'Ege University': [
        'ege universitesi'
    ]
}

In [26]:
# Apply mapping
university_names_mapping = {}
for standard_name, aliases in standardized_university_aliases.items():
    for alias in aliases:
        university_names_mapping[alias] = standard_name

In [27]:
master_registration_df['university_name_proper'] = master_registration_df['university_name'].apply(
    lambda x: university_names_mapping.get(x, 'Other/Not Specified')
)

In [28]:
print(master_registration_df['university_name_proper'].value_counts(dropna=False))

university_name_proper
Baku Higher Oil School                                                                1385
Azerbaijan State University of Economics (UNEC)                                         51
Baku State University                                                                   36
ADA University                                                                          33
Azerbaijan State Oil and Industry University                                            21
Azerbaijan Medical University                                                           15
French-Azerbaijani University                                                           14
Azerbaijan Technical University                                                         13
National Aviation Academy                                                               13
Baku Engineering University                                                             12
Azerbaijan University of Languages                                 

In [29]:
other_universities_df = master_registration_df[
    master_registration_df['university_name_proper'] == 'Other/Not Specified'
]

unique_uncategorized_universities = other_universities_df['university_name'].unique().tolist()

if unique_uncategorized_universities:
    print(f"\nFound {len(unique_uncategorized_universities)} unique university names currently in 'Other/Not Specified':")
    unique_uncategorized_universities.sort()
    for uni_name in unique_uncategorized_universities:
        print(f"- {uni_name}")
    print("\nPlease review these and update your standardized_university_aliases if necessary, then re-run the cell.")
else:
    print("\nNo universities are currently categorized as 'Other/Not Specified'.")


No universities are currently categorized as 'Other/Not Specified'.


In [30]:
display(master_registration_df.head())

Unnamed: 0,registration_date,full_name,phone_number,major,course,session_id,university_name,registration_id,participant_id,major_category,university_name_proper
0,2023-11-01 20:10:45.452,abas siltanli,077 713 00 33,biznesin i̇darəedilməsi,1,2,baku higher oil school,170,1,Business & Economics,Baku Higher Oil School
1,2024-03-05 18:37:38.605,abbas,ələkbərli,kompüter mühəndisliyi,Foundation,7,bakı ali neft məktəbi,868,2,STEM,Baku Higher Oil School
2,2025-01-28 12:44:15.940,abbas ramazanov,070 886 05 32,i̇nformasiya texnalogiyaları,4,11,adnsu,1467,3,STEM,Azerbaijan State Oil and Industry University
3,2023-11-01 19:03:13.035,abbas ələkbərli,055 997 66 47,kompüter mühəndisliyi,Foundation,2,baku higher oil school,171,4,STEM,Baku Higher Oil School
4,2024-02-10 01:35:32.278,abbas ələkbərli,055 997 66 47,kompüter mühəndisliyi,Foundation,6,bakı ali neft məktəbi,738,4,STEM,Baku Higher Oil School


### 7. Final Data Review & Export

In this final step, I will refine the `master_registration_df` by removing redundant or less relevant columns and reordering the remaining columns for better readability and usability.

What to do:
1.  **Remove `full_name` and `phone_number`**: These columns are no longer needed as the `participant_id` column is the unique and anonymized identifier.
2.  **Remove `university_name`**: The `university_name_proper` column, which contains standardized university names, makes the original `university_name` column redundant.
3. **Remove `major`**: The `major_category` column, makes `major` column redundant by being more standardize.
4.  **Reorder Columns**: Arrange the columns in a logical and intuitive sequence.

In [31]:
# Remove columns
columns_to_drop = ['full_name', 'phone_number', 'university_name', 'major']
master_registration_df = master_registration_df.drop(columns=columns_to_drop)

In [32]:
# Reorder columns
column_order = [
    'participant_id',
    'session_id',
    'registration_date',
    'university_name_proper',
    'major_category',
    'course'
]

master_registration_df = master_registration_df.reindex(columns=column_order)

In [33]:
# Exporting Processed Data for Power BI
output_file_name = 'processed_registration_data.csv'

try:
    master_registration_df.to_csv(output_file_name, index=False, encoding='utf-8-sig')
    print(f"\nSuccessfully exported data to '{output_file_name}'")
except Exception as e:
    print(f"\nERROR: Failed to export data to CSV. Reason: {e}")

print("Data Preparation Completed.")


Successfully exported data to 'processed_registration_data.csv'
Data Preparation Completed.
