# Scouts demographics

In [1]:
from pandas import read_csv, set_option
from scipy import stats

In [2]:
g = read_csv('data/cleaned_answers.csv')

In [3]:
scouts = g[g.is_polish_scout].copy()
scouts.head(2)

Unnamed: 0.1,Unnamed: 0,index,Timestamp,sex,age,place_of_residence,is_polish_scout,scouting_organization,years_in_scouting,is_instructor,...,MIT_tick_jump_score,MIT_waiting_boreliosis_score,MIT_safe_score,MIT_summer_tick_score,MIT_part_tick_score,MIT_city_score,MIT_clock_score,total_score_without_images,total_score_with_images,score_as_percent
0,0,0,2018/04/27 1:36:27 PM GMT+2,Kobieta,17,Miasto powyżej 100 tys. mieszkańców,True,ZHP,11.0,True,...,1,1,1,1,1,1,1,26.2,26.2,90.344828
1,1,1,2018/04/27 1:43:31 PM GMT+2,Kobieta,18,Miasto powyżej 100 tys. mieszkańców,True,ZHP,5.0,True,...,1,1,0,1,1,1,0,22.9,22.9,78.965517


## Scouting organizations in Poland

In [4]:
orgs = scouts.scouting_organization.value_counts().to_dict()
orgs

{'ZHP': 971,
 'ZHR': 135,
 'Stowarzyszenie Harcerstwa Katolickiego "Zawisza"': 62,
 'Stowarzyszenie Harcerskie': 10,
 'SH': 6,
 'Stowarzyszenie Harcerskie ': 3,
 'ZHP;ZHR': 2,
 'Drzewo Pokoju': 2,
 'Skauci Europy': 1,
 'Harcerstwo Rzeczypospolitej Polskiej': 1,
 'Należałam kiedyś': 1,
 'Organizacja Harcerska "Rodło" im. Szarych Szeregów': 1,
 'Stowarzyszenie harcerskie': 1,
 'Stowarzyszenie harcerskie ': 1,
 'Royal Rangers': 1,
 'Harcerstwo Rzeczpospolitej Polskiej ': 1}

Group by organization - replace misspelled names and repeated organizations

In [5]:
to_replace = {
    'Stowarzyszenie Harcerskie ': 'Stowarzyszenie Harcerskie',
    'Stowarzyszenie harcerskie ': 'Stowarzyszenie Harcerskie',
    'Stowarzyszenie harcerskie': 'Stowarzyszenie Harcerskie',
    'SH': 'Stowarzyszenie Harcerskie',
    'Skauci Europy': 'Stowarzyszenie Harcerstwa Katolickiego "Zawisza"',
    'Harcerstwo Rzeczpospolitej Polskiej ': 'Harcerstwo Rzeczpospolitej Polskiej',
    'Harcerstwo Rzeczypospolitej Polskiej': 'Harcerstwo Rzeczpospolitej Polskiej'
}

scouts.scouting_organization = scouts.scouting_organization.replace(to_replace)
orgs = scouts.scouting_organization.value_counts().to_dict()
orgs

{'ZHP': 971,
 'ZHR': 135,
 'Stowarzyszenie Harcerstwa Katolickiego "Zawisza"': 63,
 'Stowarzyszenie Harcerskie': 21,
 'Harcerstwo Rzeczpospolitej Polskiej': 2,
 'ZHP;ZHR': 2,
 'Drzewo Pokoju': 2,
 'Należałam kiedyś': 1,
 'Organizacja Harcerska "Rodło" im. Szarych Szeregów': 1,
 'Royal Rangers': 1}

Participant who was in scouts, but not anymore at the time of filling the questionnaire

In [6]:
set_option('max_columns', None)
scouts[scouts.scouting_organization == 'Należałam kiedyś'].head()

Unnamed: 0.1,Unnamed: 0,index,Timestamp,sex,age,place_of_residence,is_polish_scout,scouting_organization,years_in_scouting,is_instructor,camps_count,tick_picture,TBD,TBD_symptoms,po_ugryzieniu,after_bite,how_to_remove,profilaktyka,where_ticks_live,MIT_spin,MIT_butter,MIT_SOR,MIT_always_rumien,MIT_big_tick,MIT_tick_go_away,MIT_paralize_tick,MIT_run_tick_run,MIT_tickles,MIT_place_of_bite,MIT_vaccine,MIT_forest_only,MIT_wrong_remove,MIT_speed_ill,MIT_scarry_tick,MIT_tick_jump,MIT_waiting_boreliosis,MIT_safe,MIT_summer_tick,MIT_part_tick,MIT_city,MIT_clock,time_in_nature,tick_bites,source_of_knowledge,first_aid_course,first_aid_content,tick_removal,with_images,is_women,first_aid_course_participated,size_of_residence_place,time_in_nature_pruned,time_in_nature_clamped,tick_picture_score,TBD_score,TBD_symptoms_score,po_ugryzieniu_score,after_bite_score,how_to_remove_score,profilaktyka_score,where_ticks_live_score,MIT_spin_score,MIT_butter_score,MIT_SOR_score,MIT_always_rumien_score,MIT_big_tick_score,MIT_tick_go_away_score,MIT_paralize_tick_score,MIT_run_tick_run_score,MIT_tickles_score,MIT_place_of_bite_score,MIT_vaccine_score,MIT_forest_only_score,MIT_wrong_remove_score,MIT_speed_ill_score,MIT_scarry_tick_score,MIT_tick_jump_score,MIT_waiting_boreliosis_score,MIT_safe_score,MIT_summer_tick_score,MIT_part_tick_score,MIT_city_score,MIT_clock_score,total_score_without_images,total_score_with_images,score_as_percent
603,603,640,2018/04/27 5:28:29 PM GMT+2,Kobieta,18,Miasto od 50 do 100 tys. mieszkańców,True,Należałam kiedyś,7.0,True,5.0,-;-;-;-,Borelioza;Wirusowe zapalenie mózgu i opon mózg...,Rumień wędrujący;Bóle mięśniowo-stawowe,"Poproszę o pomoc kogoś, kto wie jak wyjąć kles...",Zgłoszę się do lekarza / pielęgniarki / ratown...,"Nie wolno wyjmować, tylko lekarz może to zrobić",Założyć ubrania z długimi rękawami i nogawkami...,Na łące;W lesie,Prawda,Mit,Nie wiem,Prawda,Mit,Mit,Mit,Mit,Mit,Mit,Prawda,Mit,Prawda,Mit,Mit,Mit,Prawda,Mit,Mit,Mit,Prawda,Mit,1.0,3.0,Od rodziny lub znajomych,"W harcerstwie i szkole, w trakcie kursu na pra...",Tak,żadne z powyższych,False,True,True,3,1.0,1.0,0,1,2/5,1,1,-1/4,4/5,2/5,0,1,0,0,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,22.35,22.35,77.068966


In [7]:
# set_option('max_columns', None)
# scouts[scouts.camps_count >= 20].head(60)

Give short names to scout organis\zations

In [8]:
orgs_grouped = {
    'ZHP': orgs['ZHP'] + orgs['ZHP;ZHR'],
    'ZHR': orgs['ZHR'] + orgs['ZHP;ZHR'],
    'SHK "Zawisza"': (
        orgs['Stowarzyszenie Harcerstwa Katolickiego "Zawisza"']
    ),
    'RRP': orgs['Royal Rangers'],
    'KH DP': orgs['Drzewo Pokoju'],
    'SH': orgs['Stowarzyszenie Harcerskie'],
    'OH "Rodło"': (
        orgs['Organizacja Harcerska "Rodło" im. Szarych Szeregów']
    ),
    'HRP': orgs['Harcerstwo Rzeczpospolitej Polskiej']
}
orgs_grouped

{'ZHP': 973,
 'ZHR': 137,
 'SHK "Zawisza"': 63,
 'RRP': 1,
 'KH DP': 2,
 'SH': 21,
 'OH "Rodło"': 1,
 'HRP': 2}

Count percent of different scouts organizations among participants

In [9]:
orgs_percent = {
    key: 100 * val / sum(orgs_grouped.values())
    for key, val in orgs_grouped.items()
}
orgs_percent

{'ZHP': 81.08333333333333,
 'ZHR': 11.416666666666666,
 'SHK "Zawisza"': 5.25,
 'RRP': 0.08333333333333333,
 'KH DP': 0.16666666666666666,
 'SH': 1.75,
 'OH "Rodło"': 0.08333333333333333,
 'HRP': 0.16666666666666666}

Count percent of different scouts organizations in Poland

In [10]:
spraw_opp = {
    'KH DP': 180,
    'HRP': 60,
    'OH "Rodło"': 100,
    'RRP': 1337,
    'SH': 643,
    'SHK "Zawisza"': 5029,
    'ZHP': 105840,
    'ZHR': 16000
}
spraw_opp

{'KH DP': 180,
 'HRP': 60,
 'OH "Rodło"': 100,
 'RRP': 1337,
 'SH': 643,
 'SHK "Zawisza"': 5029,
 'ZHP': 105840,
 'ZHR': 16000}

In [11]:
opp_percent = {
    key: 100 * val / sum(spraw_opp.values())
    for key, val in spraw_opp.items()
}
opp_percent

{'KH DP': 0.13933074797389872,
 'HRP': 0.046443582657966234,
 'OH "Rodło"': 0.07740597109661039,
 'RRP': 1.0349178335616809,
 'SH': 0.49772039415120484,
 'SHK "Zawisza"': 3.8927462864485367,
 'ZHP': 81.92647980865245,
 'ZHR': 12.384955375457663}

In [12]:
contingency_table = [[], []]
for org in orgs_grouped:
    if orgs_grouped[org] >= 5:
        contingency_table[0].append(spraw_opp[org])
        contingency_table[1].append(orgs_grouped[org])
    else:
        print(f'Skipping {org}: {orgs_grouped[org]} < 5')
contingency_table

Skipping RRP: 1 < 5
Skipping KH DP: 2 < 5
Skipping OH "Rodło": 1 < 5
Skipping HRP: 2 < 5


[[105840, 16000, 5029, 643], [973, 137, 63, 21]]

In [13]:
stats.chi2_contingency(contingency_table)

(42.809377675434426,
 2.7013596415698568e-09,
 3,
 array([[1.05822100e+05, 1.59872977e+04, 5.04476174e+03, 6.57840101e+02],
        [9.90899585e+02, 1.49702252e+02, 4.72382640e+01, 6.15989931e+00]]))