# import python packages

In [3]:
import pandas as pd
pd.set_option("display.max_columns", 101)
import numpy as np
import pandasql as ps
import copy 
pd.set_option("display.max_rows", 200)

## reading the data

In [4]:
df = pd.read_csv('chen_shalev_labeld_row_data.csv')

In [5]:
df.to_excel('chen_shalev_row_data_correct_header.xlsx')

In [6]:
df.dtypes

Unnamed: 0                                   int64
Unnamed: 0.1                                 int64
מחוז מקודד                                  object
לשכה מקודדת                                 object
סוג תביעה                                   object
מספר דוע מקודד                               int64
ישוב מקודד                                  object
דת                                          object
גיל                                          int64
חד הורי                                     object
מגדר                                        object
רמת השכלה                                   object
שפות                                        object
מצב פעילות                                  object
פעילויות קודמות בתוכנית                     object
פעילויות שעבר בתכנית                        object
כמות אימונים אישיים שבוצעו                   int64
ברצף פעילות שנה ויותר                       object
ברצף פעילות חצי שנה ויותר                   object
משמרת התייצבות                 

### removing duplicate columns

In [9]:
df.columns[df.columns.duplicated()]

Index([], dtype='object')

In [10]:
df = df.loc[:,~df.columns.duplicated()]

## rename id column

In [11]:
df = df.rename(columns = {'מספר דוע מקודד':'id'})

In [12]:
df['ישוב מקודד']  = df['ישוב מקודד'].str.replace('ישוב','')

### clean religious column

In [13]:
df = df.rename(columns = {'דת':'religious'})
df.loc[df['religious'].str.contains('נוצרי'),'religious'] = 'נוצרי'
df.loc[df['religious'].str.contains('מוסלמי'),'religious'] = 'מוסלמי'
df.loc[df['religious'].str.contains('ללא דת|נוצרי|מוסלמי|יהודי|דרוזי')==False , 'religious'] = 'other'
df['religious'].unique()

array(['מוסלמי', 'יהודי', 'נוצרי', 'other', 'דרוזי', 'ללא דת'],
      dtype=object)

### editing age column

In [14]:
df.loc[df['גיל'].between(18, 29),'גיל'] = 1829
df.loc[df['גיל'].between(30, 39),'גיל'] = 3039
df.loc[df['גיל'].between(40, 49),'גיל'] = 4049
df.loc[df['גיל'].between(50, 54),'גיל'] = 5054
df.loc[df['גיל'].between(55, 120),'גיל'] = 55120
df['גיל'] = 'age_' + df['גיל'].astype(str)

In [15]:
df['גיל'].unique()

array(['age_4049', 'age_5054', 'age_3039', 'age_55120', 'age_1829'],
      dtype=object)

### editing education column


In [16]:
df['רמת השכלה'].unique()

array(['יסודי', 'יסודי חלקי', 'תיכון חלקי', 'תיכון', 'תעודת בגרות',
       'ללא השכלה', 'תואר שני', 'תעודת מקצוע', 'תואר ראשון', 'הנדסאי',
       'טכנאי', 'תעודת הוראה', 'רישיון', 'תואר שלישי', 'לימודי תעודה'],
      dtype=object)

In [17]:
df.loc[df['רמת השכלה'].str.contains('יסודי חלקי'),'רמת השכלה'] = 'יסודי'
df.loc[df['רמת השכלה'].str.contains('תעודת הוראה'),'רמת השכלה'] = 'לימודי תעודה'
df.loc[df['רמת השכלה'].str.contains('הנדסאי'),'רמת השכלה'] = 'לימודי תעודה'
df.loc[df['רמת השכלה'].str.contains('טכנאי'),'רמת השכלה'] = 'לימודי תעודה'
df.loc[df['רמת השכלה'].str.contains('תעודת מקצוע'),'רמת השכלה'] = 'לימודי תעודה'
# df.loc[df['רמת השכלה'].str.contains(''),] = ''
# df.loc[df['רמת השכלה'].str.contains(''),] = ''

In [18]:
# DF = copy.copy(df)
# df = copy.copy(DF)

### editing languages column

In [19]:
df['שפות'] = df['שפות'].str.replace('שפת אם','')\
    .str.replace('גבוהה','')\
    .str.replace('בינונית','')\
    .str.replace('בסיסית','')\
    .str.replace('-','')\
    .str.replace('-','')\
    .str.replace(' ','')

# prepering df to excel

In [20]:
df['סיווג דו"ע'].unique()

array(['בר השמה', 'בר השמה מותנה', '0', 'מומלץ להחלטת השמה', 'קשה השמה',
       nan], dtype=object)

In [21]:
to_drop =[ 'id',
          'הערות לטיפול',
          'פעילות אחרונה בתכנית',
          'המלצות ועדכונים ליועץ השמה',
          'ברצף פעילות חצי שנה ויותר ',
          'פעילויות קודמות בתוכנית',
           'תאריך חידוש רישום',
           'תאריך חידוש פעילות',
           'משמרת התייצבות',
           'פעילות נוכחית',
           'פעילות עתידית',
           'תאריך פעילות אחרונה בתכנית',
           'תאריך פעילות לפני האחרונה בתכנית',
           'תאריך הפניה אחרונה לעבודה',
           'תאריך השמה אחרונה',
           'תאריך דיווח השמה אחרונה',
           'תוקף אישור עבודה ',
           'תאריך קליטת קורות חיים',
            'תאריך הגשת מועמדות אחרונה',
           'תאריך כניסה ראשונית לתוכנית',
           'תאריך כניסה אחרונה לתכנית',
           'תאריך היעדרות אחרונה',
           'מספר היעדרויות בחודש הנוכחי',
           'תאריך אי שת"פ אחרון',
           'תאריך גריעה',
          'פעילות  לפני אחרונה בתכנית',
           'שם תוכנית השמה',
           'תאריך השהיה אחרונה',
           'סיבת השהיה אחרונה',
           'תכניות השמה', # <==
           'סיבות בקשה אחרונה שאושרה בהחלטות השמה',
           'תאריך הפניה לתנופה',
           'תאריך תכנון וועדת כושר',
           'מספר מקרי דלת מסתובבת בחצי השנה האחרונה',
           'האם שווה לעמודה  M',
           'האם שווה לעמודה N',
]

In [24]:
df_to_excel = df.drop(to_drop , axis = 1)

In [25]:
df_to_excel.to_excel('excel_interactive_dashboard.xlsx')

# catergorizing columns

In [26]:
t = df['שפות'].str.get_dummies(sep=',')
t.columns = ['דובר_' + str(x) for x in t.columns]

In [27]:
ln = t.sum(axis=1).to_frame()
ln.columns = ['number_of_languages']

not_main_languages = t.columns[t.sum()/t.shape[0]<0.01]
speak_other_languages = t[not_main_languages].sum(axis=1) >=1 
speak_other_languages = speak_other_languages.to_frame()
speak_other_languages.columns = ['speak_other_languages.columns']

In [28]:
t = t.drop(not_main_languages,axis = 1)

In [29]:
# som statistic about lenguages
# frequency_of_languages = pd.concat( [pd.DataFrame(t.sum()/t.shape[0]),pd.DataFrame(t.sum()) ],axis=1)
# frequency_of_languages.columns = ['percentage','count']
# frequency_of_languages.sort_values(by=['count'])
languages = pd.concat([t,speak_other_languages,ln],axis=1)
languages.head()

Unnamed: 0,דובר_אמהרית,דובר_אנגלית,דובר_עברית,דובר_ערבית,דובר_צרפתית,דובר_רוסית,speak_other_languages.columns,number_of_languages
0,0,0,1,1,0,0,False,2
1,0,0,1,1,0,0,False,2
2,0,0,1,1,0,0,False,2
3,0,0,1,1,0,0,False,2
4,0,0,0,1,0,0,False,1


In [30]:
a= ['מחוז מקודד', 'לשכה מקודדת', 'סוג תביעה', 'id', 'ישוב מקודד','religious','גיל', 'חד הורי', 'מגדר', 'רמת השכלה']
b = [x for x in df.columns if x not in a and x != 'שפות']

In [31]:
df_new = pd.concat( [df[a],languages,df[b]],axis = 1 )

In [33]:
df_programs = copy.copy(df[['פעילויות שעבר בתכנית']])

In [34]:
programs = df_programs['פעילויות שעבר בתכנית']
    

In [35]:

programs_list = [  'חיפוש עבודה מונחה'
                    ,'סדנת מכינה השמתית מעגלי תעסוקה'
                    ,'ייעוץ תעסוקתי'
                    ,'סדנת מכינה תהליכית מעגלי תעסוקה'
                    ,'סדנת יישומי מחשב מעגלי תעסוקה'
                    ,'שיחת אימון אישי'
                    ,'ייעוץ פסיכולוגי'
                    ,'סדנת ליווי בקבוצה קטנה'
                    ,'עברית תעסוקתית'
                    ,'זימון למנהל'
                    ,'סדנת מכינה השמתית'
                    ,'סדנת שינוי'
                    ,'סדנת מכינה מחשבים מעגלי תעסוקה'
                    ,'סדנת מכינה מעגלי תעסוקה'
                    ,'יישומי מחשב מעגלי תעסוקה'
                    ,'סדנת השמה פלוס מעגלי תעסוקה'
                    ,'סדנת מכינה תהליכית'
                    ,'סדנת מכינת השמתית מעגלי תעסוקה'
                    ,'סדנת השמה'
                    ,'מכינה תהליכית מעגלי תעסוקה'
                    ,'סדנת תהליך'
                    ,'סדנת מכינה מעורב מעגלי תעסוקה'
                    ,'סדנת השמה מעגלי תעסוקה'
                    ,'סדנת רכבת מעגלי תעסוקה'
                    ,'סדנת תהליך מעגלי תעסוקה'
                    ,'קורס יישומי מחשב'
                    ,'יישומי מחשב מעגלי תעסוקה'
                    ,'קורס יישומי מחשב'
                    ,'סדנת שינוי מעגלי תעסוקה'
                    ,'מכינה השמתית'
                 ,]


In [36]:
l =[]
for i in programs:
    p = ''
    for x in programs_list:
        if x in str(i):
            p = p + x + ','
            
    if p == '':
        p= None 
        
    l.append(p)
            

In [37]:
df_programs['פעילויות שעבר בתכנית'] = l

In [38]:
df_programs['פעילויות שעבר בתכנית'].head(3)

0    חיפוש עבודה מונחה,שיחת אימון אישי,סדנת שינוי,ס...
1    שיחת אימון אישי,סדנת מכינה השמתית,סדנת מכינה ת...
2                       ייעוץ תעסוקתי,שיחת אימון אישי,
Name: פעילויות שעבר בתכנית, dtype: object

In [39]:
prog =  df_programs['פעילויות שעבר בתכנית'].str.get_dummies(sep=',')
prog.columns = ['פעילויות שעבר בתכנית_' + str(x) for x in prog.columns]

In [40]:
pn = prog.sum(axis=1).to_frame()
pn.columns = ['number_of_programs']

In [41]:
program_summary = pd.concat([prog,pn],axis=1)

In [42]:
program_summary.head(2)

Unnamed: 0,פעילויות שעבר בתכנית_זימון למנהל,פעילויות שעבר בתכנית_חיפוש עבודה מונחה,פעילויות שעבר בתכנית_ייעוץ פסיכולוגי,פעילויות שעבר בתכנית_ייעוץ תעסוקתי,פעילויות שעבר בתכנית_יישומי מחשב מעגלי תעסוקה,פעילויות שעבר בתכנית_מכינה השמתית,פעילויות שעבר בתכנית_מכינה תהליכית מעגלי תעסוקה,פעילויות שעבר בתכנית_סדנת השמה,פעילויות שעבר בתכנית_סדנת יישומי מחשב מעגלי תעסוקה,פעילויות שעבר בתכנית_סדנת ליווי בקבוצה קטנה,פעילויות שעבר בתכנית_סדנת מכינה השמתית,פעילויות שעבר בתכנית_סדנת מכינה השמתית מעגלי תעסוקה,פעילויות שעבר בתכנית_סדנת מכינה תהליכית,פעילויות שעבר בתכנית_סדנת מכינה תהליכית מעגלי תעסוקה,פעילויות שעבר בתכנית_סדנת שינוי,פעילויות שעבר בתכנית_סדנת תהליך,פעילויות שעבר בתכנית_עברית תעסוקתית,פעילויות שעבר בתכנית_קורס יישומי מחשב,פעילויות שעבר בתכנית_שיחת אימון אישי,number_of_programs
0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,1,4
1,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,1,4


In [43]:
l = list(df.columns)
index = l.index('פעילויות שעבר בתכנית')

In [44]:
DF = pd.concat([df.iloc[:,0:index],program_summary,df.iloc[:,index:]],axis = 1)

In [46]:
df = copy.copy(DF)

In [47]:
country_df = df['ארץ לידה'].str.get_dummies()
country_df.head(2)

Unnamed: 0,-,אוזבקיסטן,אוסטריה,אוסטרליה,אוקראינה,אורגוואי,אזרביג'אן,איטליה,אירלנד,אירן,אל סלואדור,אלבניה,אלגיריה,אסטוניה,אפגניסטן,אקואדור,ארגנטינה,אריתראה,ארמניה,ארצות הברית,אתיופיה,בולגריה,בוליביה,בילורוסיה,בלגיה,ברזיל,בריטניה,ברית המועצות,גאורגיה,גאנה,גווטאמלה,גרוזיה,גרמניה,דנמרק,דרום אמריקה,דרום אפריקה,הודו,הולנד,הונג קונג,הונגריה,הונדורס,ויטנאם הדרומית,ונצואלה,זאיר,חוף השנהב,טג'יקיסטאן,טוגו,יהודה ושומרון,יוגוסלביה,יוון,...,מצרים,מקסיקו,מרוקו,נורווגיה,ניגר,ניגריה,נפאל,סודן,סוריה,סין,סינגפור,סלובקיה,ספרד,סרביה,סרי לנקה (צילון),עירק,ערב הסעודית,פולין,פורטו ריקו,פורטוגל,פיליפינים,פינלנד,פנמה,פרגוואי,פרו,צ'ילה,צכיה,צרפת,קובה,קולומביה,קונגו,קוסטה ריקה,קזחסטאן,קטר,קירג'זסטאן,קנדה,קניה,קפריסין,רודזיה,רומניה,רוסיה,רמת הגולן,רצועת עזה וסיני,שוודיה,שוויץ,תאילנד,תוניסיה,תורכיה,תורכמניסטאן,תימן
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [48]:
not_main_countries = country_df.columns[country_df.sum()/country_df.shape[0]<0.01]
not_main_countries

Index(['-', 'אוזבקיסטן', 'אוסטריה', 'אוסטרליה', 'אורגוואי', 'אזרביג'אן',
       'איטליה', 'אירלנד', 'אירן', 'אל סלואדור',
       ...
       'רומניה', 'רמת הגולן', 'רצועת עזה וסיני', 'שוודיה', 'שוויץ', 'תאילנד',
       'תוניסיה', 'תורכיה', 'תורכמניסטאן', 'תימן'],
      dtype='object', length=106)

In [49]:
not_main_countries_df = country_df[not_main_countries].sum(axis=1)
not_main_countries_df = pd.DataFrame(not_main_countries_df,columns=['other_country']) 
not_main_countries_df.head()

Unnamed: 0,other_country
0,0
1,0
2,0
3,0
4,0


In [50]:
country_df = pd.concat([country_df,not_main_countries_df],axis = 1)
country_df = country_df.drop(not_main_countries,axis = 1)
country_df.columns = ['ארץ_לידה_' + str(x) for x in country_df.columns]
country_df.head(2)

Unnamed: 0,ארץ_לידה_אוקראינה,ארץ_לידה_אתיופיה,ארץ_לידה_ברית המועצות,ארץ_לידה_יהודה ושומרון,ארץ_לידה_ישראל,ארץ_לידה_רוסיה,ארץ_לידה_other_country
0,0,0,0,0,1,0,0
1,0,0,0,0,1,0,0


In [51]:
#some statistic about countries
frequency_of_country= pd.concat( [pd.DataFrame(country_df.sum()/country_df.shape[0]),
                                  pd.DataFrame(country_df.sum())],
                                  axis=1
                               )
frequency_of_country.columns = ['percentage','count']
frequency_of_country.sort_values(by=['count']).head(3)

Unnamed: 0,percentage,count
ארץ_לידה_יהודה ושומרון,0.0167,935
ארץ_לידה_רוסיה,0.01695,949
ארץ_לידה_אוקראינה,0.018396,1030


In [52]:
l = list(df.columns)
index = l.index('ארץ לידה')
DF_last = pd.concat([df.iloc[:,0:index],country_df,df.iloc[:,index:]],axis = 1)


In [53]:
pd.set_option("display.max_columns", 201)


In [54]:
df = copy.copy(DF_last)

In [55]:
medical_issue_df =df['מגבלה רפואית'].str.get_dummies()

In [56]:
medical_issue_df.columns = ['מגבלה_רפואית_' + str(x) for x in medical_issue_df.columns]
medical_issue_df.head()

Unnamed: 0,מגבלה_רפואית_0,מגבלה_רפואית_בינונית,מגבלה_רפואית_ללא מגבלות,מגבלה_רפואית_קלה,מגבלה_רפואית_קשה
0,0,0,1,0,0
1,0,0,1,0,0
2,1,0,0,0,0
3,0,1,0,0,0
4,0,0,1,0,0


In [57]:
l = list(df.columns)
index = l.index('מגבלה רפואית')
DF_medical = pd.concat([df.iloc[:,0:index],medical_issue_df,df.iloc[:,index:]],axis = 1)

In [58]:
df = copy.copy(DF_medical)

In [59]:
frequency_df =df['תדירות התייצבות'].str.get_dummies()
frequency_df.columns = ['תדירות התייצבות_' + str(x) for x in frequency_df.columns]
l = list(df.columns)
index = l.index('תדירות התייצבות')
DF_frequency = pd.concat([df.iloc[:,0:index],frequency_df,df.iloc[:,index:]],axis = 1)

In [60]:
df = copy.copy(DF_frequency)

In [61]:
drive_licenses_df = df['רשיונות נהיגה'].str.get_dummies(sep=',')

In [62]:
not_main_drive_licenses= drive_licenses_df.columns[drive_licenses_df.sum()/drive_licenses_df.shape[0]<0.005]
not_main_drive_licenses

Index([' 1 - טרקטור', ' A - אופנוע מעל 47.46 כוחות סוס 35 קילוואט',
       ' A1 - אופנוע עד 14.6 כוחות סוס ועד 35 קילוואט',
       ' A2 - אופנוע עד 14.6 כוחות סוס ועד 11 קילוואט', ' C',
       ' C - רכב משא מעל 12 טון (פולטריילר)', ' D - אוטובוס', ' D1 - מונית',
       ' D3 - אוטובוס זעיר פרטי',
       ' רכב סיור ואוטובוס זעיר ציבורי במשקל של עד 5 טון', '1 - טרקטור',
       'A - אופנוע מעל 47.46 כוחות סוס 35 קילוואט',
       'A1 - אופנוע עד 14.6 כוחות סוס ועד 35 קילוואט',
       'A2 - אופנוע עד 14.6 כוחות סוס ועד 11 קילוואט', 'C',
       'C - רכב משא מעל 12 טון (פולטריילר)', 'D - אוטובוס', 'D1 - מונית',
       'D3 - אוטובוס זעיר פרטי',
       'E -  רכב משא מעל 3.5 טון שצמוד אליו גרור או נתמך (סמיטריילר)'],
      dtype='object')

In [63]:
not_main_drive_licenses_df = drive_licenses_df[not_main_drive_licenses].sum(axis=1)
not_main_drive_licenses_df = pd.DataFrame(not_main_drive_licenses_df,columns=['other_drive_licenses']) 
drive_licenses_df = pd.concat([drive_licenses_df,not_main_drive_licenses_df],axis = 1)
drive_licenses_df = drive_licenses_df.drop(not_main_drive_licenses,axis = 1)
drive_licenses_df.columns = ['רשיונות_נהיגה_' + str(x) for x in drive_licenses_df.columns]


In [65]:
l = list(df.columns)
index = l.index('רשיונות נהיגה')
DF_drive_licenses = pd.concat([df.iloc[:,0:index],drive_licenses_df,df.iloc[:,index:]],axis = 1)

In [66]:
df = copy.copy( DF_drive_licenses)

### military

In [67]:
military_df = df['שירות צבאי'].str.get_dummies()

In [68]:
military_df.columns = ['שירות צבאי_' + str(x) for x in military_df.columns]
l = list(df.columns)
index = l.index('שירות צבאי')
DF_military_df = pd.concat([df.iloc[:,0:index],military_df,df.iloc[:,index:]],axis = 1)

### presion

In [69]:
DF_presion = copy.copy(DF_military_df)

In [73]:
yes = copy.copy(DF_presion['אסיר משוחרר'] =='כן')
no  = copy.copy(DF_presion['אסיר משוחרר']!= 'כן' )
DF = copy.copy(DF_presion)
DF['אסיר משוחרר'][yes] = 1
DF['אסיר משוחרר'][no] = 0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


In [78]:
DF.to_csv('feature_engineered_df.csv')