# Mental Health in Tech Survey

## データセット
情報このデータセットは、2014年の調査で得られたもので、メンタルヘルスに対する態度と、ハイテク職場におけるメンタルヘルス障害の頻度を測定しています。ここにある2016年の進行中の調査のデータを分析することもお勧めします。

## コンテンツ
このデータセットには、次のデータが含まれています。
- タイムスタンプ
- 年齢
- 性別
- 国の状態：米国に住んでいる場合、どの州または準州に住んでいますか？ 
- self_employed：あなたは自営業者ですか？ 
- family_history：精神疾患の家族歴はありますか？
- 治療：あなたは精神的健康状態の治療を求めましたか？ 
- work_interfere：精神的な健康状態がある場合、それがあなたの仕事を妨げていると感じますか？ 
- no_employees：会社または組織には何人の従業員がいますか？ 
- remote_work：少なくとも50％の時間（オフィスの外で）リモートで作業していますか？ 
- ech_company：雇用主は主にハイテク企業/組織ですか？
- メリット：雇用主はメンタルヘルスのメリットを提供していますか？ 
- care_options：雇用主が提供するメンタルヘルスケアのオプションを知っていますか？ 
- wellness_program：あなたの雇用主は、従業員の健康プログラムの一部としてメンタルヘルスについて議論したことがありますか？ 
- seek_help：あなたの雇用主は、メンタルヘルスの問題と助けを求める方法についてさらに学ぶためのリソースを提供していますか？
- 匿名性：メンタルヘルスまたは薬物乱用の治療リソースを利用することを選択した場合、匿名性は保護されますか？
- 休暇：あなたが精神的健康状態のために医療休暇を取ることはどれくらい簡単ですか？ 
- mental_health_consequence：あなたの雇用主とメンタルヘルスの問題について議論することはマイナスの結果になると思いますか？ 
- phys_health_consequence：雇用主と身体的健康の問題について話し合うと、マイナスの影響があると思いますか？
-  同僚：あなたは同僚とメンタルヘルスの問題について喜んで話しますか？
- 監督者：メンタルヘルスの問題について、直接監督者と話し合うつもりはありますか？ 
- mental_health_interview：面接で潜在的な雇用者とのメンタルヘルスの問題を取り上げますか？ 
- phys_health_interview：面接で、雇用主となる可能性のある身体の健康問題を取り上げますか？ 
- mental_vs_physical：雇用主は精神的健康を身体的健康と同様に真剣に受け止めていると感じますか？ 
- obs_consequence：職場のメンタルヘルス状態の同僚にマイナスの結果を聞いたり、観察したりしましたか？
- コメント：追加のメモまたはコメント

インスピレーション
調査する価値のある質問：
- メンタルヘルスの病気の頻度とメンタルヘルスに対する態度は、地理的な場所によってどのように異なりますか？
- メンタルヘルスの病気や職場のメンタルヘルスに対する特定の態度の最も強力な予測因子は何ですか？

## 謝辞
元のデータセットはOpen Sourcing Mental Illnessからのものであり、ここからダウンロードできます。

## データ分析
必要になるライブラリ呼ぶ

In [1]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

from collections import Counter

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline


# データ読み込み

In [2]:
train_df = pd.read_csv('~/Dropbox/@00_input/Mental_Health/survey.csv')

データフレームのカラムを取得

In [3]:
print(train_df.columns.values)
#print(test_df.columns.values)

['Timestamp' 'Age' 'Gender' 'Country' 'state' 'self_employed'
 'family_history' 'treatment' 'work_interfere' 'no_employees'
 'remote_work' 'tech_company' 'benefits' 'care_options' 'wellness_program'
 'seek_help' 'anonymity' 'leave' 'mental_health_consequence'
 'phys_health_consequence' 'coworkers' 'supervisor'
 'mental_health_interview' 'phys_health_interview' 'mental_vs_physical'
 'obs_consequence' 'comments']


In [4]:
print("train data size", train_df.shape)
#print("train data size", test_df.shape)

train data size (1259, 27)


In [5]:
train_df.head()

Unnamed: 0,Timestamp,Age,Gender,Country,state,self_employed,family_history,treatment,work_interfere,no_employees,...,leave,mental_health_consequence,phys_health_consequence,coworkers,supervisor,mental_health_interview,phys_health_interview,mental_vs_physical,obs_consequence,comments
0,2014-08-27 11:29:31,37,Female,United States,IL,,No,Yes,Often,6-25,...,Somewhat easy,No,No,Some of them,Yes,No,Maybe,Yes,No,
1,2014-08-27 11:29:37,44,M,United States,IN,,No,No,Rarely,More than 1000,...,Don't know,Maybe,No,No,No,No,No,Don't know,No,
2,2014-08-27 11:29:44,32,Male,Canada,,,No,No,Rarely,6-25,...,Somewhat difficult,No,No,Yes,Yes,Yes,Yes,No,No,
3,2014-08-27 11:29:46,31,Male,United Kingdom,,,Yes,Yes,Often,26-100,...,Somewhat difficult,Yes,Yes,Some of them,No,Maybe,Maybe,No,Yes,
4,2014-08-27 11:30:22,31,Male,United States,TX,,No,No,Never,100-500,...,Don't know,No,No,Some of them,Yes,Yes,Yes,Don't know,No,


In [6]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1259 entries, 0 to 1258
Data columns (total 27 columns):
Timestamp                    1259 non-null object
Age                          1259 non-null int64
Gender                       1259 non-null object
Country                      1259 non-null object
state                        744 non-null object
self_employed                1241 non-null object
family_history               1259 non-null object
treatment                    1259 non-null object
work_interfere               995 non-null object
no_employees                 1259 non-null object
remote_work                  1259 non-null object
tech_company                 1259 non-null object
benefits                     1259 non-null object
care_options                 1259 non-null object
wellness_program             1259 non-null object
seek_help                    1259 non-null object
anonymity                    1259 non-null object
leave                        1259 non-null obj

In [7]:
def num_missing(x):
  return sum(x.isnull())

#Applying per column:
print ("Missing values per column:")
print (train_df.apply(num_missing, axis=0) )#axis=0 defines that function is to be applied on each column

Missing values per column:
Timestamp                       0
Age                             0
Gender                          0
Country                         0
state                         515
self_employed                  18
family_history                  0
treatment                       0
work_interfere                264
no_employees                    0
remote_work                     0
tech_company                    0
benefits                        0
care_options                    0
wellness_program                0
seek_help                       0
anonymity                       0
leave                           0
mental_health_consequence       0
phys_health_consequence         0
coworkers                       0
supervisor                      0
mental_health_interview         0
phys_health_interview           0
mental_vs_physical              0
obs_consequence                 0
comments                     1095
dtype: int64
