# Cervical Cancer Risk Classification

生検の子宮頸がんの危険因子：このデータセットはUCIリポジトリから取得され、親切に認められています！

このファイルには、生検検査につながる子宮頸がんの危険因子のリストが含まれています！

米国では毎年約11,000の浸潤性子宮頸がんの新しい症例が診断されていますが、過去数十年間で新しい子宮頸がんの症例数は着実に減少しています。最も予防可能な種類のがんですが、子宮頸がんは毎年米国で約4,000人の女性を殺し、世界中で約300,000人の女性を殺しています。

米国では、スクリーニングの増加とPapテストによる早期発見のおかげで、子宮頸がんによる死亡率は1955年から1992年にかけて74％急落しました。年齢子宮頸がんの診断の50％は35〜54歳の女性に発生し、約20％は65歳以上の女性に発生します。

診断の年齢の中央値は48歳です。女性の約15％は20〜30歳の間に子宮頸がんを発症します。子宮頸がんは20歳未満の女性では非常にまれです。しかし、多くの若い女性は複数のタイプのヒトパピローマウイルスに感染し、将来的に子宮頸がんになる。

定期検査を受けていない初期の異常な変化をもつ若い女性は、40歳までに限局性がんのリスクが高く、50歳までに浸潤がんのリスクが高くなります。

社会経済的および民族的要因子宮頸がんの割合は両方の白人で低下していますが過去数十年にわたってアフリカ系アメリカ人の女性は、アフリカ系アメリカ人ではるかに流行し続けており、その死亡率は白人女性の2倍です。

ヒスパニック系アメリカ人女性は、スクリーニング率が低いため、浸潤性子宮頸がんのリスクが白人女性の2倍以上です。ただし、これらの違いはほぼ確実に社会的および経済的な違いによるものです。

多数の研究が、高い貧困レベルは低いスクリーニング率と関連していると報告しています。

さらに、健康保険の欠如、交通機関の制限、言語の問題により、貧しい女性のスクリーニングサービスへのアクセスが妨げられています。

高い性的活動ヒト乳頭腫ウイルス（HPV）は子宮頸癌の主な危険因子です。成人では、HPVの最も重要な危険因子は感染者との性行為です。子宮頸がんのリスクが最も高い女性は、複数の性的パートナー、17歳以下の性交、またはその両方の既往がある女性です。

一度も性的活動をしたことがない女性は、子宮頸がんを発症するリスクが非常に低くなります。

複数のパートナーとの性的活動は、他の多くの性感染症（クラミジア、nor病、梅毒）の可能性を高めます。

クラミジアとHPV感染を長引かせる可能性を含む子宮頸がんリスクとの関連性が研究により判明しています。家族歴女性は、子宮頸がんにかかった第一度近親者（母親、姉妹）がいる場合、子宮頸がんのリスクが高くなります。

経口避妊薬の使用子宮頸がんと経口避妊薬（OC）の長期使用との間に強い関連性が報告されています。 5〜10年以上経口避妊薬を服用している女性は、OCを使用していない女性よりもHPV感染のリスクがはるかに高い（最大4倍）ようです。 （OCを5年未満服用している女性のリスクはそれほど高くありません。）OC使用によるこのリスクの理由は完全には明らかではありません。 OCを使用する女性は、横隔膜、コンドーム、またはHPVを含む性感染症に対する保護を提供する他の方法を使用する可能性が低くなります。いくつかの研究は、OCのホルモンがウイルスが子宮頸部細胞の遺伝物質に入るのを助けるかもしれないことも示唆しています。多くの子供を抱える研究では、特にHPVに感染した女性では、多くの子供がいると子宮頸がんを発症するリスクが高まることが示されています。

喫煙喫煙は、特にHPVに感染した女性の場合、子宮頸部の前がん性変化（異形成）および浸潤性子宮頸がんへの進行のリスクが高いことに関連しています。免疫抑制免疫系が弱い女性（HIV / AIDSの女性など）は、HPVを取得しやすくなります。

免疫不全患者は、子宮頸部前癌が浸潤性癌に急速に発展するリスクも高くなります。 DIETHYLSTILBESTROL（DES）1938年から1971年にかけて、流産防止のため、エストロゲン関連薬であるジエチルスチルベストロール（DES）が妊婦に広く処方されました。これらの女性の娘は、子宮頸がんのリスクが高くなります。 DESはもはや規定されていません。

## データ分析
必要になるライブラリ呼ぶ

In [1]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

from collections import Counter

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline


# データ読み込み

In [2]:
train_df = pd.read_csv('~/Dropbox/@00_input/Cervical_Cancer_Risk/kag_risk_factors_cervical_cancer.csv')

データフレームのカラムを取得

In [3]:
print(train_df.columns.values)
#print(test_df.columns.values)

['Age' 'Number of sexual partners' 'First sexual intercourse'
 'Num of pregnancies' 'Smokes' 'Smokes (years)' 'Smokes (packs/year)'
 'Hormonal Contraceptives' 'Hormonal Contraceptives (years)' 'IUD'
 'IUD (years)' 'STDs' 'STDs (number)' 'STDs:condylomatosis'
 'STDs:cervical condylomatosis' 'STDs:vaginal condylomatosis'
 'STDs:vulvo-perineal condylomatosis' 'STDs:syphilis'
 'STDs:pelvic inflammatory disease' 'STDs:genital herpes'
 'STDs:molluscum contagiosum' 'STDs:AIDS' 'STDs:HIV' 'STDs:Hepatitis B'
 'STDs:HPV' 'STDs: Number of diagnosis' 'STDs: Time since first diagnosis'
 'STDs: Time since last diagnosis' 'Dx:Cancer' 'Dx:CIN' 'Dx:HPV' 'Dx'
 'Hinselmann' 'Schiller' 'Citology' 'Biopsy']


In [4]:
print("train data size", train_df.shape)
#print("train data size", test_df.shape)

train data size (858, 36)


In [5]:
train_df.head()

Unnamed: 0,Age,Number of sexual partners,First sexual intercourse,Num of pregnancies,Smokes,Smokes (years),Smokes (packs/year),Hormonal Contraceptives,Hormonal Contraceptives (years),IUD,...,STDs: Time since first diagnosis,STDs: Time since last diagnosis,Dx:Cancer,Dx:CIN,Dx:HPV,Dx,Hinselmann,Schiller,Citology,Biopsy
0,18,4.0,15.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
1,15,1.0,14.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
2,34,1.0,?,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
3,52,5.0,16.0,4.0,1.0,37.0,37.0,1.0,3.0,0.0,...,?,?,1,0,1,0,0,0,0,0
4,46,3.0,21.0,4.0,0.0,0.0,0.0,1.0,15.0,0.0,...,?,?,0,0,0,0,0,0,0,0


null チェック

In [6]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 858 entries, 0 to 857
Data columns (total 36 columns):
Age                                   858 non-null int64
Number of sexual partners             858 non-null object
First sexual intercourse              858 non-null object
Num of pregnancies                    858 non-null object
Smokes                                858 non-null object
Smokes (years)                        858 non-null object
Smokes (packs/year)                   858 non-null object
Hormonal Contraceptives               858 non-null object
Hormonal Contraceptives (years)       858 non-null object
IUD                                   858 non-null object
IUD (years)                           858 non-null object
STDs                                  858 non-null object
STDs (number)                         858 non-null object
STDs:condylomatosis                   858 non-null object
STDs:cervical condylomatosis          858 non-null object
STDs:vaginal condylomatosi

In [8]:
def num_missing(x):
  return sum(x.isnull())

#Applying per column:
print ("Missing values per column:")
print (train_df.apply(num_missing, axis=0) )#axis=0 defines that function is to be applied on each column

Missing values per column:
Age                                   0
Number of sexual partners             0
First sexual intercourse              0
Num of pregnancies                    0
Smokes                                0
Smokes (years)                        0
Smokes (packs/year)                   0
Hormonal Contraceptives               0
Hormonal Contraceptives (years)       0
IUD                                   0
IUD (years)                           0
STDs                                  0
STDs (number)                         0
STDs:condylomatosis                   0
STDs:cervical condylomatosis          0
STDs:vaginal condylomatosis           0
STDs:vulvo-perineal condylomatosis    0
STDs:syphilis                         0
STDs:pelvic inflammatory disease      0
STDs:genital herpes                   0
STDs:molluscum contagiosum            0
STDs:AIDS                             0
STDs:HIV                              0
STDs:Hepatitis B                      0
STDs:HPV     

## 2. Data-preprocessing

In [11]:
df_fullna = train_df.replace('?', np.nan)
df_fullna.isnull().sum() #check NaN counts in different columns

Age                                     0
Number of sexual partners              26
First sexual intercourse                7
Num of pregnancies                     56
Smokes                                 13
Smokes (years)                         13
Smokes (packs/year)                    13
Hormonal Contraceptives               108
Hormonal Contraceptives (years)       108
IUD                                   117
IUD (years)                           117
STDs                                  105
STDs (number)                         105
STDs:condylomatosis                   105
STDs:cervical condylomatosis          105
STDs:vaginal condylomatosis           105
STDs:vulvo-perineal condylomatosis    105
STDs:syphilis                         105
STDs:pelvic inflammatory disease      105
STDs:genital herpes                   105
STDs:molluscum contagiosum            105
STDs:AIDS                             105
STDs:HIV                              105
STDs:Hepatitis B                  

In [14]:
df = df_fullna  #making temporary save

In [15]:
df = df.convert_objects(convert_numeric=True) #turn data into numeric type for computation

AttributeError: 'DataFrame' object has no attribute 'convert_objects'

In [16]:
df.info() # Now it's all numeric type, and we are ready for computation and fill NaN.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 858 entries, 0 to 857
Data columns (total 36 columns):
Age                                   858 non-null int64
Number of sexual partners             832 non-null object
First sexual intercourse              851 non-null object
Num of pregnancies                    802 non-null object
Smokes                                845 non-null object
Smokes (years)                        845 non-null object
Smokes (packs/year)                   845 non-null object
Hormonal Contraceptives               750 non-null object
Hormonal Contraceptives (years)       750 non-null object
IUD                                   741 non-null object
IUD (years)                           741 non-null object
STDs                                  753 non-null object
STDs (number)                         753 non-null object
STDs:condylomatosis                   753 non-null object
STDs:cervical condylomatosis          753 non-null object
STDs:vaginal condylomatosi

In [17]:
# for continuous variable
df['Number of sexual partners'] = df['Number of sexual partners'].fillna(df['Number of sexual partners'].median())
df['First sexual intercourse'] = df['First sexual intercourse'].fillna(df['First sexual intercourse'].median())
df['Num of pregnancies'] = df['Num of pregnancies'].fillna(df['Num of pregnancies'].median())
df['Smokes'] = df['Smokes'].fillna(1)
df['Smokes (years)'] = df['Smokes (years)'].fillna(df['Smokes (years)'].median())
df['Smokes (packs/year)'] = df['Smokes (packs/year)'].fillna(df['Smokes (packs/year)'].median())
df['Hormonal Contraceptives'] = df['Hormonal Contraceptives'].fillna(1)
df['Hormonal Contraceptives (years)'] = df['Hormonal Contraceptives (years)'].fillna(df['Hormonal Contraceptives (years)'].median())
df['IUD'] = df['IUD'].fillna(0) # Under suggestion
df['IUD (years)'] = df['IUD (years)'].fillna(0) #Under suggestion
df['STDs'] = df['STDs'].fillna(1)
df['STDs (number)'] = df['STDs (number)'].fillna(df['STDs (number)'].median())
df['STDs:condylomatosis'] = df['STDs:condylomatosis'].fillna(df['STDs:condylomatosis'].median())
df['STDs:cervical condylomatosis'] = df['STDs:cervical condylomatosis'].fillna(df['STDs:cervical condylomatosis'].median())
df['STDs:vaginal condylomatosis'] = df['STDs:vaginal condylomatosis'].fillna(df['STDs:vaginal condylomatosis'].median())
df['STDs:vulvo-perineal condylomatosis'] = df['STDs:vulvo-perineal condylomatosis'].fillna(df['STDs:vulvo-perineal condylomatosis'].median())
df['STDs:syphilis'] = df['STDs:syphilis'].fillna(df['STDs:syphilis'].median())
df['STDs:pelvic inflammatory disease'] = df['STDs:pelvic inflammatory disease'].fillna(df['STDs:pelvic inflammatory disease'].median())
df['STDs:genital herpes'] = df['STDs:genital herpes'].fillna(df['STDs:genital herpes'].median())
df['STDs:molluscum contagiosum'] = df['STDs:molluscum contagiosum'].fillna(df['STDs:molluscum contagiosum'].median())
df['STDs:AIDS'] = df['STDs:AIDS'].fillna(df['STDs:AIDS'].median())
df['STDs:HIV'] = df['STDs:HIV'].fillna(df['STDs:HIV'].median())
df['STDs:Hepatitis B'] = df['STDs:Hepatitis B'].fillna(df['STDs:Hepatitis B'].median())
df['STDs:HPV'] = df['STDs:HPV'].fillna(df['STDs:HPV'].median())
df['STDs: Time since first diagnosis'] = df['STDs: Time since first diagnosis'].fillna(df['STDs: Time since first diagnosis'].median())
df['STDs: Time since last diagnosis'] = df['STDs: Time since last diagnosis'].fillna(df['STDs: Time since last diagnosis'].median())