# Hospital General Information

## コンテキスト
病院の品質評価を知りたい理由はいろいろあります。

あなたのお母さんは2回目の股関節置換術を受けています。彼女の最初のものはひどく行きました、そして、あなたは彼女がどうするかについて神経質です。どの病院に手術を勧めますか？

州の取引所で健康プランを選択していますが、上位2つの選択肢は異なる病院と提携しています。

どのプランを選択するかをどのように決定しますか？
あなたの兄弟には嚢胞性線維症があり、ERに頻繁に行く必要があります。彼は待つのが嫌いです。

どの病院/州が最もタイムリーにケアを提供していますか？

あなたの義理は引退するため最近フロリダに引っ越しました。あなたは、あなたの状態がより良いことを彼らに示すために可能な方法を探しています。

あなたの州にはより良い病院がありますか？

公的被保険者の患者（MedicaidまたはMediCare）を受け入れるアメリカ合衆国のすべての病院は、四半期ごとに、Medicare＆Medicaid Services（CMS）に品質データを提出する必要があります。公的に被保険者の患者を受け入れない病院は非常に少ないため、これは非常に包括的なリストです。

## 内容
このファイルには、住所、病院の種類、所有構造など、メディケアに登録されているすべての病院に関する一般情報が含まれています。
また、総合評価（1〜5、5が最高の評価、1が最低）の形式で、各病院の品質に関する情報、および病院が上記のスコアと同じか、それとも低いかを示します。

さまざまな指標の全国平均。このデータは、2017年7月25日にCMSによって更新されました。CMSの総合評価には、病院比較Webサイト（https://www.medicare.gov/hospitalcompare/search.html）でデータが収集および報告される100の測定値のうち60が含まれます。 。

各メジャーには異なる収集/レポート日付があるため、このデータセットが対象とする期間を正確に指定することはできません。各メジャーの時間枠の詳細については、https：//www.medicare.gov/hospitalcompare/Data/Data-Updated.html#を参照してください。データ自体、API、およびさまざまな形式の詳細については、httpsを参照してください。 ：//data.medicare.gov/Hospital-Compare

## 謝辞注意
：米国政府の著作物はパブリックドメインであり、再利用するための許可は必要ありません。ソースとしての代理店への帰属を歓迎します。しかし、あなたの資料は、政府があなたの商品やサービスを支持しているという誤った印象を与えてはなりません。 42 U.S.Cを参照してください。 1320b-10。

## インスピレーション
- どの病院タイプと病院の所有権が最も一般的ですか？
- どの病院の種類と所有権が、平均評価/死亡率/再入院などよりも優れているのか？
- 州ごとの病院の平均評価は？
- 適切なデータを送信していない可能性が高いのはどの病院タイプと病院所有者ですか（「使用不可」および「このレポート期間の結果は使用できません」）。
- 宗教病院の密度が最も高い国と低い国はどこですか？

## データ分析
必要になるライブラリ呼ぶ

In [2]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

from collections import Counter

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline


# データ読み込み

In [3]:
train_df = pd.read_csv('~/Dropbox/@00_input/Hospital/HospInfo.csv')

データフレームのカラムを取得

In [4]:
print(train_df.columns.values)
#print(test_df.columns.values)

['Provider ID' 'Hospital Name' 'Address' 'City' 'State' 'ZIP Code'
 'County Name' 'Phone Number' 'Hospital Type' 'Hospital Ownership'
 'Emergency Services' 'Meets criteria for meaningful use of EHRs'
 'Hospital overall rating' 'Hospital overall rating footnote'
 'Mortality national comparison' 'Mortality national comparison footnote'
 'Safety of care national comparison'
 'Safety of care national comparison footnote'
 'Readmission national comparison'
 'Readmission national comparison footnote'
 'Patient experience national comparison'
 'Patient experience national comparison footnote'
 'Effectiveness of care national comparison'
 'Effectiveness of care national comparison footnote'
 'Timeliness of care national comparison'
 'Timeliness of care national comparison footnote'
 'Efficient use of medical imaging national comparison'
 'Efficient use of medical imaging national comparison footnote'
 'Location']


In [5]:
print("train data size", train_df.shape)
#print("train data size", test_df.shape)

train data size (4812, 29)


In [6]:
train_df.head()

Unnamed: 0,Provider ID,Hospital Name,Address,City,State,ZIP Code,County Name,Phone Number,Hospital Type,Hospital Ownership,...,Readmission national comparison footnote,Patient experience national comparison,Patient experience national comparison footnote,Effectiveness of care national comparison,Effectiveness of care national comparison footnote,Timeliness of care national comparison,Timeliness of care national comparison footnote,Efficient use of medical imaging national comparison,Efficient use of medical imaging national comparison footnote,Location
0,10005,MARSHALL MEDICAL CENTER SOUTH,2505 U S HIGHWAY 431 NORTH,BOAZ,AL,35957,MARSHALL,2565938310,Acute Care Hospitals,Government - Hospital District or Authority,...,,Same as the national average,,Same as the national average,,Above the national average,,Below the national average,,"2505 U S HIGHWAY 431 NORTH\nBOAZ, AL\n"
1,10012,DEKALB REGIONAL MEDICAL CENTER,200 MED CENTER DRIVE,FORT PAYNE,AL,35968,DE KALB,2568453150,Acute Care Hospitals,Proprietary,...,,Same as the national average,,Same as the national average,,Above the national average,,Same as the national average,,"200 MED CENTER DRIVE\nFORT PAYNE, AL\n"
2,10032,WEDOWEE HOSPITAL,209 NORTH MAIN STREET,WEDOWEE,AL,36278,RANDOLPH,2563572111,Acute Care Hospitals,Government - Hospital District or Authority,...,,Not Available,Results are not available for this reporting p...,Same as the national average,,Same as the national average,,Not Available,Results are not available for this reporting p...,"209 NORTH MAIN STREET\nWEDOWEE, AL\n"
3,10095,HALE COUNTY HOSPITAL,508 GREEN STREET,GREENSBORO,AL,36744,HALE,3346243024,Acute Care Hospitals,Government - Local,...,Results are not available for this reporting p...,Not Available,Results are not available for this reporting p...,Below the national average,,Same as the national average,,Not Available,Results are not available for this reporting p...,"508 GREEN STREET\nGREENSBORO, AL\n"
4,10131,CRESTWOOD MEDICAL CENTER,ONE HOSPITAL DR SE,HUNTSVILLE,AL,35801,MADISON,2568823100,Acute Care Hospitals,Proprietary,...,,Same as the national average,,Same as the national average,,Same as the national average,,Same as the national average,,"ONE HOSPITAL DR SE\nHUNTSVILLE, AL\n"


null チェック

In [8]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4812 entries, 0 to 4811
Data columns (total 29 columns):
Provider ID                                                      4812 non-null int64
Hospital Name                                                    4812 non-null object
Address                                                          4812 non-null object
City                                                             4812 non-null object
State                                                            4812 non-null object
ZIP Code                                                         4812 non-null int64
County Name                                                      4797 non-null object
Phone Number                                                     4812 non-null int64
Hospital Type                                                    4812 non-null object
Hospital Ownership                                               4812 non-null object
Emergency Services                  

In [9]:
def num_missing(x):
  return sum(x.isnull())

#Applying per column:
print ("Missing values per column:")
print (train_df.apply(num_missing, axis=0) )#axis=0 defines that function is to be applied on each column

Missing values per column:
Provider ID                                                         0
Hospital Name                                                       0
Address                                                             0
City                                                                0
State                                                               0
ZIP Code                                                            0
County Name                                                        15
Phone Number                                                        0
Hospital Type                                                       0
Hospital Ownership                                                  0
Emergency Services                                                  0
Meets criteria for meaningful use of EHRs                         144
Hospital overall rating                                             0
Hospital overall rating footnote                               