# Prepare data for choropleth map plot/ marker plot

In [1]:
import numpy as np
import pandas as pd
import geocoder
import time

In [2]:
df = pd.read_csv('./medicine_company_province_union.csv')
df = df.drop('Unnamed: 0', axis=1)
df = df[df['company'].notnull()]
df.head()

Unnamed: 0,company,medicine,permit,province
0,北京同仁堂股份有限公司同仁堂制药厂 86900166003238),追风壮骨膏,国药准字Z11020746,北京
1,吉林恒金药业股份有限公司 86903380000212),中风再造丸,国药准字Z22024162,吉林
2,吉林敖东集团金海发药业股份有限公司 86903353000485),中风再造丸,国药准字Z22021227,吉林
3,天津中新药业集团股份有限公司达仁堂制药厂 86900960001126),痔血丸,国药准字Z12020720,天津
4,陕西冯武臣大药堂制药厂有限公司 86902367000184),治伤跌打丸,国药准字Z20003326,陕西


In [3]:
len(df['company'].unique())

298

## Choropleth data

In [4]:
data = list()
total = 0
for index, value in df.groupby('province').size().iteritems():
    data.append({
        'name': index,
        'value': value
    })
    total = total + value
print(total)
data

301


[{'name': '上海', 'value': 4},
 {'name': '云南', 'value': 3},
 {'name': '内蒙古', 'value': 17},
 {'name': '北京', 'value': 17},
 {'name': '吉林', 'value': 58},
 {'name': '四川', 'value': 4},
 {'name': '天津', 'value': 17},
 {'name': '安徽', 'value': 3},
 {'name': '山东', 'value': 10},
 {'name': '山西', 'value': 18},
 {'name': '广东', 'value': 4},
 {'name': '广西', 'value': 1},
 {'name': '新疆', 'value': 1},
 {'name': '江苏', 'value': 3},
 {'name': '江西', 'value': 6},
 {'name': '河北', 'value': 22},
 {'name': '河南', 'value': 20},
 {'name': '浙江', 'value': 5},
 {'name': '湖北', 'value': 7},
 {'name': '湖南', 'value': 3},
 {'name': '甘肃', 'value': 5},
 {'name': '贵州', 'value': 7},
 {'name': '辽宁', 'value': 26},
 {'name': '重庆', 'value': 2},
 {'name': '陕西', 'value': 7},
 {'name': '青海', 'value': 3},
 {'name': '黑龙江', 'value': 28}]

## Hospital

In [5]:
print('临床使用赛加羚羊、穿山甲、稀有蛇类原材料定点医院名单')
df_hospital = pd.read_excel('./pangolin_medicine.xlsx', 4, header=None)
df_hospital = df_hospital.drop([0, 1, 2], axis=0)
df_hospital = df_hospital.reset_index().drop('index', axis=1).fillna(method='ffill')
df_hospital.columns = ['province', 'hospital']
data2 = list()
total2 = 0
for index, value in df_hospital.groupby('province').size().iteritems():
    data2.append({
        'name': index,
        'value': value
    })
    total2 = total2 + value
    
print(total2)
data2

临床使用赛加羚羊、穿山甲、稀有蛇类原材料定点医院名单
716


[{'name': '上海', 'value': 17},
 {'name': '中国中医科学院', 'value': 4},
 {'name': '云南', 'value': 13},
 {'name': '内蒙古', 'value': 24},
 {'name': '北京', 'value': 13},
 {'name': '北京中医药大学', 'value': 2},
 {'name': '吉林', 'value': 32},
 {'name': '四川', 'value': 43},
 {'name': '天津', 'value': 7},
 {'name': '宁夏', 'value': 10},
 {'name': '安徽', 'value': 29},
 {'name': '山东', 'value': 27},
 {'name': '山西', 'value': 17},
 {'name': '广东', 'value': 31},
 {'name': '广西', 'value': 22},
 {'name': '新疆', 'value': 18},
 {'name': '江苏', 'value': 25},
 {'name': '江西', 'value': 35},
 {'name': '河北', 'value': 31},
 {'name': '河南', 'value': 63},
 {'name': '浙江', 'value': 18},
 {'name': '海南', 'value': 4},
 {'name': '湖北', 'value': 19},
 {'name': '湖南', 'value': 42},
 {'name': '甘肃', 'value': 16},
 {'name': '福建', 'value': 16},
 {'name': '西藏', 'value': 9},
 {'name': '贵州', 'value': 20},
 {'name': '辽宁', 'value': 25},
 {'name': '重庆', 'value': 13},
 {'name': '陕西', 'value': 40},
 {'name': '青海', 'value': 11},
 {'name': '黑龙江', 'value': 20}]

## Geocoding for marker plots

In [6]:
df_hospital.loc[1, 'hospital'] = '北京藏医院'

In [None]:
xs = list()
ys = list()

for address in df_hospital['hospital']:
    #If there is an error in the connection to the server, 
    #the exception raised by the requests library will be propagated up to the caller. 
    try:
        g = geocoder.osm(address)
        #When no result could be found for the given search terms,
        #the ok attribute on the returned object will be False
        if g.ok:
            print(address, g.osm['x'], g.osm['y'])
            xs.append(g.osm['x'])
            ys.append(g.osm['y'])
        else :
            print(address, 'na')
            xs.append('na')
            ys.append('na')
    except:
        print('Exception')
        xs.append('na')
        ys.append('na')
        
df_hospital['x'] = xs
df_hospital['y'] = ys
df_hospital

北京中医医院 116.3857109 39.9493125
北京藏医院 97.1812516 31.1422852
北京鼓楼中医医院 na
护国寺中医医院 116.3701463 39.9349921
宣武区中医院 118.849292049063 32.0330591
房山区中医医院 115.9567009 39.7209049
大兴区中医医院 na
顺义区中医医院 na
怀柔区中医医院 116.624099993153 40.31176125
通州区中医医院 na
北京市中西医结合医院 na
朝阳区中医医院 116.3857109 39.9493125
昌平区中医医院 na
天津中医药大学一附院 na
Exception
天津市中医医院 na
南开医院 105.001 26.7554
南开区中医医院 na
和平区中医医院 na
武清区中医医院 na
河北省中医院 114.8873508 40.8250087
石家庄市中医院 na
唐山市中医院 113.2381169 23.1120415
邯郸市中医院 na
保定市第一中医院 na
迁安市中医院 na
丰润区中医院 na
滦平县中医院 na
香河县中医院 na
唐县中医院 115.92031 28.5756467
献县中医院 116.105544421246 38.18175015
新乐市中医院 113.300412 33.7447353
涉县中医院 115.92031 28.5756467
内邱县中医院 na
曲周县中医院 118.410944460348 29.14555015
行唐县中医院 na
辛集市中医院 115.2058783 37.9380263
万全县中医院 na
玉田县中医院 na
大城县中医院 105.7146281 34.5753173
平泉县中医院 na
曲阳县中医院 na
东光县中医院 na
馆陶县中医院 na
深州市中医院 na
宽城县中医院 na
蔚县中医院 100.3055654 25.2382562
丰宁县中医院 na
饶阳县中医院 na
灵寿县中西医结合医院 na
宁晋市中西医结合医院 na
山西省中医院 na
山西中医学院第二中医院 na
山西中医学院第三中医院 na
太原市中医医院 na
朔州市中医院 na
长治市中医药研究所附院 na
晋中市中医院 na
运城市中医院 n

In [None]:
df_hospital.to_csv('./hospital_coord.csv', encoding='utf_8_sig')