### selenium installation

In [1]:
!pip install selenium
!apt-get update 
!apt install chromium-chromedriver

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

Collecting selenium
[?25l  Downloading https://files.pythonhosted.org/packages/80/d6/4294f0b4bce4de0abf13e17190289f9d0613b0a44e5dd6a7f5ca98459853/selenium-3.141.0-py2.py3-none-any.whl (904kB)
[K     |▍                               | 10kB 15.1MB/s eta 0:00:01[K     |▊                               | 20kB 21.2MB/s eta 0:00:01[K     |█                               | 30kB 12.5MB/s eta 0:00:01[K     |█▌                              | 40kB 10.1MB/s eta 0:00:01[K     |█▉                              | 51kB 7.3MB/s eta 0:00:01[K     |██▏                             | 61kB 8.4MB/s eta 0:00:01[K     |██▌                             | 71kB 8.2MB/s eta 0:00:01[K     |███                             | 81kB 8.9MB/s eta 0:00:01[K     |███▎                            | 92kB 8.2MB/s eta 0:00:01[K     |███▋                            | 102kB 7.4MB/s eta 0:00:01[K     |████                            | 112kB 7.4MB/s eta 0:00:01[K     |████▍                           | 122kB 7.4

### data scraping

In [2]:
saglik_url = 'https://covid19.saglik.gov.tr/TR-66935/genel-koronavirus-tablosu.html'

wd = webdriver.Chrome('chromedriver', options=chrome_options)
wd.get(saglik_url)

In [3]:
elem_cols = wd.find_element_by_tag_name('thead')
elem_rows = wd.find_element_by_tag_name('tbody')

In [4]:
cols = [col.text for col in elem_cols.find_elements_by_tag_name('th')]
rows = [[data.text for data in row.find_elements_by_tag_name('td')] for row in elem_rows.find_elements_by_tag_name('tr')]

### data transformation

In [5]:
import pandas as pd

df_covid = pd.DataFrame(data=rows, columns=cols)
df_covid.head()

Unnamed: 0,Tarih,Toplam Test Sayısı,Toplam Vaka Sayısı,Toplam Vefat Sayısı,Hastalarda Zatürre Oranı (%),Ağır Hasta Sayısı,Toplam İyileşen Hasta Sayısı,Bugünkü Vaka Sayısı,Bugünkü Hasta Sayısı,Bugünkü Test Sayısı,Bugünkü Vefat Sayısı,Bugünkü İyileşen Sayısı
0,29 HAZİRAN 2021,60.558.812,5.420.156,49.687,37,730,5.287.094,5.846,510,229.846,53,6.536
1,28 HAZİRAN 2021,60.328.966,5.414.310,49.634,29,751,5.280.558,5.283,431,223.525,58,5.327
2,27 HAZİRAN 2021,60.105.441,5.409.027,49.576,29,736,5.275.231,4.883,390,215.294,52,5.937
3,26 HAZİRAN 2021,59.890.147,5.404.144,49.524,29,733,5.269.294,5.266,470,222.561,51,7.402
4,25 HAZİRAN 2021,59.667.586,5.398.878,49.473,29,737,5.261.892,5.63,477,222.936,56,7.184


In [6]:
df_covid = df_covid.replace(regex={'\.': ''})
df_covid = df_covid.replace(regex={',': '.'})

months = {
    'OCAK': '01', 'ŞUBAT': '02', 'MART': '03', 'NİSAN': '04', 
    'MAYIS': '05', 'HAZİRAN': '06', 'TEMMUZ': '07', 'AĞUSTOS': '08',
    'EYLÜL': '09', 'EKİM': '10', 'KASIM': '11', 'ARALIK': '12'
}

df_covid['Tarih'] = df_covid['Tarih'].replace(regex=months)
df_covid['Tarih'] = df_covid['Tarih'].replace(regex={'(\d) (\d)': r'\1-\2'})
df_covid['Tarih'] = df_covid['Tarih'].str.strip()
df_covid['Tarih'] = pd.to_datetime(df_covid['Tarih'], format='%d-%m-%Y')

df_covid = df_covid.set_index('Tarih')

df_covid.head()

Unnamed: 0_level_0,Toplam Test Sayısı,Toplam Vaka Sayısı,Toplam Vefat Sayısı,Hastalarda Zatürre Oranı (%),Ağır Hasta Sayısı,Toplam İyileşen Hasta Sayısı,Bugünkü Vaka Sayısı,Bugünkü Hasta Sayısı,Bugünkü Test Sayısı,Bugünkü Vefat Sayısı,Bugünkü İyileşen Sayısı
Tarih,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-06-29,60558812,5420156,49687,3.7,730,5287094,5846,510,229846,53,6536
2021-06-28,60328966,5414310,49634,2.9,751,5280558,5283,431,223525,58,5327
2021-06-27,60105441,5409027,49576,2.9,736,5275231,4883,390,215294,52,5937
2021-06-26,59890147,5404144,49524,2.9,733,5269294,5266,470,222561,51,7402
2021-06-25,59667586,5398878,49473,2.9,737,5261892,5630,477,222936,56,7184


### download

In [7]:
from google.colab import files

df_covid.to_csv('turkey.csv')
files.download('turkey.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>