# Scraping public bodies info for Nepal

In [14]:
import pandas as pd

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

In [3]:
url = 'https://mofaga.gov.np/local-contact'

In [4]:
response = requests.get(url)

In [5]:
soup = BeautifulSoup(response.content)

In [7]:
table = soup.find('table')

In [24]:
columns = [tag.text for tag in table.find_all('th')]
columns

['क्रस',
 'प्रदेश',
 'स्थानीय तहको नाम',
 'जिल्ला',
 'वेवसाईट',
 'कार्यालयको ईमेल',
 'सम्पर्क फोन',
 'बिस्तृतमा']

In [17]:
rows = table.find('tbody').find_all('tr')

## Exploring the first row

In [19]:
first_row = rows[0]
first_row

<tr>
<td>१</td>
<td>प्रदेश नं. १</td>
<td>फक्ताङलुङ गाउँपालिका</td>
<td>ताप्लेजुङ</td>
<td>
<span class="badge badge-success">
<a href="http://phaktanglungmun.gov.np" style="color:#fff;" target="_banner" title="http://phaktanglungmun.gov.np">
<i class="fa fa-link"></i> Web Site</a>
</span>
</td>
<td>phaktanglungmun@gmail.com</td>
<td>021-696491</td>
<td><button class="btn btn-primary"><i class="fa fa-eye"></i></button></td>
</tr>

In [26]:
[cell.text for cell in first_row.find_all('td')]

['१',
 'प्रदेश नं. १',
 'फक्ताङलुङ गाउँपालिका',
 'ताप्लेजुङ',
 '\n\n\n Web Site\n\n',
 'phaktanglungmun@gmail.com',
 '021-696491',
 '']

In [25]:
len(columns)

8

## Building the data frame

In [51]:
df = pd.DataFrame(columns=columns)

In [44]:
df

Unnamed: 0,क्रस,प्रदेश,स्थानीय तहको नाम,जिल्ला,वेवसाईट,कार्यालयको ईमेल,सम्पर्क फोन,बिस्तृतमा


In [52]:
for row in rows:
    cells = [cell.text for cell in row.find_all('td')]
    entry = dict(zip(columns, cells))
    entry['वेवसाईट'] = row.find('a').attrs['href']
    df.loc[len(df.index)] = entry.values()

In [53]:
df

Unnamed: 0,क्रस,प्रदेश,स्थानीय तहको नाम,जिल्ला,वेवसाईट,कार्यालयको ईमेल,सम्पर्क फोन,बिस्तृतमा
0,१,प्रदेश नं. १,फक्ताङलुङ गाउँपालिका,ताप्लेजुङ,http://phaktanglungmun.gov.np,phaktanglungmun@gmail.com,021-696491,
1,२,प्रदेश नं. १,मिक्वाखोला गाउँपालिका,ताप्लेजुङ,http://mikwakholamun.gov.np,info@mikwakholamun.gov.np,9742691943,
2,३,प्रदेश नं. १,मेरिङदेन गाउँपालिका,ताप्लेजुङ,http://meringdenmun.gov.np,meringden@gmail.com,9852660822,
3,४,प्रदेश नं. १,मैवाखोला गाउँपालिका,ताप्लेजुङ,http://maiwakholamun.gov.np,maiwakholarm@gmail.com,9852660937,
4,५,प्रदेश नं. १,आठराई त्रिवेणी गाउँपालिका,ताप्लेजुङ,http://aathraitribenimun.gov.np,aathrai.tribenimun@gmail.com,9852660960,
5,६,प्रदेश नं. १,फुङलिङ नगरपालिका,ताप्लेजुङ,http://phunglingmun.gov.np,info@phunglingmun.gov.np,024-460114,
6,७,प्रदेश नं. १,पाथिभरा याङ्वरक गाउँपालिका,ताप्लेजुङ,http://yangwarakmuntaplejung.gov.np,pathivarayang@gmail.com,9852660460,
7,८,प्रदेश नं. १,सिरीजङ्घा गाउँपालिका,ताप्लेजुङ,http://sirijanghamun.gov.np,sirijangharuralmunicipality@gmail.com,9861991144,
8,९,प्रदेश नं. १,सिदिङ्वा गाउँपालिका,ताप्लेजुङ,http://sidingbamun.gov.np,sidingbarmtpj@gmail.com,9852660153,
9,१०,प्रदेश नं. १,भोटखोला गाउँपालिका,संखुवासभा,http://bhotkholamun.gov.np,bhotkholamun@gmail.com,9752006670,


### Scraping function

In [54]:
def scrape_table(url: str) -> pd.DataFrame:
    """Scrapes a table from html in the government directory at https://mofaga.gov.np/local-contact
    and returns a data frame.
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.content)
    table = soup.find('table')
    columns = [tag.text for tag in table.find_all('th')]
    rows = table.find('tbody').find_all('tr')
    df = pd.DataFrame(columns=columns)
    for row in rows:
        cells = [cell.text for cell in row.find_all('td')]
        entry = dict(zip(columns, cells))
        entry['वेवसाईट'] = row.find('a').attrs['href']
        df.loc[len(df.index)] = entry.values()
    return df

### Data extraction

Scrape the district government organizations.

In [56]:
df = scrape_table('https://mofaga.gov.np/local-contact/dcc-prov-1?_token=29tedmjpqp7lgXXFG7hP0rliFO5kijkX36jLRsFF&province_id=0&dist_id=&visible=500')
df

Unnamed: 0,क्रस,प्रदेश,जिल्ला,जिल्ला समन्वय समिति,वेवसाईट,ईमेल,फोन,एक्सन
0,1.,प्रदेश नं. १,ताप्लेजुङ,जिल्ला समन्वय समिति ताप्लेजुङ्ग,http://dcctaplejung.gov.np,info@dcctaplejung.gov.np,024-460143,
1,2.,प्रदेश नं. १,पाँचथर,जिल्ला समन्वय समिति पाँचथर,http://dccpanchthar.gov.np,info@ddcpanchthar.gov.np,024-520120,
2,3.,प्रदेश नं. १,इलाम,जिल्ला समन्वय समिति इलाम,http://dccilam.gov.np,info@ddcilam.gov.np,027-521776,
3,4.,प्रदेश नं. १,झापा,जिल्ला समन्वय समिति झापा,http://dccjhapa.gov.np,info@ddcjhapa.gov.np,023-455034,
4,5.,प्रदेश नं. १,संखुवासभा,जिल्ला समन्वय समिति संखुवासभा,http://dccsankhuwasabha.gov.np,info@ddcsankhuwasabha.gov.np,029-560044,
...,...,...,...,...,...,...,...,...
72,73.,सुदूरपश्चिम प्रदेश,बझाङ,जिल्ला समन्वय समिति बझाङ,http://dccbajhang.gov.np,info@ddcbajhang.gov.np,092-421057,
73,74.,सुदूरपश्चिम प्रदेश,दार्चुला,जिल्ला समन्वय समिति दार्चुला,http://dccdarchula.gov.np,,974950783,
74,75.,सुदूरपश्चिम प्रदेश,बैतडी,जिल्ला समन्वय समिति बैतडी,http://dccbaitadi.gov.np,ddcbaitadi@gmail.com,095-520144,
75,76.,सुदूरपश्चिम प्रदेश,डडेल्धुरा,जिल्ला समन्वय समिति डडेलधुरा,http://dccdadeldhura.gov.np,ddcdadeldhura@gmail.com,096-410144,


In [57]:
df.to_csv('data/nepal-district-govorgs.csv', index=False)

Scrape the local government organizations url.

In [58]:
df = scrape_table('https://mofaga.gov.np/local-contact?_token=29tedmjpqp7lgXXFG7hP0rliFO5kijkX36jLRsFF&province_id=&dist_id=&local_tpe=&visible=10000&q=')
df

Unnamed: 0,क्रस,प्रदेश,स्थानीय तहको नाम,जिल्ला,वेवसाईट,कार्यालयको ईमेल,सम्पर्क फोन,बिस्तृतमा
0,१,प्रदेश नं. १,फक्ताङलुङ गाउँपालिका,ताप्लेजुङ,http://phaktanglungmun.gov.np,phaktanglungmun@gmail.com,021-696491,
1,२,प्रदेश नं. १,मिक्वाखोला गाउँपालिका,ताप्लेजुङ,http://mikwakholamun.gov.np,info@mikwakholamun.gov.np,9742691943,
2,३,प्रदेश नं. १,मेरिङदेन गाउँपालिका,ताप्लेजुङ,http://meringdenmun.gov.np,meringden@gmail.com,9852660822,
3,४,प्रदेश नं. १,मैवाखोला गाउँपालिका,ताप्लेजुङ,http://maiwakholamun.gov.np,maiwakholarm@gmail.com,9852660937,
4,५,प्रदेश नं. १,आठराई त्रिवेणी गाउँपालिका,ताप्लेजुङ,http://aathraitribenimun.gov.np,aathrai.tribenimun@gmail.com,9852660960,
...,...,...,...,...,...,...,...,...
748,७४९,सुदूरपश्चिम प्रदेश,दोधारा चाँदनी नगरपालिका,कञ्चनपुर,http://dodharachandanimun.gov.np,dcmun1015@gmail.com,099-400030,
749,७५०,सुदूरपश्चिम प्रदेश,लालझाडी गाउँपालिका,कञ्चनपुर,http://laljhadimun.gov.np,info@laljhadimun.gov.np,9858754111,
750,७५१,सुदूरपश्चिम प्रदेश,पुनर्वास नगरपालिका,कञ्चनपुर,http://punarbasmun.gov.np,info@punarbasmun.gov.np,099-420055,
751,७५२,सुदूरपश्चिम प्रदेश,बेलौरी नगरपालिका,कञ्चनपुर,http://belaurimun.gov.np,belaurimunicipality@gmail.com,099-580292,


In [59]:
df.to_csv('data/nepal-local-govorgs.csv', index=False)