### Validate email addresses

It's important to validate e-mail addresses before sending as to avoid your domain being marked. The API scraped addresses are probably correct, so it is optional to have an extra validation for these values.

Below you'll find how to validate the filled in email addresses

In [10]:
!pip install email-validator

Collecting email-validator
  Downloading email_validator-2.2.0-py3-none-any.whl (33 kB)
Installing collected packages: email-validator
Successfully installed email-validator-2.2.0


In [11]:
from email_validator import validate_email, EmailNotValidError
import re
import pandas as pd

In [12]:
df = pd.read_csv("gathered-data/elektriciens-vlaanderen-emails-filled.csv")
df[5:10]

Unnamed: 0,Name,Website,Phone Number,City,Email
5,Vaernewyck Bvba,vaernewyck.be,0480 64 58 10,Kortrijk,info@vaernewyck.be
6,Ad Electrics,adelectrics.be,0472 48 32 73,Kortrijk,info@adelectrics.be
7,Debaled Technics,debaled.be,0468 34 49 13,Kortrijk,info@debaled.be
8,Decroix / Geert Leon,geert-decroix.be,056 77 23 10,Kortrijk,info@geert-decroix.be
9,Elkin,elkin.be,0496 46 06 47,Kortrijk,info@elkin.be


In [17]:
# Functie om e-mailadressen te valideren
def is_valid_email(email):
    # Controleer het formaat van het e-mailadres
    regex = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
    if not re.match(regex, email):
        return False
    
    # Controleer of het domein bestaat en bereikbaar is
    try:
        valid = validate_email(email, check_deliverability=True)
        return True
    except EmailNotValidError:
        return False

# Voeg een nieuwe kolom toe met de validatiestatus van de e-mailadressen
df['IsValid'] = df['Email'].apply(is_valid_email)

df.head()


Unnamed: 0,Name,Website,Phone Number,City,Email,IsValid
0,Electro Blondeel,electroblondeel.be,0475 62 50 23,Kortrijk,info@electroblondeel.be,True
1,Electro Devosco Bv,electrodevosco.be,051 30 47 85,Kortrijk,info@electrodevosco.be,True
2,Elektriciteitswerken Verhelst,elektriciteitverhelst.be,0468 48 68 41,Kortrijk,info@elektriciteitverhelst.be,True
3,Elektro Steve-O,steveoelektro.be,0487 73 50 51,Kortrijk,info@steveoelektro.be,True
4,Dupont Electro,electrodupont.be,056 50 38 57,Kortrijk,info@electrodupont.be,True


In [24]:
# Drop rows where IsValid = False
df_true = df.loc[df["IsValid"]==True]
df_true.shape[0]

16

In [27]:
df_true.drop(columns=["IsValid"])

Unnamed: 0,Name,Website,Phone Number,City,Email
0,Electro Blondeel,electroblondeel.be,0475 62 50 23,Kortrijk,info@electroblondeel.be
1,Electro Devosco Bv,electrodevosco.be,051 30 47 85,Kortrijk,info@electrodevosco.be
2,Elektriciteitswerken Verhelst,elektriciteitverhelst.be,0468 48 68 41,Kortrijk,info@elektriciteitverhelst.be
3,Elektro Steve-O,steveoelektro.be,0487 73 50 51,Kortrijk,info@steveoelektro.be
4,Dupont Electro,electrodupont.be,056 50 38 57,Kortrijk,info@electrodupont.be
5,Vaernewyck Bvba,vaernewyck.be,0480 64 58 10,Kortrijk,info@vaernewyck.be
6,Ad Electrics,adelectrics.be,0472 48 32 73,Kortrijk,info@adelectrics.be
7,Debaled Technics,debaled.be,0468 34 49 13,Kortrijk,info@debaled.be
8,Decroix / Geert Leon,geert-decroix.be,056 77 23 10,Kortrijk,info@geert-decroix.be
9,Elkin,elkin.be,0496 46 06 47,Kortrijk,info@elkin.be


In [28]:
# Save df as a .csv
df_true.to_csv("gathered-data/elektriciens-vlaanderen-emails-filled-validated")