In [7]:
import pandas as pd
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
from tqdm import tqdm

import reverse_geocoder

In [59]:
df = pd.read_csv('20230108-icews-events.tab', sep='\t')
df.head()

Unnamed: 0,Event ID,Event Date,Source Name,Source Sectors,Source Country,Event Text,CAMEO Code,Intensity,Target Name,Target Sectors,Target Country,Story ID,Sentence Number,Publisher,City,District,Province,Country,Latitude,Longitude
0,37543936,2022-10-13,Saudi Arabia,,Saudi Arabia,Deny responsibility,16,-5.0,United States,,United States,56635750,4,The Oil Daily,,,Washington D.C.,United States,38.9171,-77.0003
1,37543653,2022-10-13,Saudi Arabia,,Saudi Arabia,Praise or endorse,51,3.4,Russia,,Russian Federation,56635751,2,The Oil Daily,Riyadh,,Mintaqat ar Riyad,Saudi Arabia,24.6877,46.7219
2,37542178,2022-10-14,Israel,,Israel,Provide aid,70,7.0,United States,,United States,56633048,5,The Jerusalem Post,,,,United States,38.8951,-77.0364
3,37542179,2022-10-14,United States,,United States,Provide economic aid,71,7.4,Israel,,Israel,56633048,6,The Jerusalem Post,,,,Israel,31.779,35.2253
4,37542131,2022-10-14,Ukraine,,Ukraine,"Arrest, detain, or charge with legal action",173,-5.0,Volodymyr Zelensky,"Elite,Executive,Executive Office,Government",Ukraine,56633051,2,The Jerusalem Post,,,,Ukraine,50.4547,30.5238


In [79]:
df = df.loc[(df['Intensity'] <= -9.0)]
conflict_countries = df['Target Country'].dropna().unique()

In [80]:
geolocator = Nominatim(user_agent="mapquestapi")


def is_conflict_country(lat, long):
    query = str(lat)+','+str(long)
    reverse = RateLimiter(geolocator.reverse, min_delay_seconds=1)
    res = reverse(query)
    return res.raw['address'].get('country', '')

In [81]:
# Test query
is_conflict_country(83.16666666666667, -74.20833333333334)

'Canada'

In [2]:
df = pd.read_csv('models/data/grid.csv', encoding="UTF-8")
df.head()

Unnamed: 0,lat,long,population,wind_speed,solar
0,83.166667,-74.208333,9e-06,4.25375,107.335396
1,83.166667,-74.166667,1.1e-05,4.25375,107.335396
2,83.166667,-74.125,1.1e-05,4.25375,107.335396
3,83.166667,-74.083333,1.1e-05,4.25375,107.335396
4,83.166667,-74.041667,8e-06,4.266758,107.335396


In [4]:
tqdm.pandas()
test = list(df.progress_apply(lambda x: tuple([x['lat'], x['long']]), axis=1))

100%|██████████| 7550816/7550816 [00:51<00:00, 145791.11it/s]


In [5]:
test

[(83.16666666666667, -74.20833333333334),
 (83.16666666666667, -74.16666666666667),
 (83.16666666666667, -74.125),
 (83.16666666666667, -74.08333333333334),
 (83.16666666666667, -74.04166666666666),
 (83.16666666666667, -74.0),
 (83.125, -76.91666666666667),
 (83.125, -76.875),
 (83.125, -74.66666666666667),
 (83.125, -74.625),
 (83.125, -74.58333333333333),
 (83.125, -74.54166666666667),
 (83.125, -74.5),
 (83.125, -74.45833333333333),
 (83.125, -74.41666666666667),
 (83.125, -74.375),
 (83.125, -74.33333333333334),
 (83.125, -74.29166666666667),
 (83.125, -74.25),
 (83.125, -74.20833333333334),
 (83.125, -74.16666666666667),
 (83.125, -74.125),
 (83.125, -74.08333333333334),
 (83.125, -74.04166666666666),
 (83.125, -74.0),
 (83.125, -73.95833333333334),
 (83.125, -73.91666666666666),
 (83.125, -73.875),
 (83.125, -73.83333333333334),
 (83.125, -72.95833333333334),
 (83.125, -72.91666666666666),
 (83.125, -72.875),
 (83.125, -72.70833333333334),
 (83.125, -72.66666666666666),
 (83.125

In [8]:
coordinates = (-37.81, 144.96), (31.76, 35.21)
reverse_geocoder.search(coordinates)

Loading formatted geocoded file...


[{'lat': '-37.814',
  'lon': '144.96332',
  'name': 'Melbourne',
  'admin1': 'Victoria',
  'admin2': 'Melbourne',
  'cc': 'AU'},
 {'lat': '31.76904',
  'lon': '35.21633',
  'name': 'Jerusalem',
  'admin1': 'Jerusalem',
  'admin2': '',
  'cc': 'IL'}]

In [9]:
locations = reverse_geocoder.search(test)

In [12]:
import numpy as np
t = np.random.choice(locations, size=5, replace=False)

In [13]:
t

array([{'lat': '-8.94111', 'lon': '-72.79167', 'name': 'Marechal Thaumaturgo', 'admin1': 'Acre', 'admin2': 'Marechal Thaumaturgo', 'cc': 'BR'},
       {'lat': '25.12163', 'lon': '62.32541', 'name': 'Gwadar', 'admin1': 'Balochistan', 'admin2': '', 'cc': 'PK'},
       {'lat': '64.56968', 'lon': '143.237', 'name': 'Ust-Nera', 'admin1': 'Sakha', 'admin2': '', 'cc': 'RU'},
       {'lat': '34.1885', 'lon': '48.377', 'name': 'Nahavand', 'admin1': 'Hamadan', 'admin2': '', 'cc': 'IR'},
       {'lat': '18.73694', 'lon': '7.38528', 'name': 'Arlit', 'admin1': 'Agadez', 'admin2': '', 'cc': 'NE'}],
      dtype=object)

: 

In [84]:
drop_list = []
for ind in tqdm(df.index):
    lat = df['lat'][ind]
    long = df['long'][ind]

    if is_conflict_country(lat, long) in conflict_countries:
        drop_list.append(ind)


df_no_conflicts = df.drop(drop_list)

  0%|          | 56/7550816 [00:28<1080:03:48,  1.94it/s]


KeyboardInterrupt: 