This notebook file is used data cleaning and preprocessing

In [1]:
# import necessary library
import geopandas as gpd
import maup
from maup import smart_repair

maup.progress.enabled = True
import warnings
warnings.filterwarnings('ignore')

In [4]:
# load the files
population_df = gpd.read_file("../data/arizona/az_pl2020_b/az_pl2020_p2_b.shp")
vap_df = gpd.read_file("../data/arizona/az_pl2020_b/az_pl2020_p4_b.shp")
vest20_df = gpd.read_file("../data/arizona/az_vest_20/az_vest_20.shp")
county_df = gpd.read_file("../data/arizona/az_pl2020_cnty/az_pl2020_cnty.shp")
sen_df = gpd.read_file("../data/arizona/az_pl2020_sldu/az_pl2020_sldu.shp")

In [5]:
sen_df['SLDUST20'] = sen_df['SLDUST20'].astype(str).str.lstrip('0').astype(int)
district_col_name = "SLDUST20"
population_df = population_df.to_crs(population_df.estimate_utm_crs())
vap_df = vap_df.to_crs(vap_df.estimate_utm_crs())
county_df = county_df.to_crs(county_df.estimate_utm_crs())
sen_df = sen_df.to_crs(sen_df.estimate_utm_crs())
vest20_df = vest20_df.to_crs(vest20_df.estimate_utm_crs())

In [6]:
maup.doctor(population_df)

100%|████████████████████████████████████████████████████████████████████| 155444/155444 [00:47<00:00, 3290.11it/s]


True

In [7]:
maup.doctor(vap_df)

100%|████████████████████████████████████████████████████████████████████| 155444/155444 [00:47<00:00, 3298.36it/s]


True

In [8]:
maup.doctor(county_df)

100%|█████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 145.76it/s]


True

In [9]:
maup.doctor(sen_df)

100%|█████████████████████████████████████████████████████████████████████████████| 30/30 [00:00<00:00, 150.56it/s]


True

In [10]:
maup.doctor(vest20_df)

100%|████████████████████████████████████████████████████████████████████████| 1489/1489 [00:01<00:00, 1382.05it/s]


There are 426 overlaps.
There are 5023 holes.


False

In [11]:
final_df = smart_repair(vest20_df, nest_within_regions=county_df)

100%|█████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 154.65it/s]


Snapping all geometries to a grid with precision 10^( -5 ) to avoid GEOS errors.


100%|█████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 437.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 42.53it/s]


Identifying overlaps...


100%|███████████████████████████████████████████████████████████████████████| 39294/39294 [00:55<00:00, 708.91it/s]


Resolving overlaps and filling gaps...


100%|█████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 345.02it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 42.50it/s]
Gaps to simplify in region 0: 100%|████████████████████████████████████████████| 4208/4208 [02:12<00:00, 31.81it/s]
Gaps to fill in region 0: 100%|████████████████████████████████████████████████████| 11/11 [00:00<00:00, 13.26it/s]
Gaps to simplify in region 1: 100%|██████████████████████████████████████████████| 796/796 [00:31<00:00, 25.05it/s]
Gaps to fill in region 1: 100%|██████████████████████████████████████████████████████| 7/7 [00:00<00:00, 25.19it/s]
Gaps to simplify in region 2: 100%|██████████████████████████████████████████████| 630/630 [00:17<00:00, 35.79it/s]
Gaps to fill in region 2: 100%|████████████████████████████████████████████████████| 45/45 [00:01<00:00, 25.87it/s]
Gaps to simplify in region 3: 100%|█████████████████████████████████████

In [12]:
final_df = smart_repair(final_df, min_rook_length=30)

Snapping all geometries to a grid with precision 10^( -5 ) to avoid GEOS errors.
Identifying overlaps...


100%|████████████████████████████████████████████████████████████████████████| 1489/1489 [00:00<00:00, 5032.04it/s]


Resolving overlaps...
Filling gaps...


Gaps to simplify: 0it [00:00, ?it/s]
Gaps to fill: 0it [00:00, ?it/s]


Converting small rook adjacencies to queen...


100%|████████████████████████████████████████████████████████████████████████| 1489/1489 [00:01<00:00, 1293.13it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 3894.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 3577.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 2745.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 3515.03it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 2980.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 3236.35it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 3533.53it/s]
100%|███████████████████████████████████████████████████████████████████

In [13]:
maup.doctor(final_df)

100%|████████████████████████████████████████████████████████████████████████| 1489/1489 [00:01<00:00, 1322.54it/s]


True

In [14]:
blocks_to_precincts_assignment = maup.assign(population_df.geometry, final_df.geometry)
vap_blocks_to_precincts_assignment = maup.assign(vap_df.geometry, final_df.geometry)

100%|█████████████████████████████████████████████████████████████████████████| 1489/1489 [00:01<00:00, 804.39it/s]
100%|█████████████████████████████████████████████████████████████████████████| 1489/1489 [00:06<00:00, 227.63it/s]
100%|█████████████████████████████████████████████████████████████████████████| 1489/1489 [00:02<00:00, 624.60it/s]
100%|█████████████████████████████████████████████████████████████████████████| 1489/1489 [00:06<00:00, 226.92it/s]


In [15]:
population_df.columns

Index(['GEOID20', 'SUMLEV', 'LOGRECNO', 'GEOID', 'COUNTY', 'P0020001',
       'P0020002', 'P0020003', 'P0020004', 'P0020005', 'P0020006', 'P0020007',
       'P0020008', 'P0020009', 'P0020010', 'P0020011', 'P0020012', 'P0020013',
       'P0020014', 'P0020015', 'P0020016', 'P0020017', 'P0020018', 'P0020019',
       'P0020020', 'P0020021', 'P0020022', 'P0020023', 'P0020024', 'P0020025',
       'P0020026', 'P0020027', 'P0020028', 'P0020029', 'P0020030', 'P0020031',
       'P0020032', 'P0020033', 'P0020034', 'P0020035', 'P0020036', 'P0020037',
       'P0020038', 'P0020039', 'P0020040', 'P0020041', 'P0020042', 'P0020043',
       'P0020044', 'P0020045', 'P0020046', 'P0020047', 'P0020048', 'P0020049',
       'P0020050', 'P0020051', 'P0020052', 'P0020053', 'P0020054', 'P0020055',
       'P0020056', 'P0020057', 'P0020058', 'P0020059', 'P0020060', 'P0020061',
       'P0020062', 'P0020063', 'P0020064', 'P0020065', 'P0020066', 'P0020067',
       'P0020068', 'P0020069', 'P0020070', 'P0020071', 'P002

### Naming reference
Total: P0020001  
Hispanic or Latino: P0020002  
Not Hispanic or Latino: P0020003  
Population of one race: P0020004  
White alone: P0020005  
Black or African American alone: P0020006  
American Indian and Alaska Native alone: P0020007  
Asian alone: P0020008  
Native Hawaiian and Other Pacific Islander alone: P0020009  
Some Other Race alone: P0020010  

In [16]:
# The columns we are interested in
pop_column_names = ['P0020001',
       'P0020002', 'P0020003', 'P0020004', 'P0020005', 'P0020006', 'P0020007',
       'P0020008', 'P0020009', 'P0020010']