## Demographic Data Validation

In [11]:
# Import libraries
import geopandas as gpd

In [12]:
# Read in dataset
geospatial = gpd.read_file('datasets/SP_Setores_2020/SP_Setores_2020.shp')

In [13]:
# Check original data shape, types and missing entries
geospatial.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 101942 entries, 0 to 101941
Data columns (total 13 columns):
 #   Column      Non-Null Count   Dtype   
---  ------      --------------   -----   
 0   CD_SETOR    101942 non-null  object  
 1   CD_SIT      101942 non-null  object  
 2   NM_SIT      101942 non-null  object  
 3   CD_UF       101942 non-null  object  
 4   NM_UF       101942 non-null  object  
 5   SIGLA_UF    101942 non-null  object  
 6   CD_MUN      101942 non-null  object  
 7   NM_MUN      101942 non-null  object  
 8   CD_DIST     101942 non-null  object  
 9   NM_DIST     101942 non-null  object  
 10  CD_SUBDIST  101942 non-null  object  
 11  NM_SUBDIST  0 non-null       object  
 12  geometry    101942 non-null  geometry
dtypes: geometry(1), object(12)
memory usage: 10.1+ MB


In [14]:
# Have a look at a random sample of 10 rows
geospatial.sample(10, random_state=1)

Unnamed: 0,CD_SETOR,CD_SIT,NM_SIT,CD_UF,NM_UF,SIGLA_UF,CD_MUN,NM_MUN,CD_DIST,NM_DIST,CD_SUBDIST,NM_SUBDIST,geometry
95575,355220505000822,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3552205,Sorocaba,355220505,Sorocaba,35522050500,,"POLYGON ((-47.42832 -23.49631, -47.42857 -23.4..."
51165,354140605000079,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3541406,Presidente Prudente,354140605,Presidente Prudente,35414060500,,"POLYGON ((-51.39643 -22.13742, -51.39683 -22.1..."
59816,354870805000607,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3548708,São Bernardo do Campo,354870805,São Bernardo do Campo,35487080500,,"POLYGON ((-46.59041 -23.73332, -46.59040 -23.7..."
53017,354340205000752,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3543402,Ribeirão Preto,354340205,Ribeirão Preto,35434020500,,"POLYGON ((-47.81698 -21.11858, -47.81698 -21.1..."
68113,355030814000140,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3550308,São Paulo,355030814,Cambuci,35503081400,,"POLYGON ((-46.62305 -23.55928, -46.62318 -23.5..."
71588,355030825000219,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3550308,São Paulo,355030825,Cidade Tiradentes,35503082500,,"POLYGON ((-46.40227 -23.60196, -46.40227 -23.6..."
5678,350570810000056,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3505708,Barueri,350570810,Aldeia,35057081000,,"POLYGON ((-46.85389 -23.51025, -46.85272 -23.5..."
22284,351760405000052,8,Área Rural (exclusive aglomerados),35,São Paulo,SP,3517604,Guapiara,351760405,Guapiara,35176040500,,"POLYGON ((-48.59095 -24.12069, -48.59073 -24.1..."
3714,350390105000150,1,Área Urbana de Alta Densidade de Edificações,35,São Paulo,SP,3503901,Arujá,350390105,Arujá,35039010500,,"POLYGON ((-46.33893 -23.40019, -46.33880 -23.4..."
94817,355200705000011,8,Área Rural (exclusive aglomerados),35,São Paulo,SP,3552007,Silveiras,355200705,Silveiras,35520070500,,"POLYGON ((-44.86888 -22.72100, -44.86911 -22.7..."


In [15]:
# Filter entries located in the city of Sao Paulo
geospatial_sp = geospatial[geospatial['NM_MUN'] == 'São Paulo']

In [16]:
# Keep relevant columns
geospatial_sp = geospatial_sp[['CD_SETOR', 'NM_MUN', 'NM_DIST', 'geometry']]

In [17]:
# Rename columns to improve data legibility
geospatial_sp.columns = ['sector_id', 'city', 'district', 'geometry']

In [18]:
# Validate transformations
geospatial_sp

Unnamed: 0,sector_id,city,district,geometry
65509,355030801000001,São Paulo,Água Rasa,"POLYGON ((-46.56954 -23.56918, -46.57016 -23.5..."
65510,355030801000002,São Paulo,Água Rasa,"POLYGON ((-46.56806 -23.56521, -46.56786 -23.5..."
65511,355030801000003,São Paulo,Água Rasa,"POLYGON ((-46.56619 -23.56605, -46.56632 -23.5..."
65512,355030801000004,São Paulo,Água Rasa,"POLYGON ((-46.56876 -23.56856, -46.56863 -23.5..."
65513,355030801000005,São Paulo,Água Rasa,"POLYGON ((-46.57121 -23.57005, -46.57056 -23.5..."
...,...,...,...,...
92915,355030896000335,São Paulo,Lajeado,"POLYGON ((-46.42886 -23.52740, -46.42884 -23.5..."
92916,355030896000336,São Paulo,Lajeado,"POLYGON ((-46.42559 -23.53213, -46.42579 -23.5..."
92917,355030896000337,São Paulo,Lajeado,"POLYGON ((-46.42349 -23.52662, -46.42328 -23.5..."
92918,355030896000338,São Paulo,Lajeado,"POLYGON ((-46.41474 -23.52423, -46.41415 -23.5..."


In [20]:
# Save validated dataset to shp
geospatial_sp.to_file('datasets/validated_shp/sp_geospatial.shp')