Import pandas

In [1]:
import pandas as pd

Load `escolas` dataframe from csv file.

In [2]:
escolas = pd.read_csv('data/escolas.csv')
escolas

Unnamed: 0,id,Escolas_Postos,BAIRRO,ENDEREÇO,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,Caminho da Matriz 4406,-22994124,-43593683


Rename `escolas` column names and set standard to snake case.

In [3]:
column_mapping = {
    'id': 'id',
    'Escolas_Postos': 'escolas_postos',
    'BAIRRO': 'bairro',
    'ENDEREÇO ': 'endereco',
    'lat': 'latitude',
    'lon': 'longitude'
}

escolas.rename(columns=column_mapping,inplace=True)
escolas['bairro'] = escolas['bairro'].str.title()

Replace `bairro` values from `escolas` dataframe with correct values from `subprefeituras` dataframe. 

In [4]:
bairros = {
'Humaita':'Humaitá', 
'Maracanã/ Vila Isabel':'Vila Isabel',
'Maracanã/ Tijuca':'Vila Isabel',
'Meier':'Méier', 
'Inhauma':'Inhaúma',
'Oswaldo Cruz':'Osvaldo Cruz',
'Gardenia Azul':'Gardênia Azul',
'Recreio':'Recreio Dos Bandeirantes',
'Rio Das Pedras':'Jacarepaguá',
'Freguesia Jpa': 'Freguesia (Jacarepaguá)',
'Augusto Vasconcelos':'Senador Vasconcelos',
'Paciencia':'Paciência',
'Nova Sepetiba': 'Sepetiba'
}

escolas['bairro'] = escolas['bairro'].replace(bairros)
escolas

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,Caju,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,Benfica,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,Centro,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,São Cristóvão,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,Rio Comprido,Praça Condessa Paulo de Frontin 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,Guaratiba,Estrada Do Magarça 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,Guaratiba,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,Ilha De Guaratiba,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582
150,606,EM PROFESSOR CASTILHO,Ilha De Guaratiba,Caminho da Matriz 4406,-22994124,-43593683


Search for duplicated records in `escolas` dataframe.

In [21]:
duplicates_mask = escolas.duplicated(subset='id',keep=False)
duplicates_df = escolas[duplicates_mask]
duplicates_df.sort_values('id')

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude
5,17,E.M PRESIDENTE JOSE LINHARES,Ipanema,"R. Barão da Torre, 90",-22983332,-43199036
20,17,E.M PRESIDENTE JOSE LINHARES,Ipanema,"R. Barão da Torre, 90",-22983332,-43199036
135,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,Madureira,Rua Agostinho Barbalho 401,-22876082,-43343369
80,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,Madureira,Rua Agostinho Barbalho 401,-22876082,-43343369
143,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,Madureira,Rua Agostinho Barbalho 401,-22876082,-43343369
69,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,Madureira,Rua Agostinho Barbalho 401,-22876082,-43343369
151,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,Madureira,Rua Agostinho Barbalho 401,-22876082,-43343369
9,89,EM MARIO CLAUDIO,Rio Comprido,"R. Haddock Lobo, 148",-22917233,-43211044
57,89,EM MARIO CLAUDIO,Rio Comprido,"R. Haddock Lobo, 148",-22917233,-43211044
25,89,EM MARIO CLAUDIO,Rio Comprido,"R. Haddock Lobo, 148",-22917233,-43211044


Drop duplicated records from `escolas` dataframe.
Indexes 117, 112 and 15 were not dropped since they contained slightly differences between the duplicated records, such as the lack of a comma, the presence of a special character and a typo, fas follows:

* 117	206	EM HONDURAS - sem vírgula na latitude e longitude
* 112	379	CIEP NELSON MANDELA - º no endereço
* 15	413	EM CÓCIO BARCELOS - latitude incompleta

In [6]:
escolas_unique = escolas.drop_duplicates()
# duplicates_mask = escolas_unique.duplicated(subset='id',keep=False)
# duplicates_df = escolas_unique[duplicates_mask]
# duplicates_df.sort_values('id')
escolas_unique = escolas_unique.drop([117,112,15]) # elimina escolas duplicadas, mas com ligeira diferença no registro
# 117	206	EM HONDURAS - sem vírgula na latitude e longitude
# 112	379	CIEP NELSON MANDELA - º no endereço
# 15	413	EM CÓCIO BARCELOS - latitude incompleta
escolas_unique

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,Caju,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,Benfica,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,Centro,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,São Cristóvão,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,Rio Comprido,Praça Condessa Paulo de Frontin 45,-22924412,-43208579
...,...,...,...,...,...,...
146,210,EM DEBORA MENDES DE MORAES,Pedra De Guaratiba,Rua Belchior Da Fonseca 643,-23001416,-43638757
147,474,EM ENGENHEIRO GASTÃO RANGEL,Guaratiba,Estrada Do Magarça 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,Guaratiba,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,Ilha De Guaratiba,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582


In [7]:
material_didatico = pd.read_csv('data/material_didatico.csv')

column_mapping = {
    'id': 'id',
    'Quantidade': 'quantidade'
}

material_didatico.rename(columns=column_mapping,inplace=True)
material_didatico

Unnamed: 0,id,quantidade
0,178,20
1,634,121
2,483,220
3,476,190
4,132,67
...,...,...
146,474,320
147,301,335
148,215,
149,606,521


In [8]:
duplicates_mask = material_didatico.duplicated(subset='id',keep=False)
duplicates_df = material_didatico[duplicates_mask]
duplicates_df.sort_values('id')

Unnamed: 0,id,quantidade


In [9]:
subprefeituras = pd.read_csv('data/subprefeituras.csv')

column_mapping = {
    'nome': 'bairro',
    'subprefeitura': 'subprefeitura'
}

subprefeituras.rename(columns=column_mapping,inplace=True)
subprefeituras['bairro'] = subprefeituras['bairro'].str.title()
subprefeituras

Unnamed: 0,bairro,subprefeitura
0,Santo Cristo,Centro
1,Gamboa,Centro
2,Saúde,Centro
3,Caju,Centro
4,Centro,Centro
...,...,...
159,Santa Cruz,Zona Oeste
160,Guaratiba,Zona Oeste
161,Barra De Guaratiba,Zona Oeste
162,Pedra De Guaratiba,Zona Oeste


In [10]:
duplicates_mask = subprefeituras.duplicated(subset='bairro',keep=False)
duplicates_df = subprefeituras[duplicates_mask]
duplicates_df.sort_values('bairro')

Unnamed: 0,bairro,subprefeitura


In [11]:
df_temp = pd.merge(escolas_unique,material_didatico,on='id', how='left')

df_temp

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude,quantidade
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,Caju,Rua Carlos Seidl S/Nº,-22880888,-43225326,20
1,634,EM ALICE DO AMARAL PEIXOTO,Benfica,Rua Ébano 187,-22889574,-43236202,121
2,483,EM CELESTINO SILVA,Centro,"R. do Lavradio, 56",-22909293,-43183579,220
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,São Cristóvão,Praça Argentina 20,-22897629,-43227456,190
4,132,EM PEREIRA PASSOS,Rio Comprido,Praça Condessa Paulo de Frontin 45,-22924412,-43208579,67
...,...,...,...,...,...,...,...
131,210,EM DEBORA MENDES DE MORAES,Pedra De Guaratiba,Rua Belchior Da Fonseca 643,-23001416,-43638757,570
132,474,EM ENGENHEIRO GASTÃO RANGEL,Guaratiba,Estrada Do Magarça 9.183,-2298046,-43643545,320
133,301,EM JONATAS SERRANO,Guaratiba,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409,335
134,215,E.M. NARCISA AMALIA,Ilha De Guaratiba,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582,


In [12]:
df_final = pd.merge(df_temp,subprefeituras,on='bairro',how='left')

df_final

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude,quantidade,subprefeitura
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,Caju,Rua Carlos Seidl S/Nº,-22880888,-43225326,20,Centro
1,634,EM ALICE DO AMARAL PEIXOTO,Benfica,Rua Ébano 187,-22889574,-43236202,121,Centro
2,483,EM CELESTINO SILVA,Centro,"R. do Lavradio, 56",-22909293,-43183579,220,Centro
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,São Cristóvão,Praça Argentina 20,-22897629,-43227456,190,Centro
4,132,EM PEREIRA PASSOS,Rio Comprido,Praça Condessa Paulo de Frontin 45,-22924412,-43208579,67,Centro
...,...,...,...,...,...,...,...,...
131,210,EM DEBORA MENDES DE MORAES,Pedra De Guaratiba,Rua Belchior Da Fonseca 643,-23001416,-43638757,570,Zona Oeste
132,474,EM ENGENHEIRO GASTÃO RANGEL,Guaratiba,Estrada Do Magarça 9.183,-2298046,-43643545,320,Zona Oeste
133,301,EM JONATAS SERRANO,Guaratiba,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409,335,Zona Oeste
134,215,E.M. NARCISA AMALIA,Ilha De Guaratiba,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582,,Zona Oeste


In [19]:
df_final.describe()

Unnamed: 0,id
count,136.0
mean,356.514706
std,199.858727
min,11.0
25%,179.5
50%,367.0
75%,529.5
max,690.0


In [14]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id              136 non-null    int64 
 1   escolas_postos  136 non-null    object
 2   bairro          136 non-null    object
 3   endereco        136 non-null    object
 4   latitude        136 non-null    object
 5   longitude       136 non-null    object
 6   quantidade      132 non-null    object
 7   subprefeitura   136 non-null    object
dtypes: int64(1), object(7)
memory usage: 8.6+ KB


In [15]:
df_final[df_final['subprefeitura'].isnull()]

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude,quantidade,subprefeitura


In [20]:
qt_mask = pd.to_numeric(df_final['quantidade'], errors='coerce').isna()
not_numeric = df_final[qt_mask]
not_numeric

Unnamed: 0,id,escolas_postos,bairro,endereco,latitude,longitude,quantidade,subprefeitura
14,413,EM CÓCIO BARCELOS,Copacabana,"R. Barão de Ipanema, 34",-22974828,-43189063,'',Zona Sul
28,60,ESCOLA MUNICIPAL BARÃO HOMEM DE MELO,Vila Isabel,"R. Alm. João Cândido Brasil, 352",-22916829,-43236925,'NaN',Grande Tijuca
35,429,EM FELIX PACHECO,Piedade,"R. Assis Carneiro, 649",-22895086,-43313826,,Zona Norte
62,260,EM PROFESSOR JOSUE DE CASTRO,Bonsucesso,Av. Brasil 4040 Rua da Vitória,-22873739,-43240712,'397',Zona Norte
71,91,E.M. PIAUI,Guadalupe,Avenida Brasil 23.364,-22845415,-4337852,'NaN',Zona Norte
77,412,EM MOZART LAGO,Osvaldo Cruz,Rua José Carvalho Salgado S/N.º,-22872211,-43350334,'395',Zona Norte
91,492,EM MENEZES CORTES,Freguesia (Jacarepaguá),Praça José Alves De Azevedo 43,-22942655,-43338969,,Jacarepaguá
106,687,EM TASSO DA SILVEIRA,Realengo,Rua General Bernardino de Matos S/N.º,-22883859,-4341733,,Grande Bangu
127,297,EM PROFESSORA SILVIA DE ARAUJO TOLEDO,Santa Cruz,Avenida Canal 3 S/N.º Conj. Cesarão,-22930111,-43652899,' ',Zona Oeste
134,215,E.M. NARCISA AMALIA,Ilha De Guaratiba,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582,,Zona Oeste


In [17]:
subprefeituras_lst = list(subprefeituras['bairro'].unique())
subprefeituras_lst.sort()
subprefeituras_lst

['Abolição',
 'Acari',
 'Alto Da Boa Vista',
 'Anchieta',
 'Andaraí',
 'Anil',
 'Bancários',
 'Bangu',
 'Barra Da Tijuca',
 'Barra De Guaratiba',
 'Barros Filho',
 'Benfica',
 'Bento Ribeiro',
 'Bonsucesso',
 'Botafogo',
 'Brás De Pina',
 'Cachambi',
 'Cacuia',
 'Caju',
 'Camorim',
 'Campinho',
 'Campo Dos Afonsos',
 'Campo Grande',
 'Cascadura',
 'Catete',
 'Catumbi',
 'Cavalcanti',
 'Centro',
 'Cidade De Deus',
 'Cidade Nova',
 'Cidade Universitária',
 'Cocotá',
 'Coelho Neto',
 'Colégio',
 'Complexo Do Alemão',
 'Copacabana',
 'Cordovil',
 'Cosme Velho',
 'Cosmos',
 'Costa Barros',
 'Curicica',
 'Del Castilho',
 'Deodoro',
 'Encantado',
 'Engenheiro Leal',
 'Engenho Da Rainha',
 'Engenho De Dentro',
 'Engenho Novo',
 'Estácio',
 'Flamengo',
 'Freguesia (Ilha)',
 'Freguesia (Jacarepaguá)',
 'Galeão',
 'Gamboa',
 'Gardênia Azul',
 'Gericinó',
 'Glória',
 'Grajaú',
 'Grumari',
 'Guadalupe',
 'Guaratiba',
 'Gávea',
 'Higienópolis',
 'Honório Gurgel',
 'Humaitá',
 'Ilha De Guaratiba',
 '