Projeto desenvolvido no âmbito do módulo de Técnicas de Programação I, na trilha de Engenharia de dados do programa Santander Coders 2023, em parceria com a Ada Tech.

Projeto elaborado por:
- Andreza Lima
- Danilo Freitas
- Luis Felipe Gilisk
- Patrick Leite

# Descrição do projeto


Você trabalha em uma consultoria de dados que foi contratada para realizar a distribuição de materiais didáticos nas escolas da cidade do Rio de Janeiro. Sua missão é realizar tratamentos nos dados de acordo com as normas de padrão definidas pelo cliente e encontrar qual a melhor rota que um caminhão deve realizar para entregar os materiais didáticos de forma a otimizar o seu percurso. 

Para esse projeto você recebeu três arquivos:
- escolas.csv: contém os dados das escolas
- subprefeituras.csv: contém dados de quais bairros pertem a cada subprefeitura
- material_didatico.csv: contém a quantidade de material didático que cada escola deve receber

Como produto final, você deve entregar:
- um arquivo csv contendo os dados no padrão especificado com as escolas ordenadas em que os materiais didáticos devem ser entregues e com as colunas contendo id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de material didático que deve ser entregue;
- um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

Como padrão dos dados, considere:
- nome das colunas em snake_case
- strings não devem conter acentos
- todas as strings devem estar em maiúsculo
- padronização do nome dos logradouros sem abreviação (Ex: R. deve estar como Rua)
- latitude e longitude devem conter apenas 5 casas decimais
- os ids da escola devem todos ser strings com 3 caracteres (Ex: '024')

Desafio:

Entregar um plot com a representação da melhor rota que você encontrou, por exemplo:
<img src='rota.png' width=600>


_______


# Proposta de resolução

## Importando pacotes

In [78]:
## Executar apenas se for preciso instalar pacotes
# !pip install pandas
# !pip install unidecode

In [79]:
import googlemaps
import pandas as pd
import unidecode 

## Funções auxiliares

In [80]:
# Função para tratamento de colunas strings (remove acentos, coloca em maiúsculo, remove abreviações)
def trata_string(df,*colunas):
    """
    Recebe um data frame e os nomes das colunas que devem ter seu conteúdo transformado
    Retorna o mesmo data frame com as colunas transformadas
    """
    for coluna in colunas:
        # Remove acentos e transforma em maiúsculas
        df[coluna] = [unidecode.unidecode(x) for x in df[coluna].str.upper() ]

        # Remove espaços no início e ao final da string
        df[coluna] = [x for x in df[coluna].str.strip()]

        # Remove espaços duplos no meio das strings
        df[coluna] = [" ".join(x.split()) for x in df[coluna]]


    return df

## Tratamento de escolas.csv

### Conhecendo os dados

In [81]:
# Leitura do arquivo
escolas = pd.read_csv("escolas.csv")

In [82]:
# Verifica a estrutura
escolas.head()

Unnamed: 0,id,Escolas_Postos,BAIRRO,ENDEREÇO,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22924412,-43208579


In [83]:
# verifica informações mais detalhadas do data frame
escolas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152 entries, 0 to 151
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id              152 non-null    int64 
 1   Escolas_Postos  152 non-null    object
 2   BAIRRO          152 non-null    object
 3   ENDEREÇO        152 non-null    object
 4   lat             152 non-null    object
 5   lon             152 non-null    object
dtypes: int64(1), object(5)
memory usage: 7.2+ KB


Destes resultados, é possível verificar que:

- o dataset contém 152 linhas de escolas
- os nomes das colunas não estão em formato snake case
- existe um ç nos nomes das colunas
- nenhum campo contém nulos
- o campo id tem tipologia de número inteiro, quando pelas instruções deveria ser string com tamanho padronizado em 3
- os campos escolas_postos, bairro e endereço precisam ser tratados para:
    - não conter acentos
    - estarem todas em maiúsculo
    - remover abreviação
- os campos latitude e longitude devem ser tratados para conter apenas 5 casas decimais. 

A partir desta constatação, serão executadas ações para corrigir os pontos identificados acima. Após os tratamentos das colunas, serão tratados possíveis dados duplicados.

### Corrigindo nomes das colunas

In [84]:
## Renomeia os nomes das colunas para snake case

# transforma os nomes das colunas em minúsculos 
escolas.columns = escolas.columns.str.lower()

# remove espaços antes e depois dos nomes das colunas, se houver
escolas.columns = escolas.columns.str.strip()

# remove os acentos dos nomes das colunas
escolas.columns = [unidecode.unidecode(x) for x in escolas.columns ]

In [85]:
# verifica a nova estrutura
escolas.head()

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22924412,-43208579


### Corrigindo Ids

In [86]:
# verifica id
escolas.id.describe()

count    152.000000
mean     342.638158
std      203.307667
min       11.000000
25%      160.000000
50%      346.500000
75%      520.750000
max      690.000000
Name: id, dtype: float64

Verifica-se que existem inteiros com menos de 3 caracteres, então além de transformar a coluna em string, será necessário incluir zeros à esquerda, quando necessário

In [87]:
# transforma coluna id em string:
escolas["id"] = escolas.id.astype(str)

In [88]:
escolas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152 entries, 0 to 151
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id              152 non-null    object
 1   escolas_postos  152 non-null    object
 2   bairro          152 non-null    object
 3   endereco        152 non-null    object
 4   lat             152 non-null    object
 5   lon             152 non-null    object
dtypes: object(6)
memory usage: 7.2+ KB


Como pandas usa object dtype para armazenar strings, resta agora apenas adicionar os zeros.

In [89]:
# Inclui zeros até que a string tenha tamanho 3
escolas["id"] = escolas.id.str.zfill(3)

In [90]:
# Checando os novos ids
escolas.id.unique()

array(['178', '634', '483', '476', '132', '017', '055', '490', '600',
       '089', '387', '331', '450', '558', '413', '540', '309', '268',
       '523', '035', '011', '226', '638', '126', '180', '163', '361',
       '280', '060', '587', '653', '660', '382', '217', '378', '429',
       '025', '373', '624', '157', '020', '117', '502', '351', '135',
       '388', '440', '259', '422', '041', '537', '230', '379', '146',
       '566', '498', '663', '121', '161', '263', '118', '140', '260',
       '069', '090', '274', '676', '390', '608', '589', '256', '091',
       '248', '623', '603', '673', '520', '412', '031', '514', '023',
       '415', '016', '570', '528', '414', '690', '202', '550', '211',
       '206', '492', '466', '636', '527', '586', '080', '398', '175',
       '308', '576', '495', '641', '689', '171', '477', '687', '568',
       '399', '255', '262', '616', '320', '144', '534', '342', '052',
       '139', '323', '573', '560', '246', '319', '584', '311', '316',
       '497', '297',

### Tratando colunas do tipo string

In [91]:
escolas

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,Caminho da Matriz 4406,-22994124,-43593683


In [92]:
# Aplica função auxiliar para tratamento de strings.
trata_string(escolas,"escolas_postos","bairro","endereco")

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/No,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA EBANO 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. DO LAVRADIO, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SAO CRISTOVAO,PRACA ARGENTINA 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,PRACA CONDESSA PAULO DE FRONTIN 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTAO RANGEL,GUARATIBA,ESTRADA DO MAGARCA 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,GUARATIBA,"ESTRADA DO MATO ALTO, S/No",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,ESTRADA TEODORETO DE CAMARGO S/N.o,-23009084,-43537582
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,CAMINHO DA MATRIZ 4406,-22994124,-43593683


Para padronizar as siglas, o conhecimento da área de negócio seria o mais poderoso insight para resolver todas as ocorrências. Mas na ausência deste conhecimento, será necessário mais algumas investigações.

In [93]:
# Verificando as entradas distintas para escolas_postos
escolas.escolas_postos.unique()

array(['CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL',
       'EM ALICE DO AMARAL PEIXOTO', 'EM CELESTINO SILVA',
       'ESCOLA MUNICIPAL FLORIANO PEIXOTO', 'EM PEREIRA PASSOS',
       'E.M PRESIDENTE JOSE LINHARES', 'EM SANTA CATARINA',
       'E.M TIA CIATA', 'EM URUGUAI', 'EM MARIO CLAUDIO',
       'CIEP PRESIDENTE AGOSTINHO NETO', 'CIEP TANCREDO NEVES',
       'EM ALBERTO BARTH', 'EM CICERO PENA', 'EM COCIO BARCELOS',
       'EM HENRIQUE DODSWORTH', 'EM MEXICO',
       'ESCOLA MUNICIPAL MINAS GERAIS', 'EM PRESIDENTE DA COSTA E SILVA',
       'EM SENADOR CORREA', 'CIEP SAMUEL WEINER', 'EM AFRANIO PEIXOTO',
       'E.M AZEVEDO SODRE', 'EM DUQUE DE CAXIAS',
       'ESCOLA MUNICIPAL EQUADOR', 'EM LAUDIMIA TROTTA',
       'EM PRUDENTE DE MORAES',
       'ESCOLA MUNICIPAL GENERAL HUMBERTO DE SOUZA MELLO',
       'ESCOLA MUNICIPAL BARAO HOMEM DE MELO', 'EM ALMIRANTE TAMANDARE',
       'EM LUCIA MIGUEL PEREIRA', 'E.M NOSSA SENHORA DA POMPEIA',
       'EM SANTOS ANJOS', 'EM ALAGOAS', 'EM BR

In [94]:
# Verificando as entradas distintas para bairro
escolas.bairro.unique()

array(['CAJU', 'BENFICA', 'CENTRO', 'SAO CRISTOVAO', 'RIO COMPRIDO',
       'IPANEMA', 'SANTA TERESA', 'HUMAITA', 'CATETE', 'FLAMENGO',
       'COPACABANA', 'BOTAFOGO', 'URCA', 'LARANJEIRAS', 'TIJUCA',
       'ANDARAI', 'PRACA DA BANDEIRA', 'GRAJAU', 'VILA ISABEL',
       'MARACANA/ VILA ISABEL', 'MARACANA/ TIJUCA', 'VIDIGAL',
       'SAO CONRADO', 'TODOS OS SANTOS', 'LEBLON', 'PILARES',
       'AGUA SANTA', 'PIEDADE', 'RIACHUELO', 'MEIER', 'ENGENHO DE DENTRO',
       'ENGENHO NOVO', 'JACARE', 'DEL CASTILHO', 'INHAUMA',
       'PARADA DE LUCAS', 'MARIA DA GRACA', 'MANGUINHOS',
       'JARDIM AMERICA', 'PENHA CIRCULAR', 'OLARIA', 'CAMPO GRANDE',
       'PENHA', 'RAMOS', 'VIGARIO GERAL', 'BONSUCESSO', 'MADUREIRA',
       'ACARI', 'CACUIA', 'JARDIM GUANABARA', 'PARQUE COLUMBIA', 'PAVUNA',
       'ANCHIETA', 'GUADALUPE', 'TURIACU', 'VILA KOSMOS', 'CAVALCANTI',
       'VILA DA PENHA', 'REALENGO', 'OSWALDO CRUZ', 'ROCHA MIRANDA',
       'CASCADURA', 'BENTO RIBEIRO', 'COLEGIO', 'CIDADE DE DEU

In [95]:
# Verificando as entradas distintas para endereco
escolas.endereco.unique()

array(['RUA CARLOS SEIDL S/No', 'RUA EBANO 187', 'R. DO LAVRADIO, 56',
       'PRACA ARGENTINA 20', 'PRACA CONDESSA PAULO DE FRONTIN 45',
       'R. BARAO DA TORRE, 90', 'RUA EDUARDO SANTOS 38',
       'AVENIDA PRESIDENTE VARGAS S/No', 'RUA ANA NERI 192',
       'R. HADDOCK LOBO, 148', 'RUA VISCONDE DE SILVA S/No',
       'RUA DO CATETE 77', 'AVENIDA OSWALDO CRUZ 124',
       'AV. ATLANTICA, 1976', 'R. BARAO DE IPANEMA, 34',
       'AVENIDA EPITACIO PESSOA 474', 'RUA DA MATRIZ 67',
       'AVENIDA PASTEUR 433', 'RUA ASSUNCAO, 257', 'R. SEN. CORREA',
       'AV HEITOR BELTRAO, S/No', 'R. FERREIRA PONTES, 328',
       'RUA BARAO DE UBA 331', 'R. MAL. JOFRE, 74',
       'BOULEVARD 28 DE SETEMBRO, 353', 'R. ANTONIO BASILIO, 370',
       'RUA ENES DE SOUSA 36', 'R. OITO DE DEZEMBRO, 275',
       'R. ALM. JOAO CANDIDO BRASIL, 352',
       'AVENIDA PRESIDENTE JOAO GOULART 296',
       'RUA MARTAGAO GESTEIRA S/Ndeg', 'R. CIRNE MAIA, 109',
       'RUA HUMBERTO DE CAMPOS S/Ndeg', 'AV. DOM HELDER

Nesse caso, por exemplo, vê-se que existem siglas em escolas_postos:
* "EM", "E.M", "E.M" ou ainda "EM." parecem substituir "ESCOLA MUNICIPAL"
* "CIEP" parece substituir "CENTRO INTEGRADO DE EDUCAÇÃO PUBLICA".

Em bairro, existem alguns casos que contêm a string "MARACANA/ " antes do nome do bairro. Idealmente, teríamos uma lista oficial de bairros para fazer a comparação.


Em endereço, verificam-se os seguintes casos:
* "R." parece substituir "RUA"
* "AV" e "AV." parecem substituir "AVENIDA"
* "PCA." parece substituir "PRACA"
* "ESTR." parece substituir "ESTRADA"
* "S/NO", "S/N.O", "S/N", "S/NDEG", "S/N.DEG" são nomenclaturas que parecem significar "SEM NÚMERO"
* Em alguns casos, como "R. SEN. CORREA" e "R. MAL. JOFRE", existe siglas no nome da rua. Idealmente, teríamos uma base oficial de ruas em bairros para validar o nome da rua, mas como não temos a base nem o conhecimento das ruas no estado em questão, esses casos não serão tratados.
* Alguns têm vírgulas a separar o número do logradouro, outros não. As vírgulas serão removidas do endereço.

Ressalta-se que só foi possível verificar cada caso porque se trata de uma base de dados pequena. Caso contrário, poderiam ser utilizadas técnicas de amostragem ou nuvem de palavras, por exemplo, para tentar identificar e tratar as siglas.


In [96]:
# Tratamento escolas_postos:
replacements_escolas_postos = {     # '\s' especifica caractere de espaço
    r'^EM\s': 'ESCOLA MUNICIPAL ',     
    r'^E.M\s': 'ESCOLA MUNICIPAL ',  
    r'^EM.\s': 'ESCOLA MUNICIPAL ',   
    r'^E.M.\s': 'ESCOLA MUNICIPAL ',
    r'^CIEP\s': 'CENTRO INTEGRADO DE EDUCACAO PUBLICA ',
}

# Aplicando substituições
for pattern, replacement in replacements_escolas_postos.items():
    escolas.escolas_postos = escolas.escolas_postos.str.replace(pattern, replacement, regex=True)

In [97]:
# Verifica o resultado das substituições em escolas_postos
escolas.escolas_postos.unique()

array(['CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL',
       'ESCOLA MUNICIPAL ALICE DO AMARAL PEIXOTO',
       'ESCOLA MUNICIPAL CELESTINO SILVA',
       'ESCOLA MUNICIPAL FLORIANO PEIXOTO',
       'ESCOLA MUNICIPAL PEREIRA PASSOS',
       'ESCOLA MUNICIPAL PRESIDENTE JOSE LINHARES',
       'ESCOLA MUNICIPAL SANTA CATARINA', 'ESCOLA MUNICIPAL TIA CIATA',
       'ESCOLA MUNICIPAL URUGUAI', 'ESCOLA MUNICIPAL MARIO CLAUDIO',
       'CENTRO INTEGRADO DE EDUCACAO PUBLICA PRESIDENTE AGOSTINHO NETO',
       'CENTRO INTEGRADO DE EDUCACAO PUBLICA TANCREDO NEVES',
       'ESCOLA MUNICIPAL ALBERTO BARTH', 'ESCOLA MUNICIPAL CICERO PENA',
       'ESCOLA MUNICIPAL COCIO BARCELOS',
       'ESCOLA MUNICIPAL HENRIQUE DODSWORTH', 'ESCOLA MUNICIPAL MEXICO',
       'ESCOLA MUNICIPAL MINAS GERAIS',
       'ESCOLA MUNICIPAL PRESIDENTE DA COSTA E SILVA',
       'ESCOLA MUNICIPAL SENADOR CORREA',
       'CENTRO INTEGRADO DE EDUCACAO PUBLICA SAMUEL WEINER',
       'ESCOLA MUNICIPAL AFRANIO PEIXOTO',
       'E

In [98]:
# Tratamento endereco para abreviações de sem numero:
replacements_escolas_endereco = {
"S/N.O": "",
"S/NDEG": "",
"S/N.DEG": "",
"S/N.deg": "",
"S/Ndeg": "",
"S/N.o": "",
"S/No": "",
"S/NO": "",
"S/N": "",

} 
escolas.endereco.replace(replacements_escolas_endereco,regex=True,inplace=True)

In [99]:
# Tratamento endereco para abreviações de endereço:
replacements_escolas_endereco_ruas_av = {   # '\s' especifica caractere de espaço 
    r'R. ': 'RUA ',              
    r'AV. ': 'AVENIDA ',        
    r'AV\s': 'AVENIDA ',
    r'AV\s': 'AVENIDA ', 
    r"PCA. ": "PRACA ",    
    r"ESTR. " : "ESTRADA ",
}

for pattern, replacement in replacements_escolas_endereco_ruas_av.items():
    escolas.endereco = escolas.endereco.str.replace(pattern, replacement, regex=True)


In [100]:
# Remove espaços de endereco
trata_string(escolas,"endereco")

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL,CAJU,RUA CARLOS SEIDL,-22880888,-43225326
1,634,ESCOLA MUNICIPAL ALICE DO AMARAL PEIXOTO,BENFICA,RUA EBANO 187,-22889574,-43236202
2,483,ESCOLA MUNICIPAL CELESTINO SILVA,CENTRO,"RUA DO LAVRADIO, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SAO CRISTOVAO,PRACA ARGENTINA 20,-22897629,-43227456
4,132,ESCOLA MUNICIPAL PEREIRA PASSOS,RIO COMPRIDO,PRACA CONDESSA PAULO DE FRONTIN 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,ESCOLA MUNICIPAL ENGENHEIRO GASTAO RANGEL,GUARATIBA,ESTRADA DO MAGARCA 9.183,-2298046,-43643545
148,301,ESCOLA MUNICIPAL JONATAS SERRANO,GUARATIBA,"ESTRADA DO MATO ALTO,",-22953163,-43577409
149,215,ESCOLA MUNICIPAL NARCISA AMALIA,ILHA DE GUARATIBA,ESTRADA TEODORETO DE CAMARGO,-23009084,-43537582
150,606,ESCOLA MUNICIPAL PROFESSOR CASTILHO,ILHA DE GUARATIBA,CAMINHO DA MATRIZ 4406,-22994124,-43593683


In [101]:
# Remove vírgulas de endereco
escolas.endereco = escolas.endereco.str.replace(",","")

In [102]:
# Verifica o resultado das substituições em endereco
escolas.endereco.unique()

array(['RUA CARLOS SEIDL', 'RUA EBANO 187', 'RUA DO LAVRADIO 56',
       'PRACA ARGENTINA 20', 'PRACA CONDESSA PAULO DE FRONTIN 45',
       'RUA BARAO DA TORRE 90', 'RUA EDUARDO SANTOS 38',
       'AVENIDA PRESIDENTE VARGAS', 'RUA ANA NERUA 192',
       'RUA HADDOCK LOBO 148', 'RUA VISCONDE DE SILVA',
       'RUA DO CATETE 77', 'AVENIDA OSWALDO CRUZ 124',
       'AVENIDA ATLANTICA 1976', 'RUA BARAO DE IPANEMA 34',
       'AVENIDA EPITACIO PESSOA 474', 'RUA DA MATRIZ 67',
       'AVENIDA PASTEUR 433', 'RUA ASSUNCAO 257', 'RUA SEN. CORREA',
       'AVENIDA HEITOR BELTRAO', 'RUA FERREIRUA PONTES 328',
       'RUA BARAO DE UBA 331', 'RUA MAL. JOFRE 74',
       'BOULEVARUA 28 DE SETEMBRO 353', 'RUA ANTONIO BASILIO 370',
       'RUA ENES DE SOUSA 36', 'RUA OITO DE DEZEMBRO 275',
       'RUA ALM. JOAO CANDIDO BRASIL 352',
       'AVENIDA PRESIDENTE JOAO GOULARUA 296', 'RUA MARTAGAO GESTEIRUA',
       'RUA CIRNE MAIA 109', 'RUA HUMBERTO DE CAMPOS',
       'AVENIDA DOM HELDER CAMARUA 6742', 'RU

In [103]:
# Tratamento em bairro
escolas.bairro = escolas.bairro.str.replace("MARACANA/ ","")

In [104]:
# Verifica o tratamento em bairro:
escolas.bairro.unique()

array(['CAJU', 'BENFICA', 'CENTRO', 'SAO CRISTOVAO', 'RIO COMPRIDO',
       'IPANEMA', 'SANTA TERESA', 'HUMAITA', 'CATETE', 'FLAMENGO',
       'COPACABANA', 'BOTAFOGO', 'URCA', 'LARANJEIRAS', 'TIJUCA',
       'ANDARAI', 'PRACA DA BANDEIRA', 'GRAJAU', 'VILA ISABEL', 'VIDIGAL',
       'SAO CONRADO', 'TODOS OS SANTOS', 'LEBLON', 'PILARES',
       'AGUA SANTA', 'PIEDADE', 'RIACHUELO', 'MEIER', 'ENGENHO DE DENTRO',
       'ENGENHO NOVO', 'JACARE', 'DEL CASTILHO', 'INHAUMA',
       'PARADA DE LUCAS', 'MARIA DA GRACA', 'MANGUINHOS',
       'JARDIM AMERICA', 'PENHA CIRCULAR', 'OLARIA', 'CAMPO GRANDE',
       'PENHA', 'RAMOS', 'VIGARIO GERAL', 'BONSUCESSO', 'MADUREIRA',
       'ACARI', 'CACUIA', 'JARDIM GUANABARA', 'PARQUE COLUMBIA', 'PAVUNA',
       'ANCHIETA', 'GUADALUPE', 'TURIACU', 'VILA KOSMOS', 'CAVALCANTI',
       'VILA DA PENHA', 'REALENGO', 'OSWALDO CRUZ', 'ROCHA MIRANDA',
       'CASCADURA', 'BENTO RIBEIRO', 'COLEGIO', 'CIDADE DE DEUS',
       'GARDENIA AZUL', 'RECREIO', 'RIO DAS PEDR

### Tratando latitude e longitude

In [105]:
# Trasnsformando em floats
escolas.lat = escolas.lat.str.replace(",",".").astype(float)
escolas.lon = escolas.lon.str.replace(",",".").astype(float)

#### Verificação de escolas com endereços duplicados, mas com coodenadas (longitude e latitude) diferentes.

In [106]:
# Verificação de escolas duplicadas
duplicadas_escolas = escolas[escolas.duplicated(subset=['escolas_postos', 'bairro', 'endereco'], keep=False)]

In [107]:
duplicadas_escolas['coordenadas_diferentes'] = duplicadas_escolas.groupby(['escolas_postos', 'bairro', 'endereco'])['lat'].transform('nunique') > 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  duplicadas_escolas['coordenadas_diferentes'] = duplicadas_escolas.groupby(['escolas_postos', 'bairro', 'endereco'])['lat'].transform('nunique') > 1


In [108]:
duplicadas_escolas['coordenadas_diferentes'] = duplicadas_escolas['coordenadas_diferentes'].fillna(False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  duplicadas_escolas['coordenadas_diferentes'] = duplicadas_escolas['coordenadas_diferentes'].fillna(False)


In [109]:
# Escolas duplicadas com coordenadas diferentes
escolas_duplicadas_com_coord_diferentes = duplicadas_escolas[duplicadas_escolas['coordenadas_diferentes']]

In [110]:
escolas_duplicadas_com_coord_diferentes.head(10)

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,coordenadas_diferentes
14,413,ESCOLA MUNICIPAL COCIO BARCELOS,COPACABANA,RUA BARAO DE IPANEMA 34,-22.97483,-43.18906,True
15,413,ESCOLA MUNICIPAL COCIO BARCELOS,COPACABANA,RUA BARAO DE IPANEMA 34,-22.74828,-43.18906,True
99,206,ESCOLA MUNICIPAL HONDURAS,PRACA SECA,PRACA BARAO DA TAQUARUA 12,-22.89693,-43.35267,True
117,206,ESCOLA MUNICIPAL HONDURAS,PRACA SECA,PRACA BARAO DA TAQUARUA 12,-22896930.0,-43352670.0,True


In [111]:
# Verificação da compatibilidade das coordenadas com os endereços pelo Google API
gmaps = googlemaps.Client(key='AIzaSyBg4G4dJcVMRM4EOtByGi6nV3Y1kHiKVwM') # Trocar a key para executar

try:
    # Loop through each row in the DataFrame
    for index, row in escolas_duplicadas_com_coord_diferentes.iterrows():
        lat = row['lat']
        lon = row['lon']
        
        # Perform reverse geocoding to get the address
        reverse_geocode_result = gmaps.reverse_geocode((lat, lon))
        
        # Assuming that the first result is the most relevant, you can extract the formatted address
        if reverse_geocode_result:
            address = reverse_geocode_result[0]['formatted_address']
            print(f"Row {index}: Address: {address}")
        else:
            print(f"Row {index}: Address not found")
except Exception as e:
    pass

Verificando os endereços das coordenadas recebidos pela API:
- A linha 14 apresenta maior compatibilidade entre as coordenadas e o endereço em relação a linha 15
- A linha 99 apresenta endereço igual ao recebido pela API

Solução: Drop das linhas 15 e 117

In [112]:
# Remoção das linhas
escolas = escolas.drop([15, 117])

In [113]:
# Verificação
linhas_selecionadas = escolas.loc[escolas['id'] == '413']
linhas_selecionadas.head()

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
14,413,ESCOLA MUNICIPAL COCIO BARCELOS,COPACABANA,RUA BARAO DE IPANEMA 34,-22.974828,-43.189063


In [114]:
# Verificação
linhas_selecionadas = escolas.loc[escolas['id'] == '206']
linhas_selecionadas.head()

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
99,206,ESCOLA MUNICIPAL HONDURAS,PRACA SECA,PRACA BARAO DA TAQUARUA 12,-22.896931,-43.352667


In [115]:
# Arredondando para 5 casas decimais
escolas.lat = round(escolas.lat,5)
escolas.lon = round(escolas.lon,5)


In [116]:
# Verifica o resultado em lat
escolas.lat

0     -22.88089
1     -22.88957
2     -22.90929
3     -22.89763
4     -22.92441
         ...   
147   -22.98046
148   -22.95316
149   -23.00908
150   -22.99412
151   -22.87608
Name: lat, Length: 150, dtype: float64

In [117]:
# Verifica o resultado em lon
escolas.lon

0     -43.22533
1     -43.23620
2     -43.18358
3     -43.22746
4     -43.20858
         ...   
147   -43.64354
148   -43.57741
149   -43.53758
150   -43.59368
151   -43.34337
Name: lon, Length: 150, dtype: float64

### Verificando duplicidades

In [118]:
escolas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150 entries, 0 to 151
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              150 non-null    object 
 1   escolas_postos  150 non-null    object 
 2   bairro          150 non-null    object 
 3   endereco        150 non-null    object 
 4   lat             150 non-null    float64
 5   lon             150 non-null    float64
dtypes: float64(2), object(4)
memory usage: 8.2+ KB


In [119]:
# Verifica duplicados em id
sum(escolas["id"].duplicated())

14

Existem 16 linhas com ids repetidos.

In [120]:
# Verifica quais ids estão duplicados
ids_duplicados = escolas["id"].duplicated()
lista_ids_duplicados = escolas["id"][ids_duplicados==True].unique()

In [121]:
# Mostra as linhas com ids duplicados
escolas[escolas['id'].isin(lista_ids_duplicados)].sort_values("id")

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
5,17,ESCOLA MUNICIPAL PRESIDENTE JOSE LINHARES,IPANEMA,RUA BARAO DA TORRE 90,-22.98333,-43.19904
20,17,ESCOLA MUNICIPAL PRESIDENTE JOSE LINHARES,IPANEMA,RUA BARAO DA TORRE 90,-22.98333,-43.19904
135,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,MADUREIRA,RUA AGOSTINHO BARBALHO 401,-22.87608,-43.34337
80,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,MADUREIRA,RUA AGOSTINHO BARBALHO 401,-22.87608,-43.34337
143,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,MADUREIRA,RUA AGOSTINHO BARBALHO 401,-22.87608,-43.34337
69,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,MADUREIRA,RUA AGOSTINHO BARBALHO 401,-22.87608,-43.34337
151,69,ESCOLA MUNICIPAL CARDEAL ARCOVERDE,MADUREIRA,RUA AGOSTINHO BARBALHO 401,-22.87608,-43.34337
57,89,ESCOLA MUNICIPAL MARIO CLAUDIO,RIO COMPRIDO,RUA HADDOCK LOBO 148,-22.91723,-43.21104
25,89,ESCOLA MUNICIPAL MARIO CLAUDIO,RIO COMPRIDO,RUA HADDOCK LOBO 148,-22.91723,-43.21104
84,89,ESCOLA MUNICIPAL MARIO CLAUDIO,RIO COMPRIDO,RUA HADDOCK LOBO 148,-22.91723,-43.21104


Verifica-se que todas as linhas apresentam a mesma informação por id, então as duplicidades serão removidas.

In [122]:
escolas = escolas.drop_duplicates(subset="id")

In [123]:
# Verifica se existem escolas com as mesmas informações mas ids diferentes:
sum(escolas[1:].duplicated())

0

Tratados os duplicados em id e verificado que não existem mais duplicadas no arquivo de escolas, restam 136 escolas no arquivo.

## Tratamento de material_ditatico.csv

### Conhecendo os dados

In [124]:
# Leitura do arquivo
df_material_didatico = pd.read_csv("./material_didatico.csv", sep=",")
df_material_didatico.head(10)

Unnamed: 0,id,Quantidade
0,178,20
1,634,121
2,483,220
3,476,190
4,132,67
5,410,397
6,55,92
7,490,578
8,600,591
9,89,473


In [125]:
# Recupera informações
df_material_didatico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          151 non-null    int64 
 1   Quantidade  147 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.5+ KB


Destes resultados, é possível verificar que:
- é necessário corrigir o nome das colunas para snake_case
- assim como para o arquivo escolas.csv, verifica-se que o campo id tem tipologia de número inteiro, quando pelas instruções deveria ser string com tamanho padronizado em 3
- o campo de quantidades tem tipologia string, quando deveria ser inteiro
- existem 151 linhas com ids para materiais didáticos, mas a base final de escolas terminou com 136. Esse ponto será melhor investigado e tratado na etapa de junção dos arquivos.
- Existem valores nulos na coluna quantidade. Esse ponto será melhor investigado e tratado na etapa de junção dos arquivos.

A partir desta constatação, serão executadas ações para corrigir os pontos identificados acima. Após os tratamentos das colunas, serão tratados possíveis dados duplicados.

### Corrigindo nomes das colunas

In [126]:
# Colocando os nomes em minúsculo
df_material_didatico.columns = df_material_didatico.columns.str.lower()
df_material_didatico.columns

Index(['id', 'quantidade'], dtype='object')

### Tratamento de ids

In [127]:
# Transforma em string
df_material_didatico["id"] = df_material_didatico.id.astype(str)

# Inclui zeros até que a string tenha tamanho 3
df_material_didatico["id"] = df_material_didatico.id.str.zfill(3)

In [128]:
# Verifica que foi transformado em string
df_material_didatico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          151 non-null    object
 1   quantidade  147 non-null    object
dtypes: object(2)
memory usage: 2.5+ KB


In [129]:
# Verifica os três dígitos
df_material_didatico.id.unique()

array(['178', '634', '483', '476', '132', '410', '055', '490', '600',
       '089', '387', '331', '450', '558', '413', '698', '540', '309',
       '268', '523', '017', '035', '011', '226', '638', '271', '126',
       '180', '163', '361', '280', '060', '587', '653', '660', '382',
       '217', '378', '429', '025', '367', '373', '624', '157', '020',
       '117', '502', '351', '135', '647', '440', '259', '422', '041',
       '537', '230', '683', '146', '566', '388', '498', '663', '121',
       '161', '263', '118', '140', '260', '236', '090', '274', '676',
       '390', '608', '589', '256', '091', '285', '248', '441', '623',
       '603', '673', '182', '520', '412', '031', '514', '023', '415',
       '016', '570', '528', '414', '690', '202', '550', '211', '526',
       '492', '466', '636', '527', '586', '080', '398', '175', '308',
       '512', '576', '495', '379', '641', '689', '171', '477', '206',
       '687', '568', '399', '255', '262', '633', '616', '320', '144',
       '534', '342',

### Tratamento quantidades

In [130]:
# Verifica os valores distintos para quantidades
df_material_didatico.quantidade.unique()

array(['20', '121', '220', '190', '67', '397', '92', '578', '591', '473',
       '456', '223', '420', '573', "''", '366', '516', '319', '308',
       '111', '48', '525', '445', '164', '293', '152', '399', '185',
       '576', '63', '491', "'NaN'", '336', '159', '342', '262', '440',
       '365', nan, '183', '297', '44', '109', '350', '255', '457', '493',
       '489', '64', '530', '158', '123', '468', '234', '24', '218', '151',
       '564', '504', '61', '426', '167', '509', '292', '210', '153',
       "'397'", '41', '561', '180', '257', '260', '317', '345', '32',
       '513', '338', '416', '352', '393', '425', '136', "'395'", '115',
       '534', '430', '466', '51', '26', '94', '128', '520', '524', '279',
       '161', '179', '194', '599', '315', '435', '400', '294', '148',
       '269', '571', '235', '187', '392', '362', '71', '221', '372',
       '479', '99', '157', '296', '330', '316', '106', '207', '459',
       '537', '162', '579', '517', "' '", '135', '118', '341', '329',
     

Verifica-se que existem alguns valores com aspas e espaços e um NaN como string. As aspas serão removidas e os valores serão convertidos para numérico.

In [131]:
# nova coluna 'quantidade_original' com os valores originais para manter histórico
df_material_didatico['quantidade_original'] = df_material_didatico['quantidade']

# retirando possiveis valores com aspas
df_material_didatico['quantidade'] = df_material_didatico['quantidade'].str.replace("'", '')

# convertendo para numerico / NaN para valores não numéricos
df_material_didatico['quantidade'] = pd.to_numeric(df_material_didatico['quantidade'], errors='coerce')

In [132]:
# Verifica o novo formato
df_material_didatico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   151 non-null    object 
 1   quantidade           143 non-null    float64
 2   quantidade_original  147 non-null    object 
dtypes: float64(1), object(2)
memory usage: 3.7+ KB


In [133]:
# Verifica os novos valores
df_material_didatico.quantidade.unique()

array([ 20., 121., 220., 190.,  67., 397.,  92., 578., 591., 473., 456.,
       223., 420., 573.,  nan, 366., 516., 319., 308., 111.,  48., 525.,
       445., 164., 293., 152., 399., 185., 576.,  63., 491., 336., 159.,
       342., 262., 440., 365., 183., 297.,  44., 109., 350., 255., 457.,
       493., 489.,  64., 530., 158., 123., 468., 234.,  24., 218., 151.,
       564., 504.,  61., 426., 167., 509., 292., 210., 153.,  41., 561.,
       180., 257., 260., 317., 345.,  32., 513., 338., 416., 352., 393.,
       425., 136., 395., 115., 534., 430., 466.,  51.,  26.,  94., 128.,
       520., 524., 279., 161., 179., 194., 599., 315., 435., 400., 294.,
       148., 269., 571., 235., 187., 392., 362.,  71., 221., 372., 479.,
        99., 157., 296., 330., 316., 106., 207., 459., 537., 162., 579.,
       517., 135., 118., 341., 329., 570., 320., 335., 521., 225.])

### Verificando duplicidades

In [134]:
sum(df_material_didatico.duplicated())

0

Não existem duplicidades a serem tratadas.

## Tratamento de subprefeituras.csv

### Conhecendo os dados

In [164]:
df_subprefeituras = pd.read_csv("./subprefeituras.csv", sep=",")
df_subprefeituras

Unnamed: 0,nome,subprefeitura
0,Santo Cristo,Centro
1,Gamboa,Centro
2,Saúde,Centro
3,Caju,Centro
4,Centro,Centro
...,...,...
159,Santa Cruz,Zona Oeste
160,Guaratiba,Zona Oeste
161,Barra de Guaratiba,Zona Oeste
162,Pedra de Guaratiba,Zona Oeste


In [165]:
df_subprefeituras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164 entries, 0 to 163
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   nome           164 non-null    object
 1   subprefeitura  164 non-null    object
dtypes: object(2)
memory usage: 2.7+ KB


Destes resultados, é possível verificar que:
- Existem 164 linhas com subprefeituras
- Não existem nulos.
- os nomes das colunas seguem o padrão solicitado
- o conteúdo das strings deve ser colocado em maiúsculo, sem acentos

A partir desta constatação, serão executadas ações para corrigir os pontos identificados acima. Após os tratamentos das colunas, serão tratados possíveis dados duplicados.

### Tratamentos para colunas do tipo String

In [166]:
# Aplica a função auxiliar para tratamento de strings
trata_string(df_subprefeituras,"nome", "subprefeitura")

Unnamed: 0,nome,subprefeitura
0,SANTO CRISTO,CENTRO
1,GAMBOA,CENTRO
2,SAUDE,CENTRO
3,CAJU,CENTRO
4,CENTRO,CENTRO
...,...,...
159,SANTA CRUZ,ZONA OESTE
160,GUARATIBA,ZONA OESTE
161,BARRA DE GUARATIBA,ZONA OESTE
162,PEDRA DE GUARATIBA,ZONA OESTE


In [167]:
# Verifica valores distintos para nome
df_subprefeituras.nome.unique()

array(['SANTO CRISTO', 'GAMBOA', 'SAUDE', 'CAJU', 'CENTRO', 'LAPA',
       'RIO COMPRIDO', 'CIDADE NOVA', 'CATUMBI', 'ESTACIO', 'MANGUEIRA',
       'BENFICA', 'VASCO DA GAMA', 'SAO CRISTOVAO', 'PAQUETA',
       'SANTA TERESA', 'GLORIA', 'COSME VELHO', 'BOTAFOGO', 'FLAMENGO',
       'HUMAITA', 'URCA', 'LARANJEIRAS', 'CATETE', 'LEME', 'COPACABANA',
       'VIDIGAL', 'LAGOA', 'JARDIM BOTANICO', 'IPANEMA', 'SAO CONRADO',
       'GAVEA', 'LEBLON', 'ROCINHA', 'PRACA DA BANDEIRA', 'TIJUCA',
       'ALTO DA BOA VISTA', 'MARACANA', 'ANDARAI', 'GRAJAU',
       'VILA ISABEL', 'MANGUINHOS', 'OLARIA', 'BONSUCESSO', 'RAMOS',
       'MARE', 'ABOLICAO', 'LINS DE VASCONCELOS', 'PIEDADE', 'JACARE',
       'CACHAMBI', 'AGUA SANTA', 'TODOS OS SANTOS', 'PILARES',
       'RIACHUELO', 'MEIER', 'SAMPAIO', 'SAO FRANCISCO XAVIER', 'ROCHA',
       'ENCANTADO', 'ENGENHO DE DENTRO', 'ENGENHO NOVO', 'JACAREZINHO',
       'VICENTE DE CARVALHO', 'COLEGIO', 'VILA KOSMOS', 'VISTA ALEGRE',
       'VILA DA PENHA', 'IRAJA

In [168]:
# Verifica valores distintos para subprefeitura
df_subprefeituras.subprefeitura.unique()

array(['CENTRO', 'ILHAS', 'ZONA SUL', 'GRANDE TIJUCA', 'ZONA NORTE',
       'JACAREPAGUA', 'BARRA DA TIJUCA', 'GRANDE BANGU', 'ZONA OESTE'],
      dtype=object)

Idealmente, teríamos uma lista oficial de nomes e subprefeituras para fazer a comparação com os resultados reais. Na ausência deste, os valores não serão tratados.


### Verificando duplicidades

In [169]:
sum(df_subprefeituras.duplicated())

0

Não existem dados duplicados a serem tratados.

## One BigTable

Criação de uma tabela única com todas as informações.

In [170]:
# Juntando escolas com material didatico
bigtable = pd.merge(escolas, df_material_didatico, on="id", how="left")
bigtable.head(10)

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,quantidade,quantidade_original
0,178,CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL,CAJU,RUA CARLOS SEIDL,-22.88089,-43.22533,20.0,20
1,634,ESCOLA MUNICIPAL ALICE DO AMARAL PEIXOTO,BENFICA,RUA EBANO 187,-22.88957,-43.2362,121.0,121
2,483,ESCOLA MUNICIPAL CELESTINO SILVA,CENTRO,RUA DO LAVRADIO 56,-22.90929,-43.18358,220.0,220
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SAO CRISTOVAO,PRACA ARGENTINA 20,-22.89763,-43.22746,190.0,190
4,132,ESCOLA MUNICIPAL PEREIRA PASSOS,RIO COMPRIDO,PRACA CONDESSA PAULO DE FRONTIN 45,-22.92441,-43.20858,67.0,67
5,17,ESCOLA MUNICIPAL PRESIDENTE JOSE LINHARES,IPANEMA,RUA BARAO DA TORRE 90,-22.98333,-43.19904,48.0,48
6,55,ESCOLA MUNICIPAL SANTA CATARINA,SANTA TERESA,RUA EDUARDO SANTOS 38,-22.91554,-43.19159,92.0,92
7,490,ESCOLA MUNICIPAL TIA CIATA,CENTRO,AVENIDA PRESIDENTE VARGAS,-22.90712,-43.19507,578.0,578
8,600,ESCOLA MUNICIPAL URUGUAI,BENFICA,RUA ANA NERUA 192,-22.89849,-43.23776,591.0,591
9,89,ESCOLA MUNICIPAL MARIO CLAUDIO,RIO COMPRIDO,RUA HADDOCK LOBO 148,-22.91723,-43.21104,473.0,473


In [171]:
# Juntando a big table com a informação de subprefeituras pelo bairro e o nome da subprefeitura
bigtable = pd.merge(bigtable, df_subprefeituras, left_on="bairro", right_on="nome", how="left")
bigtable.head(10)

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,quantidade,quantidade_original,nome,subprefeitura
0,178,CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL,CAJU,RUA CARLOS SEIDL,-22.88089,-43.22533,20.0,20,CAJU,CENTRO
1,634,ESCOLA MUNICIPAL ALICE DO AMARAL PEIXOTO,BENFICA,RUA EBANO 187,-22.88957,-43.2362,121.0,121,BENFICA,CENTRO
2,483,ESCOLA MUNICIPAL CELESTINO SILVA,CENTRO,RUA DO LAVRADIO 56,-22.90929,-43.18358,220.0,220,CENTRO,CENTRO
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SAO CRISTOVAO,PRACA ARGENTINA 20,-22.89763,-43.22746,190.0,190,SAO CRISTOVAO,CENTRO
4,132,ESCOLA MUNICIPAL PEREIRA PASSOS,RIO COMPRIDO,PRACA CONDESSA PAULO DE FRONTIN 45,-22.92441,-43.20858,67.0,67,RIO COMPRIDO,CENTRO
5,17,ESCOLA MUNICIPAL PRESIDENTE JOSE LINHARES,IPANEMA,RUA BARAO DA TORRE 90,-22.98333,-43.19904,48.0,48,IPANEMA,ZONA SUL
6,55,ESCOLA MUNICIPAL SANTA CATARINA,SANTA TERESA,RUA EDUARDO SANTOS 38,-22.91554,-43.19159,92.0,92,SANTA TERESA,CENTRO
7,490,ESCOLA MUNICIPAL TIA CIATA,CENTRO,AVENIDA PRESIDENTE VARGAS,-22.90712,-43.19507,578.0,578,CENTRO,CENTRO
8,600,ESCOLA MUNICIPAL URUGUAI,BENFICA,RUA ANA NERUA 192,-22.89849,-43.23776,591.0,591,BENFICA,CENTRO
9,89,ESCOLA MUNICIPAL MARIO CLAUDIO,RIO COMPRIDO,RUA HADDOCK LOBO 148,-22.91723,-43.21104,473.0,473,RIO COMPRIDO,CENTRO


In [172]:
bigtable.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   136 non-null    object 
 1   escolas_postos       136 non-null    object 
 2   bairro               136 non-null    object 
 3   endereco             136 non-null    object 
 4   lat                  136 non-null    float64
 5   lon                  136 non-null    float64
 6   quantidade           128 non-null    float64
 7   quantidade_original  132 non-null    object 
 8   nome                 135 non-null    object 
 9   subprefeitura        135 non-null    object 
dtypes: float64(3), object(7)
memory usage: 10.8+ KB


A partir dessa junção, verifica-se que existem dados faltantes em quantidade, nome e subprefeitura


### Tratamento de subprefeituras nulas

In [173]:
# Verifica valores com dados faltantes em subprefeitura
bigtable[bigtable.subprefeitura.isna()]

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,quantidade,quantidade_original,nome,subprefeitura
85,414,ESCOLA MUNICIPAL CLAUDIO BESSERMAN VIANNA - BU...,RIO DAS PEDRAS,ESTRADA DE JACAREPAGUA 3327,-22.97336,-43.32916,26.0,26,,


In [174]:
# Checa os valores distintos para os nomes na subprefeitura
df_subprefeituras.sort_values("nome").nome.unique()

array(['ABOLICAO', 'ACARI', 'AGUA SANTA', 'ALTO DA BOA VISTA', 'ANCHIETA',
       'ANDARAI', 'ANIL', 'BANCARIOS', 'BANGU', 'BARRA DA TIJUCA',
       'BARRA DE GUARATIBA', 'BARROS FILHO', 'BENFICA', 'BENTO RIBEIRO',
       'BONSUCESSO', 'BOTAFOGO', 'BRAS DE PINA', 'CACHAMBI', 'CACUIA',
       'CAJU', 'CAMORIM', 'CAMPINHO', 'CAMPO DOS AFONSOS', 'CAMPO GRANDE',
       'CASCADURA', 'CATETE', 'CATUMBI', 'CAVALCANTI', 'CENTRO',
       'CIDADE DE DEUS', 'CIDADE NOVA', 'CIDADE UNIVERSITARIA', 'COCOTA',
       'COELHO NETO', 'COLEGIO', 'COMPLEXO DO ALEMAO', 'COPACABANA',
       'CORDOVIL', 'COSME VELHO', 'COSMOS', 'COSTA BARROS', 'CURICICA',
       'DEL CASTILHO', 'DEODORO', 'ENCANTADO', 'ENGENHEIRO LEAL',
       'ENGENHO DA RAINHA', 'ENGENHO DE DENTRO', 'ENGENHO NOVO',
       'ESTACIO', 'FLAMENGO', 'FREGUESIA (ILHA)',
       'FREGUESIA (JACAREPAGUA)', 'GALEAO', 'GAMBOA', 'GARDENIA AZUL',
       'GAVEA', 'GERICINO', 'GLORIA', 'GRAJAU', 'GRUMARI', 'GUADALUPE',
       'GUARATIBA', 'HIGIENOPOLIS',

Como são apenas 7 ids sem subprefeitura, analisando caso a caso, as propostas de correção de subprefeitura na bigtable são:
- id 412: tem como bairro "OSWALDO CRUZ" com "W", e o bairro na subprefeitura está com "V". 
- id 528: tem como bairro "RECREIO", mas no bairro da subprefeitura existe "RECREIO DOS BANDEIRANTES"
- ids 550 e 492: têm como bairro "FREGUESIA JPA", mas no bairro da subprefeitura existe "FREGUESIA (JACAREPAGUA)"
- id 262: tem como bairro "AUGUSTO VASCONCELOS", mas no bairro da subprefeitura existe "SENADOR VASCONCELOS"
- id 068: tem como bairro "NOVA SEPETIBA", mas no bairro da subprefeitura existe "SEPETIBA"
- id 414: sem identificação. No arquivo 'escolas.csv' consta o bairro "Rio das Pedras" que não existe no 'subprefeituras.csv'


Ação para correção: alterar, nos casos identificados, o bairro da escola para coincidir com o da subprefeitura. O único caso sem identificação, permanecerá com subprefeitura faltante.

Em um banco de dados maior, a estratégia poderia ser usar um algoritmo para procurar por palavras similares em ambos os arquivos e escolher o maior grau de similaridade para fazer a substituição.

In [175]:
# Realizando as substituições de bairro no arquivo escolas
escolas.loc[escolas.id =="412","bairro"] = "OSVALDO CRUZ"
escolas.loc[escolas.id =="528","bairro"] = "RECREIO DOS BANDEIRANTES"
escolas.loc[(escolas.id =="550") | (escolas.id =="492"),"bairro"] = "FREGUESIA (JACAREPAGUA)"
escolas.loc[escolas.id =="262","bairro"] = "SENADOR VASCONCELOS"
escolas.loc[escolas.id =="068","bairro"] = "SEPETIBA"
# Adicionando o bairro "Rio das Pedras" na subprefeitura "Zona Oeste"
df_subprefeituras.loc[len(df_subprefeituras.index)] = ["RIO DAS PEDRAS", "ZONA OESTE"]

In [176]:
# Juntando os arquivos novamente
bigtable = pd.merge(escolas, df_material_didatico, on="id", how="left")
bigtable = pd.merge(bigtable, df_subprefeituras, left_on="bairro", right_on="nome", how="left")


In [177]:
# Verificando o resultado das substituições
bigtable.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   136 non-null    object 
 1   escolas_postos       136 non-null    object 
 2   bairro               136 non-null    object 
 3   endereco             136 non-null    object 
 4   lat                  136 non-null    float64
 5   lon                  136 non-null    float64
 6   quantidade           128 non-null    float64
 7   quantidade_original  132 non-null    object 
 8   nome                 136 non-null    object 
 9   subprefeitura        136 non-null    object 
dtypes: float64(3), object(7)
memory usage: 10.8+ KB


### Tratamento de quantidades nulas

In [149]:
# Verifica valores com dados faltantes em quantidade
bigtable[bigtable.quantidade.isna()]

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,quantidade,quantidade_original,nome,subprefeitura
14,413,ESCOLA MUNICIPAL COCIO BARCELOS,COPACABANA,RUA BARAO DE IPANEMA 34,-22.97483,-43.18906,,'',COPACABANA,ZONA SUL
28,60,ESCOLA MUNICIPAL BARAO HOMEM DE MELO,TIJUCA,RUA ALM. JOAO CANDIDO BRASIL 352,-22.91683,-43.23692,,'NaN',TIJUCA,GRANDE TIJUCA
35,429,ESCOLA MUNICIPAL FELIX PACHECO,PIEDADE,RUA ASSIS CARNEIRO 649,-22.89509,-43.31383,,,PIEDADE,ZONA NORTE
71,91,ESCOLA MUNICIPAL PIAUI,GUADALUPE,AVENIDA BRASIL 23.364,-22.84542,-43.37852,,'NaN',GUADALUPE,ZONA NORTE
91,492,ESCOLA MUNICIPAL MENEZES CORTES,FREGUESIA (JACAREPAGUA),PRACA JOSE ALVES DE AZEVEDO 43,-22.94266,-43.33897,,,FREGUESIA (JACAREPAGUA),JACAREPAGUA
106,687,ESCOLA MUNICIPAL TASSO DA SILVEIRA,REALENGO,RUA GENERAL BERNARDINO DE MATOS,-22.88386,-43.41733,,,REALENGO,GRANDE BANGU
127,297,ESCOLA MUNICIPAL PROFESSORA SILVIA DE ARAUJO T...,SANTA CRUZ,AVENIDA CANAL 3 CONJ. CESARAO,-22.93011,-43.6529,,' ',SANTA CRUZ,ZONA OESTE
134,215,ESCOLA MUNICIPAL NARCISA AMALIA,ILHA DE GUARATIBA,ESTRADA TEODORETO DE CAMARGO,-23.00908,-43.53758,,,ILHA DE GUARATIBA,ZONA OESTE


A estratégia a ser adotada será a de imputação do valor médio por subprefeitura a cada uma das escolas sem a indicação de quantidade.

In [178]:
# agrupando por subprefeitura e fazendo uma media da quantidade de material didatico
media_por_subprefeitura = bigtable.groupby("subprefeitura").quantidade.mean().round().astype(int)
media_por_subprefeitura

subprefeitura
BARRA DA TIJUCA     89
CENTRO             261
GRANDE BANGU       306
GRANDE TIJUCA      327
ILHAS              370
JACAREPAGUA        319
ZONA NORTE         315
ZONA OESTE         316
ZONA SUL           327
Name: quantidade, dtype: int32

In [179]:
# aplicando a media da subprefeitura de quantidade de material didatico na coluna quantidade
bigtable['quantidade'] = bigtable['quantidade'].fillna(bigtable['subprefeitura'].map(media_por_subprefeitura))


In [180]:
# valores que estão com NaN em quantidade
bigtable[bigtable.quantidade.isna()]

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon,quantidade,quantidade_original,nome,subprefeitura


### Possui id no material_didatico.csv mas não no escolas.csv

Listagem de ids no arquivo material_didatico.csv que não estão na lista de escolas. 

In [181]:
ids_faltantes = df_material_didatico[~df_material_didatico['id'].isin(bigtable['id'])]
ids_faltantes

Unnamed: 0,id,quantidade,quantidade_original
5,410,397.0,397
15,698,366.0,366
25,271,152.0,152
40,367,297.0,297
49,647,64.0,64
56,683,218.0,218
68,236,41.0,41
77,285,32.0,32
79,441,338.0,338
83,182,425.0,425


Os materiais cujos ID's de escolas não foram identificados não serão contemplados na distribuição.

## Criação dos bancos finais

----

In [225]:
import numpy as np

# criação do banco final
df_final = bigtable.copy()
# separar o tipo de escola e o nome da escola
tipos = [
    df_final['escolas_postos'].str.startswith('CENTRO INTEGRADO DE EDUCACAO PUBLICA'),
    df_final['escolas_postos'].str.startswith('ESCOLA MUNICIPAL'),
    df_final['escolas_postos'].str.startswith('COLEGIO MUNICIPAL')
]
valores_tipos = ['CENTRO INTEGRADO DE EDUCACAO PUBLICA', 'ESCOLA MUNICIPAL', 'COLEGIO MUNICIPAL']
df_final['tipo_escola'] = np.select(tipos, valores_tipos)
df_final.head(5)

df_final['nome_escola'] = df_final['escolas_postos'].str.replace('CENTRO INTEGRADO DE EDUCACAO PUBLICA ', '')\
    .str.replace('ESCOLA MUNICIPAL ', '').str.replace('COLEGIO MUNICIPAL ', '')
df_final.drop('escolas_postos', axis=1, inplace=True)
df_final.head(5)

Unnamed: 0,id,bairro,endereco,lat,lon,quantidade,quantidade_original,nome,subprefeitura,tipo_escola,nome_escola
0,178,CAJU,RUA CARLOS SEIDL,-22.88089,-43.22533,20.0,20,CAJU,CENTRO,CENTRO INTEGRADO DE EDUCACAO PUBLICA,HENFIL
1,634,BENFICA,RUA EBANO 187,-22.88957,-43.2362,121.0,121,BENFICA,CENTRO,ESCOLA MUNICIPAL,ALICE DO AMARAL PEIXOTO
2,483,CENTRO,RUA DO LAVRADIO 56,-22.90929,-43.18358,220.0,220,CENTRO,CENTRO,ESCOLA MUNICIPAL,CELESTINO SILVA
3,476,SAO CRISTOVAO,PRACA ARGENTINA 20,-22.89763,-43.22746,190.0,190,SAO CRISTOVAO,CENTRO,ESCOLA MUNICIPAL,FLORIANO PEIXOTO
4,132,RIO COMPRIDO,PRACA CONDESSA PAULO DE FRONTIN 45,-22.92441,-43.20858,67.0,67,RIO COMPRIDO,CENTRO,ESCOLA MUNICIPAL,PEREIRA PASSOS


In [227]:
# separar o logradouro do número do endereço
df_final['logradouro'] = df_final['endereco'].str.replace('0', '')\
                                            .str.replace('1', '')\
                                            .str.replace('2', '')\
                                            .str.replace('3', '')\
                                            .str.replace('4', '')\
                                            .str.replace('5', '')\
                                            .str.replace('6', '')\
                                            .str.replace('7', '')\
                                            .str.replace('8', '')\
                                            .str.replace('9', '').str.strip()
df_final['numero_endereco'] = df_final['endereco'].str.extract(r'(\d+)')
# Substituindo NaN por "S/N" (Sem número)
df_final['numero_endereco'] = df_final['numero_endereco'].fillna('S/N')
df_final.drop('endereco', axis=1, inplace=True)
df_final.head(5)

Unnamed: 0,id,bairro,lat,lon,quantidade,quantidade_original,nome,subprefeitura,tipo_escola,nome_escola,logradouro,numero_endereco
0,178,CAJU,-22.88089,-43.22533,20.0,20,CAJU,CENTRO,CENTRO INTEGRADO DE EDUCACAO PUBLICA,HENFIL,RUA CARLOS SEIDL,S/N
1,634,BENFICA,-22.88957,-43.2362,121.0,121,BENFICA,CENTRO,ESCOLA MUNICIPAL,ALICE DO AMARAL PEIXOTO,RUA EBANO,187
2,483,CENTRO,-22.90929,-43.18358,220.0,220,CENTRO,CENTRO,ESCOLA MUNICIPAL,CELESTINO SILVA,RUA DO LAVRADIO,56
3,476,SAO CRISTOVAO,-22.89763,-43.22746,190.0,190,SAO CRISTOVAO,CENTRO,ESCOLA MUNICIPAL,FLORIANO PEIXOTO,PRACA ARGENTINA,20
4,132,RIO COMPRIDO,-22.92441,-43.20858,67.0,67,RIO COMPRIDO,CENTRO,ESCOLA MUNICIPAL,PEREIRA PASSOS,PRACA CONDESSA PAULO DE FRONTIN,45


In [228]:
# converter a coluna quantidade em int
df_final['quantidade'] = df_final['quantidade'].astype(int)
df_final.head(5)

Unnamed: 0,id,bairro,lat,lon,quantidade,quantidade_original,nome,subprefeitura,tipo_escola,nome_escola,logradouro,numero_endereco
0,178,CAJU,-22.88089,-43.22533,20,20,CAJU,CENTRO,CENTRO INTEGRADO DE EDUCACAO PUBLICA,HENFIL,RUA CARLOS SEIDL,S/N
1,634,BENFICA,-22.88957,-43.2362,121,121,BENFICA,CENTRO,ESCOLA MUNICIPAL,ALICE DO AMARAL PEIXOTO,RUA EBANO,187
2,483,CENTRO,-22.90929,-43.18358,220,220,CENTRO,CENTRO,ESCOLA MUNICIPAL,CELESTINO SILVA,RUA DO LAVRADIO,56
3,476,SAO CRISTOVAO,-22.89763,-43.22746,190,190,SAO CRISTOVAO,CENTRO,ESCOLA MUNICIPAL,FLORIANO PEIXOTO,PRACA ARGENTINA,20
4,132,RIO COMPRIDO,-22.92441,-43.20858,67,67,RIO COMPRIDO,CENTRO,ESCOLA MUNICIPAL,PEREIRA PASSOS,PRACA CONDESSA PAULO DE FRONTIN,45


In [229]:
# desconsiderar a coluna quantidade_original
df_final.drop('quantidade_original', axis=1, inplace=True)
# desconsiderar a coluna nome
df_final.drop('nome', axis=1, inplace=True)

df_final.head(5)

Unnamed: 0,id,bairro,lat,lon,quantidade,subprefeitura,tipo_escola,nome_escola,logradouro,numero_endereco
0,178,CAJU,-22.88089,-43.22533,20,CENTRO,CENTRO INTEGRADO DE EDUCACAO PUBLICA,HENFIL,RUA CARLOS SEIDL,S/N
1,634,BENFICA,-22.88957,-43.2362,121,CENTRO,ESCOLA MUNICIPAL,ALICE DO AMARAL PEIXOTO,RUA EBANO,187
2,483,CENTRO,-22.90929,-43.18358,220,CENTRO,ESCOLA MUNICIPAL,CELESTINO SILVA,RUA DO LAVRADIO,56
3,476,SAO CRISTOVAO,-22.89763,-43.22746,190,CENTRO,ESCOLA MUNICIPAL,FLORIANO PEIXOTO,PRACA ARGENTINA,20
4,132,RIO COMPRIDO,-22.92441,-43.20858,67,CENTRO,ESCOLA MUNICIPAL,PEREIRA PASSOS,PRACA CONDESSA PAULO DE FRONTIN,45


Como produto final, devem ser entregues:
- um arquivo csv contendo os dados no padrão especificado com as escolas ordenadas em que os materiais didáticos devem ser entregues e com as colunas contendo id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de material didático que deve ser entregue;
- um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

In [234]:
# reordenando as colunas e salvando o arquivo principal final
df_final = df_final[['id', 'bairro', 'subprefeitura', 'tipo_escola', 'nome_escola', 'logradouro', 'numero_endereco', 'lat', 'lon', 'quantidade']]
df_final.to_csv('banco_final.csv')
df_final

Unnamed: 0,id,bairro,subprefeitura,tipo_escola,nome_escola,logradouro,numero_endereco,lat,lon,quantidade
0,178,CAJU,CENTRO,CENTRO INTEGRADO DE EDUCACAO PUBLICA,HENFIL,RUA CARLOS SEIDL,S/N,-22.88089,-43.22533,20
1,634,BENFICA,CENTRO,ESCOLA MUNICIPAL,ALICE DO AMARAL PEIXOTO,RUA EBANO,187,-22.88957,-43.23620,121
2,483,CENTRO,CENTRO,ESCOLA MUNICIPAL,CELESTINO SILVA,RUA DO LAVRADIO,56,-22.90929,-43.18358,220
3,476,SAO CRISTOVAO,CENTRO,ESCOLA MUNICIPAL,FLORIANO PEIXOTO,PRACA ARGENTINA,20,-22.89763,-43.22746,190
4,132,RIO COMPRIDO,CENTRO,ESCOLA MUNICIPAL,PEREIRA PASSOS,PRACA CONDESSA PAULO DE FRONTIN,45,-22.92441,-43.20858,67
...,...,...,...,...,...,...,...,...,...,...
131,210,PEDRA DE GUARATIBA,ZONA OESTE,ESCOLA MUNICIPAL,DEBORA MENDES DE MORAES,RUA BELCHIOR DA FONSECA,643,-23.00142,-43.63876,570
132,474,GUARATIBA,ZONA OESTE,ESCOLA MUNICIPAL,ENGENHEIRO GASTAO RANGEL,ESTRADA DO MAGARCA .,9,-22.98046,-43.64354,320
133,301,GUARATIBA,ZONA OESTE,ESCOLA MUNICIPAL,JONATAS SERRANO,ESTRADA DO MATO ALTO,S/N,-22.95316,-43.57741,335
134,215,ILHA DE GUARATIBA,ZONA OESTE,ESCOLA MUNICIPAL,NARCISA AMALIA,ESTRADA TEODORETO DE CAMARGO,S/N,-23.00908,-43.53758,316


In [240]:
# um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

df_quantidade_por_subprefeitura = df_final[['subprefeitura', 'quantidade']].groupby('subprefeitura').sum()
df_quantidade_por_subprefeitura.to_csv('quantidades_subprefeituras.csv')
df_quantidade_por_subprefeitura

Unnamed: 0_level_0,quantidade
subprefeitura,Unnamed: 1_level_1
BARRA DA TIJUCA,266
CENTRO,2352
GRANDE BANGU,4285
GRANDE TIJUCA,2943
ILHAS,741
JACAREPAGUA,2874
ZONA NORTE,14510
ZONA OESTE,9467
ZONA SUL,4583


## Desafio