# Projeto de Técnicas de Programação I
#### EQUIPE
* Camila de Jesus
* Janaina Oliveira
* Pedro Pilon
* Ricardo Jeferson da Silva Francisco
* Tamires Torres

#### CONTEXTUALIZAÇÃO

Você trabalha em uma consultoria de dados que foi contratada para realizar a distribuição de materiais didáticos nas escolas da cidade do Rio de Janeiro. Sua missão é realizar tratamentos nos dados de acordo com as normas de padrão definidas pelo cliente e encontrar qual a melhor rota que um caminhão deve realizar para entregar os materiais didáticos de forma a otimizar o seu percurso. 

Para esse projeto você recebeu três arquivos:
- escolas.csv: contém os dados das escolas
- subprefeituras.csv: contém dados de quais bairros pertem a cada subprefeitura
- material_didatico.csv: contém a quantidade de material didático que cada escola deve receber

Como produto final, você deve entregar:
- um arquivo csv no as linhas já estarão ordenas de acordo com a rota a ser seguida. Além disso, os dados devem estar no padrão especificado abaixo e contendo as seguintes colunas: id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de material didático que deve ser entregue. O logradouro da escola deve estar em uma coluna diferente do número;
- um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

#### ATIVIDADES
Como padrão dos dados, considere:
- nome das colunas em snake_case
- strings não devem conter acentos
- todas as strings devem estar em maiúsculo
- padronização do nome dos logradouros sem abreviação (Ex: R. deve estar como Rua)
- latitude e longitude devem conter apenas 5 casas decimais
- os ids da escola devem todos ser strings com 3 caracteres (Ex: '024')

#### DESAFIO:

Entregar um plot com a representação da melhor rota que você encontrou, por exemplo:
<img src="rota.png"  width="70%" height="40%">

Obs: O otimizador não é a parte mais importante do projeto. Foque no tratamento dos dados e se preciso, pode reduzir a quantidade de escolas para rodar o otimizador.

1. Importando as bibliotecas

In [59]:
import math
import pandas as pd
import numpy as np

2. Importando os CSV

In [60]:
escolas = pd.read_csv("escolas.csv")
material_didatico = pd.read_csv("material_didatico.csv")
subprefeituras = pd.read_csv("subprefeituras.csv")

3. Tratamento dos dados: nome das colunas em snake_case

* ESCOLAS

In [61]:
# Visualizando os dados iniciais
escolas.head(2)

Unnamed: 0,id,Escolas_Postos,BAIRRO,ENDEREÇO,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202


In [62]:
# Convertendo os nomes das colunas para minúsculas
escolas.columns = escolas.columns.str.lower()

escolas.head(2)

Unnamed: 0,id,escolas_postos,bairro,endereço,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202


In [63]:
# Trocando 'ç' por 'c' nos nomes das colunas
snake_case_coluna = {coluna: coluna.replace('ç', 'c') for coluna in escolas.columns}
escolas.rename(columns=snake_case_coluna, inplace=True)

escolas.head(2)

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202


In [64]:
# Adequar nome dos bairros - No caso apnas o FREGuesia (Jacarepagua está abreviado, 
# e será colocado por extenso para equivaler ao mesmo em subprefeituras)
escolas.loc[100, 'bairro']

'FREGUESIA JPA'

In [65]:
escolas.loc[100, 'bairro'] = 'FREGUESIA (JACAREPAGUA)'

In [66]:
# remover o espaço extra no nome da coluna endereco

escolas.rename (columns= {'endereco ': 'endereco'}, inplace = True)

* MATERIAL DIDÁTICO

In [67]:
# Visualizando os dados iniciais
material_didatico.head(2)

Unnamed: 0,id,Quantidade
0,178,20
1,634,121


In [68]:
# Convertendo os nomes das colunas para minúsculas
material_didatico.columns = material_didatico.columns.str.lower()

material_didatico.head(2)

Unnamed: 0,id,quantidade
0,178,20
1,634,121


In [69]:
#Converter a força os valores stringficados em Quantidades, se houverem
coluna_convertida = pd.to_numeric(material_didatico['quantidade'], errors='coerce')
linhas_nao_numericas = material_didatico[coluna_convertida.isna()]
linhas_nao_numericas 

Unnamed: 0,id,quantidade
14,413,''
31,60,'NaN'
38,429,
67,260,'397'
76,91,'NaN'
85,412,'395'
99,492,
117,687,
140,297,' '
148,215,


In [70]:
# converter as linhas 67 e 85 para valores numericos
material_didatico.loc[85, 'quantidade'] = 395
material_didatico.loc[67, 'quantidade'] = 397

# Confiorma novamente os nao numericos
coluna_convertida = pd.to_numeric(material_didatico['quantidade'], errors='coerce')
linhas_nao_numericas = material_didatico[coluna_convertida.isna()]
linhas_nao_numericas 

Unnamed: 0,id,quantidade
14,413,''
31,60,'NaN'
38,429,
76,91,'NaN'
99,492,
117,687,
140,297,' '
148,215,


In [71]:
#Remover valores nulos da tabela materiais
Nulos = [14, 31, 38, 76, 99, 117, 140, 148]
material_didatico.drop(Nulos, inplace=True)
material_didatico

Unnamed: 0,id,quantidade
0,178,20
1,634,121
2,483,220
3,476,190
4,132,67
...,...,...
145,210,570
146,474,320
147,301,335
149,606,521


In [77]:
#Aplicando as regras solicitasdas a coluna id
# converte pra int, depois pra str e depois preenche o zxero faltaten com zfill
material_didatico['id'] = material_didatico['id'].astype(int).astype(str).apply(lambda x: x.zfill(3))
material_didatico

Unnamed: 0,id,quantidade
0,178,20
1,634,121
2,483,220
3,476,190
4,132,67
...,...,...
145,210,570
146,474,320
147,301,335
149,606,521


* SUBPREFEITURAS

In [72]:
# Visualizando os dados iniciais
subprefeituras.head(2)

Unnamed: 0,nome,subprefeitura
0,Santo Cristo,Centro
1,Gamboa,Centro


4. Tratamento dos dados: strings não devem conter acentos


5. Tratamento dos dados: todas as strings devem estar em maiúsculo

In [73]:
# conversão das colunas para strings
subprefeituras['nome'] = subprefeituras['nome'].astype(str)
subprefeituras['subprefeitura'] = subprefeituras['subprefeitura'].astype(str)

#Conversão para caixa alta
subprefeituras['nome'] = subprefeituras['nome'].str.upper()
subprefeituras['subprefeitura'] = subprefeituras['subprefeitura'].str.upper()

subprefeituras


Unnamed: 0,nome,subprefeitura
0,SANTO CRISTO,CENTRO
1,GAMBOA,CENTRO
2,SAÚDE,CENTRO
3,CAJU,CENTRO
4,CENTRO,CENTRO
...,...,...
159,SANTA CRUZ,ZONA OESTE
160,GUARATIBA,ZONA OESTE
161,BARRA DE GUARATIBA,ZONA OESTE
162,PEDRA DE GUARATIBA,ZONA OESTE


6. Tratamento dos dados: padronização do nome dos logradouros sem abreviação (Ex: R. deve estar como Rua)

In [74]:
# Remover abreviações nos endereços
# substituir R. por Rua, Av. por Avenida, Sen. por Senador, Mal. para Marechal, Alm. para Almirante, 
# Pca, para Praca, Eng para Enenheiro, Estr. para Estrada e Sd para Soldado
substituicoes = {
    'R.': 'Rua',
    'Ruaa': 'Rua',
    'Av.': 'Avenida ',
    'Avenidanida': 'Avenida',
    'Sen.': 'Senador',
    'Mal.': 'Marechal',
    'Alm.': 'Almirante',
    'Pca': 'Praca',
    'Eng': 'Engenheiro',
    'Estr.': 'Estrada',
    'Sd': 'Soldado'
}

escolas['endereco'] = escolas['endereco'].replace(substituicoes, regex=True)

substituicoes2 = {
    'Ruaa': 'Rua',
    'Avenidanida': 'Avenida',
    'Avenida nida': 'Avenida',
    'Estradada': 'Estrada',
    'Praca.' : 'Praca',
    'Rua Ruasa': 'Rua',
    'de Almiranteida': 'do Almirante',
    's/n°': 'sem numero',
    's/no': 'sem numero',
    's/n.o': 'sem numero'
}

escolas['endereco'] = escolas['endereco'].replace(substituicoes2, regex=True)


escolas

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"Rua do Lavradio, 56",-22909293,-43183579
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22897629,-43227456
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22924412,-43208579
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-2298046,-43643545
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22953163,-43577409
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23009084,-43537582
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,Caminho da Matriz 4406,-22994124,-43593683


7. Tratamento dos dados: latitude e longitude devem conter apenas 5 casas decimais

In [75]:
# Normalizando valores em latitude e longituide
escolas['lat'] = pd.to_numeric(escolas['lat'].str.replace(',', '.'), errors='coerce')
escolas['lon'] = pd.to_numeric(escolas['lon'].str.replace(',', '.'), errors='coerce')
escolas['lat'] = escolas['lat'] = escolas['lat'].astype(float).apply(lambda x: '{:.5f}'.format(x))
escolas['lon'] = escolas['lon'] = escolas['lon'].astype(float).apply(lambda x: '{:.5f}'.format(x))

escolas


Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22.88089,-43.22533
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22.88957,-43.23620
2,483,EM CELESTINO SILVA,CENTRO,"Rua do Lavradio, 56",-22.90929,-43.18358
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22.89763,-43.22746
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22.92441,-43.20858
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-22.98046,-43.64355
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22.95316,-43.57741
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23.00908,-43.53758
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,Caminho da Matriz 4406,-22.99412,-43.59368


8. Tratamento dos dados: os ids da escola devem todos ser strings com 3 caracteres (Ex: '024')

In [76]:
#Aplicando as regras solicitasdas a coluna id
# converte pra int, depois pra str e depois preenche o zxero faltaten com zfill
escolas['id'] = escolas['id'].astype(int).astype(str).apply(lambda x: x.zfill(3))

escolas


Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22.88089,-43.22533
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22.88957,-43.23620
2,483,EM CELESTINO SILVA,CENTRO,"Rua do Lavradio, 56",-22.90929,-43.18358
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22.89763,-43.22746
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22.92441,-43.20858
...,...,...,...,...,...,...
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-22.98046,-43.64355
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22.95316,-43.57741
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23.00908,-43.53758
150,606,EM PROFESSOR CASTILHO,ILHA DE GUARATIBA,Caminho da Matriz 4406,-22.99412,-43.59368


In [79]:
ids_duplicadas = escolas.groupby('id').filter(lambda x: len(x) > 1)
ids_duplicadas

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
5,17,E.M PRESIDENTE JOSE LINHARES,IPANEMA,"Rua Barão da Torre, 90",-22.98333,-43.19904
9,89,EM MARIO CLAUDIO,RIO COMPRIDO,"Rua Haddock Lobo, 148",-22.91723,-43.21104
14,413,EM CÓCIO BARCELOS,COPACABANA,"Rua Barão de Ipanema, 34",-22.97483,-43.18906
15,413,EM CÓCIO BARCELOS,COPACABANA,"Rua Barão de Ipanema, 34",-22.74828,-43.18906
20,17,E.M PRESIDENTE JOSE LINHARES,IPANEMA,"Rua Barão da Torre, 90",-22.98333,-43.19904
25,89,EM MARIO CLAUDIO,RIO COMPRIDO,"Rua Haddock Lobo, 148",-22.91723,-43.21104
34,660,E.M NOSSA SENHORA DA POMPÉIA,TODOS OS SANTOS,"Rua Cirne Maia, 109",-22.89203,-43.27992
40,660,E.M NOSSA SENHORA DA POMPÉIA,TODOS OS SANTOS,"Rua Cirne Maia, 109",-22.89203,-43.27992
49,388,EM CARDEAL CAMARA,PARADA DE LUCAS,"Rua Anamá, 98",-22.81527,-43.30357
56,379,CIEP NELSON MANDELA,CAMPO GRANDE,"Praça Daniel Lames, S/N",-22.89558,-43.57051


### Temos
escolas_duplcadas
id17: [5, 20],
id69: [69, 80, 135, 143, 151],
id89: [9, 25, 57, 84],
id90: [70, 78],
id206: [99, 117],
id379: [56, 112, 123],
id388: [49, 60],
id413: [14, 15],
id520: [85, 109],
id660: [34, 40],
    

In [80]:
duplicados = [20, 80, 135, 143, 151, 25, 57, 84, 78, 117, 112, 123, 60, 15, 109, 40]
escolas.drop(duplicados, inplace=True)
escolas

Unnamed: 0,id,escolas_postos,bairro,endereco,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,Rua Carlos Seidl S/Nº,-22.88089,-43.22533
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,Rua Ébano 187,-22.88957,-43.23620
2,483,EM CELESTINO SILVA,CENTRO,"Rua do Lavradio, 56",-22.90929,-43.18358
3,476,ESCOLA MUNICIPAL FLORIANO PEIXOTO,SÃO CRISTÓVÃO,Praça Argentina 20,-22.89763,-43.22746
4,132,EM PEREIRA PASSOS,RIO COMPRIDO,Praça Condessa Paulo de Frontin 45,-22.92441,-43.20858
...,...,...,...,...,...,...
146,210,EM DEBORA MENDES DE MORAES,PEDRA DE GUARATIBA,Rua Belchior Da Fonseca 643,-23.00142,-43.63876
147,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,Estrada Do Magarça 9.183,-22.98046,-43.64355
148,301,EM JONATAS SERRANO,GUARATIBA,"Estrada Do Mato Alto, S/Nº",-22.95316,-43.57741
149,215,E.M. NARCISA AMALIA,ILHA DE GUARATIBA,Estrada Teodoreto de Camargo S/N.º,-23.00908,-43.53758
