# Projeto de Técnicas de Programação I

Você trabalha em uma consultoria de dados que foi contratada para realizar a distribuição de materiais didáticos nas escolas da cidade do Rio de Janeiro. Sua missão é realizar tratamentos nos dados de acordo com as normas de padrão definidas pelo cliente e encontrar qual a melhor rota que um caminhão deve realizar para entregar os materiais didáticos de forma a otimizar o seu percurso. 

Para esse projeto você recebeu três arquivos:
- escolas.csv: contém os dados das escolas
- subprefeituras.csv: contém dados de quais bairros pertem a cada subprefeitura
- material_didatico.csv: contém a quantidade de material didático que cada escola deve receber

Como produto final, você deve entregar:
- um arquivo csv no as linhas já estarão ordenas de acordo com a rota a ser seguida. Além disso, os dados devem estar no padrão especificado abaixo e contendo as seguintes colunas: id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de material didático que deve ser entregue. O logradouro da escola deve estar em uma coluna diferente do número;
- um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

Como padrão dos dados, considere:
- nome das colunas em snake_case
- strings não devem conter acentos
- todas as strings devem estar em maiúsculo
- padronização do nome dos logradouros sem abreviação (Ex: R. deve estar como Rua)
- latitude e longitude devem conter apenas 5 casas decimais
- os ids da escola devem todos ser strings com 3 caracteres (Ex: '024')

Desafio:

Entregar um plot com a representação da melhor rota que você encontrou, por exemplo:
<img src="rota.png"  width="70%" height="40%">

Obs: O otimizador não é a parte mais importante do projeto. Foque no tratamento dos dados e se preciso, pode reduzir a quantidade de escolas para rodar o otimizador.


In [247]:
import pandas as pd

In [356]:
escolas = pd.read_csv('escolas.csv')
mt_dida = pd.read_csv('material_didatico.csv')
sub_pref = pd.read_csv('subprefeituras.csv')

### Visualizando os dataframes

In [34]:
escolas.head(3)

Unnamed: 0,id,Escolas_Postos,BAIRRO,ENDEREÇO,lat,lon
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA ÉBANO 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. DO LAVRADIO, 56",-22909293,-43183579


In [249]:
mt_dida.head(3)

Unnamed: 0,id,Quantidade
0,178,20
1,634,121
2,483,220


In [252]:
sub_pref.head(3)

Unnamed: 0,nome,subprefeitura
0,Santo Cristo,Centro
1,Gamboa,Centro
2,Saúde,Centro


### Realizando transformações e preparando os dados

In [357]:
# Renomeando a coluna ENDEREÇO e transformando o conteúdo em maiúsculo
escolas = escolas.rename(columns={'id': 'ID'})
escolas = escolas.rename(columns={'ENDEREÇO ': 'ENDEREÇO'})
escolas = escolas.rename(columns={'Escolas_Postos': 'ESCOLAS_POSTOS'})
escolas = escolas.rename(columns={'lat': 'LAT'})
escolas = escolas.rename(columns={'lon': 'LON'})
escolas['ENDEREÇO'] = escolas['ENDEREÇO'].str.upper()
escolas.head(3)

Unnamed: 0,ID,ESCOLAS_POSTOS,BAIRRO,ENDEREÇO,LAT,LON
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/Nº,-22880888,-43225326
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA ÉBANO 187,-22889574,-43236202
2,483,EM CELESTINO SILVA,CENTRO,"R. DO LAVRADIO, 56",-22909293,-43183579


In [358]:
# Renomeando a coluna de nome para BAIRRO e transformando as str em maiúsculas
sub_pref = sub_pref.rename(columns={'nome': 'BAIRRO'})
sub_pref = sub_pref.rename(columns={'subprefeitura': 'SUBPREFEITURA'})
sub_pref['BAIRRO'] = sub_pref['BAIRRO'].str.upper()
sub_pref['SUBPREFEITURA'] = sub_pref['SUBPREFEITURA'].str.upper()
sub_pref.head(3)

Unnamed: 0,BAIRRO,SUBPREFEITURA
0,SANTO CRISTO,CENTRO
1,GAMBOA,CENTRO
2,SAÚDE,CENTRO


In [359]:
# Renomeando a coluna de Quantidade para QUANTIDADE
mt_dida = mt_dida.rename(columns={'Quantidade': 'QUANTIDADE'})
mt_dida = mt_dida.rename(columns={'id': 'ID'})

In [360]:
table = pd.merge(pd.merge(escolas, mt_dida),sub_pref)

In [361]:
# Padronizando o logradouro
table['ENDEREÇO'] = table['ENDEREÇO'].str.replace(',',' ')
table['ENDEREÇO'] = table['ENDEREÇO'].str.replace('R.','RUA ')

In [362]:
table['ESCOLAS_POSTOS'] = table['ESCOLAS_POSTOS'].str.replace('.','')

In [363]:
# Tabela final pré-pronta
table.head(3)

Unnamed: 0,ID,ESCOLAS_POSTOS,BAIRRO,ENDEREÇO,LAT,LON,QUANTIDADE,SUBPREFEITURA
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/Nº,-22880888,-43225326,20,CENTRO
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA ÉBANO 187,-22889574,-43236202,121,CENTRO
2,600,EM URUGUAI,BENFICA,RUA ANA NÉRI 192,-22898488,-43237756,591,CENTRO


In [364]:
table

Unnamed: 0,ID,ESCOLAS_POSTOS,BAIRRO,ENDEREÇO,LAT,LON,QUANTIDADE,SUBPREFEITURA
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/Nº,-22880888,-43225326,20,CENTRO
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA ÉBANO 187,-22889574,-43236202,121,CENTRO
2,600,EM URUGUAI,BENFICA,RUA ANA NÉRI 192,-22898488,-43237756,591,CENTRO
3,483,EM CELESTINO SILVA,CENTRO,RUA DO LAVRADIO 56,-22909293,-43183579,220,CENTRO
4,490,EM TIA CIATA,CENTRO,AVENIDA PRESIDENTE VARGAS S/Nº,-22907123,-43195068,578,CENTRO
...,...,...,...,...,...,...,...,...
129,289,EM BERTHA LUTZ,GUARATIBA,ESTRADA DO PIAÍ 2075,-22979064,-4367058,329,ZONA OESTE
130,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,ESTRADA DO MAGARÇA 9.183,-2298046,-43643545,320,ZONA OESTE
131,301,EM JONATAS SERRANO,GUARATIBA,ESTRADA DO MATO ALTO S/Nº,-22953163,-43577409,335,ZONA OESTE
132,215,EM NARCISA AMALIA,ILHA DE GUARATIBA,ESTRADA TEODORETO DE CAMARGO S/N.º,-23009084,-43537582,,ZONA OESTE


### Separando colunas

In [365]:
log_num = table['ENDEREÇO'].str.split(' ')
tipo_escola = table['ESCOLAS_POSTOS'].str.split(' ')

In [366]:
len(table)

134

In [None]:
# Endereço é separado por logradouro e número
table['NÚMERO'] = ''
table['LOGRADOURO'] = ''
table['TIPO_ESCOLA'] = ''
for i in range(len(table)):
    table['NÚMERO'][i] = log_num[i][-1]
    table['LOGRADOURO'][i] = log_num[i][0]
    table['TIPO_ESCOLA'][i] = tipo_escola[i][0]

In [369]:
table['TIPO_ESCOLA'].unique()

array(['CENTRO', 'EM', 'ESCOLA', 'CIEP', 'COLEGIO'], dtype=object)

In [370]:
lat = table['LAT'].str.replace(',','.')
lat = lat.astype(float)

In [371]:
lon = table['LON'].str.replace(',','.')
lon = lon.astype(float)

In [372]:
table['LAT'] = lat.round(5)
table['LON'] = lon.round(5)

In [373]:
# Dados ausentes?
table.isnull().sum()

ID                0
ESCOLAS_POSTOS    0
BAIRRO            0
ENDEREÇO          0
LAT               0
LON               0
QUANTIDADE        3
SUBPREFEITURA     0
NÚMERO            0
LOGRADOURO        0
TIPO_ESCOLA       0
dtype: int64

In [374]:
# Tamanho da base
table.shape

(134, 11)

In [375]:
# Removendo 3 linhas de dados ausentes e ficando com 131 linhas
table = table.dropna(axis=0)

In [376]:
table

Unnamed: 0,ID,ESCOLAS_POSTOS,BAIRRO,ENDEREÇO,LAT,LON,QUANTIDADE,SUBPREFEITURA,NÚMERO,LOGRADOURO,TIPO_ESCOLA
0,178,CENTRO INTEGRADO DE EDUCAÇÃO PÚBLICA HENFIL,CAJU,RUA CARLOS SEIDL S/Nº,-22.88089,-43.22533,20,CENTRO,S/Nº,RUA,CENTRO
1,634,EM ALICE DO AMARAL PEIXOTO,BENFICA,RUA ÉBANO 187,-22.88957,-43.23620,121,CENTRO,187,RUA,EM
2,600,EM URUGUAI,BENFICA,RUA ANA NÉRI 192,-22.89849,-43.23776,591,CENTRO,192,RUA,EM
3,483,EM CELESTINO SILVA,CENTRO,RUA DO LAVRADIO 56,-22.90929,-43.18358,220,CENTRO,56,RUA,EM
4,490,EM TIA CIATA,CENTRO,AVENIDA PRESIDENTE VARGAS S/Nº,-22.90712,-43.19507,578,CENTRO,S/Nº,AVENIDA,EM
...,...,...,...,...,...,...,...,...,...,...,...
128,210,EM DEBORA MENDES DE MORAES,PEDRA DE GUARATIBA,RUA BELCHIOR DA FONSECA 643,-23.00142,-43.63876,570,ZONA OESTE,643,RUA,EM
129,289,EM BERTHA LUTZ,GUARATIBA,ESTRADA DO PIAÍ 2075,-22.97906,-43.67058,329,ZONA OESTE,2075,ESTRADA,EM
130,474,EM ENGENHEIRO GASTÃO RANGEL,GUARATIBA,ESTRADA DO MAGARÇA 9.183,-22.98046,-43.64354,320,ZONA OESTE,9.183,ESTRADA,EM
131,301,EM JONATAS SERRANO,GUARATIBA,ESTRADA DO MATO ALTO S/Nº,-22.95316,-43.57741,335,ZONA OESTE,S/Nº,ESTRADA,EM


# Próximos passos:
Coluna id -> Adicionar o n° zero nos valores com dois caracteres

Coluna quantidade -> Adicionar o n° zero nos valores com dois caracteres

Remover acentos em strings
