# Projeto de Técnicas de Programação I

- Você trabalha em uma consultoria de dados que foi contratada para realizar a distribuição de materiais didáticos nas escolas da cidade do Rio de Janeiro. Sua missão é realizar tratamentos nos dados de acordo com as normas de padrão definidas pelo cliente e encontrar qual a melhor rota que um caminhão deve realizar para entregar os materiais didáticos de forma a otimizar o seu percurso.

- Para esse projeto você recebeu três arquivos:

    escolas.csv: contém os dados das escolas.

    subprefeituras.csv: contém dados de quais bairros pertem a cada subprefeitura.

    material_didatico.csv: contém a quantidade de material didático que cada escola deve receber.

## Como produto final, você deve entregar:

- um arquivo csv no qual as linhas já estarão ordenas de acordo com a rota a ser seguida. Além disso, os dados devem estar no padrão especificado abaixo e contendo as seguintes colunas: id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de mat erial didático que deve ser entregue. O logradouro da escola deve estar em uma coluna diferente do número;
- um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

    Como padrão dos dados, considere:
        nome das colunas em snake_case
        strings não devem conter acentos
        todas as strings devem estar em maiúsculo
        padronização do nome dos logradouros sem abreviação (Ex: R. deve estar como Rua)
        latitude e longitude devem conter apenas 5 casas decimais
        os ids da escola devem todos ser strings com 3 caracteres (Ex: '024')

# Visualizando os arquivos e iniciando tratamento dos dados - .lower e .strip


In [1]:
import pandas as pd

escolas_df = pd.read_csv(r'escolas.csv')
escolas_df = escolas_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(escolas_df)

subprefeituras_df = pd.read_csv(r'subprefeituras.csv')
subprefeituras_df = subprefeituras_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(subprefeituras_df)

material_didatico_df = pd.read_csv(r'material_didatico.csv')
material_didatico_df = material_didatico_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(material_didatico_df)

# Dando Merge nos arquivos

In [2]:
# Merge nos df: escolas_df e material_didatico_df

df_merge = escolas_df.merge(material_didatico_df, on='id')

# modificando o nome da coluna 'nome' para 'bairro' afim de poder fazer o merge
subprefeituras_df.rename(columns={'nome':'BAIRRO'}, inplace=True)

# Merge no df merge com o subprefeituras_df
df_merge = df_merge.merge(subprefeituras_df, on='BAIRRO')

display(df_merge)   

Unnamed: 0,id,Escolas_Postos,BAIRRO,ENDEREÇO,lat,lon,Quantidade,subprefeitura
0,178,centro integrado de educação pública henfil,caju,rua carlos seidl s/nº,-22880888,-43225326,20,centro
1,634,em alice do amaral peixoto,benfica,rua ébano 187,-22889574,-43236202,121,centro
2,600,em uruguai,benfica,rua ana néri 192,-22898488,-43237756,591,centro
3,483,em celestino silva,centro,"r. do lavradio, 56",-22909293,-43183579,220,centro
4,490,e.m tia ciata,centro,avenida presidente vargas s/nº,-22907123,-43195068,578,centro
...,...,...,...,...,...,...,...,...
129,289,em bertha lutz,guaratiba,estrada do piaí 2075,-22979064,-4367058,329,zona oeste
130,474,em engenheiro gastão rangel,guaratiba,estrada do magarça 9.183,-2298046,-43643545,320,zona oeste
131,301,em jonatas serrano,guaratiba,"estrada do mato alto, s/nº",-22953163,-43577409,335,zona oeste
132,215,e.m. narcisa amalia,ilha de guaratiba,estrada teodoreto de camargo s/n.º,-23009084,-43537582,,zona oeste


# Lidando com o NaN e Renomeando colunas 

In [3]:
# tratando os NaN
df_merge['subprefeitura'].fillna('desconhecido', inplace=True)


# renomeando as colunas
# id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de mat erial didático que deve ser entregue. O logradouro da escola deve estar em uma coluna diferente do número
novos_nomes = {
    'id': 'id_escola',
    'Escolas_Postos': 'nome_escola',
    'BAIRRO': 'bairro',
    'ENDEREÇO': 'endereco',
    'lat': 'latitude',
    'lon': 'longitude',
    'Quantidade': 'quantidade_material',
    'subprefeitura': 'subprefeitura'
}

df_merge.rename(columns=novos_nomes, inplace=True)

# Obtenha a lista de nomes de coluna
colunas = list(df_merge.columns)

# Modifique o nome da coluna pelo índice (3) para 'Endereco'
colunas[3] = 'endereco'

# Atribua a lista de nomes de coluna modificados de volta ao DataFrame
df_merge.columns = colunas


display(df_merge)

Unnamed: 0,id_escola,nome_escola,bairro,endereco,latitude,longitude,quantidade_material,subprefeitura
0,178,centro integrado de educação pública henfil,caju,rua carlos seidl s/nº,-22880888,-43225326,20,centro
1,634,em alice do amaral peixoto,benfica,rua ébano 187,-22889574,-43236202,121,centro
2,600,em uruguai,benfica,rua ana néri 192,-22898488,-43237756,591,centro
3,483,em celestino silva,centro,"r. do lavradio, 56",-22909293,-43183579,220,centro
4,490,e.m tia ciata,centro,avenida presidente vargas s/nº,-22907123,-43195068,578,centro
...,...,...,...,...,...,...,...,...
129,289,em bertha lutz,guaratiba,estrada do piaí 2075,-22979064,-4367058,329,zona oeste
130,474,em engenheiro gastão rangel,guaratiba,estrada do magarça 9.183,-2298046,-43643545,320,zona oeste
131,301,em jonatas serrano,guaratiba,"estrada do mato alto, s/nº",-22953163,-43577409,335,zona oeste
132,215,e.m. narcisa amalia,ilha de guaratiba,estrada teodoreto de camargo s/n.º,-23009084,-43537582,,zona oeste


# Fazendo outros tratamentos

## Limpando coluna 'quantidade_material' e garantindo que contenha apenas números

In [4]:
# Limpe a coluna 'quantidade_material' para garantir que contenha apenas números
df_merge['quantidade_material'] = pd.to_numeric(df_merge['quantidade_material'], errors='coerce')
display(df_merge['quantidade_material'])

0       20.0
1      121.0
2      591.0
3      220.0
4      578.0
       ...  
129    329.0
130    320.0
131    335.0
132      NaN
133    521.0
Name: quantidade_material, Length: 134, dtype: float64

# Criando um arquivo csv com a quantidade total de material escolar por subprefeitura para que sejam contabilizados os custos por subprefeitura

In [5]:
# Agrupando os dados por subprefeitura e somando a quantidade de material em cada grupo
agrupado_por_subprefeitura = df_merge.groupby('subprefeitura')['quantidade_material'].sum().reset_index()

# Renomeiando a coluna para 'total_material_por_subprefeitura'
agrupado_por_subprefeitura.rename(columns={'quantidade_material': 'total_material_por_subprefeitura'}, inplace=True)

display(agrupado_por_subprefeitura)

Unnamed: 0,subprefeitura,total_material_por_subprefeitura
0,barra da tijuca,215.0
1,centro,3771.0
2,grande bangu,4115.0
3,grande tijuca,2125.0
4,ilhas,741.0
5,jacarepaguá,2353.0
6,zona norte,14843.0
7,zona oeste,6831.0
8,zona sul,3848.0


In [6]:
# Salvando arquivo CSV
agrupado_por_subprefeitura.to_csv('quantidade_material_por_subprefeitura.csv', index=False)

# Exibindo o DataFrame resultante
print(agrupado_por_subprefeitura)

     subprefeitura  total_material_por_subprefeitura
0  barra da tijuca                             215.0
1           centro                            3771.0
2     grande bangu                            4115.0
3    grande tijuca                            2125.0
4            ilhas                             741.0
5      jacarepaguá                            2353.0
6       zona norte                           14843.0
7       zona oeste                            6831.0
8         zona sul                            3848.0
