## Parte 1: visualizando os dados, iniciando tratamentos e juntando os arquivos

### Visualizando databases

In [45]:
import pandas as pd

escolas_df = pd.read_csv(r'escolas.csv')
escolas_df = escolas_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(escolas_df)

subprefeituras_df = pd.read_csv(r'subprefeituras.csv')
subprefeituras_df = subprefeituras_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(subprefeituras_df)

material_didatico_df = pd.read_csv(r'material_didatico.csv')
material_didatico_df = material_didatico_df.applymap(lambda x: x.strip().lower() if isinstance(x, str) else x)
#display(material_didatico_df)

### Dando o merge dos 3 arquivos

In [46]:
# Merge nos df: escolas_df e material_didatico_df

df_merge = escolas_df.merge(material_didatico_df, on='id')

# modificando o nome da coluna 'nome' para 'bairro' afim de poder fazer o merge
subprefeituras_df.rename(columns={'nome':'BAIRRO'}, inplace=True)

# Merge no df merge com o subprefeituras_df
df_merge = df_merge.merge(subprefeituras_df, on='BAIRRO')

#display(df_merge)  

### Renomeando colunas e iniciando tratamentos NaN

In [47]:
# tratando os NaN
df_merge['subprefeitura'].fillna('desconhecido', inplace=True)


# renomeando as colunas
# id da escola, nome da escola, tipo da escola (EM, CIEP ou colégio), logradouro da entrega, número, bairro, subprefeitura, latitude, longitude e quantidade de mat erial didático que deve ser entregue. O logradouro da escola deve estar em uma coluna diferente do número
novos_nomes = {
    'id': 'id_escola',
    'Escolas_Postos': 'nome_escola',
    'BAIRRO': 'bairro',
    'ENDEREÇO': 'endereco',
    'lat': 'latitude',
    'lon': 'longitude',
    'Quantidade': 'quantidade_material',
    'subprefeitura': 'subprefeitura'
}

df_merge.rename(columns=novos_nomes, inplace=True)

# Obtenha a lista de nomes de coluna
colunas = list(df_merge.columns)

# Modifique o nome da coluna pelo índice (3) para 'Endereco'
colunas[3] = 'endereco'

# Atribua a lista de nomes de coluna modificados de volta ao DataFrame
df_merge.columns = colunas


display(df_merge)

Unnamed: 0,id_escola,nome_escola,bairro,endereco,latitude,longitude,quantidade_material,subprefeitura
0,178,centro integrado de educação pública henfil,caju,rua carlos seidl s/nº,-22880888,-43225326,20,centro
1,634,em alice do amaral peixoto,benfica,rua ébano 187,-22889574,-43236202,121,centro
2,600,em uruguai,benfica,rua ana néri 192,-22898488,-43237756,591,centro
3,483,em celestino silva,centro,"r. do lavradio, 56",-22909293,-43183579,220,centro
4,490,e.m tia ciata,centro,avenida presidente vargas s/nº,-22907123,-43195068,578,centro
...,...,...,...,...,...,...,...,...
129,289,em bertha lutz,guaratiba,estrada do piaí 2075,-22979064,-4367058,329,zona oeste
130,474,em engenheiro gastão rangel,guaratiba,estrada do magarça 9.183,-2298046,-43643545,320,zona oeste
131,301,em jonatas serrano,guaratiba,"estrada do mato alto, s/nº",-22953163,-43577409,335,zona oeste
132,215,e.m. narcisa amalia,ilha de guaratiba,estrada teodoreto de camargo s/n.º,-23009084,-43537582,,zona oeste


### Tratando colunas do arquivo escola.csv

In [48]:
#Dividindo a coluna endereço em endereço e número

# Criar a coluna 'numero' com os caracteres após o último espaço na coluna 'endereco'
df_merge['numero'] = df_merge['endereco'].str.split(' ').str[-1]

# Atualizar a coluna 'endereco' para conter apenas o que está antes do último espaço
df_merge['endereco'] = df_merge['endereco'].str.rsplit(' ', 1).str[0]


  df_merge['endereco'] = df_merge['endereco'].str.rsplit(' ', 1).str[0]


In [49]:
#Padronização de 5 caracteres decimais nas colunas 'Latitude' e 'Longitude'

# Converter a coluna 'latitude' para formato de string e limitar a 9 caracteres
df_merge['latitude'] = df_merge['latitude'].apply(lambda x: str(x)[:9])

# Converter a coluna 'longitude' para formato de string e limitar a 9 caracteres
df_merge['longitude'] = df_merge['longitude'].apply(lambda x: str(x)[:9])

In [50]:
# Converter a coluna 'id_escola' para strings com no máximo 3 caracteres e preencher com zeros à esquerda
df_merge['id_escola'] = df_merge['id_escola'].astype(str).str.zfill(3)

In [51]:
# Colocar todas as strings em maiúsculo nas colunas 'nome_escola', 'bairro', 'endereco' e 'subprefeitura'
df_merge['nome_escola'] = df_merge['nome_escola'].str.upper()
df_merge['bairro'] = df_merge['bairro'].str.upper()
df_merge['endereco'] = df_merge['endereco'].str.upper()
df_merge['subprefeitura'] = df_merge['subprefeitura'].str.upper()

In [52]:
# Remover acentuação das colunas 'nome_escola', 'bairro', 'endereco' e 'subprefeitura'

# importando a biblioteca unidecode
from unidecode import unidecode

df_merge['nome_escola'] = df_merge['nome_escola'].apply(unidecode)
df_merge['bairro'] = df_merge['bairro'].apply(unidecode)
df_merge['endereco'] = df_merge['endereco'].apply(unidecode)
df_merge['subprefeitura'] = df_merge['subprefeitura'].apply(unidecode)


In [53]:
# Organizar as colunas na ordem desejada
df_merge = df_merge[['id_escola', 'nome_escola', 'endereco', 'numero', 'bairro', 'latitude', 'longitude', 'quantidade_material', 'subprefeitura']]

In [54]:
# Limpando a coluna 'quantidade_material' para garantir que contenha apenas números
df_merge['quantidade_material'] = pd.to_numeric(df_merge['quantidade_material'], errors='coerce')
display(df_merge['quantidade_material'])

0       20.0
1      121.0
2      591.0
3      220.0
4      578.0
       ...  
129    329.0
130    320.0
131    335.0
132      NaN
133    521.0
Name: quantidade_material, Length: 134, dtype: float64

In [55]:
# Exibir o DataFrame resultante
display(df_merge)

Unnamed: 0,id_escola,nome_escola,endereco,numero,bairro,latitude,longitude,quantidade_material,subprefeitura
0,178,CENTRO INTEGRADO DE EDUCACAO PUBLICA HENFIL,RUA CARLOS SEIDL,s/nº,CAJU,-2288088,-4322532,20.0,CENTRO
1,634,EM ALICE DO AMARAL PEIXOTO,RUA EBANO,187,BENFICA,-2288957,-4323620,121.0,CENTRO
2,600,EM URUGUAI,RUA ANA NERI,192,BENFICA,-2289848,-4323775,591.0,CENTRO
3,483,EM CELESTINO SILVA,"R. DO LAVRADIO,",56,CENTRO,-2290929,-4318357,220.0,CENTRO
4,490,E.M TIA CIATA,AVENIDA PRESIDENTE VARGAS,s/nº,CENTRO,-2290712,-4319506,578.0,CENTRO
...,...,...,...,...,...,...,...,...,...
129,289,EM BERTHA LUTZ,ESTRADA DO PIAI,2075,GUARATIBA,-2297906,-4367058,329.0,ZONA OESTE
130,474,EM ENGENHEIRO GASTAO RANGEL,ESTRADA DO MAGARCA,9.183,GUARATIBA,-2298046,-4364354,320.0,ZONA OESTE
131,301,EM JONATAS SERRANO,"ESTRADA DO MATO ALTO,",s/nº,GUARATIBA,-2295316,-4357740,335.0,ZONA OESTE
132,215,E.M. NARCISA AMALIA,ESTRADA TEODORETO DE CAMARGO,s/n.º,ILHA DE GUARATIBA,-2300908,-4353758,,ZONA OESTE


# Parte 2: salvar arquivo final tratado

### Colocar na ordem correta de acordo com o melhor caminho

### Criando arquivo csv já tratado

In [56]:
# Salvar o DataFrame de volta no arquivo CSV
df_merge.to_csv('escolas_tratadas.csv')

# Parte 3: arquivo com total de material escolar por subprefeitura

In [57]:
# Agrupando os dados por subprefeitura e somando a quantidade de material em cada grupo
agrupado_por_subprefeitura = df_merge.groupby('subprefeitura')['quantidade_material'].sum().reset_index()

# Renomeiando a coluna para 'total_material_por_subprefeitura'
agrupado_por_subprefeitura.rename(columns={'quantidade_material': 'total_material_por_subprefeitura'}, inplace=True)

display(agrupado_por_subprefeitura)

Unnamed: 0,subprefeitura,total_material_por_subprefeitura
0,BARRA DA TIJUCA,215.0
1,CENTRO,3771.0
2,GRANDE BANGU,4115.0
3,GRANDE TIJUCA,2125.0
4,ILHAS,741.0
5,JACAREPAGUA,2353.0
6,ZONA NORTE,14843.0
7,ZONA OESTE,6831.0
8,ZONA SUL,3848.0


In [58]:
# Salvando arquivo CSV
agrupado_por_subprefeitura.to_csv('quantidade_material_por_subprefeitura.csv', index=False)

# Exibindo o DataFrame resultante
print(agrupado_por_subprefeitura)

     subprefeitura  total_material_por_subprefeitura
0  BARRA DA TIJUCA                             215.0
1           CENTRO                            3771.0
2     GRANDE BANGU                            4115.0
3    GRANDE TIJUCA                            2125.0
4            ILHAS                             741.0
5      JACAREPAGUA                            2353.0
6       ZONA NORTE                           14843.0
7       ZONA OESTE                            6831.0
8         ZONA SUL                            3848.0
