# Case técnico - SP Parcerias
Script para limpeza e tratamento dos dados

In [1]:
import pandas as pd

- O dataset de Análise de Desempenho Escolares em Escolas Públicas é no formato .xslx

- Os dados de interesse começam a partir da linha 9 até a 14411. Portanto, o header será 9 e o nrows 14402

In [2]:
df = pd.read_excel('divulgacao_anos_finais_municipios_2023.xlsx', header=9, nrows=14402)
df.head()

Unnamed: 0,SG_UF,CO_MUNICIPIO,NO_MUNICIPIO,REDE,VL_APROVACAO_2005_SI_4,VL_APROVACAO_2005_1,VL_APROVACAO_2005_2,VL_APROVACAO_2005_3,VL_APROVACAO_2005_4,VL_INDICADOR_REND_2005,...,VL_OBSERVADO_2021,VL_OBSERVADO_2023,VL_PROJECAO_2007,VL_PROJECAO_2009,VL_PROJECAO_2011,VL_PROJECAO_2013,VL_PROJECAO_2015,VL_PROJECAO_2017,VL_PROJECAO_2019,VL_PROJECAO_2021
0,RO,1100015,Alta Floresta D'Oeste,Estadual,75.9,69.6,75.9,83.2,77.0,0.76119,...,4.8,4.9,3.5,3.7,4.0,4.4,4.8,5.0,5.3,5.5
1,RO,1100015,Alta Floresta D'Oeste,Municipal,77.6,68.1,74.3,83.3,89.0,0.778453,...,4.7,4.0,3.3,3.4,3.7,4.1,4.5,4.7,5.0,5.3
2,RO,1100015,Alta Floresta D'Oeste,Pública,76.7,68.8,75.0,83.2,82.2,0.768449,...,4.8,4.7,3.5,3.7,4.0,4.4,4.7,5.0,5.3,5.5
3,RO,1100023,Ariquemes,Estadual,79.2,84.2,79.9,76.7,75.7,0.78989,...,5.1,4.8,3.7,3.8,4.1,4.5,4.9,5.1,5.4,5.6
4,RO,1100023,Ariquemes,Municipal,77.6,72.2,76.9,81.1,86.3,0.787832,...,4.8,4.4,3.3,3.5,3.7,4.1,4.5,4.8,5.0,5.3


- O nome das colunas no dataset foram automaticamente gerados por meio do método de leitura dos dados.
- A fim de trazer mais sentido, organização e entendimento da base de dados, esses nomes serão alterados.

In [3]:
df_index = df.columns

df_index = df_index.str.replace('VL_APROVACAO', 'APROVACAO')
df_index = df_index.str.replace('_SI_4', '_6_A_9ANO')
# Regex para aplicação do _[1-4] ao final do nome
df_index = df_index.str.replace('_1$', '_6ANO', regex=True)
df_index = df_index.str.replace('_2$', '_7ANO', regex=True)
df_index = df_index.str.replace('_3$', '_8ANO', regex=True)
df_index = df_index.str.replace('_4$', '_9ANO', regex=True)
df_index = df_index.str.replace('VL_INDICADOR_REND', 'RENDIMENTO')
df_index = df_index.str.replace('VL_NOTA_', '')
df_index = df_index.str.replace('VL_OBSERVADO', 'IDEB')
df_index = df_index.str.replace('VL_PROJECAO', 'METAS_CICLO_1')

df.columns = df_index

In [4]:
list(df.columns)

['SG_UF',
 'CO_MUNICIPIO',
 'NO_MUNICIPIO',
 'REDE',
 'APROVACAO_2005_6_A_9ANO',
 'APROVACAO_2005_6ANO',
 'APROVACAO_2005_7ANO',
 'APROVACAO_2005_8ANO',
 'APROVACAO_2005_9ANO',
 'RENDIMENTO_2005',
 'APROVACAO_2007_6_A_9ANO',
 'APROVACAO_2007_6ANO',
 'APROVACAO_2007_7ANO',
 'APROVACAO_2007_8ANO',
 'APROVACAO_2007_9ANO',
 'RENDIMENTO_2007',
 'APROVACAO_2009_6_A_9ANO',
 'APROVACAO_2009_6ANO',
 'APROVACAO_2009_7ANO',
 'APROVACAO_2009_8ANO',
 'APROVACAO_2009_9ANO',
 'RENDIMENTO_2009',
 'APROVACAO_2011_6_A_9ANO',
 'APROVACAO_2011_6ANO',
 'APROVACAO_2011_7ANO',
 'APROVACAO_2011_8ANO',
 'APROVACAO_2011_9ANO',
 'RENDIMENTO_2011',
 'APROVACAO_2013_6_A_9ANO',
 'APROVACAO_2013_6ANO',
 'APROVACAO_2013_7ANO',
 'APROVACAO_2013_8ANO',
 'APROVACAO_2013_9ANO',
 'RENDIMENTO_2013',
 'APROVACAO_2015_6_A_9ANO',
 'APROVACAO_2015_6ANO',
 'APROVACAO_2015_7ANO',
 'APROVACAO_2015_8ANO',
 'APROVACAO_2015_9ANO',
 'RENDIMENTO_2015',
 'APROVACAO_2017_6_A_9ANO',
 'APROVACAO_2017_6ANO',
 'APROVACAO_2017_7ANO',
 'APROV

- As colunas de interesse são pertencentes aos anos de 2019 e 2023 além das que possuem informações sobre a escola e sua região.

In [5]:
df = df.filter(regex=("(2019|2023|SG_UF|NO_MUNICIPIO|REDE)"))

- Como o objeto de estudo está delimitado para escolas públicas municipais da capital de São Paulo e de Pernambuco, um último filtro deve ser feito.

In [6]:
mun_saopaulo = (df['SG_UF'] == 'SP') & (df['NO_MUNICIPIO'] == 'São Paulo')
mun_recife = (df['SG_UF'] == 'PE') & (df['NO_MUNICIPIO'] == 'Recife')
esc_mun = (df['REDE'] == 'Municipal')

In [7]:
df = df.loc[ (mun_saopaulo | mun_recife) & esc_mun, ]
df

Unnamed: 0,SG_UF,NO_MUNICIPIO,REDE,APROVACAO_2019_6_A_9ANO,APROVACAO_2019_6ANO,APROVACAO_2019_7ANO,APROVACAO_2019_8ANO,APROVACAO_2019_9ANO,RENDIMENTO_2019,APROVACAO_2023_6_A_9ANO,...,RENDIMENTO_2023,MATEMATICA_2019,PORTUGUES_2019,MEDIA_2019,MATEMATICA_2023,PORTUGUES_2023,MEDIA_2023,IDEB_2019,IDEB_2023,METAS_CICLO_1_2019
4357,PE,Recife,Municipal,94.3,92.2,92.9,96.0,97.6,0.946235,97.0,...,0.971186,248.83,246.59,4.923667,244.73,253.89,4.977,4.7,4.8,4.6
10054,SP,São Paulo,Municipal,94.6,94.2,94.2,93.9,96.4,0.946645,98.8,...,0.987988,251.49,252.97,5.074333,244.77,247.08,4.864167,4.8,4.8,5.8


- Boa parte das colunas possuem informações sobre o ano.
- O dataframe final será uma forma de agrupamento das colunas, removendo essas especificações.
- O atributo ano será criado para que haja a distinção nas análises futuras.

In [8]:
# Criando dataframes para cade ano
df_2019 = df.filter(regex=("(2019|NO_MUNICIPIO)"))
df_2023 = df.filter(regex=("(2023|NO_MUNICIPIO)"))

# Removendo informações sobre o ano
df_index = df_2019.columns
df_index = df_index.str.replace('_2019', '')
df_2019.columns = df_index
df_2019 = df_2019.assign(ANO=2019)

df_index = df_2023.columns
df_index = df_index.str.replace('_2023', '')
df_2023.columns = df_index
df_2023 = df_2023.assign(ANO=2023)

# Juntando os dois dataframes
df_combined = pd.concat([df_2019, df_2023])
df_combined.reset_index(drop=True, inplace=True)

In [9]:
df_combined

Unnamed: 0,NO_MUNICIPIO,APROVACAO_6_A_9ANO,APROVACAO_6ANO,APROVACAO_7ANO,APROVACAO_8ANO,APROVACAO_9ANO,RENDIMENTO,MATEMATICA,PORTUGUES,MEDIA,IDEB,METAS_CICLO_1,ANO
0,Recife,94.3,92.2,92.9,96.0,97.6,0.946235,248.83,246.59,4.923667,4.7,4.6,2019
1,São Paulo,94.6,94.2,94.2,93.9,96.4,0.946645,251.49,252.97,5.074333,4.8,5.8,2019
2,Recife,97.0,96.4,96.3,97.7,98.1,0.971186,244.73,253.89,4.977,4.8,,2023
3,São Paulo,98.8,99.0,99.2,98.7,98.3,0.987988,244.77,247.08,4.864167,4.8,,2023


In [10]:
df_combined.to_csv('anos_finais-esc_mun-cap_sp_pe-2019_2023.csv', index=False)