# Análise de dados sobre a educação

Autor: Tiago César da Silva Lopes

Data: 11/04/2023

A educação é um fator fundamental no desenvolvimento da sociedade e na geração de renda de seus estados. Segundo o artigo 205 da constituição federal: "A educação, direito de todos e dever do Estado e da família", ou seja, cada representante do estado e da família do cidadão tem a responsabilidade de promover a educação e o desenvolvimento do cidadão. 

Diante disso, esta análise irá utilizar dados dos estados do Brasil dentre os anos de 2000 e 2010. A base de dados utilizada é da IPEADATA e se encontra na sessão social de educação. É importante ressaltar que a taxa de conclusão do ensino médio é apenas um de vários fatores que influenciam no desenvolvimento de um estado, mas que vale a pena ser estudado.

**Descrição da base de dados:**
 Razão entre a população de 25 anos ou mais de idade que concluiu o ensino médio, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo) e o total de pessoas nesta faixa etária, multiplicada por 100. Foram consideradas como tendo concluído o ensino médio as pessoas frequentando a 4ª série desse nível. Dados utilizados para cálculos de indicadores que compõem as três dimensões do IDHM (Índice de Desenvolvimento Humano Municipal) que são: Longevidade, Educação e Renda. A dimensão educação, acesso ao conhecimento no IDHM é uma composição de indicadores de escolaridade da população adulta e de fluxo escolar da população jovem.

## Importação dos recursos e dos dados

Primeiramente, iremos importar os recursos de análise de dados que usaremos durante todo o percurso. 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Carregando os dados

Aviso: É importante importar o arquivo toda vez que abrir esse notebook

In [2]:
url = '/content/dados.xls'
xls = pd.ExcelFile(url)

# lista todas as planilhas disponíveis no arquivo
xls.sheet_names

FileNotFoundError: ignored

In [None]:
url = '/content/dados.xls'
dados = pd.read_excel(url, sheet_name='Séries')

In [None]:
# Exibição prévia dos dados
dados.head()

Abaixo já podemos perceber alguns dados importantes dos 27 estados analisados:



*   A menor taxa de 2000 é de 14,32% de jovens adultos com 25 anos ou mais;
*   Em comparação aos dados de 2010, a menor taxa é de 24,47%. Isso exibe um aumento na conclusão do ensino médio no Brasil e na educação;
*   A média da taxa de conclusão do ensino médio do Brasil em 2000 é de 21,18%;
*   Já a média de 2010 é de 34.14%, exibindo um aumento;
*   Pode-se observar que a taxa de conclusão do ensino médio aumentou dentro desses 10 anos, exibindo uma melhoria na educação.






In [None]:
dados.describe()

## Analise com gráficos

Vamos inicialmente analisar a base de dados a partir de gráficos, buscando algum padrão ou anotações importantes.

### Visão gráfica geral sobre os dois anos

Analisando os anos de 2000 e de 2010, podemos ter uma noção específica do desempenho de cada estado e podemos perceber que o Distrito federal toma liderança de conclusão de ensino médio nos dois anos.

In [None]:
fig, ax = plt.subplots()
dados.plot(kind='bar', x='Estado', y='2000', ax=ax)

# define o título e os rótulos dos eixos
ax.set_title('Percentual da população com ensino médio completo por estado')
ax.set_xlabel('Estado')
ax.set_ylabel('Percentual')

# exibe o gráfico
plt.show()

In [None]:
fig, ax = plt.subplots()
dados.plot(kind='bar', x='Estado', y='2010', ax=ax)

# define o título e os rótulos dos eixos
ax.set_title('Percentual da população com ensino médio completo por estado')
ax.set_xlabel('Estado')
ax.set_ylabel('Percentual')

# exibe o gráfico
plt.show()

#### Conclusão e análise sobre o estado de Pernambuco

Como dito acima, é possível perceber que o Distrito Federal está na liderança de conclusão de ensino médio dos jovens adultos brasileiros. 

Outra informação em relação ao estado do cientista desta pesquisa, sendo **Pernambuco** é que desde do ano 2000 ele já possui uma taxa em torno dos 20%, próximo da média entre os estados e só abaixo para 8 estados. Já quando analisamos os dados do ano de 2010, podemos perceber um aumento geral de conclusão do ensino médio. Em relação à Pernambuco, nota-se que ele está na faixa dos 30% de conclusão e que agora ele está abaixo de 15 outros estados. Dessa forma, podemos concluir que a taxa de conclusão do ensino médio de Pernambuco dos dois anos se encontra na média geral do Brasil, 21% e 34.10% respectivamente e que muitos adultos pernambucanos não chegam a concluir o ensino médio. Os motivos dessa questão podem ser mapeados posteriormente e deixo a sugestão da evasão escolar, mas por ora vamos nos concentrar nas tendências entre os estados.

In [None]:
dados.describe()

### Top 10 estados com maior taxa de conclusão do ensino médio

Para este contexto, vamos analisar quais são os estados que possuem as maiores taxas de conclusão do ensino médio.

In [None]:
df_top10 = dados.nlargest(10, '2000')

# plota o gráfico
ax = df_top10.plot(kind='bar', x='Estado', y='2000', color='green')
ax.set_ylabel('Percentual de população com ensino médio completo')
ax.set_ylim([0, 100])
for i, v in enumerate(df_top10['2000']):
    ax.text(i - 0.25, v + 1, str(v), color='black', fontweight='bold')
plt.show()


In [None]:
# Analisando os dados de 2010

df_top10 = dados.nlargest(10, '2010')

# plota o gráfico
ax = df_top10.plot(kind='bar', x='Estado', y='2010', color='green')
ax.set_ylabel('Percentual de população com ensino médio completo')
ax.set_ylim([0, 100])
for i, v in enumerate(df_top10['2010']):
    ax.text(i - 0.25, v + 1, str(v), color='black', fontweight='bold')
plt.show()


#### Listagem dos estados com maior taxa de conclusão

Para complementar a informação, podemos observar uma listagem dos nomes do estado com a maior taxa de conclusão de ensino médio. Dessa forma, fica mais claro ainda para comparar como os dados mudaram e os estados subiram de pontuação.

In [None]:
# Obtém os 10 estados com as maiores taxas de conclusão em 2000
df_top10 = dados.nlargest(10, '2000')

# Obtém a lista de estados
top10_estados = df_top10['Estado'].tolist()

# Exibe a lista de estados
print("Os 10 estados com maior taxa de conclusão do ensino médio em 2000 são:\n", top10_estados)

In [None]:
# Obtém os 10 estados com as maiores taxas de conclusão em 2010
df_top10 = dados.nlargest(10, '2010')

# Obtém a lista de estados
top10_estados = df_top10['Estado'].tolist()

# Exibe a lista de estados
print("Os 10 estados com maior taxa de conclusão do ensino médio em 2010 são:\n", top10_estados)

#### Conclusão do Top 10 com as maiores taxa de conclusão

A partir dessa exibição gráfica e da listagem nós podemos perceber as seguintes observações:


*  A maior taxa de conclusão do Brasil é de 55%, ou seja, metade da população do Distrito federal terminou o ensino médio e que ele continua na liderança nesses últimos anos.

*  Também pode-se perceber que o Rio de janeiro segue como o 2ª lugar dentre os 10 anos;

*   Um estado que se destaca é a Roraima, que não estava na listagem de top 10 e, após os 10 anos ela entrou na lista como o 5ª maior. Isso indica um desenvolvimento e investimento de técnicas na Roraima;

*   Outro estado que chama à atenção é o Paraná, que no ano de 2000 ocupava a 6ª posição mas, no ano de 2010 ele caiu para a 9ª posição. Apesar de ainda está entre os 10 maiores, percebe-se que sua taxa ficou para trás comparada com os outros estados.


*   De modo geral, os outros estados permanecem os mesmos tanto em 2000 quanto em 2010, mostrando que os estados estão acompanhando e mantendo suas posições.


### Top 10 estados com *menor* taxa de conclusão do ensino médio

Em contrapartida, vamos observar nessa sessao como anda os estados com as menores taxa de conclusao buscando mapear o seu estado atual.

In [None]:
df_bottom10 = dados.nsmallest(10, '2000')

# plota o gráfico
ax = df_bottom10.plot(kind='bar', x='Estado', y='2000', color='red')
ax.set_ylabel('Percentual de população com ensino médio completo')
ax.set_ylim([0, 100])
for i, v in enumerate(df_bottom10['2000']):
    ax.text(i - 0.25, v + 1, str(v), color='black', fontweight='bold')
plt.show()

In [None]:
# Analisando os dados de 2010

df_bottom10 = dados.nsmallest(10, '2010')

# plota o gráfico
ax = df_bottom10.plot(kind='bar', x='Estado', y='2010', color='red')
ax.set_ylabel('Percentual de população com ensino médio completo')
ax.set_ylim([0, 100])
for i, v in enumerate(df_bottom10['2010']):
    ax.text(i - 0.25, v + 1, str(v), color='black', fontweight='bold')
plt.show()


#### Listagem dos estados com menor taxa de conclusão

Para ajudar a visualizar esta informacao, iremos listar os nomes destes estados.

In [None]:
# Obtém os 10 estados com as menores taxas de conclusão em 2000
df_bottom10 = dados.nsmallest(10, '2000')

# Obtém a lista de estados
bottom10_estados = df_bottom10['Estado'].tolist()

# Exibe a lista de estados
print("Os 10 estados com menor taxa de conclusão do ensino médio em 2000 são:\n", bottom10_estados)


In [None]:
# Obtém os 10 estados com as menores taxas de conclusão em 2010
df_bottom10 = dados.nsmallest(10, '2010')

# Obtém a lista de estados
bottom10_estados = df_bottom10['Estado'].tolist()

# Exibe a lista de estados
print("Os 10 estados com menor taxa de conclusão do ensino médio em 2010 são:\n", bottom10_estados)

#### Conclusão do Top 10 com as menores taxa de conclusão

A partir da visualizacao destes graficos e das listagens, mostrando uma visao oposta  dos estados com as maiores taxas, poderemos analisar previamente os estados com as menores taxas. Diante disso, podemos concluir que:

*   No ano de 2000 as menores taxas variam de 14% até 17%, ou seja, poderia se dizer que nesses estados do Brasil até no máximo 20% de sua populacao conclui o ensino médio. Isso é um número preocupante pois nem atinge a metade de toda a populacáo;

*   Piauí, por algum motivo ainda nao identificado possui a menor taxa de todo o país desde do período de 2000 até 2010;

*   Após 10 anos, as taxas de conclusao de ensino médio aumentou em torno de 10% em relacao aos estados de menores taxa. Assim, de 14% a 17% as taxas aumentaram para 24% e até 30%;

*   Chama atencao o estado do Pará, que possuía a 9 posicao e em 2010 subiu para a 5 posicao;

*   Pode-se notar que alguns estados saíram da lista de menor taxa e foram substituidos por outros, como a BahiaCeará e o Pernambuco;

*   Chama atencao que Pernambuco tenha entrado nessa lista. Além dos outros estados terem aumentado bastante a sua taxa, o estado de Pernambuco nao subiu tanto quanto os outros;

*   A presenca deste estados na listagem de menor taxa de conclusao é um aviso que pede por pesquisa e entendimento, podendo significar um déficit educacional. Apesar disso, isso nao significa necessariamente que estes estados nao possuam pontos fortes e tecnológicos, como o Pernambuco que possui o Porto digital, o seu parque tecnológico.






### Taxa de conclusão por região

Por fim, vamos analisar o desempenho de cada região do Brasil em relação à essa taxa em busca de padrões. Como temos dados de todos os estados nós podemos analisá-los em grupos das 5 regiões: Norte, Nordeste, Centro-Oeste, Sudeste e Sul.

In [None]:
regioes = {
    'Acre': 'Norte',
    'Alagoas': 'Nordeste',
    'Amapá': 'Norte',
    'Amazonas': 'Norte',
    'Bahia': 'Nordeste',
    'Ceará': 'Nordeste',
    'Distrito Federal': 'Centro-Oeste',
    'Espírito Santo': 'Sudeste',
    'Goiás': 'Centro-Oeste',
    'Maranhão': 'Nordeste',
    'Mato Grosso': 'Centro-Oeste',
    'Mato Grosso do Sul': 'Centro-Oeste',
    'Minas Gerais': 'Sudeste',
    'Pará': 'Norte',
    'Paraíba': 'Nordeste',
    'Paraná': 'Sul',
    'Pernambuco': 'Nordeste',
    'Piauí': 'Nordeste',
    'Rio de Janeiro': 'Sudeste',
    'Rio Grande do Norte': 'Nordeste',
    'Rio Grande do Sul': 'Sul',
    'Rondônia': 'Norte',
    'Roraima': 'Norte',
    'Santa Catarina': 'Sul',
    'São Paulo': 'Sudeste',
    'Sergipe': 'Nordeste',
    'Tocantins': 'Norte'
}


In [None]:
dados['Região'] = dados['Estado'].map(regioes)


Agora a nossa base de dados possui a coluna região

In [None]:
print(dados)

Verificando as taxas de conclusão das regiões

In [None]:
dados_regiao = dados.groupby("Região").mean()[["2000", "2010"]]
dados_regiao.plot(kind="bar")
plt.ylabel("Taxa de Conclusão")
plt.xlabel("Região")
plt.show()

#### Conclusões sobre a análise de regiões

Após a breve análise de cada região, podemos perceber mais conhecimento a respeito da conclusão do ensino médio pelo país. Temos como:


*   A região com a maior taxa, entre o período de 2000 até 2010 é o Centro-Oeste. Ele possui o estado de Brasília que possui a maior taxa;
*   De modo geral, as regiões possuem uma média próxima uma do outro;
*   Chama a atenção o fato do Nordeste possuir a menor taxa entre as outras regiões, nos dois períodos de tempo.




### Conclusão sobre a análise

Como vimos durante o projeto, tivemos a oportunidade de analisar a base de dados com os dados de conclusão do ensino médio a partir da população com 25 anos. Percebemos então que eles representam os adultos de cada geração que irá influenciar o país através de seu trabalho e representar o momento do país. Além disso, se menos pessoas finalizam o ensino médio então isso pode significar que essas áreas com menores taxas possuem mais pessoas que não tem acesso às graduações e recorram a outros tipos de trabalho assalariado, como supostamente o trabalho informal e trabalho rural.

Também pudemos observar a situação de cada estado e região de acordo com a sua taxa de conclusão. Vimos os estados com as maiores e as menores taxa, abrindo a possibilidade de investigação dos motivos, também em relação com as regiões. Uma coisa que fica claro é que na região do Distrito federal, de acordo com a base de dados é o que mais forma aluno do ensino médio.

Também pontuo a respeito de Pernambuco, região de vivência do cientista desta pesquisa. Fico surpreso em ver que boatos a respeito do Nordeste realmente esteja de acordo com a base de dados. O nordeste possui a menor taxa de conclusão em comparação com as outras regiões e Pernambuco, especificamente está na média da conclusão. Esse fato pode ser um impulsionador para que começe mais investimento em educação no Nordeste para que ele acompanhe o país e traga retorno para sua região.


Deixo em aberto para futuras análises as investigações a respeito dos motivos específicos de tal região e estado possuir a sua taxa. Recomendo analisar as intercorelações entre outros aspectos, como economia, taxa de desenvolvimento humano, taxa de desemprego e a taxa de evasão escolar.


Nosso país possuem aspectos demográficos, ambientais e sociais específicos e é interessante investigar o desempenho da população em relação à educação, pois ela é direito de cada cidadão e o impulsionador de desenvolvimento e transformação do país.


### Fontes


http://www.ipeadata.gov.br/Default.aspx