<a href="https://colab.research.google.com/github/victortargino/Analise_ENEM_RN/blob/master/Analise_RN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Esta análise trata-se do projeto realizado durante a semana da Imersão Dados Alura, apenas com finalidade de praticar o que se foi estudado.**
Támbem fiz um [site no github pages](https://victortargino.github.io/Analise_ENEM_RN/) para facilicar na leitura do conteúdo.

# Análise do Rio Grande do Norte
 
A partir dos dados do Exame Nacional do Ensino Médio (ENEM) 2019 no estado do Rio Grande do Norte, vamos dimensionar quantos estudantes vão ser afetados e de quais municípios eles são pensando em quais locais o Estado poderia priorizar nos recursos para educação. Para isso vamos considerar que os estudantes do ano passado serão os mesmos desse ano, analisaremos critérios como acesso à internet, quantidade de computadores e celulares na residência.

Por **Victor Vieira**

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.io as pio
import plotly.graph_objects as go
from plotly.subplots import make_subplots

#Define tamanho das figuras
sns.set(rc={'figure.figsize':(8,6)})
#Importação do arquivo principal
uri = f'https://github.com/alura-cursos/imersao-dados-2-2020/blob/master/por%20estado/rn.csv.zip?raw=true'
arquivo = f'rn.csv.zip'
!wget -O $arquivo $uri
rio_norte = pd.read_csv(arquivo, sep=";")

--2020-10-26 01:18:29--  https://github.com/alura-cursos/imersao-dados-2-2020/blob/master/por%20estado/rn.csv.zip?raw=true
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github.com/alura-cursos/imersao-dados-2-2020/raw/master/por%20estado/rn.csv.zip [following]
--2020-10-26 01:18:29--  https://github.com/alura-cursos/imersao-dados-2-2020/raw/master/por%20estado/rn.csv.zip
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/alura-cursos/imersao-dados-2-2020/master/por%20estado/rn.csv.zip [following]
--2020-10-26 01:18:29--  https://raw.githubusercontent.com/alura-cursos/imersao-dados-2-2020/master/por%20estado/rn.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githu

In [2]:
# Ajeitar nome da última coluna
rio_norte = rio_norte.rename(columns = {'Q025 ' : 'Q025'}, inplace = False)

## Acesso à internet

Visto que a previsão da [volta às aulas da rede pública está prevista para depois do ENEM 2020](https://g1.globo.com/rn/rio-grande-do-norte/noticia/2020/10/22/governo-do-rn-preve-retomada-de-aulas-na-rede-estadual-com-ensino-hibrido-a-partir-de-1o-de-fevereiro-de-2021.ghtml) enquanto a [rede particular retornou apenas esse mês](https://g1.globo.com/rn/rio-grande-do-norte/noticia/2020/09/03/governo-do-rn-anuncia-retorno-das-aulas-presenciais-a-partir-de-5-de-outubro.ghtml) (outubro). É notável que uma conexão à internet em casa é crucial para a preparação da prova, já que os estudantes tiveram que passar a maior tempo do ano em casa sem poder sair para estudar em outros locais. O gráfico abaixo mostra a distribuição de alunos com internet em casa.

In [3]:
# Dataframe com a situação dos alunos em relação à internet 
d = {'quantidade': rio_norte["Q025"].value_counts(), 'internet_em_casa': ["Possui", "Não Possui"]}
acesso_internet = pd.DataFrame(data=d)


In [4]:
#Plot do gráfico
fig = px.pie(acesso_internet, values='quantidade', names='internet_em_casa',title='Situação de acesso à internet em casa')
#Estilo do gráfico
fig.update_traces(hoverinfo='label+percent',textfont_size=18)
fig.update_layout(font=dict(size=16),width=1000,height=500)
fig.show()

Percebe-se que uma parcela muito significativa dos inscritos do ENEM não possuem meios de estudar online em casa.

## Equipamento para estudar online
Apesar do grande número de jovens sem acesso à internet em casa que estão sendo diretamente afetados pela medidas sanitárias de distanciamento, mesmo os que tenham meios de estudar online podem sofrer dificuldades nos estudos. Ter um celular ou computador à disposição é de grande importância para o aprendizado nesse momento. O gráfico abaixo mostra quantos a quantidade de computadores na resisdência dos alunos.

### Computador


In [5]:
com_internet= rio_norte.loc[(rio_norte["Q025"] == "B ")]

In [6]:
#Data Frame a quantidade de cada respotas da perugnta 24 (sobre a quantidade de computadores)
d = {'quantidade':com_internet["Q024"].value_counts().sort_index(), 'computadores em casa': ["Nenhum", "Um","Dois","Três","Quatro ou mais."]}
computador = pd.DataFrame(data=d)

In [7]:
#Plot do gráfico
fig = px.pie(computador, values='quantidade', names='computadores em casa',title='Quantidade de computadores domésticos')
#Estilo do gráfico
fig.update_traces(hoverinfo='label+percent',textfont_size=18)
fig.update_layout(font=dict(size=16),width=1000,height=500)
fig.show()

### Celular
É possível observar que uma boa parte dos incritos com acesso à internet em casa não possuiu nenhum computador para poder estudar, ou seja, estão totalmente dependentes de um celular para se preparar para a prova. Contudo, o celular é um equipamento de uso pessoal e muito mais constante, então é necessário analisar a quantidade pessoas por celular nas casas de quem possui internet mas não computador. O gráfico abaixo mostra a distribuições dessa relação.

In [8]:
#Criando dataframe apenas com inscritos sem computador
com_net_sem_pc = com_internet.loc[(com_internet['Q024'] ==  "A") ]
#Mudando 
com_net_sem_pc.loc[(com_net_sem_pc['Q022'] ==  'A'), 'Q022'] = 0
com_net_sem_pc.loc[(com_net_sem_pc['Q022'] ==  'B'), 'Q022'] = 1
com_net_sem_pc.loc[(com_net_sem_pc['Q022'] ==  'C'), 'Q022'] = 2
com_net_sem_pc.loc[(com_net_sem_pc['Q022'] ==  'D'), 'Q022'] = 3
com_net_sem_pc.loc[(com_net_sem_pc['Q022'] ==  'E'), 'Q022'] = 4
#Para não ocorrer divisão por 0 considerei que que não tem celular tem uma relação pessoa / celular = número de pessoas
com_net_sem_pc['pessoa_por_celular'] = com_net_sem_pc['Q005']
com_net_sem_pc['pessoa_por_celular'] = com_net_sem_pc.loc[(com_net_sem_pc['Q022'] !=  0),'Q005']/com_net_sem_pc.loc[(com_net_sem_pc['Q022'] !=  0),'Q022']



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [9]:
fig = px.histogram(com_net_sem_pc, x="pessoa_por_celular")
fig.update_layout(
    title_text='Relação do número de pessoas de celular e quantidade de celulares', 
    xaxis_title_text='Pessoas / Celular',
    yaxis_title_text='Quantidade')
fig.show()

Para melhor visualização recomendo selecionar a área de interesse. Uma relação maior que duas pessoas por celular significa que o estudante tem terá que dividir o uso com celular com no mínimo uma pessoa, o que é muito prejudicial nos momentos de estudos.

## Conclusão
Agora vamos reunir todos os incritos prejudicados a partir dos critérios já discutidos (acesso à internet, não possuiu computador, muitas pessoas por celulare na casa) e descobrir o que eles possuem em comum.

In [10]:
#Unindo os dataframes de inscritos sem internet, com os com internet, sem computador e com mais de 2 pessoas por celular em casa.
frames = [rio_norte.loc[(rio_norte["Q025"] == "A ")], com_net_sem_pc.loc[(com_net_sem_pc['pessoa_por_celular'] >  2),: 'Q025']]
total = pd.concat(frames)

In [11]:
df = pd.concat([total['CO_MUNICIPIO_RESIDENCIA'].value_counts(), rio_norte['CO_MUNICIPIO_RESIDENCIA'].value_counts()], axis=1)
df.columns = ['prejudicados', 'total']
df['porcentagem'] = df['prejudicados']*100/df['total']
df.reset_index(inplace=True)
df = df.rename(columns = {'index':'codigo_municipio'})


In [12]:
import requests
# Importando dataframe com as longitudes e latitudes dos municípios
s="https://raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/municipios.csv"
cod_municipio =pd.read_csv(s)

In [13]:
municipios_latitude = pd.merge(df, cod_municipio, how='left', left_on=['codigo_municipio'], right_on = ['codigo_ibge'])
municipios_latitude.head()

Unnamed: 0,codigo_municipio,prejudicados,total,porcentagem,codigo_ibge,nome,latitude,longitude,capital,codigo_uf
0,2400109,110,466,23.60515,2400109,Acari,-6.4282,-36.6347,0,24
1,2400208,733,1985,36.926952,2400208,Açu,-5.58362,-36.914,0,24
2,2400307,135,289,46.712803,2400307,Afonso Bezerra,-5.49229,-36.5075,0,24
3,2400406,43,112,38.392857,2400406,Água Nova,-6.20351,-38.2941,0,24
4,2400505,149,425,35.058824,2400505,Alexandria,-6.40533,-38.0142,0,24


In [14]:
fig = px.scatter_mapbox(municipios_latitude, lat="latitude", lon="longitude", size="porcentagem" , color="porcentagem", hover_name="nome", hover_data=["prejudicados","total"])
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

A partir do apresentado é possível concluir que os alunos da região intermediária de natal (agreste e parte litoral norte e litoral oriental) são os que estão sendo mais afetados pelas consequências do COVID no seu ano de ENEM. Logo, estas regiões merecem um esforço maior atenção e esforço do Gorveno do Estado do Rio Grande do Norte para garantir uma educação digna à quem mais precisa.

# Referências
A [Imersão dados Alura](https://www.alura.com.br/), onde aprendi pude me aprofundar um pouco nesse mundo da análise de dados;

O canal [Peixe Babel](https://www.youtube.com/user/CanalPeixeBabel), onde aprendi mais sobre o potencial do Plotly;

O canal [Programação Dinâmica](https://www.youtube.com/channel/UC70mr11REaCqgKke7DPJoLg), onde aprendi a fazer encontrar as cordenadas a partir do código do município;

O repositório de [Kelvin S. do Prado](https://github.com/kelvins/Municipios-Brasileiros), onde tirei os dados das coordenadas.

