# Análise de dados Enem 2021



Este estudo é baseado na análise do perfil de jovens que realizaram o Exame Nacional do Ensino Médio (Enem) na região próxima de Cotia.

## Segmentação de Dados disponibilizado pelo INEP

<p>O estudo foi realizado utilizando dados governamentais disponíveis para acesso em:</p>

[Link para acesso aos dados](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem)

<p>O arquivo compactado possui um tamanho superior a 470 megabytes e contém mais de 3 milhões de amostras. Para fins da pesquisa em questão, foi necessário realizar uma seleção específica dos dados relevantes, que pode ser visualizada a seguir:</p>

###### nota: Por se tratar de um arquivo muito grande, ele não foi incorporado a esse repositório, caso queria executar o código, será necessário baixar o arquivo no link disponibilizado 

##### Bibliotecas utilizadas:

In [5]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px

#### Dados do INEP

In [None]:
df_bruto = pd.read_csv('MICRODADOS_ENEM_2021.csv',encoding="ISO-8859-1",sep=';')

In [None]:
columns_recorte = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', 'CO_MUNICIPIO_PROVA',
       'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',
       'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 
       'TP_LINGUA', 'TP_STATUS_REDACAO',
       'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006',
]

df_recorte = df_bruto.filter(items=columns_recorte)

In [None]:
df_group = df_recorte.loc[df_recorte['NO_MUNICIPIO_ESC'].isin(['Cotia','Itapevi','Osasco','Jandira','Embu das Artes','Vargem Grande Paulista'])]
df_group = df_group.reset_index()
display(df_group)

In [None]:
# df_group.to_csv('Enem 2021 Grupo.csv')

Após a definição das colunas a serem utilizadas e a seleção do recorte do município, foi gerado um arquivo em formato .csv denominado 'Enem 2021 Grupo.csv' com 4856 linhas e 40 colunas. Este arquivo será utilizado ao longo da análise realizada.

## Filtrando e montando os DataFrames Utiliados

O público-alvo dessa ánalise são os jovens de 17 até 21 anos presentes na prova do enem, as amostras tem que seguir as seguintes regras:<br>
- Estar na faixa etária de 17 - 21 anos
- Estar presente nos dois dias de prova

In [7]:
df = pd.read_csv('Enem 2021 Grupo.csv', sep=',',encoding = "ISO-8859-1")

df = df.loc[df['TP_FAIXA_ETARIA'] <= 7] #Faixa de idade: 17 até 21 anos

display(df)

Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006
0,0,210051185282,2021,2,F,1,1,2,0,2,...,482.8,0,1.0,540.0,G,E,D,B,4.0,O
1,1,210051684606,2021,2,M,1,1,2,0,2,...,510.8,0,1.0,580.0,H,E,D,B,4.0,B
2,2,210054369325,2021,2,F,1,1,2,0,2,...,722.2,0,1.0,880.0,E,D,B,D,5.0,H
3,3,210053533029,2021,2,F,1,1,2,0,3,...,589.8,0,1.0,700.0,F,G,D,D,5.0,O
4,4,210051391672,2021,3,F,1,1,2,0,3,...,678.4,0,1.0,720.0,G,G,E,E,3.0,P
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4851,4851,210052915375,2021,2,M,1,3,2,0,2,...,646.0,0,1.0,360.0,C,C,C,C,4.0,D
4852,4852,210051729577,2021,2,F,1,1,2,0,2,...,,1,,,E,E,D,D,4.0,G
4853,4853,210051722139,2021,3,M,1,3,2,0,2,...,558.3,0,1.0,340.0,F,F,D,B,3.0,C
4854,4854,210054395585,2021,2,F,1,3,2,0,2,...,,1,,,D,D,B,D,5.0,F


In [8]:
df_presentes = df.loc[(df['TP_PRESENCA_MT']  == 1) & (df['TP_PRESENCA_LC'] == 1)]
display(df_presentes)

Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006
0,0,210051185282,2021,2,F,1,1,2,0,2,...,482.8,0,1.0,540.0,G,E,D,B,4.0,O
1,1,210051684606,2021,2,M,1,1,2,0,2,...,510.8,0,1.0,580.0,H,E,D,B,4.0,B
2,2,210054369325,2021,2,F,1,1,2,0,2,...,722.2,0,1.0,880.0,E,D,B,D,5.0,H
3,3,210053533029,2021,2,F,1,1,2,0,3,...,589.8,0,1.0,700.0,F,G,D,D,5.0,O
4,4,210051391672,2021,3,F,1,1,2,0,3,...,678.4,0,1.0,720.0,G,G,E,E,3.0,P
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4846,4846,210053914709,2021,6,F,1,1,2,0,2,...,415.4,1,1.0,460.0,D,E,F,F,2.0,B
4847,4847,210051125170,2021,2,M,1,3,2,0,2,...,619.1,0,1.0,520.0,F,E,B,C,4.0,C
4850,4850,210053962964,2021,3,M,1,1,2,0,2,...,467.1,0,1.0,580.0,E,F,C,F,2.0,B
4851,4851,210052915375,2021,2,M,1,3,2,0,2,...,646.0,0,1.0,360.0,C,C,C,C,4.0,D


### Mudança de dados para corresponder ao dicionário de variáveis:
Ao acessar os arquivos disponibilizados pelo INEP, é importante notar que eles vêm codificados e com uma nomenclatura específica. Para realizar a conversão correspondente ao tipo de informação desejado, utilizou-se como referência o "Dicionário de Variáveis". Esse dicionário está disponível para leitura no arquivo denominado "Dicionário_Microdados_Enem_2021.xlsx".

In [9]:
TP_FAIXA_ETARIA = {"Menores de 17 anos":1,"17 anos":2,"18 anos":3,"19 anos":4,"20 anos":5,"21 anos":6,"22 anos":7}

TP_ESTADO_CIVIL =  {
   'Não informado': 0,
	'Solteiro(a)': 1,
	'Casado(a)/Mora com companheiro(a)': 2,
	'Divorciado(a)/Desquitado(a)/Separado(a)': 3,
	'Viúvo(a)': 4}

TP_SEXO = {'Feminino':'F',
                 'Masculino': 'M'}

TP_COR_RACA = {
'Não declarado': 0,
'Branca': 1,
'Preta': 2,
'Parda': 3,
'Amarela': 4,
'Indígena': 5,
'Não dispõe da informação': 6}

TP_ST_CONCLUSAO = {
'Já concluí o Ensino Médio': 1,
'Estou cursando e concluirei o Ensino Médio em 2021': 2,
'Estou cursando e concluirei o Ensino Médio após 2021': 3,
'Não concluí e não estou cursando o Ensino Médio': 4}

TP_ANO_CONCLUIU = {
'Não informado': 0,
'2020': 1,
'2019': 2,
'2018': 3,
'2017': 4,
'2016': 5,
'2015': 6,
'2014': 7,
'2013': 8,
'2012': 9,
'2011': 10,
'2010': 11,
'2009': 12,
'2008': 13,
'2007': 14,
'Antes de 2007': 15}

TP_ESCOLA = {
'Não Respondeu': 1,
'Pública': 2,
'Privada': 3}

IN_TREINEIRO = {'Não': 0,'Sim':1}

TP_DEPENDENCIA_ADM_ESC={
  'Federal': 1,
	'Estadual': 2,
	'Municipal': 3,
	'Privada': 4}
TP_LOCALIZACAO_ESC = {'Urbana': 1, 'Rural': 2}

TP_SIT_FUNC_ESC = {
'Em atividade': 1,
'Paralisada': 2,
'Extinta': 3,
'Escola extinta em anos anteriores.': 4}

TP_STATUS_REDACAO	= {'Sem problemas': 1,
'Anulada': 2,
'Cópia Texto Motivador': 3,
'Em Branco': 4,
'Fuga ao tema': 6,
'Não atendimento ao tipo textual': 7,
'Texto insuficiente': 8,
'Parte desconectada': 9}

Q001 = Q002= {
'Nunca estudou.': 'A',
'Não completou a 4ª série/5º ano do Ensino Fundamental.': 'B',
'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.': 'C',
'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.': 'D',
'Completou o Ensino Médio, mas não completou a Faculdade.': 'E',
'Completou a Faculdade, mas não completou a Pós-graduação.': 'F',
'Completou a Pós-graduação.': 'G',
'Não sei.': 'H'}

TP_LINGUA = {'Inglês': 0, 'Espanhol': 1}

Q003 = Q004 = {'Grupo 1': 'A', 'Grupo 2': 'B', 'Grupo 3': 'C', 'Grupo 4': 'D', 'Grupo 5': 'E', 'Não sei': 'F'}

Q005 = {'1 - 5':[1,2,3,4,5],
        '6 - 10':[6,7,8,9,10],
				'11 - 15':[11,12,13,14,15],
				'16 - 20':[16,17,18,19,20]}

Q006 = {
'Nenhuma Renda': ['A'],
'R$ 1.100,00 - R$ 2.750,00.': ['B','C','D','E'],
'R$ 2.750,01 - R$ 6.600,00.': ['F','G','H','I'],
'R$ 6.600,01 - R$ 11.000,00.': ['J','K','L','M'],
'R$ 11.000,01 - Acima de R$ 22.000,00.': ['N','O','P','Q']
}

dicionarios_cols = {
    'TP_FAIXA_ETARIA':TP_FAIXA_ETARIA,
    'TP_SEXO':TP_SEXO,
    'TP_ESTADO_CIVIL':TP_ESTADO_CIVIL,
    'TP_COR_RACA':TP_COR_RACA,
    'TP_ST_CONCLUSAO':TP_ST_CONCLUSAO,
    'TP_ANO_CONCLUIU':TP_ANO_CONCLUIU,
    'TP_ESCOLA':TP_ESCOLA,
    'IN_TREINEIRO':IN_TREINEIRO,
    'TP_DEPENDENCIA_ADM_ESC':TP_DEPENDENCIA_ADM_ESC,
    'TP_LOCALIZACAO_ESC':TP_LOCALIZACAO_ESC,
    'TP_SIT_FUNC_ESC':TP_SIT_FUNC_ESC,
    'TP_LINGUA': TP_LINGUA,
    'TP_STATUS_REDACAO': TP_STATUS_REDACAO,
    'Q001':Q001,
    'Q002':Q002,
    'Q003':Q003,
    'Q004':Q004}



In [10]:
df_presentes = df.loc[(df['TP_PRESENCA_MT']  == 1) & (df['TP_PRESENCA_LC'] == 1)]

def valores_em_texto(val,colunas):
  dict_temporario = dicionarios_cols[colunas]
  for chave, valor in dict_temporario.items():
    if valor == val:
      return chave

def faixa_Q5_Q6(val,coluna):
  for chave,valor in coluna.items():
    if val in valor:
      return chave

str_colunas = ['TP_FAIXA_ETARIA','TP_SEXO','TP_ESTADO_CIVIL','TP_COR_RACA','TP_ST_CONCLUSAO','TP_ANO_CONCLUIU','TP_ESCOLA','IN_TREINEIRO',
               'TP_DEPENDENCIA_ADM_ESC','TP_LOCALIZACAO_ESC','TP_STATUS_REDACAO','TP_LINGUA','TP_SIT_FUNC_ESC','Q001','Q002','Q003','Q004']

nov_df = df_presentes[:]

for colunas in str_colunas:
  nov_df[colunas] = df_presentes[colunas].apply(valores_em_texto,args=(colunas,))

nov_df['Q005'] = nov_df['Q005'].apply(faixa_Q5_Q6,args=(Q005,))
nov_df['Q006'] = nov_df['Q006'].apply(faixa_Q5_Q6,args=(Q006,))
display(nov_df)


Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006
0,0,210051185282,2021,17 anos,Feminino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,482.8,Inglês,Sem problemas,540.0,Completou a Pós-graduação.,"Completou o Ensino Médio, mas não completou a ...",Grupo 4,Grupo 2,1 - 5,"R$ 11.000,01 - Acima de R$ 22.000,00."
1,1,210051684606,2021,17 anos,Masculino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,510.8,Inglês,Sem problemas,580.0,Não sei.,"Completou o Ensino Médio, mas não completou a ...",Grupo 4,Grupo 2,1 - 5,"R$ 1.100,00 - R$ 2.750,00."
2,2,210054369325,2021,17 anos,Feminino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,722.2,Inglês,Sem problemas,880.0,"Completou o Ensino Médio, mas não completou a ...",Completou a 8ª série/9º ano do Ensino Fundamen...,Grupo 2,Grupo 4,1 - 5,"R$ 2.750,01 - R$ 6.600,00."
3,3,210053533029,2021,17 anos,Feminino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Privada,...,589.8,Inglês,Sem problemas,700.0,"Completou a Faculdade, mas não completou a Pós...",Completou a Pós-graduação.,Grupo 4,Grupo 4,1 - 5,"R$ 11.000,01 - Acima de R$ 22.000,00."
4,4,210051391672,2021,18 anos,Feminino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Privada,...,678.4,Inglês,Sem problemas,720.0,Completou a Pós-graduação.,Completou a Pós-graduação.,Grupo 5,Grupo 5,1 - 5,"R$ 11.000,01 - Acima de R$ 22.000,00."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4846,4846,210053914709,2021,21 anos,Feminino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,415.4,Espanhol,Sem problemas,460.0,Completou a 8ª série/9º ano do Ensino Fundamen...,"Completou o Ensino Médio, mas não completou a ...",Não sei,Não sei,1 - 5,"R$ 1.100,00 - R$ 2.750,00."
4847,4847,210051125170,2021,17 anos,Masculino,Solteiro(a),Parda,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,619.1,Inglês,Sem problemas,520.0,"Completou a Faculdade, mas não completou a Pós...","Completou o Ensino Médio, mas não completou a ...",Grupo 2,Grupo 3,1 - 5,"R$ 1.100,00 - R$ 2.750,00."
4850,4850,210053962964,2021,18 anos,Masculino,Solteiro(a),Branca,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,467.1,Inglês,Sem problemas,580.0,"Completou o Ensino Médio, mas não completou a ...","Completou a Faculdade, mas não completou a Pós...",Grupo 3,Não sei,1 - 5,"R$ 1.100,00 - R$ 2.750,00."
4851,4851,210052915375,2021,17 anos,Masculino,Solteiro(a),Parda,Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,...,646.0,Inglês,Sem problemas,360.0,"Completou a 4ª série/5º ano, mas não completou...","Completou a 4ª série/5º ano, mas não completou...",Grupo 3,Grupo 3,1 - 5,"R$ 1.100,00 - R$ 2.750,00."


## DataFrames de Notas escolas por categoria

Para a análise das notas, realizou-se uma distinção das categorias das escolas em três grupos: Pública, Privada e Geral. O grupo Geral engloba todas as modalidades.

In [11]:
def tabela_notas(data):
    locais = ['GERAL','Cotia','Embu das Artes','Itapevi','Jandira','Osasco','Vargem Grande Paulista']
    dict_med = {}

    for i in locais:
        if i == 'GERAL':
            municipio = data
        else:
            municipio = data.loc[data['NO_MUNICIPIO_ESC'] == i]
        dict_med[i] = [municipio.iloc[:,27].mean(),
                        municipio.iloc[:,28].mean(),
                        municipio.iloc[:,29].mean(),
                        municipio.iloc[:,30].mean(),
                        municipio.iloc[:,33].mean()]

        df_medias_notas = pd.DataFrame(data= dict_med,index=['Natureza','Humanas','Linguagem','Matematica','Redacao'])
        df_medias_notas = df_medias_notas.applymap('{:.2f}'.format)
        df_medias_notas = df_medias_notas.astype('float64')
    return df_medias_notas

In [12]:
df_medias_notas = tabela_notas(df_presentes)
display(df_medias_notas)

Unnamed: 0,GERAL,Cotia,Embu das Artes,Itapevi,Jandira,Osasco,Vargem Grande Paulista
Natureza,499.2,509.34,481.13,471.2,475.66,503.65,515.23
Humanas,536.86,540.2,526.43,509.97,518.41,542.94,531.59
Linguagem,522.34,525.5,514.69,500.31,508.07,526.77,520.16
Matematica,553.2,568.36,531.74,513.95,530.06,558.16,555.9
Redacao,620.78,632.59,584.79,570.72,589.7,632.56,610.89


In [13]:
df_medias_notas_priv = tabela_notas(nov_df.loc[nov_df['TP_ESCOLA'] == "Privada"])
display(df_medias_notas_priv)

Unnamed: 0,GERAL,Cotia,Embu das Artes,Itapevi,Jandira,Osasco,Vargem Grande Paulista
Natureza,539.12,543.47,506.87,546.06,526.65,536.48,582.99
Humanas,567.49,561.13,564.14,569.82,571.75,568.42,597.06
Linguagem,548.32,546.69,540.74,547.69,550.93,547.88,573.47
Matematica,600.66,610.17,554.99,579.82,600.46,597.19,635.76
Redacao,685.34,685.56,595.65,645.62,662.56,689.04,702.33


In [14]:
df_medias_notas_publi = tabela_notas(nov_df.loc[nov_df['TP_ESCOLA'] == "Pública"])
display(df_medias_notas_publi)

Unnamed: 0,GERAL,Cotia,Embu das Artes,Itapevi,Jandira,Osasco,Vargem Grande Paulista
Natureza,476.31,482.69,479.51,458.59,466.82,477.7,473.0
Humanas,519.29,523.85,524.05,499.89,509.16,522.79,490.8
Linguagem,507.44,508.95,513.04,492.33,500.64,510.08,486.93
Matematica,525.98,535.7,530.27,502.86,517.86,527.31,506.12
Redacao,583.76,591.24,584.11,558.11,577.07,587.91,553.91


## Funções para gerar Gráficos



In [20]:
cor_destaque = "rgb(00, 33, 47)"
cor_claro = "rgb(33, 249, 208)"
cor_tema = "rgb(0, 143, 199)"
cor_destoante = "rgb(46, 66, 74)"
cor_escuro = "rgb(00, 69, 94)"

textos_graficos = {
'TP_FAIXA_ETARIA': ['Faixa etária Enem 2021','Idade'],
'TP_SEXO': ['Sexo dos candidatos Enem 2021','Sexo'],
'TP_COR_RACA': ['Etnias candidatos Enem 2021','Etinia'],
'TP_ESCOLA': ['Tipo de escola do Ensino Médio Enem 2021','Tipos de escola'],
'NO_MUNICIPIO_ESC':['Município das escolas dos candidatos Enem 2021','Município'],
'TP_DEPENDENCIA_ADM_ESC': ['Dependência administrativa (Escola) Enem 2021','Região Administrativa'],
'TP_LINGUA':['Língua Estrangeira selecionada Enem 2021','Língua Estrangeira'],
'TP_STATUS_REDACAO':['Status da redação Enem 2021','Status redação'],
'Q001':['Escolaridade Paterna Enem 2021', 'Escolaridade Pai'],
'Q002':['Escolaridade Materna Enem 2021','Escolaridade Mãe'],
'Q003':['Grupo de Ocupação Paterna Enem 2021', 'Ocupação Pai'],
'Q004':['Grupo de Ocupação Materna Enem 2021', 'Ocupação Mãe'],
'Q005':['Quantidade de pessoas que moram na<br>residência do candidato Enem 2021', 'Membros da Família'],
'Q006':['Renda Familiar','Renda']
}


def create_graf_pizza(SERIE):
  cores_array_pizza = [cor_destaque] * len(SERIE.index)
  cores_array_pizza[1] = cor_claro
  if len(SERIE.index) == 3:
    cores_array_pizza[2] = cor_escuro

  fig_pie = go.Figure()

  fig_pie.add_trace(go.Pie(values=SERIE.values,
                          labels= SERIE.index,
                          marker_colors=cores_array_pizza))

  fig_pie.update_traces(hole=.5,
                        customdata = np.stack( (SERIE.index, SERIE.values), axis=-1),
                        hovertemplate= f'<b>{textos_graficos[SERIE.name][1]}:'+'</b> %{customdata[0][0]}<br><b>Quantidade: %{customdata[0][1]}</b>',
                        textfont_size=16,)

  fig_pie.update_layout(title=f"<b>{textos_graficos[SERIE.name][0]}</b>",
                        title_x=0.5,
                        title_font = {"size": 20,"family":"Tahoma,sans serif"},
                        width=500,
                        height=500)

  return fig_pie



In [16]:
def tamanho_zoom(SERIE):
  maior = max(SERIE) * 1.07
  return maior


def gerador_graf(SERIE):
  if len(SERIE.index) <= 3:
    return create_graf_pizza(SERIE)
  else:
    cores_array = [cor_destoante] * len(SERIE.index)
    cores_array[0] = cor_destaque
    cores_array[1] =cor_escuro
    cores_array[2] = cor_claro
    #marker_colors=[cor_destaque,cor_claro]
    layout_zoom = go.Layout(yaxis=dict(range=[0, tamanho_zoom(SERIE)]))
    GRAF_SERIE = go.Figure(layout=layout_zoom)

    GRAF_SERIE.add_trace(go.Bar(x=SERIE.index,
                                          y=SERIE.values,
                                          text=SERIE.values,
                                          textposition='outside',
                                          textfont_size=16,
                                          marker_color= cores_array
                                          ))

    GRAF_SERIE.update_layout(title=f"<b>{textos_graficos[SERIE.name][0]}</b>",
                                      title_x= 0.5,
                                      template= 'plotly_white',
                                      title_font = {"size": 20,"family":"Tahoma,sans serif"})

    # GRAF_SERIE.update_xaxes(title_font=dict(size=18))
    GRAF_SERIE.update_yaxes(visible=False, showticklabels=False)

    GRAF_SERIE.update_traces(customdata = np.stack( (SERIE.index, SERIE.values), axis=-1),
                            hovertemplate= f'<b>{textos_graficos[SERIE.name][1]}:'+'</b> %{customdata[0]}<br><b>Quantidade: %{customdata[1]}</b>')

    GRAF_SERIE.update_xaxes(tickfont_size=16)

    return GRAF_SERIE



In [17]:
def graf_notas_esc(data,titulo):
    fig_notas = go.Figure(layout= go.Layout(yaxis=dict(range=[0,1000])))
    palheta = [cor_destaque,cor_claro,cor_tema,cor_destoante,cor_escuro]
    nome_materias = ['Natureza','Humanas','Linguagem','Matematica','Redacao']
    for i in range(len(data.index)):
        fig_notas.add_trace(go.Bar(x=data.loc[nome_materias[i]].index,
                                   y=data.loc[nome_materias[i]].values,
                                   text=data.loc[nome_materias[i]].values,
                                   textposition='outside',
                                   textfont_size=16,
                                   name= nome_materias[i],
                                   marker_color=palheta[i]))


    fig_notas.update_layout(title=f"<b>{titulo}</b>",
                                        title_x= 0.5,
                                        template= 'plotly_white',
                                        title_font = {"size": 20,"family":"Tahoma,sans serif"},
                                        bargap=0.20,
                                        bargroupgap=0.1)

    fig_notas.update_yaxes(visible=False, showticklabels=False)

    fig_notas.update_traces(customdata = np.stack( (data.columns, data.loc['Natureza'].values,data.loc['Humanas'].values,data.loc['Linguagem'].values,data.loc['Matematica'].values,data.loc['Redacao'].values), axis=-1),
                                hovertemplate= '<b>Município</b> %{customdata[0]}<br><b>Nota Natureza: %{customdata[1]}</b><br><b>Nota Humanas: %{customdata[2]}</b><br><b>Nota Linguagem: %{customdata[3]}</b><br><b>Nota Matemática: %{customdata[4]}</b><br><b>Nota Redação: %{customdata[5]}</b>')

    fig_notas.update_xaxes(tickfont_size=16)

    return fig_notas




## Gráficos Plotados

In [21]:
gerador_graf(nov_df['NO_MUNICIPIO_ESC'].value_counts())

In [14]:
gerador_graf(nov_df['TP_FAIXA_ETARIA'].value_counts())

In [15]:
gerador_graf(nov_df['TP_LINGUA'].value_counts() )

In [16]:
gerador_graf(nov_df['TP_DEPENDENCIA_ADM_ESC'].value_counts())

In [17]:
tipo_esc = gerador_graf(nov_df['TP_ESCOLA'].value_counts())
tipo_esc.update_layout(title="<b>Tipo de escola dos participantes Enem 2021</b>")
tipo_esc.show() 

In [18]:
graf_redacao = gerador_graf(nov_df['TP_STATUS_REDACAO'].value_counts())

graf_redacao.update_layout(xaxis=dict(tickmode='array',tickvals=[0,1,2,3,4,5,6,7],ticktext =['Sem problemas', 'Em Branco', 'Fuga ao tema', 'Texto insuficiente','Parte<br>desconectada', 'Cópia Texto<br>Motivador','Não atendimento<br>ao tipo textual', 'Anulada'],tickfont_size=14))

In [19]:
lista_escolaridade_familiar = ["Até Ensino médio","Até Faculdade","Pós-graduado","Até o fundamental","Até o 5°<br>do fundamental","Não sabe","Não completou<br>5° do fundamental","Nunca estudou"]

graf_q001 = gerador_graf(nov_df['Q001'].value_counts())
graf_q001.update_layout(xaxis=dict(tickmode='array',tickvals=[0,1,2,3,4,5,6,7],ticktext =lista_escolaridade_familiar,tickfont_size=14))

graf_q001.show()

In [20]:
graf_q002 = gerador_graf(nov_df['Q002'].value_counts())

graf_q002.update_layout(xaxis=dict(tickmode='array',tickvals=[0,1,2,3,4,5,6,7],ticktext =lista_escolaridade_familiar,tickfont_size=14))

graf_q002.show()

In [21]:
gerador_graf(nov_df['Q003'].value_counts())

In [22]:
gerador_graf(nov_df['Q004'].value_counts())

In [23]:
gerador_graf(nov_df['Q005'].value_counts())

In [24]:
graf_q006 = gerador_graf(nov_df['Q006'].value_counts())

graf_q006.update_layout(xaxis=dict(tickmode='array',tickvals=[0,1,2,3,4],ticktext =['R&#36; 1.100,00 até<br>R&#36; 2.750,00.', 'R&#36; 2.750,01 até<br>R&#36; 6.600,00.','R&#36; 6.600,01 até<br>R&#36; 11.000,00.', 'R&#36; 11.000,01<br>Acima de R&#36; 22.000,00.','Nenhuma Renda'],tickfont_size=14))

graf_q006.show()

Grafico notas enem

In [25]:
graf_notas_esc(df_medias_notas,"Notas Gerais do Enem 2021")

In [26]:
graf_notas_esc(df_medias_notas_priv,"Notas Escolas Particulares do Enem 2021")

In [27]:
graf_notas_esc(df_medias_notas_publi,"Notas Escolas Publicas do Enem 2021")

## Mapa de escolas da região de Cotia


<p>Embora haja uma falta de dados específicos sobre as escolas frequentadas pelos alunos, foi relevante realizar um levantamento das localizações de todas as escolas registradas no sistema governamental da região estudada.</p>

<p>O acesso ao catálogo de escolas pode ser feito através do seguinte site: </p>

[Link para o acesso do catálogo](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/inep-data/catalogo-de-escolas)

In [3]:
def coordenadas(row):  #A função coordenadas organiza os dados para de coordenadas para que sejam compatíveis com o gráfico
  tamanho = (len(str(row)) - 3)
  divisor = '1'+'0'*tamanho
  nova_row = row / int(divisor)
  return nova_row



df_mapa = pd.read_excel('Tabela da lista das escolas.xlsx')

df_mapa['Longitude'] = df_mapa['Longitude'].apply(coordenadas)
df_mapa['Latitude'] = df_mapa['Latitude'].apply(coordenadas)

display(df_mapa)

Unnamed: 0,Restrição de Atendimento,Escola,Código INEP,UF,Município,Localização,Localidade Diferenciada,Categoria Administrativa,Endereço,Telefone,Dependência Administrativa,Categoria Escola Privada,Conveniada Poder Público,Regulamentação pelo Conselho de Educação,Porte da Escola,Etapas e Modalidade de Ensino Oferecidas,Outras Ofertas Educacionais,Latitude,Longitude
0,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,COLEGIO ESCOPO,35004874,SP,Osasco,Urbana,A escola não está em área de localização difer...,Privada,"DOS AUTONOMISTAS, 1325 VILA YARA. 06020-015 Os...",(11) 36817396,Privada,Particular,Não,Sim,Entre 201 e 500 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",,-23.542805,-46.767185
1,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,COLEGIO SAO JOSE DA DIVINA PROVIDENCIA,35005014,SP,Osasco,Urbana,A escola não está em área de localização difer...,Privada,"ANASTACIA JACHIMOV, 170 AYROSA. 06290-180 Osas...",(11) 43761903,Privada,Confessional,Não,Sim,Entre 201 e 500 matrículas de escolarização,"Educação Infantil, Ensino Fundamental, Ensino ...",,-23.518471,-46.771809
2,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,CENTRO EDUCACIONAL SESI 440,35005116,SP,Jandira,Urbana,A escola não está em área de localização difer...,Privada,"EMILIO GUERRA, SN JARDIM MASE. 06604-200 Jandi...",(11) 47892397,Privada,Particular,Não,Sim,Entre 501 e 1000 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",,-23.542579,-46.900889
3,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,TESLA DIGITAL SCHOOL,35007646,SP,Osasco,Urbana,A escola não está em área de localização difer...,Privada,"RUA MINAS BOGASIAN, 342 CENTRO. 06013-010 Osas...",(11) 952703703,Privada,Particular,Não,Sim,Entre 51 e 200 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",,-23.533469,-46.778823
4,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,COC VILA YARA UNIDADE II,35007828,SP,Osasco,Urbana,A escola não está em área de localização difer...,Privada,"AVENIDA YARA, 136 VILA YARA. 06028-100 Osasco ...",(11) 36818000,Privada,Particular,Não,Sim,Entre 51 e 200 matrículas de escolarização,Ensino Médio,,-23.546947,-46.763852
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
232,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,ANTONIO CARLOS DA TRINDADE,35924040,SP,Osasco,Urbana,A escola não está em área de localização difer...,Pública,"ONIX, 889 AVENIDA. AYROSA. 06280-030 Osasco - SP.",(11) 35991824,Estadual,Não Informado,Não,Sim,Entre 501 e 1000 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",Atividade Complementar,-23.508720,-46.765631
233,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,LAERCIO SURIM,35924313,SP,Vargem Grande Paulista,Urbana,A escola não está em área de localização difer...,Pública,"AVENIDA IVO MARIO ISAAC PIRES, 5011 RUA. PARQU...",(11) 26588317,Estadual,Não Informado,Não,Sim,Entre 501 e 1000 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",Atividade Complementar,-23.649686,-46.995591
234,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,RODOLFO JOSE DA COSTA E SILVA,35924436,SP,Embu das Artes,Urbana,A escola não está em área de localização difer...,Pública,"RUA DOUTOR JORGE BALDUZZI, 182 RUA. JARDIM MIM...",(11) 47043034,Estadual,Não Informado,Não,Sim,Entre 201 e 500 matrículas de escolarização,"Ensino Fundamental, Ensino Médio",Atendimento Educacional Especializado,-23.619611,-46.814097
235,ESCOLA EM FUNCIONAMENTO E SEM RESTRIÇÃO DE ATE...,JOSE EDSON MARTINS GOMES PROFESSOR,35925421,SP,Osasco,Urbana,A escola não está em área de localização difer...,Pública,"THEDA FIGUEIREDO REGA, SN RUA. JARDIM ELVIRA. ...",(11) 35993421,Estadual,Não Informado,Não,Sim,Mais de 1000 matrículas de escolarização,"Ensino Fundamental, Ensino Médio, Educação de ...",Atividade Complementar,-23.501615,-46.801228


In [4]:
bubbles_map = px.scatter_mapbox(df_mapa,
                           lon= 'Longitude',
                           lat= 'Latitude',
                           color= "Município",
                           opacity= 1,
                           center = {"lat":-23.5972335, "lon": -46.91473},
                           zoom = 9.7,
                           title= "<b>Escolas da região estudada</b>",
                           size_max = 30,
                           hover_name='Escola'

)

bubbles_map.update_layout(mapbox_style='carto-positron',
                    title_x= 0.5,
                    title_font_size=25,
                    font_size=15,
                    

)


bubbles_map.update_layout(margin={"r":0,"t":50,"l":0,"b":10})

bubbles_map.show()