# Criação de visual utilizando Python + Plotly

Utilizando os dados do Censo Escolar de 2021, disponibilizados pelo INEP, seguem  as orientações gerais da atividade:

* Realizar uma análise focada das entidades escolares com localização diferenciada (área de assentamento, terra indígena e áreas remanescentes de quilombos) no estado Rio Grande do Sul.

In [1]:
#coluna da base de dados utilizada como base da análise
base_column = 'TP_LOCALIZACAO_DIFERENCIADA'

#filtros para o estado solicitado
filter_column_1 = 'SG_UF'
filter_comparision_1 = '=='
filter_value_1 = 'RS'

* O objetivo principal da investigação é entender a distribuição entre a quantidade de docentes e a quantidade de matrículas dessas entidades.

In [2]:
#define colunas da base de dados do gráfico
x_column='QT_MAT_BAS'
y_column='QT_DOC_BAS'

* Foi solicitado para que os resultados sejam mostrados em dois gráficos separados lado a lado considerando o tipo de localização da entidade (Urbana ou Rural).

In [3]:
#coluna de referência para criação de gráficos por valor (facet)
reference_column = 'TP_LOCALIZACAO'

* As escolas que não estão situadas em áreas de localização diferenciada devem ser removidas da análise.

In [4]:
#filtros para desconsiderar áreas não diferenciadas
filter_column_2 = 'TP_LOCALIZACAO_DIFERENCIADA'
filter_comparision_2 = '!='
filter_value_2 = 0

* O valor de quantidade de turmas também deve ser utilizado como uma dimensão adicional para dar mais destaque às entidades que possuem mais turmas.

In [5]:
#coluna da base de dados utilizada como dimensão adicional
aditional_dimension = 'QT_TUR_BAS'

# lista com as colunas da base de dados que serão utilizadas para geração do gráfico
chart_columns = ['TP_LOCALIZACAO_DIFERENCIADA', 'TP_LOCALIZACAO', 'QT_MAT_BAS', 'QT_DOC_BAS', 'QT_TUR_BAS']

Para realizar a atividade, será necessário seguir alguns padrões:

1. Gerar os gráficos utilizando Python + Plotly (Google Colab).


In [6]:
import pandas as pd
import plotly.express as px
from plotly.subplots import make_subplots

2. Baixar a base de dados do Censo escolar 2021, necessária para a realização da prática (esse material compactado já contém a base de dados em um arquivo CSV e um dicionário de dados em um arquivo XLSX).

      <a href='https://drive.google.com/file/d/10XbbQfvTJ323VJMKxpLVuebNfC1WWxos/view?usp=sharing'> Microdados Censo Escolar 2021 </a>

In [7]:
#importa base de dados com separador ponto e vírgula: decodifica para formato latin-1
df = pd.read_csv('microdados_ed_basica_2021.csv', encoding='latin-1', sep=';')

  df = pd.read_csv('microdados_ed_basica_2021.csv', encoding='latin-1', sep=';')


3. O título do gráfico deve ser: “Censo Escolar 2021: Análise de Localização Diferenciada (RS)”, centralizado, todo em negrito com tamanho de fonte 14.

In [8]:
#define título do gráfico
chart_title_text = '<b>Censo Escolar 2021: Análise de Localização Diferenciada (RS)</b>'

#define alinhamento do título do gráfico
chart_title_align = 0.5

#define tamanho do título do gráfico
chart_title_font_size = 14

4. O gráfico deve ser gerado com 600 pixels de altura e 1200 pixels de largura.

In [9]:
#define a altura do gráfico em pixels
chart_height = 600

#define a largura do gráfico em pixels
chart_width = 1200

5. A legenda deve ser utilizada na orientação horizontal, centralizado e na parte inferior do gráfico. Também deve apresentar o significado de cada dado, conforme o dicionário de dados. Criação de visual utilizando Python + Plotly

In [10]:
#define a orientação da legenda do gráfico
legend_orientation = 'h'

#define o local no eixo x da legenda do gráfico
legend_x_place = 'center'

#define o local no eixo y da legenda do gráfico
legend_y_place = 'bottom'

#define a posição no eixo x da legenda do gráfico
legend_x_position = 0.5

#define a posição no eixo y da legenda do gráfico
legend_y_position = -0.2

#define a distância entre os valores da legenda do gráfico
legend_entrywidth = 170

#define o nome dos valores da legenda do gráfico
legend_names = {'1':'Áreas de Assentamento', '2': 'Terras Indígenas', '3': 'Remanescentes Quilombola'}

7. O título da legenda de ser alterado para: “Localização Diferenciada”, com tamanho de fonte igual a 12.

In [11]:
#define o texto da legenda do gráfico
legend_title_text = '<b>Localização Diferenciada</b>'

#define o tamanho do texto da legenda do gráfico
legend_title_font_size = 12

8. Para escolas em área de assentamento, deve ser utilizada a cor “brown”.

9. Para escola em terra indígena, deve ser utilizada a cor “orange”.

10. Para escolas em áreas remanescentes de quilombo, deve ser utilizada a cor “turquoise”.

In [12]:
#define as cores do marcador conforme o valor de cada legenda
colors = ["brown", "orange", "turquoise"]

11. Os títulos individuais dos subgráficos devem apresentar o significado de cada tipo de localização, conforme o dicionário de dados.

In [13]:
#define o texto do título de cada subgráfico
sub_chart_title_text_1 = 'Localização <b>URBANA</b>'
sub_chart_title_text_2 = 'Localização <b>RURAL</b>'

12. O eixo com a quantidade de matrículas deve ser fixado entre 0 e 500. Deve também receber o título: “Quantidade de Matrículas”, com fonte tamanho 11.

In [14]:
#define o texto do título do eixo x
x_axis_title_text = '<b>Quantidade de Matrículas</b>'

#define o tamanho da fonte do texto do título do eixo x
x_axis_title_font_size = 11

#define o tamanho da faixa de valores para o eixo x
x_axis_range = [0, 500]

13. O eixo com a quantidade de docentes deve ser fixado entre 0 e 200. Deve também receber o título: “Quantidade de Matrículas”, com fonte tamanho 11.

In [15]:
#define o texto do título do eixo x
y_axis_title_text = '<b>Quantidade de Docentes</b>'

#define o tamanho da fonte do texto do título do eixo y
y_axis_title_size = 11

#define o tamanho da faixa de valores para o eixo y
y_axis_range = [0, 200]

14. Os marcadores devem ter borda da cor preta e opacidade de 75%.

In [16]:
#define o tamanho da borda do marcador
marker_line_width = 1

#define a cor da borda do marcador
marker_line_color = 'black'

#define a opacidade do marcador
marker_opacity = 0.75

15. Marcadores devem ter seu tamanho máximo igual a 30.

In [17]:
#define o tamanho máximo que o marcador pode ter
marker_size_max = 30

16. No canto superior direito da imagem, deve ser inserida uma anotação com o texto “Fonte: INEP”, com a cor “dark_gray” e fonte tamanho 12.

In [18]:
#define a posição no eixo x para a anotação
annotation_x_position = 1

#define a posição no eixo y para a anotação
annotation_y_position = 1.04

#define o texto para a anotação
annotation_text = "Fonte: INEP"

#define o alinhamento para a anotação
annotation_align = "right"

#define a cor para a anotação
annotation_font_color = 'darkgray'

#define o tamanho do texto da anotação
annotation_font_size = 12

In [19]:
#cria o DataFrame com os filtros informados
df_1 = df.query(f'{filter_column_1} {filter_comparision_1} "{filter_value_1}" and {filter_column_2} {filter_comparision_2} {filter_value_2}')

#resume o DataFrame apenas as colunas solicitadas
df_1 = df_1[chart_columns]

In [20]:
#transforma a coluna do DataFrame para o tipo 'str' (cor discreta)
#para permitir vincular a cor do marcador conforme valor da coluna da base de dados
df_1[base_column] = df_1[base_column].astype(str)

In [21]:
#vincular o tamanho do marcador conforme valor da coluna da base de dados (dimensão adicional)
bubble_size = df_1[aditional_dimension]

In [22]:
#cria gráfico de dispersão
fig = px.scatter(df_1,
                 x=x_column,
                 y=y_column,
                 size=bubble_size,
                 color=df_1[base_column],
                 color_discrete_sequence=colors,
                 facet_col=reference_column,
                 opacity=marker_opacity,
                 size_max=marker_size_max)

In [23]:
#define o texto do título para o subgráfico conforme valor da coluna de referência
for a in fig.layout.annotations:
  a.text = a.text.split("=")[1]
  #neste caso
  if (a.text == '1'):
    a.text = sub_chart_title_text_1 #1 = urbana
  else:
    a.text = sub_chart_title_text_2 #2 = rural

#define títulos desejados para os valores da legenda
fig.for_each_trace(lambda legend: legend.update(name = legend_names[legend.name],
                                                legendgroup = legend_names[legend.name]))

#define anotação no gráfico ("Fonte: INEP")
fig.add_annotation(x=annotation_x_position,
                   y=annotation_y_position,
                   xref="paper", #referencia o campo de impressão do gráfico
                   yref="paper", #referencia o campo de impressão do gráfico
                   text=annotation_text,
                   showarrow=False,
                   align=annotation_align,
                   font=dict(
                      color=annotation_font_color,
                      size=annotation_font_size))

#define propriedades para o eixo x de cada subgráfico
fig.update_xaxes(
    title_text = x_axis_title_text,
    title_font_size=x_axis_title_font_size,
    range=x_axis_range,
    row=1, col=1) #subgráfico 1

fig.update_xaxes(
    title_text = x_axis_title_text,
    title_font_size=x_axis_title_font_size,
    range=x_axis_range,
    row=1, col=2) #subgráfico 2

#define propriedades para o eixo y de cada gráfico
fig.update_yaxes(title_text = y_axis_title_text,
                 title_font_size=y_axis_title_size,
                 range=y_axis_range,
                 row=1, col=1) #subgráfico 1

fig.update_yaxes(range=y_axis_range,
                 row=1, col=2) #subgráfico 2

#atualiza propriedades do layout do gráfico
fig.update_layout(
  height=chart_height,
  width=chart_width,
  title=dict(text=chart_title_text,
             font=dict(size=chart_title_font_size),
             x=chart_title_align),
  showlegend=True,
  legend=dict(orientation=legend_orientation,
              title_text=legend_title_text,
              font=dict(size=legend_title_font_size),
              entrywidth=legend_entrywidth,
              yanchor=legend_y_place,
              y=legend_y_position,
              xanchor=legend_x_place,
              x=legend_x_position),
)

#atualiza propriedades de formato dos marcadores do gráfico
fig.update_traces(
  marker=dict(line=dict(width=marker_line_width,color=marker_line_color)),
  selector=dict(mode='markers'))

#mostra o gráfico
fig.show()

17. O visual deve ser exportado no formato HMTL com o nome:
“localizacao_diferenciada_rs.html”

In [24]:
#converte o gráfico para o formato HTML
fig.write_html('localizacao_diferenciada_rs.html')

# Dicas

* Não se esquece de avaliar a base de dados e realizar os tratamentos  necessários.

* Funções do plotly.express possuem os parâmetros como o facet_col que facilitam  a criação de gráficos facetados conforme dados do próprio dataframe.

* Anotações presentes nos visuais podem ser acessadas individualmente, caso  enfrente problemas para alterar algum título.

* As funções update_xaxes e update_yaxes permitem a utilização e parâmetros como row e col para alterar os eixos de somente um dos visuais caso necessário