In [1]:
import pandas as pd
import plotly.express as px
import plotly.offline as py
import json

import plotly.io as pio
pio.renderers.default = 'notebook'

In [2]:
# carregando o dataset
enem_df = pd.read_csv('enem2009_2021.csv')
display(enem_df)

Unnamed: 0,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,NO_MUNICIPIO_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,TP_COR_RACA
0,2009,5,F,,,,459.6,410.4,536.6,556.9,575.0,1.0
1,2009,4,M,TANGUA,RJ,2.0,409.2,323.1,376.7,360.5,475.0,0.0
2,2009,9,F,,,,406.9,430.3,519.9,413.1,500.0,3.0
3,2009,7,F,,,,432.3,527.7,541.2,464.4,700.0,3.0
4,2009,3,F,RIO BONITO,RJ,3.0,406.1,629.9,580.0,417.9,775.0,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...
52685383,2021,15,F,,,,506.0,405.2,416.3,450.4,240.0,1.0
52685384,2021,14,M,,,,435.6,531.2,534.7,399.2,320.0,3.0
52685385,2021,10,M,,,,576.9,605.6,631.0,678.0,640.0,1.0
52685386,2021,5,F,,,,449.9,368.2,466.3,370.0,540.0,3.0


In [3]:
# observando os tipos de dados
enem_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52685388 entries, 0 to 52685387
Data columns (total 12 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_ANO                  int64  
 1   TP_FAIXA_ETARIA         int64  
 2   TP_SEXO                 object 
 3   NO_MUNICIPIO_ESC        object 
 4   SG_UF_ESC               object 
 5   TP_DEPENDENCIA_ADM_ESC  float64
 6   NU_NOTA_CN              float64
 7   NU_NOTA_CH              float64
 8   NU_NOTA_LC              float64
 9   NU_NOTA_MT              float64
 10  NU_NOTA_REDACAO         float64
 11  TP_COR_RACA             float64
dtypes: float64(7), int64(2), object(3)
memory usage: 4.7+ GB


In [4]:
# carregando o dados json com as coordenadas
geojson = json.load(open('brasil_estados.json'))
geojson['features'][0]

{'type': 'Feature',
 'id': 'AC',
 'properties': {'name': 'Acre'},
 'geometry': {'type': 'Polygon',
  'coordinates': [[[-73.3325109999999, -7.324878999999896],
    [-73.274817, -7.350334],
    [-72.870164, -7.528881999999896],
    [-72.691514, -7.610621],
    [-72.659348, -7.624979],
    [-72.189666, -7.720489],
    [-72.173179, -7.723841],
    [-72.023178, -7.769827],
    [-72.005143, -7.774846],
    [-71.569238, -7.874255],
    [-71.5129859999999, -7.887299],
    [-71.241607, -7.950207],
    [-70.937416, -8.01909],
    [-70.575844, -8.09594],
    [-70.55023099999988, -8.101379999999892],
    [-70.462364, -8.120046],
    [-70.427306, -8.12811],
    [-70.369521, -8.141402],
    [-70.296363, -8.180022],
    [-70.291695, -8.182485],
    [-70.283623, -8.186811],
    [-70.12950099999989, -8.269364],
    [-69.7612769999999, -8.466229],
    [-69.641479, -8.530838],
    [-69.553328, -8.57838],
    [-69.435775, -8.641597],
    [-69.178231, -8.767959],
    [-69.162169, -8.776353],
    [-68.98959

In [5]:
type(geojson)

dict

In [6]:
# criando um dataframe com a média de matemática (teste)
teste_df = enem_df.groupby(['NU_ANO', 'SG_UF_ESC'])['NU_NOTA_MT'].mean()
teste_df

NU_ANO  SG_UF_ESC
2009    AC           453.286042
        AL           472.173458
        AM           464.197598
        AP           463.216884
        BA           478.488137
                        ...    
2021    RS           559.331382
        SC           563.769616
        SE           532.879982
        SP           573.777779
        TO           508.865910
Name: NU_NOTA_MT, Length: 351, dtype: float64

## Média de matemática

In [7]:
# criando um dataframe com a média de matemática
media_matematica_df = enem_df.groupby(
    [
        'NU_ANO', 
        'SG_UF_ESC'
    ], as_index=False
    )['NU_NOTA_MT'].mean()

media_matematica_df

Unnamed: 0,NU_ANO,SG_UF_ESC,NU_NOTA_MT
0,2009,AC,453.286042
1,2009,AL,472.173458
2,2009,AM,464.197598
3,2009,AP,463.216884
4,2009,BA,478.488137
...,...,...,...
346,2021,RS,559.331382
347,2021,SC,563.769616
348,2021,SE,532.879982
349,2021,SP,573.777779


In [8]:
media_matematica_df.describe()

Unnamed: 0,NU_ANO,NU_NOTA_MT
count,351.0,351.0
mean,2015.0,498.207229
std,3.746999,32.670172
min,2009.0,430.351768
25%,2012.0,473.66413
50%,2015.0,496.571209
75%,2018.0,523.752749
max,2021.0,579.761464


## Contruindo o mapa de médias de matemática por estado

In [None]:
# criando o mapa média de matemática
fig = px.choropleth_mapbox(
        media_matematica_df, # dataframe com os dados
        locations = 'SG_UF_ESC', # coluna do dataframe referente as siclas dos estados
        geojson = geojson, # arquivo json com as coordenadas dos estados
        color = 'NU_NOTA_MT', # indicando qual coluna será utilizada para pintar os estados
        mapbox_style = 'carto-positron', # estilo do mapa
        center = {
                'lon':-55, 
                'lat':-14
                }, # definindo a posição central do mapa
        zoom = 2.5, # definindo o zoom do mapa (número inteiro entre 0 e 20)
        opacity = 1.0, # definindo uma opacidade para a cor do mapa
        hover_data = {
                'SG_UF_ESC': True
                }, # UF aparece no hover
        animation_frame = 'NU_ANO', # passagem dos frames com os anos no mapa
        labels={
                'NU_ANO':'Ano', 
                'NU_NOTA_MT':'Média',
                'SG_UF_ESC': 'UF'
                }, # labels que aparecem no hover
        color_continuous_scale = 'Blues', # difinição da cor que será variada na escala
        range_color = (
                400, 
                600
                ), # limites do eixo Y (início e fim)
        width= 1000, # largura do mapa
        height= 600 # altura do mapa
)

fig.update_geos(fitbounds="locations", visible=False)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

## Média de linguagens

In [9]:
# criando um dataframe com a média de linguagens
media_linguagens_df = enem_df.groupby(
    [
        'NU_ANO', 
        'SG_UF_ESC'
        ], 
    as_index=False
    )['NU_NOTA_LC'].mean()

media_linguagens_df

Unnamed: 0,NU_ANO,SG_UF_ESC,NU_NOTA_LC
0,2009,AC,450.352549
1,2009,AL,462.620066
2,2009,AM,447.426094
3,2009,AP,466.424188
4,2009,BA,479.289632
...,...,...,...
346,2021,RS,521.822027
347,2021,SC,518.170557
348,2021,SE,494.580189
349,2021,SP,529.895267


In [10]:
media_linguagens_df.describe()

Unnamed: 0,NU_ANO,NU_NOTA_LC
count,351.0,351.0
mean,2015.0,499.917946
std,3.746999,22.492617
min,2009.0,447.426094
25%,2012.0,483.167499
50%,2015.0,498.915586
75%,2018.0,516.07973
max,2021.0,557.42426


## Contruindo o mapa de médias de linguagens por estado

In [None]:
# criando o mapa média de linguagens
fig = px.choropleth_mapbox(
        media_linguagens_df, # dataframe com os dados
        locations = 'SG_UF_ESC', # coluna do dataframe referente as siclas dos estados
        geojson = geojson, # arquivo json com as coordenadas dos estados
        color = 'NU_NOTA_LC', # indicando qual coluna será utilizada para pintar os estados
        mapbox_style = 'carto-positron', # estilo do mapa
        center = {
                'lon':-55, 
                'lat':-14
                }, # definindo a posição central do mapa
        zoom = 2.5, # definindo o zoom do mapa (número inteiro entre 0 e 20)
        opacity = 1.0, # definindo uma opacidade para a cor do mapa
        hover_data = {
                'SG_UF_ESC': True
                }, # UF aparece no hover
        animation_frame = 'NU_ANO', # passagem dos frames com os anos no mapa
        labels={
                'NU_ANO':'Ano', 
                'NU_NOTA_LC': 'Média',
                'SG_UF_ESC': 'UF'
                }, # labels que aparecem no hover
        color_continuous_scale = 'Reds', # difinição da cor que será variada na escala
        range_color = (
                400, 
                600
                ), # limites do eixo Y (início e fim)
        width= 1000, # largura do mapa
        height= 600 # altura do mapa
)

fig.update_geos(fitbounds="locations", visible=False)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

In [13]:
#py.plot(fig, filename = 'mapa_plotly_ano.html', auto_open=False)