## Referências
https://pythontic.com/pandas/serialization/postgresql  
https://medium.com/@apoor/quickly-load-csvs-into-postgresql-using-python-and-pandas-9101c274a92f  
https://towardsdatascience.com/loading-large-datasets-in-pandas-11bdddd36f7b  
https://chartio.com/resources/tutorials/how-to-execute-raw-sql-in-sqlalchemy/

In [1]:
import pandas as pd
import numpy as np  
import zipfile
import requests
from io import BytesIO
import os
from sqlalchemy import create_engine

In [2]:
chunksize=100000
pgconstring='postgresql+psycopg2://postgres:DP4zzI6lAmGyubAp@35.247.201.110:5432/postgres'
url = "http://download.inep.gov.br/microdados/microdados_enem_2019.zip"

In [3]:
os.makedirs('/mnt/enem2019', exist_ok=True)

In [4]:
filebytes = BytesIO(
    requests.get(url).content
)

In [6]:
myzip = zipfile.ZipFile(filebytes)
myzip.extractall("/mnt/enem2019")
del filebytes
del myzip

In [7]:
enem_iter = pd.read_csv(
    "/mnt/enem2019/DADOS/MICRODADOS_ENEM_2019.csv",
    sep=";",
    encoding='latin_1',
    chunksize=50000,
    iterator=True
)

In [8]:
engine = create_engine(pgconstring
                       ,pool_recycle=3600)
postgreSQLConnection    = engine.connect();

In [9]:
for chunk in enem_iter:
    df = pd.concat([chunk[chunk['CO_UF_RESIDENCIA'] == 31]])
    df.to_sql('enem2019mg', 
            postgreSQLConnection, 
            index=False,
            if_exists='append',
            method='multi' )
    

In [43]:
tmp = {'NR': ['1'],
       'Pergunta': ['Qual é a média da nota em matemática de todos os alunos mineiros?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg').fetchall()
      }
dfr = pd.DataFrame(data=tmp)

In [44]:
tmp = {'NR': ['2'],
       'Pergunta': ['Qual é a média da nota em Linguagens e Códigos de todos os alunos mineiros?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_LC")::numeric,1) from public.enem2019mg').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [45]:
tmp = {'NR': ['3'],
       'Pergunta': ['Qual é a média da nota em Ciências Humanas dos alunos do sexo FEMININO mineiros?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "TP_SEXO"  =\'F\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [46]:
tmp = {'NR': ['4'],
       'Pergunta': ['Qual é a média da nota em Ciências Humanas dos alunos do sexo MASCULINO?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "TP_SEXO"  =\'M\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [47]:
tmp = {'NR': ['5'],
       'Pergunta': ['Qual é a média da nota em Matemática dos alunos do sexo FEMININO que moram na cidade de Montes Claros?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "TP_SEXO" =\'F\' and upper("NO_MUNICIPIO_RESIDENCIA") like \'MONTES CLAROS\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [48]:
tmp = {'NR': ['6'],
       'Pergunta': ['Qual é a média da nota em Matemática dos alunos do município de Sabará que possuem TV por assinatura na residência?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "NO_MUNICIPIO_RESIDENCIA" = \'Sabará\' and "Q021" =\'B\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [49]:
tmp = {'NR': ['7'],
       'Pergunta': ['Qual é a média da nota em Ciências Humanas dos alunos mineiros que possuem dois fornos micro-ondas em casa?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "Q016" =\'C\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [50]:
tmp = {'NR': ['8'],
       'Pergunta': ['Qual é a nota média em Matemática dos alunos mineiros cuja mãe completou a pós-graduação?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "Q002" =\'G\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [51]:
tmp = {'NR': ['9'],
       'Pergunta': ['Qual é a nota média em Matemática dos alunos de Belo Horizonte e de Conselheiro Lafaiete?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "NO_MUNICIPIO_RESIDENCIA" =\'Belo Horizonte\' or "NO_MUNICIPIO_RESIDENCIA" =\'Conselheiro Lafaiete\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [52]:
tmp = {'NR': ['10'],
       'Pergunta': ['Qual é a nota média em Ciências Humanas dos alunos mineiros que moram sozinhos?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "Q005" =\'1\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [53]:
tmp = {'NR': ['11'],
       'Pergunta': ['Qual é a nota média em Ciências Humanas dos alunos mineiros cujo pai completou pós-graduação e possuem renda familiar entre R$ 8.982,01 e R$ 9.980,00.'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "Q001" =\'G\' and "Q006" =\'M\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [54]:
tmp = {'NR': ['12'],
       'Pergunta': ['Qual é a nota média em Matemática dos alunos do sexo Feminino que moram em Lavras e escolheram “Espanhol” como língua estrangeira?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "NO_MUNICIPIO_RESIDENCIA" =\'Lavras\' and "TP_SEXO" =\'F\' and "TP_LINGUA" =\'1\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [55]:
tmp = {'NR': ['13'],
       'Pergunta': ['Qual é a nota média em Matemática dos alunos do sexo Masculino que moram em Ouro Preto?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "NO_MUNICIPIO_RESIDENCIA" =\'Ouro Preto\' and "TP_SEXO" =\'M\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [56]:
tmp = {'NR': ['14'],
       'Pergunta': ['Qual é a nota média em Ciências Humanas dos alunos surdos?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_CH")::numeric,1) from public.enem2019mg where "IN_SURDEZ" =\'1\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [57]:
tmp = {'NR': ['15'],
       'Pergunta': ['Qual é a nota média em Matemática dos alunos do sexo FEMININO, que moram em Belo Horizonte, Sabará, Nova Lima e Betim e possuem dislexia?'],
       'Resposta': postgreSQLConnection.execute('select round(avg("NU_NOTA_MT")::numeric,1) from public.enem2019mg where "TP_SEXO" =\'F\' and "NO_MUNICIPIO_RESIDENCIA" in(\'Belo Horizonte\',  \'Sabará\',\'Nova Lima\', \'Betim\') and "IN_DISLEXIA" =\'1\' ').fetchall()
      }
dfr = dfr.append(pd.DataFrame(data=tmp))

In [58]:
dfr

Unnamed: 0,NR,Pergunta,Resposta
0,1,Qual é a média da nota em matemática de todos ...,(546.8)
0,2,Qual é a média da nota em Linguagens e Códigos...,(531.2)
0,3,Qual é a média da nota em Ciências Humanas dos...,(515.1)
0,4,Qual é a média da nota em Ciências Humanas dos...,(529.7)
0,5,Qual é a média da nota em Matemática dos aluno...,(525.5)
0,6,Qual é a média da nota em Matemática dos aluno...,(543.3)
0,7,Qual é a média da nota em Ciências Humanas dos...,(557.3)
0,8,Qual é a nota média em Matemática dos alunos m...,(620.0)
0,9,Qual é a nota média em Matemática dos alunos d...,(578.0)
0,10,Qual é a nota média em Ciências Humanas dos al...,(534.5)
