# PyAthena

## Imports

In [25]:
import os
import yaml
import pandas as pd
from pyathena import connect
from pyathena.util import as_pandas

In [26]:
aws_cred = yaml.load(open("../conf/local/credentials.yml"), Loader=yaml.FullLoader)

## Athena connection

In [27]:
# Basic connection

cursor = connect(aws_access_key_id=aws_cred['dssg']['aws_access_key_id'],
                 aws_secret_access_key=aws_cred['dssg']['aws_secret_access_key'],
                 s3_staging_dir='s3://iefp-unemployment/SIGAE/', 
                 region_name='eu-west-2').cursor()

cursor.execute("SELECT * FROM sigae.tipos_intervencoes LIMIT 5;")

<pyathena.cursor.Cursor at 0x112810358>

In [28]:
# Load to DataFrame

df = as_pandas(cursor)

print(df.head(10))

  codigo_interv    ito_eco                      dcodigo_interv    tipo  \
0          None  "ITO_ECO"                    "DCODIGO_INTERV"  "TIPO"   
1          None        ECO  FEG -  FORMAÇÃO PROFISSIONAL - TIC           
2          None        ITO  FEG -  FORMAÇÃO PROFISSIONAL - TIC     RES   
3          None        ECO   FEG - FORMAÇÃO PROFISSIONAL - EMP           
4          None        ITO   FEG - FORMAÇÃO PROFISSIONAL - EMP     RES   

     eco_obrigatorio    cdo_obrigatorio    ppe_obrigatorio  \
0  "ECO_OBRIGATORIO"  "CDO_OBRIGATORIO"  "PPE_OBRIGATORIO"   
1                                     S                      
2                  S                  S                      
3                                                            
4                  S                  S                      

     cdo_act_obrigatorio    dfa_obrigatoria    sso_obrigatorio    sso_nulo  \
0  "CDO_ACT_OBRIGATORIO"  "DFA_OBRIGATORIA"  "SSO_OBRIGATORIO"  "SSO_NULO"   
1                      N  

In [29]:
# Cursor description connection

print([print(lst) for lst in cursor.description])
print(cursor.fetchall())

('codigo_interv', 'integer', None, None, 10, 0, 'UNKNOWN')
('ito_eco', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('dcodigo_interv', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('tipo', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('eco_obrigatorio', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('cdo_obrigatorio', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('ppe_obrigatorio', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('cdo_act_obrigatorio', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('dfa_obrigatoria', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('sso_obrigatorio', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('sso_nulo', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('possi_eco_simultaneo', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('accao_form_obrigatoria', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('grupo_sieg', 'varchar', None, None, 2147483647, 0, 'UNKNOWN')
('descricao', 'varchar', None, None, 2147483647, 0, 'UNKNOWN

In [30]:
# Iterate over rows

cursor.execute("SELECT * FROM sigae.tipos_intervencoes LIMIT 5;")

for row in cursor:
    print(row)

(None, '"ITO_ECO"', '"DCODIGO_INTERV"', '"TIPO"', '"ECO_OBRIGATORIO"', '"CDO_OBRIGATORIO"', '"PPE_OBRIGATORIO"', '"CDO_ACT_OBRIGATORIO"', '"DFA_OBRIGATORIA"', '"SSO_OBRIGATORIO"', '"SSO_NULO"', '"POSSI_ECO_SIMULTANEO"', '"ACCAO_FORM_OBRIGATORIA"', '"GRUPO_SIEG"', '"DESCRICAO"', '"RISCO_ELEVADO"', '"RISCO_MEDIO"', '"RISCO_BAIXO"', '"TIPO_MOVIMENTO"')
(None, 'ECO', 'FEG -  FORMAÇÃO PROFISSIONAL - TIC', '', '', 'S', '', 'N', '', '', '', 'N', 'N', '"07"', 'Formação Profissional', '', '', '', '"36"')
(None, 'ITO', 'FEG -  FORMAÇÃO PROFISSIONAL - TIC', 'RES', 'S', 'S', '', 'N', '', '', '', 'N', 'N', '"07"', 'Formação Profissional', 'N', 'N', 'N', '"35"')
(None, 'ECO', 'FEG - FORMAÇÃO PROFISSIONAL - EMP', '', '', '', '', '', '', '', '', 'N', 'N', '"07"', 'Formação Profissional', '', '', '', '"36"')
(None, 'ITO', 'FEG - FORMAÇÃO PROFISSIONAL - EMP', 'RES', 'S', 'S', '', 'N', '', '', '', 'N', 'N', '"07"', 'Formação Profissional', 'N', 'N', 'N', '"35"')


In [32]:
# Execute query

cursor.execute("""
               SELECT TIPO FROM sigae.tipos_intervencoes
               WHERE TIPO = %(param)s
               LIMIT 5
               """, {'param': 'RES'})
print(cursor.fetchall())

[('RES',), ('RES',), ('RES',), ('RES',), ('RES',)]
