In [None]:
#Executar
!pip install -U pandasql

# 3.9 - Consulta SQL simples



In [None]:
# O pacote pandasql (https://pypi.org/project/pandasql/) nos permite fazer 
# consultas em dataframes usando o SQLite syntax.

import pandas
import pandasql

def select_first_50(filename):
  
  # Carrega o arquivo aadhaar_data.csv em um dataframe do pandas. Na sequência,
  # renomeia as colunas, substituindo os espaços por underscores e transformando
  # todos os caracteres para minúsculo, de forma que se assemelhe mais a uma 
  # tabela de banco de dados.

  aadhaar_data = pandas.read_csv(filename)

  df_cols = aadhaar_data.columns
  formatted_cols = map(lambda string: string.lower().replace(' ', '_'), df_cols)
  aadhaar_data.columns = formatted_cols

  # Selecione os primeiros 50 registros para as colunas "registrar" e 
  # "enrolment_agency" da tabela aadhaar_data usando a sintaxe SQL. 
  #
  # Você pode fazer o download de uma cópia dos dados aadhaar no link abaixo
  # para solucionar este exercício:
  # https://1drv.ms/u/s!Av8pSmXDlugUjdMAWEIGGqx_6MS7Tg
  # ou
  # https://drive.google.com/file/d/1jEf75RgFwp9EtYCBHPu9eWSD_jZ8wf-D/view

  # Query SQL
  q = 'SELECT registrar, enrolment_agency FROM aadhaar_data LIMIT 50;'
  
  aadhaar_solution = pandasql.sqldf(q.lower(), locals())
  return aadhaar_solution   

df = select_first_50('./aadhaar-data.csv')
df

Unnamed: 0,registrar,enrolment_agency
0,Allahabad Bank,Tera Software Ltd
1,Allahabad Bank,Tera Software Ltd
2,Allahabad Bank,Vakrangee Softwares Limited
3,Allahabad Bank,Vakrangee Softwares Limited
4,Allahabad Bank,Vakrangee Softwares Limited
5,Allahabad Bank,Vakrangee Softwares Limited
6,Allahabad Bank,Vakrangee Softwares Limited
7,Allahabad Bank,Vakrangee Softwares Limited
8,Allahabad Bank,Vakrangee Softwares Limited
9,Allahabad Bank,Vakrangee Softwares Limited


# 3.9 - Consulta SQL complexa

In [None]:
import pandas
import pandasql

def aggregate_query(filename):
  # Carrega o arquivo aadhaar_data.csv em um dataframe do pandas. Na sequência,
  # renomeia as colunas, substituindo os espaços por underscores e transformando
  # todos os caracteres para minúsculo, de forma que se assemelhe mais a uma 
  # tabela de banco de dados.

  aadhaar_data = pandas.read_csv(filename)

  df_cols = aadhaar_data.columns
  formatted_cols = map(lambda string: string.lower().replace(' ', '_'), df_cols)
  aadhaar_data.columns = formatted_cols
  

  # Escreva uma query que selecione da tabela aadhaar_data a quantidade de
  # homens e mulheres acima de 50 anos que tiveram a identificação aadhaar
  # gerada para cada distrito.
  # aadhaar_generated é a coluna que denota a quantidade de Aadhaar IDs foram
  # gerados.
  #
  # Possíveis colunas para serem selecionadas dos dados de Aadhaar:
  #     1) registrar
  #     2) enrolment_agency
  #     3) state
  #     4) district
  #     5) sub_district
  #     6) pin_code
  #     7) gender
  #     8) age
  #     9) aadhaar_generated
  #     10) enrolment_rejected
  #     11) residents_providing_email,
  #     12) residents_providing_mobile_number
  #
  # Você pode fazer o download dos dados de Aadhaar pelo link abaixo:
  # https://1drv.ms/u/s!Av8pSmXDlugUjdMAWEIGGqx_6MS7Tg
  # ou
  # https://drive.google.com/file/d/1jEf75RgFwp9EtYCBHPu9eWSD_jZ8wf-D/view

  q = '''SELECT gender, district, SUM(aadhaar_generated) AS total
        FROM aadhaar_data
        WHERE age > 50 GROUP BY gender, district ORDER BY district;
  '''

  # Executa o seu comando SQL e retorna um dataframe
  aadhaar_solution = pandasql.sqldf(q, locals())
  return aadhaar_solution

df = aggregate_query('./aadhaar-data.csv')  
df

Unnamed: 0,gender,district,total
0,F,Ahmadnagar,45
1,M,Ahmadnagar,63
2,F,Ahmed Nagar,0
3,M,Ahmed Nagar,0
4,F,Ahmedabad,1
...,...,...,...
523,M,Yadgir,12
524,F,Yamuna Nagar,130
525,M,Yamuna Nagar,149
526,F,Yavatmal,38
