<a href="https://colab.research.google.com/github/RicardoMourao-py/BigData-Dados-Publicos/blob/main/projeto_bigdata.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Big Data para Dados Públicos

In [None]:
# @title Setup
from google.colab import auth
from google.cloud import bigquery
from google.colab import data_table
from pyspark.sql import SparkSession

project = 'bigdata-dados-publicos' # Project ID inserted based on the query results selected to explore
location = 'US' # Location inserted based on the query results selected to explore
client = bigquery.Client(project=project, location=location)
data_table.enable_dataframe_formatter()
auth.authenticate_user()

## Reference SQL syntax from the original job
Use the ```jobs.query```
[method](https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs/query) to
return the SQL syntax from the job. This can be copied from the output cell
below to edit the query now or in the future. Alternatively, you can use
[this link](https://console.cloud.google.com/bigquery?j=bigdata-dados-publicos:US:bquxjob_73a773cf_18bf4f815d8)
back to BigQuery to edit the query within the BigQuery user interface.

In [None]:
# Running this code will display the query used to generate your previous job

job = client.get_job('bquxjob_73a773cf_18bf4f815d8') # Job ID inserted based on the query results selected to explore
print(job.query)

SELECT * FROM `bigdata-dados-publicos.DS_PORTAL_TRANSPARENCIA.TB_DESPESAS_FAVORECIDOS_DISTRIBUIDA` 


# Result set loaded from BigQuery job as a DataFrame
Query results are referenced from the Job ID ran from BigQuery and the query
does not need to be re-run to explore results. The ```to_dataframe```
[method](https://googleapis.dev/python/bigquery/latest/generated/google.cloud.bigquery.job.QueryJob.html#google.cloud.bigquery.job.QueryJob.to_dataframe)
downloads the results to a Pandas DataFrame by using the BigQuery Storage API.

To edit query syntax, you can do so from the BigQuery SQL editor or in the
```Optional:``` sections below.

In [None]:
# Running this code will read results from your previous job

job = client.get_job('bquxjob_73a773cf_18bf4f815d8') # Job ID inserted based on the query results selected to explore
results = job.to_dataframe()
results



Unnamed: 0,CODIGO_FAVORECIDO,NOME_FAVORECIDO,SIGLA_UF,NOME_MUNICIPIO,CODIGO_ORGAO_SUPERIOR,NOME_ORGAO_SUPERIOR,CODIGO_ORGAO,NOME_ORGAO,CODIGO_UNIDADE_GESTORA,NOME_UNIDADE_GESTORA,ANO_E_MES_DO_LANCAMENTO,VALOR_RECEBIDO
0,04045993000179,MUNICIPIO DE ASSIS BRASIL,AC,ASSIS BRASIL,52000,Ministério da Defesa,52000,Ministério da Defesa - Unidades com vínculo di...,110594,DEPARTAMENTO DO PROGRAMA CALHA NORTE,05/2022,43080000
1,01575860000116,AUTO POSTO ACRELANDIA LTDA,AC,ACRELÂNDIA,47000,Ministério do Planejamento e Orçamento,25205,Fundação Instituto Brasileiro de Geografia e E...,114603,SUPERINTENDENCIA ESTADUAL DO IBGE ACRE,05/2022,178
2,***.488.672-**,RAYLANI DO NASCIMENTO SILVA FARINA,AC,CAPIXABA,47000,Ministério do Planejamento e Orçamento,25205,Fundação Instituto Brasileiro de Geografia e E...,114603,SUPERINTENDENCIA ESTADUAL DO IBGE ACRE,05/2022,51934
3,09298866000103,COOPERATIVA DAS MULHERES PRODUTORAS DE CAPIXAB...,AC,CAPIXABA,49000,Ministério do Desenvolvimento Agrário e Agric,22211,Companhia Nacional de Abastecimento,135605,CONAB SEDE SUREG ACRE,05/2022,9600000
4,18020228000109,"COOPERATIVA DOS PRODUTORES, EXTRATIVISTAS DE A...",AC,PORTO ACRE,49000,Ministério do Desenvolvimento Agrário e Agric,22211,Companhia Nacional de Abastecimento,135605,CONAB SEDE SUREG ACRE,05/2022,9100000
...,...,...,...,...,...,...,...,...,...,...,...,...
999967,***.918.954-**,BEATRIZ FRANCIELLE CLAUDINO DA SILVA,AL,SÃO MIGUEL DOS CAMPOS,26000,Ministério da Educação,26231,Universidade Federal de Alagoas,153037,UNIVERSIDADE FEDERAL DE ALAGOAS,02/2018,55000
999968,***.043.014-**,BRUNO CARLOS MONTEIRO,AL,SÃO MIGUEL DOS CAMPOS,26000,Ministério da Educação,26231,Universidade Federal de Alagoas,153037,UNIVERSIDADE FEDERAL DE ALAGOAS,02/2018,55000
999969,***.508.244-**,DAYANA GOMES DE ALMEIDA,AL,SÃO MIGUEL DOS CAMPOS,26000,Ministério da Educação,26231,Universidade Federal de Alagoas,153037,UNIVERSIDADE FEDERAL DE ALAGOAS,02/2018,-30000
999970,***.692.534-**,RAIANE REBECA DOS SANTOS ARAUNA,AL,SÃO MIGUEL DOS CAMPOS,26000,Ministério da Educação,26231,Universidade Federal de Alagoas,153037,UNIVERSIDADE FEDERAL DE ALAGOAS,02/2018,-30000


## Show descriptive statistics using describe()



Use the ```pandas DataFrame.describe()```
[method](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)
to generate descriptive statistics. Descriptive statistics include those that
summarize the central tendency, dispersion and shape of a dataset’s
distribution, excluding ```NaN``` values. You may also use other Python methods
to interact with your data.

In [None]:
results.describe()

Unnamed: 0,CODIGO_FAVORECIDO,NOME_FAVORECIDO,SIGLA_UF,NOME_MUNICIPIO,CODIGO_ORGAO_SUPERIOR,NOME_ORGAO_SUPERIOR,CODIGO_ORGAO,NOME_ORGAO,CODIGO_UNIDADE_GESTORA,NOME_UNIDADE_GESTORA,ANO_E_MES_DO_LANCAMENTO,VALOR_RECEBIDO
count,999972,999972,999972,999972,999972,999972,999972,999972,999972,999972,999972,999972
unique,116724,143991,8,289,35,50,264,286,3978,4260,108,219036
top,-1,SEM INFORMACAO,AC,RIO BRANCO,26000,Ministério da Educação,26275,Fundação Universidade Federal do Acre,154044,FUNDACAO UNIVERSIDADE FEDERAL DO ACRE,05/2022,40000
freq,77016,85107,534866,294012,676101,676101,132725,132725,132725,132725,9259,216934


In [None]:
spark = SparkSession.builder \
    .master('local[*]') \
    .appName('Iniciando com Spark') \
    .config('spark.ui.port', '4050') \
    .getOrCreate()

In [None]:
dados = spark.createDataFrame(results)

  for column, series in pdf.iteritems():
  for column, series in pdf.iteritems():


In [None]:
dados.select('NOME_FAVORECIDO').show(10)

+--------------------+
|     NOME_FAVORECIDO|
+--------------------+
|MUNICIPIO DE ASSI...|
|AUTO POSTO ACRELA...|
|RAYLANI DO NASCIM...|
|COOPERATIVA DAS M...|
|COOPERATIVA DOS P...|
|AMANDA OLIVEIRA D...|
|COMITE EXECUTIVO ...|
|COMITE EXECUTIVO ...|
|COMITE EXECUTIVO ...|
|COMITE EXECUTIVO ...|
+--------------------+
only showing top 10 rows

