## Exercício 1 - Coleta de Dados

O exercício consiste em automatizar a extração dos arquivos disponibilizados no portal de dados abertos da Anvisa. Para isso, siga os seguintes passos:

1. Definir a estrutura dos links 
2. Criar uma função para baixar automaticamente os dados do primeiro trimestre de 2020 e 2021 
3. Armazenar os arquivos em csv

Dica: Para facilitar a construção do seu código, crie uma lista com todos os links de download já estruturados, em seguida, construa um segunda estrutura de repetição para baixar esses dados. 

In [1]:
import pandas as pd
import requests

In [2]:
# Utilizar um link com a estrutura identificada
url = 'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_201402.csv'

In [3]:
#Fazer a requisição do arquivo
resposta = requests.get(url,verify=False)
resposta.status_code



200

In [4]:
#Salvar o arquivo em um csv
if resposta.status_code == 200:
    with open("EDA_Manipulados_201402.csv", "wb") as file:
        file.write(resposta.content)
    print("Download concluído com sucesso!")
else:
    print(f"Falha ao baixar o arquivo.")

Download concluído com sucesso!


In [5]:
dados = pd.read_csv('EDA_Manipulados_201402.csv', sep=';', encoding='Latin-1', low_memory=False)
dados.head()

Unnamed: 0,ANO_VENDA,MES_VENDA,UF_VENDA,MUNICIPIO_VENDA,DCB,PRINCIPIO_ATIVO,QTD_ATIVO_POR_UNID_FARMACOTEC,UNIDADE_MEDIDA_PRINCIPIO_ATIVO,QTD_UNIDADE_FARMACOTECNICA,TIPO_UNIDADE_FARMACOTECNICA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
0,2014,2,AC,CRUZEIRO DO SUL,712,CLORIDRATO DE AMITRIPTILINA,125,GRAMA,810,CÁPSULA,CRM,AC,1,,,,
1,2014,2,AC,CRUZEIRO DO SUL,712,CLORIDRATO DE AMITRIPTILINA,25,GRAMA,3510,CÁPSULA,CRM,AC,1,,,,
2,2014,2,AC,CRUZEIRO DO SUL,1558,CLORIDRATO DE BUPROPIONA,15,GRAMA,4239,CÁPSULA,CRM,AC,1,,,,
3,2014,2,AC,CRUZEIRO DO SUL,1558,CLORIDRATO DE BUPROPIONA,3,GRAMA,1080,CÁPSULA,CRM,AC,1,,,,
4,2014,2,AC,CRUZEIRO DO SUL,2161,CITALOPRAM,2,GRAMA,540,CÁPSULA,CRM,AC,1,,,,


In [19]:
urls = ['https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202001.csv',
        'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202002.csv',
        'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202003.csv',
        'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202101.csv',
        'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202102.csv',
        'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_202103.csv']


In [20]:
# Criar uma lista para armazenar os DataFrames de cada arquivo
dataframes = []

# Iterar sobre as URLs
for url in urls:
    response = requests.get(url)
    if response.status_code == 200:
        # Ler o conteúdo do arquivo usando o pandas
        df = pd.read_csv(url, sep=';', encoding='Latin-1', low_memory=False)
        # Adicionar o DataFrame à lista
        dataframes.append(df)
    else:
        print(f'Falha ao acessar a URL {url}')

# Concatenar os DataFrames em um único DataFrame final
df_final = pd.concat(dataframes)

# Imprimir o DataFrame final
#df_final.head()

df_agrupado = df_final.groupby(['ANO_VENDA','MES_VENDA']).size().reset_index(name='Contagem')
df_agrupado



Unnamed: 0,ANO_VENDA,MES_VENDA,Contagem
0,2020,1,338399
1,2020,2,320499
2,2020,3,334304
3,2021,1,350538
4,2021,2,351764
5,2021,3,388846


In [21]:
def download_csv_file(url, arquivo):
    response = requests.get(url)
    if response.status_code == 200:
        with open(arquivo, 'wb') as file:
            file.write(response.content)
        print("Arquivo baixado com sucesso.")
    else:
        print("Falha ao baixar o arquivo.")

# Definindo o ano e trimestre desejados
anos = [2020, 2021]
trimestres = ['01', '02', '03']

# Gerando as URLs e baixando os arquivos
for ano in anos:
    for trimestre in trimestres:
        url = f"https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_{ano}{trimestre}.csv"
        nome_arquivo = f"EDA_Manipulados_{ano}{trimestre}.csv"
        download_csv_file(url, nome_arquivo)

Arquivo baixado com sucesso.
Arquivo baixado com sucesso.
Arquivo baixado com sucesso.
Arquivo baixado com sucesso.
Arquivo baixado com sucesso.
Arquivo baixado com sucesso.
