# Etapa 2

A partir do arquivo que está dentro do S3, crie um dataframe com pandas ou polars e execute as análises escolhidas.

In [1]:
# Importação das bibliotecas necessárias
import pandas as pd
import boto3
from botocore.exceptions import NoCredentialsError, ClientError

In [2]:
# Definição das função para upload e download
# Função de download
def upload_to_s3(local_file, bucket_name, s3_key):
    try:
        # Create an S3 client
        s3 = boto3.client('s3')
        
        # Upload the file
        s3.upload_file(
            Filename=local_file,
            Bucket=bucket_name,
            Key=s3_key,
            ExtraArgs={'ACL': 'public-read'}  # Optional: Set object ACL
        )
        print(f"File '{local_file}' uploaded to '{s3_key}' in bucket '{bucket_name}'.")
        return True
    except NoCredentialsError:
        print("Credentials not available. Check AWS configuration.")
        return False
    except ClientError as e:
        print(f"An error occurred: {e.response['Error']['Message']}")
        return False


# Função de upload
def download_from_s3(bucket_name, s3_key, local_file_path):
    try:
        # Cria um cliente S3
        s3 = boto3.client('s3')
        
        # Faz o download do arquivo
        s3.download_file(
            Bucket=bucket_name,
            Key=s3_key,
            Filename=local_file_path
        )
        print(f"File '{s3_key}' downloaded from bucket '{bucket_name}' to '{local_file_path}'.")
        return True
    except NoCredentialsError:
        print("Credentials not available. Check AWS configuration.")
        return False
    except ClientError as e:
        print(f"Error: {e.response['Error']['Message']}")
        return False

In [4]:
# Importando o arquivo
download_from_s3('desafio-compass-pb', 'data/arp-2022-2023.csv', 'arp-2022-2023.csv')
arquivo = pd.read_csv('arp-2022-2023.csv')
arquivo.drop_duplicates()

File 'data/arp-2022-2023.csv' downloaded from bucket 'desafio-compass-pb' to 'arp-2022-2023.csv'.


Unnamed: 0,pregão,ano,número,cpf_cnpj,fornecedor,objeto,valor,assinatura,inicio_vigencia,fim_vigencia,Unnamed: 10
0,17/2022,2022,89/2022,15.153.524/0001-90,SANIGRAN LTDA,INSUMOS AGROPECUÁRIOS,R$ 46.418,60,29/08/2022,07/10/2022,07/102023
1,17/2022,2022,93/2022,41.278.336/0001-06,A BZ COMERCIO E SERVICOS EIRELI,INSUMOS AGROPECUÁRIOS,R$ 204.450,0,21/09/2022,07/10/2022,07/102023
2,17/2022,2022,92/2022,28.591.670/0001-49,VETSUL COMERCIO DE MEDICAMENTOS EIRELI,INSUMOS AGROPECUÁRIOS,R$ 44.168,50,NÃO CONSTA DATA,07/10/2022,07/102023
3,17/2022,2022,95/2022,03.217.016/0001-49,RPF COMERCIAL LTDA,INSUMOS AGROPECUÁRIOS,R$ 4.735,70,30/08/2022,07/10/2022,07/102023
4,17/2022,2022,86/2022,07.147.983/0001-32,LICITAPREMIUM SERVIÇOS E COMÉRCIO LTDA,INSUMOS AGROPECUÁRIOS,R$ 95.500,0,29/08/2022,07/10/2022,07/102023
5,17/2022,2022,94/2022,83.764.316/0001-87,J F ALVES COMERCIO ATACADISTA DE PRODUTOS AGRI...,INSUMOS AGROPECUÁRIOS,R$ 558.720,0,30/08/2022,07/10/2022,07/102023
6,17/2022,2022,88/2022,11.258.338/0001-64,MERCOSUL AGRONEGOCIOS EIRELI,INSUMOS AGROPECUÁRIOS,R$ 62.500,0,29/08/2022,07/10/2022,07/102023
7,17/2022,2022,87/2022,11.163.447/0001-06,TECA TECNOLOGIA E COMERCIO LTDA,INSUMOS AGROPECUÁRIOS,R$ 257.853,0,30/08/2022,07/10/2022,07/102023
8,17/2022,2022,90/2022,18.158.411/0001-75,HELO PRODUTOS AGROPECUARIOS E SERVIÇOS LTDA-ME,INSUMOS AGROPECUÁRIOS,R$ 39.205,0,05/09/2022,07/10/2022,07/102023
9,42/2022,2022,34/2023,03.541.496/0001-07,LOBATO\nCOMERCIO DE PRODUTOS HOSPITALARES\nLTDA,MEDICAMENTO HUMANO,R$ 196.231,50,01/03/2023,13/03/2023,13/03/2024


In [5]:
# Tratamento dos dados

# Tratando valores numéricos
arquivo['valor'] = arquivo['valor'].apply(lambda x: x.replace('R$ ', ''))
arquivo['valor'] = arquivo['valor'].apply(lambda x: x.replace('.', ''))
arquivo['valor'] = arquivo['valor'].astype(float)

# Tratando as datas
arquivo['fim_vigencia'] = arquivo['fim_vigencia'].apply(lambda x: x if x != 'não informado' else '')
arquivo['fim_vigencia'] = pd.to_datetime(arquivo['fim_vigencia'], format="mixed")
arquivo['fim_vigencia'] = arquivo['fim_vigencia'] + pd.DateOffset(years=1)

arquivo['inicio_vigencia'] = arquivo['inicio_vigencia'].apply(lambda x: x if x != 'NÃO CONSTA DATA' else None)
arquivo['inicio_vigencia'] = pd.to_datetime(arquivo['inicio_vigencia'], format="mixed")

# Removendo colunas desnecessárias
arquivo = arquivo[['pregão', 'ano', 'número', 'cpf_cnpj', 'fornecedor', 'objeto', 'valor', 'assinatura', 'inicio_vigencia', 'fim_vigencia']]

## Análise/Questionamento 1

Contratos de Medicamentos Humanos com Valor Superior a R$ 20.000 em 2023

In [6]:
# Filtragem dos dados
dados_filtrados = arquivo.loc[
    (arquivo['objeto'] == 'MEDICAMENTO HUMANO') \
    & (arquivo['ano'] == 2023) \
    & (arquivo['valor'] >= 20000)
]

# Exportação dos dados
dados_filtrados.to_csv('analise_1.csv', index=False)
upload_to_s3('analise_1.csv', 'desafio-compass-pb', 'resposta/analise_1.csv')

File 'analise_1.csv' uploaded to 'resposta/analise_1.csv' in bucket 'desafio-compass-pb'.


True

## Análise/Questionamento 2

Valor Total de Contratos por Tipo de Objeto e Duração Média da Vigência

In [7]:
# Calcular duração da vigência em dias
arquivo['duracao_vigencia'] = (arquivo['fim_vigencia'] - arquivo['inicio_vigencia']).dt.days

# Agregar valor total por objeto e duração média
analise = arquivo.groupby('objeto').agg(
    valor_total=('valor', 'sum'),
    duracao_media=('duracao_vigencia', 'mean')
).reset_index()

# Exportação dos dados
analise.to_csv('analise_2.csv', index=False)
upload_to_s3('analise_1.csv', 'desafio-compass-pb', 'resposta/analise_2.csv')

File 'analise_1.csv' uploaded to 'resposta/analise_2.csv' in bucket 'desafio-compass-pb'.


True

## Análise/Questionamento 3

Classificar Fornecedores "LTDA" com Base no Valor do Contrato

In [8]:
# Classificar valores em categorias
categorias = ['Baixo', 'Médio', 'Alto']

arquivo['categoria_valor'] = pd.cut(arquivo['valor'], bins=[0, 50000, 100000, float('inf')], labels=categorias)

# Filtrando apenas os fornecedores LTDA
empresas_ltda = arquivo.loc[arquivo['fornecedor'].str.contains('LTDA')]
empresas_ltda = empresas_ltda[['fornecedor', 'valor', 'categoria_valor']]

# Exportação dos dados
empresas_ltda.to_csv('analise_3.csv', index=False)
upload_to_s3('analise_1.csv', 'desafio-compass-pb', 'resposta/analise_3.csv')

File 'analise_1.csv' uploaded to 'resposta/analise_3.csv' in bucket 'desafio-compass-pb'.


True