![imagem](images/VLL_Banner.png)

In [None]:
# Versão da linguagem Python e arquitetura do Jupyter Notebook
import platform
print('Versão da linguagem Python utilizada neste notebook:', platform.python_version())
print('Arquitetura do Jupyter utilizada neste notebook:', platform.architecture()[0])

# Outra forma de apresentar a versão da linguagem Python
# import sys
# print('Versão da linguagem Python:', sys.version)

# DA1 - 2023: Análise de Contratações no Poder Executivo de Santa Catarina - Fornecedores

## O processo de *Data Wrangling*

***Data Wrangling***, é o processo de preparação e transformação de dados brutos em um formato mais adequado e útil para análise de dados. O termo *"wrangling"* refere-se a lidar com dados desorganizados, bagunçados ou difíceis de usar. O processo envolve uma série de etapas, incluindo limpeza, transformação, integração e formatação de dados, a fim de torná-los mais coerentes, completos, corretos e prontos para análise. Algumas das tarefas comuns de *Data Wrangling* incluem:

**Limpeza de dados:** Remover ou corrigir dados duplicados, incompletos, inconsistentes ou incorretos. Isso pode envolver a remoção de valores nulos, a correção de erros de digitação ou a padronização de formatos de dados.

**Transformação de dados:** Realizar operações de transformação nos dados, como filtrar, agrupar, ordenar ou calcular novas variáveis. Isso pode envolver a aplicação de funções matemáticas, conversão de tipos de dados ou aplicação de lógica condicional.

**Integração de dados:** Combinar dados de várias fontes diferentes em um único conjunto de dados coerente. Isso pode envolver a união de tabelas, a concatenação de conjuntos de dados ou a resolução de diferenças nos esquemas de dados.

**Formatação de dados:** Padronizar a estrutura e o formato dos dados para torná-los mais consistentes e adequados para análise. Isso pode envolver a renomeação de colunas, a conversão de unidades de medida ou a formatação de datas e horas.

O *Data Wrangling* é uma etapa crítica e demorada na análise de dados, pois dados desorganizados ou não tratados podem levar a resultados imprecisos ou inválidos. Ao realizar o *Data Wrangling* de forma eficiente, os dados podem ser preparados para análise subsequente, permitindo uma compreensão mais clara e insights valiosos.

## Trabalhando com pacotes *Python*

Em Python, os termos "pacote" e "biblioteca" são frequentemente usados de forma intercambiável, mas eles se referem a conceitos um pouco diferentes:

**Biblioteca:** Uma biblioteca em Python é um conjunto de módulos e pacotes relacionados que fornecem funcionalidades específicas. Uma biblioteca é um conjunto de código reutilizável que pode ser importado e usado em outros programas Python. Por exemplo, a biblioteca numpy fornece funcionalidades para manipulação de arrays e cálculos numéricos, enquanto a biblioteca matplotlib oferece recursos de visualização de dados.

**Pacote:** Um pacote em Python é uma forma organizada de estruturar módulos relacionados. Um pacote é um diretório que contém um arquivo especial chamado "__init__.py", que indica que o diretório é um pacote Python. Um pacote pode conter vários módulos ou subpacotes. Por exemplo, a biblioteca matplotlib é um pacote que contém subpacotes como pyplot e pylab, que fornecem funcionalidades específicas para diferentes aspectos da visualização de dados.

Em resumo, uma *biblioteca é um conjunto de funcionalidades* relacionadas que podem ser importadas e usadas em um programa Python, enquanto um *pacote é uma estrutura organizada* que contém módulos e subpacotes relacionados. Geralmente, as bibliotecas são distribuídas como pacotes para facilitar a organização e o gerenciamento dos diferentes módulos e recursos.

### O ***Pip Installs Packages - 'pip'***

O ***pip*** é um sistema de gerenciamento de pacotes usado na linguagem de programação Python. O nome "pip" é um acrônimo para *"Pip Installs Packages"* (Pip Instala Pacotes). Ele permite instalar, atualizar e gerenciar pacotes e bibliotecas adicionais que não estão incluídos na instalação padrão do Python.

Com o pip, você pode facilmente instalar pacotes Python de repositórios públicos ou privados, bem como desinstalá-los quando necessário. Ele também permite a instalação de versões específicas de pacotes, a resolução de dependências entre pacotes e a busca por pacotes disponíveis.

O pip é amplamente utilizado pela comunidade Python e é uma ferramenta essencial para o gerenciamento de pacotes e bibliotecas em projetos Python. Algumas tarefas comuns que você pode realizar com o pip incluem:

- Instalar um pacote Python: Você pode usar o comando ***!pip install nome_do_pacote*** para baixar e instalar um pacote Python no seu ambiente;

- Instalar a versão exata de um pacote Python: ***!pip install nome_do_pacote==versão_desejada***;

- Atualizar um pacote Python: O comando ***pip install -U nome_pacote*** permite atualizar um pacote Python para a versão mais recente disponível.

- Desinstalar um pacote Python: Com o comando ***pip uninstall nome_pacote***, você pode remover um pacote Python do seu ambiente.

- Listar pacotes instalados: O comando ***pip list*** mostra uma lista dos pacotes Python instalados no seu ambiente.

Obs.: "!" antes do comando pip diz que esse é um comando de SO.

## Instalando os pacotes do projeto

In [None]:
# Watermark: Pacote utilizado para gravar as versões de outros pacotes utilizados neste notebook.
!pip install -q -U watermark

# Pandas: Pacote utilizado para manipulação e análise de dados.
import pandas as pd

# SQLite: Pacote utilizado para interagir com bancos de dados SQLite.
import sqlite3

# iPython-SQL: Pacote utilizado para executar comandos SQL e visualizar os resultados.
!pip install -q ipython-sql

In [None]:
# Para verificar as versões dos pacotes utilizados neste notebook.
%reload_ext watermark
%watermark -a "vll.adm.br" --iversions

## Preparando o banco de dados

In [None]:
# Criando a conexão ao banco de dados SQLite
cnn = sqlite3.connect('database/dbda12023.db')

In [None]:
# Criando um dataframe de teste
dados = pd.DataFrame({
    'fornecedor':['Cláudio Marmitas','Maria Pequena Modas','Jorge  S.A.','Grus Editora S.A.'],
    'cnpj':['00.000.000/0000-00','00.000.001/0000-00','00.000.002/0000-00','00.000.003/0000-00'],
    'porte':['Micro Empresa','Pequeno Porte','Grande Empresa','Grande Empresa'],
    'municipio':['Belo Horizonte','Brasília','Campinas','São José'],
    'Funcionários':[1,7,347,691]
})

In [None]:
dados.head()

In [None]:
# Copiando o dataframe para o banco de dados como uma tabela
dados.to_sql('Fornecedores_Teste', cnn)

### Consultando o banco de dados

In [None]:
# Carregando a extensão SQL
%load_ext sql

In [None]:
# Selecionando a base de dados
%sql sqlite:///database/dbda12023.db

In [None]:
# Executando consulta SQL
%sql SELECT * FROM Fornecedores_Teste

In [None]:
# Executando consulta SQL
%sql SELECT COUNT(*) FROM Fornecedores_Teste

## Carregando o dataset de trabalho

Iremos trabalhar com o dataset de Cadastro de Fornecedores, disponibilizado pela Diretoria de Gestão de Licitações e Contratos da Secretaria de Estado da Administração de Santa Catarina - SEA/SC. A base de dados, atualizada em 15/06/23, encontra-se disponível em https://github.com/SmartSC-SEA/Fornecedores-cadastrados-E-LIC.

In [None]:
# Criando o dataframe de trabalho
df = pd.read_csv('datasets/fornecedores-ELIC-dados.csv')

In [None]:
# Verificando o tipo do dataframe
type(df)

In [None]:
# Verificando o formato do dataframe
df.shape

In [None]:
# Listando os nomes dos campos
df.columns

In [None]:
# Listando uma amostra dos dados
df.head()

In [None]:
df.tail()

In [None]:
# Copiando o dataframe para o banco de dados como uma tabela
df.to_sql('Fornecedores_ELIC', cnn)

In [None]:
%%sql

SELECT * from Fornecedores_ELIC
limit 10