## Analise de dados Utilizando SQL


Ao longo deste projeto, irei realizar análises utilizando os dados fornecidos pelo Governo Federal sobre os Programas Habitacionais, como o Programa Minha Casa Minha Vida (PMCMV) e o Programa de Crédito para Aquisição de Imóveis (PCVA). Esses dados podem ser acessados no site oficial do governo.

O objetivo desta análise é fornecer informações valiosas para a tomada de decisão de uma construtora. A construtora estará avaliando diferentes localidades para realizar seus próximos investimentos, visando a possibilidade de adquirir imóveis por meio de programas sociais.

Nossa análise abrangerá diversos aspectos, incluindo informações demográficas, características dos programas habitacionais, histórico de investimentos e resultados obtidos em regiões específicas. Com base nessas informações, a construtora poderá identificar os melhores locais para realizar seus investimentos futuros, criando oportunidades de aquisição de imóveis através de programas sociais.

- Fonte dos dados: https://dados.gov.br/dados/conjuntos-dados/dados-de-programas-habitacionais---sistema-de-habitao---sishab

Utilizarei o SQLite como SGBD e o DB Browser como IDE.

### Preparando os dados
Existem diversas maneiras de criar um banco de dados (DB). Podemos usar linguagens como DDL (Data Definition Language) e DML (Data Manipulation Language) para criar e manipular os dados, respectivamente. No entanto, para facilitar o processo, vou usar um método simples que pode ser aplicado quando você já tem os dados em formato CSV e está utilizando uma IDE específica, como o DB Browser for SQLite.
- Após criar o arquivo DB ( dados_habitacao.db ) irei utilizar a função "Importar" no arquivo CSV.
- O arquivo CSV possui caracteres especiais, como letras com acento por exemplo, para resolver esse problema utilizarei o Encoding ISO-8859–1.
- Para validação dos dados, utilizei as documentações disponibilizadas pelo site, onde fiz um DE - PARA de todas as colunas que a IDE criou e seus respectivos tipos de dados.
- Inicialmente, algumas colunas não reconheceram os tipos corretos de dados, então modifiquei manualmente durante a criação da tabela.
- A tabela não possuía uma PK (Primary Key) identificado, então criei uma para facilitar algumas analises
- Apesar de poder analisar diretamente pela IDE, optei por seguir utilizando o Jupyter Notebook. Essa integração entre linguagens (Python e SQL) permite analises mais elaboradas utilizando pacotes como Pandas, Matplob entre outros. Porém para esse exercício seguirei apenas utilizando a linguagem SQL.

In [1]:
import sqlite3
import pandas as pd
## Conexão com o banco de dados 
conn = sqlite3.connect('dados_habitacao.db')

In [2]:
## Analise exploratoria dos dados, essa etapa e muito importante para validamros se todos os dados foram importados corretamente
df = pd.read_sql_query("SELECT * FROM tabela", conn)
df

Unnamed: 0,id,txt_uf,txt_municipio,txt_situacao_obra,txt_origem_contrato,txt_programa,txt_modalidade_programa,txt_faixa_grupo_renda,txt_apf_cod_empreendimento,txt_nome_do_empreendimento,...,vlr_contrapartida,vlr_liberado,dte_max_liberacao,qtd_uh_contratadas,qtd_uh_entregues,txt_cnpj_proponente,txt_razao_social_proponente,txt_endereco,txt_cep,txt_tipologia
0,1,CE,Fortaleza,Obras Não Iniciadas,Pessoa Jurídica,PMCMV,FAR Urbanização - Vinculadas,01 Faixa 1 - PMCMV,44115825,CONDOMINIO RESIDENCIAL ALDACI BARBOSA,...,,000,,144,0,73785032000113.0,ISR CONSTRUCOES LTDA,"RUA BORGES DE MELO, S/N_",0,Apartamento
1,2,PE,Olinda,Obras Entregues,Pessoa Jurídica,PMCMV,FAR Empresas,01 Faixa 1 - PMCMV,49017122,HABITACIONAL SAPUCAIA E AGUAZINHA,...,,3389882302,8/9/2022 00:00:00,432,432,2054380000172.0,AWM ENGENHARIA LTDA,ANTIGA ESTRADA DE AGUAZINHA SN,53270240,Apartamento
2,3,PR,Campo Magro,Obras Concluídas,Pessoa Jurídica,PMCMV,FAR Empresas,01 Faixa 1 - PMCMV,35695355,PAC REALOCACAO V,...,,70188278,12/2/2014 00:00:00,114,0,1607539000176.0,MUNICIPIO DE CAMPO MAGRO - PR,CAMPO MAGRO,0,Casa
3,4,RO,Porto Velho,Obras Entregues,Pessoa Jurídica,PMCMV,FAR Empresas,01 Faixa 1 - PMCMV,29925581,RESIDENCIAL CIDADE DE TODOS III,...,,1380809965,14/7/2022 00:00:00,240,240,34452706000106.0,COMERCIO ENGENHARIA LTDA,"AV AMAZONAS, N 9680 - BAIRRO SOCIALISTA",76800000,Apartamento
4,5,RO,Porto Velho,Obras Entregues,Pessoa Jurídica,PMCMV,FAR Empresas,01 Faixa 1 - PMCMV,30011639,RESIDENCIAL CIDADE DE TODOS IX,...,,1410361981,7/1/2020 00:00:00,240,240,34452706000106.0,COMERCIO ENGENHARIA LTDA,"RUA OSWALDO RIBEIRO, S/N - SOCIALISTA",76800000,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
280335,280336,SC,Jupiá,Obras Entregues,Pessoa Física,PMCMV,CCFGTS,02 FGTS - PMCMV,,,...,,136439157,,12,12,,,,,
280336,280337,SC,Jupiá,Obras Entregues,Pessoa Física,PMCMV,CCFGTS,02 FGTS - PMCMV,,,...,,35228366,,3,3,,,,,
280337,280338,SC,Jupiá,Obras Entregues,Pessoa Física,PMCMV,CCFGTS,02 FGTS - PMCMV,,,...,,26818881,,2,2,,,,,
280338,280339,SC,Jupiá,Obras Entregues,Pessoa Física,PMCMV,CCFGTS,02 FGTS - PMCMV,,,...,,7574360,,1,1,,,,,


In [3]:
## Conhecendo os tipos de colunas que temos 
df = pd.read_sql_query("SELECT * FROM pragma_table_info('tabela')", conn)
df

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,id,INTEGER,0,,1
1,1,txt_uf,TEXT,0,,0
2,2,txt_municipio,NUMERIC,0,,0
3,3,txt_situacao_obra,TEXT,0,,0
4,4,txt_origem_contrato,TEXT,0,,0
5,5,txt_programa,TEXT,0,,0
6,6,txt_modalidade_programa,TEXT,0,,0
7,7,txt_faixa_grupo_renda,TEXT,0,,0
8,8,txt_apf_cod_empreendimento,TEXT,0,,0
9,9,txt_nome_do_empreendimento,TEXT,0,,0
