# Extraindo dados de databases e convertendo para DataFrame

A maioria, senão todas as empresas utilizam bancos de dados, sejam eles proprietários (SQL) ou open-source (MySQL, SQlite).
Sendo assim, é muito comum um cientista de dados precisar extrair dados de um database para realizar análises.
Iremos aprender a realizar essa extração com o banco de dados SQLite e a biblioteca nativa do python `sqlite3`, no fim criando um `pandas.DataFrame` com os dados extraídos.

## O que é um SGBD?

O SGBD (Sistema Gerenciador de Bancos de Dados) é um software ou conjunto de softwares que gerencia tabelas criadas pelos usuários de seu sistema. Analogamente, podemos pensar nos arquivos csv como tabelas que poderiam ser inseridas em um banco de dados. 
Uma das vantagens de utilizar um SGBD como MySQL, SQLite é de que o seu banco pode estar disponível para múltiplos usuários em um servidor, o que geralmente é o caso das empresas, que possuem centenas de tabelas com dados que podem ser analisados por um cientista de dados, por isso o interesse em extrair os dados desses SGBDs.

## SQLite

Para a simplicidade do exemplo, iremos utilizar o SQLite que não requer instalações adicionais, somente o próprio arquivo do database com as tabelas criadas e dados inseridos para o nosso exemplo.

Nesse exemplo, iremos trabalhar com a seguinte tabela:

### Tabela de usuários

![Tabela de usuários](assets/example-db.png)

O primeiro passo para extrair os dados é realizar o import do pacote `sqlite3`

In [3]:
import sqlite3

# Conexão com a base de dados

O `sqlite3` espera que o usuário crie uma conexão com a base de dados, realize as operações e então encerre a conexão, da seguinte forma:

In [5]:
# Criação da conexão
connection = sqlite3.connect("assets/example.db")

# Operações com o banco (SELECT, CREATE, ETC)

# Encerramento da conexão
connection.close()

# Realizar a consulta de seleção dos dados

Agora dentro dessa estrutura apresentada, iremos realizar a execução do comando `SELECT` que realiza a seleção dos dados de uma ou mais tabelas.

In [9]:
connection = sqlite3.connect("assets/example.db")

# Criação do cursor, elemento que "aponta" para os dados e permite percorrê-los
cursor = connection.cursor()

# Definição da string de busca no banco de dados
query = "SELECT * FROM users"

# Execução da consulta pelo cursor
cursor.execute(query)

# Extração dos resultados
result = cursor.fetchall()

connection.close()

Criamos uma conexão, executamos um consulta armazenando os resultados na variável `result` e fechamos a conexão. 

Vamos verificar se os resultados são iguais aos da imagem apresentada no início.

In [10]:
for row in result:
    print(row)

(1, 'Lorem Ipsum', '01/01/1997/', 2)
(2, 'Ipsum Lorem', '01/02/1897', 7)
(3, 'DeGrasse Tyson', '05/10/1958', 7)
(4, 'Ipsum Lorem', '01/02/1897', 2)
(5, 'Carl Sagan', '09/11/1934', 5)


Os resultados foram iguais, sendo assim a nossa extração foi executada corretamente.

# Conversão dos dados para Pandas.DataFrame

O próximo e último passo é criar um objeto do tipo `pandas.DataFrame` com todos os dados extraídos.

In [15]:
import pandas as pd

df = pd.DataFrame(result, columns=["user_id", "full_name", "birth_date", "children"])

df.head()

Unnamed: 0,user_id,full_name,birth_date,children
0,1,Lorem Ipsum,01/01/1997/,2
1,2,Ipsum Lorem,01/02/1897,7
2,3,DeGrasse Tyson,05/10/1958,7
3,4,Ipsum Lorem,01/02/1897,2
4,5,Carl Sagan,09/11/1934,5


# Exercício

Realize o mesmo tipo de extração da base, porém utilizado a base providenciada `movies.sql`