# Working with Databases
Utilizando um database famoso do Kaggle chamado `Iris`, disponível em <https://www.kaggle.com/uciml/iris/>

<br> __Primeiro verificaremos se o sqlite database está disponível e atribuiremos uma mensagem de erro caso nao esteja.__

In [5]:
#Atribuindo a pasta com o database a um objeto
import os
data_iris_folder_content = os.listdir("Data/iris")

In [6]:
#Criando a msg de erro para quando for necessario
error_message = "Error: sqlite file not available, check instructions above to download it"
assert "database.sqlite" in data_iris_folder_content, error_message

## Acessando o Database

In [7]:
import sqlite3

In [8]:
#Objeto de conexão com o database
conn = sqlite3.connect('Data/iris/database.sqlite')

#Objetivo de interação, uma interface para o database
cursor = conn.cursor()

In [9]:
type(cursor)

sqlite3.Cursor

_Primeiramente precisamos saber quais são as listas armazenadas neste database, isto pode ser feito lendo a coluna_ __name__ _da tabela de metadados_ __sqlite master.__  

In [11]:
#Lê cada linha da tabela sqlite_master
for row in cursor.execute("SELECT name FROM sqlite_master"):
    print(row)

('Iris',)


In [12]:
#Outra forma de fazer o mesmo é com um metodo da classe sqlite3 chamado fetchall
cursor.execute("SELECT name FROM sqlite_master").fetchall()

[('Iris',)]

___Nota: Este metodo(fetchall) é especifico do sqlite, outros databases como MySQL ou PostgreSQL possuem diferentes sintaxes.___

In [13]:
#Conteudo do database
sample_data = cursor.execute("SELECT * FROM Iris LIMIT 5").fetchall()

In [15]:
print(type(sample_data))
sample_data

<class 'list'>


[(1, 5.1, 3.5, 1.4, 0.2, 'Iris-setosa'),
 (2, 4.9, 3, 1.4, 0.2, 'Iris-setosa'),
 (3, 4.7, 3.2, 1.3, 0.2, 'Iris-setosa'),
 (4, 4.6, 3.1, 1.5, 0.2, 'Iris-setosa'),
 (5, 5, 3.6, 1.4, 0.2, 'Iris-setosa')]

In [16]:
#Descrição das linhas do database
[row[0] for row in cursor.description]

['Id',
 'SepalLengthCm',
 'SepalWidthCm',
 'PetalLengthCm',
 'PetalWidthCm',
 'Species']

_Uma maneira mais intuitiva e de certa forma, mais facil, de trabalhar com bancos de dados, pode ser importando-o para o pandas_

In [17]:
import pandas as pd

In [23]:
#Pandas solicita as informações especificadas(Iris) para o database através do objeto de conexão com o database
#Em seguida o pandas cria um dataframe com as informações coletadas, mantendo os seus respectivos tipos
iris_data = pd.read_sql_query("SELECT * FROM Iris", conn)

In [24]:
iris_data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [25]:
iris_data.dtypes

Id                 int64
SepalLengthCm    float64
SepalWidthCm     float64
PetalLengthCm    float64
PetalWidthCm     float64
Species           object
dtype: object

Imaginando que temos um database muito grande (<= 1TB), se quisermos analisar apenas algumas informações dele, como dados sobre determina feature, ou nesse caso, dados sobre uma especie espeficia de planta. Neste cenário torna-se impraticável carregar este dataset no pandas e filtra-lo, o interessante a se fazer é usar os metodos do sqlite3 para filtrar as informações desejadas do database e então carrega-los no pandas.

In [26]:
iris_setosa_data = pd.read_sql_query("SELECT * FROM Iris WHERE Species == 'Iris-setosa'", conn)

In [27]:
iris_setosa_data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [30]:
print(iris_setosa_data.shape)
print(iris_data.shape)

(50, 6)
(150, 6)
