# Awari - Data Science

## Projeto - Python com SQLite

## 1. Considerações iniciais

Para que você assimile melhor os comandos do SQL, preparamos este projeto de Python com SQLite. Neste notebook Jupyter, você irá reforçando alguns conceitos da unidade atual e deverá executar algumas tarefas pelo caminho. Todo o projeto deve ser executado neste Jupyter Notebook. Por fim, se desejar, revise as respostas com o seu mentor.

### 1.1. Por que SQLite?
O SQLite é uma pequena biblioteca em C que possui um banco de dados SQL embutido. Sem o apoio de um poderoso SGDB (Sistema de Gerenciamento de Banco de Dados) como nas soluções do mercado, o SQLite é ideal para fins de aprendizagem, pois sua instalação é fácil e não requer nenhuma configuração inicial. Deste modo, podemos focar nos comandos do SQL.

### 1.2. Prepare seu ambiente
Baixe e instale o SQLite antes de começar. Resumidamente, você irá acessar a página de [Downloads](https://www.sqlite.org/download.html) do SQLite e baixar os executáveis para a mesma pasta deste notebook. Caso você encontre dificuldades:

- Assista a este [vídeo](https://www.youtube.com/watch?v=VcKKt6OTlJc) para "instalar" o SQLite no Windows ou;
- Ou siga este [manual](http://www.devfuria.com.br/linux/instalando-sqlite/) para as plataformas Linux.

### 1.3. Conjunto de dados

O conjunto de dados que iremos utilizar é derivado do [Titanic](https://www.kaggle.com/c/titanic/data). Na verdade, dividimos o conjunto em dois arquivos CSV - [passageiros](passageiros.csv) e [passagens](passagens.csv). Cada um destes arquivo serão inseridos dentro do SQLite como tabelas, onde você executará suas consultas SQL.

#### 1.3.1. Descrição do dados

No arquivo [passageiros](passageiros.csv), você encontrará:
- PassengerId: Id do passageiro
- Survived: Se o passageiro sobreviveu ou não. Se 0, então não sobreviveu. Se 1, sobreviveu.
- Pclass: Classe em que o passageiro estava viajando. Se 1, então estava na primeira classe e assim por diante.
- Name: Nome do passageiro.
- Sex: Gênero do passageiro. Masculino ou feminino.
- Age: Idade.
- Sibsp: número de irmãos / esposas a bordo do navio.
- Parch: número de pais / filhos a bordo do navio.

E no arquivo [passagens](passagens.csv):
- PassengerId: Id do passageiro
- Ticket: número do ticket de embarque
- Fare: valor pago pelo ticket.
- Cabin: cabine do passageiro.
- Embarked: porto de embarque do passageiro. C = Cherbourg, Q = Queenstown e S = Southampton


## 2. Procedimentos

### 2.1. Leitura dos arquivos CSV
Antes de importarmos os dados dentro das tabelas, precisamos começar lendo os arquivos CSV. O pequeno código abaixo importa os dados do CSV em uma lista de dicionários em Python.

In [None]:
import csv 

def importar_csv(arquivo):
    dados = []
    with open(arquivo) as arq:
        leitor = csv.DictReader(arq)
        for l in leitor:
            dados.append(dict(l))
    
    print('O conjunto de dados tem %s registros.' % len(dados))
    
    return dados

### TAREFA 01

1. Importe o arquivo passagens.csv usando o mesmo código anterior.
2. Atualize as partes contendo `...` com o que falta no seu código

**DICA**: Não reinvente a roda, reutilize a função anterior.

In [None]:
passagens = importar_csv('passagens.csv')
    
def importar_csv(arquivo):
    dados = []
    with open(arquivo) as arq:
        leitor = csv.DictReader(arq)
        for l in leitor:
            dados.append(dict(l))
    
    print('O conjunto de dados tem %s registros.' % len(dados))
    
    return dados

### TAREFA 02
1. Importe o arquivo passageiros.csv usando o mesmo código anterior.

In [None]:
passageiros = importar_csv('passageiros.csv')
    
def importar_csv(arquivo):
    dados = []
    with open(arquivo) as arq:
        leitor = csv.DictReader(arq)
        for l in leitor:
            dados.append(dict(l))
    
    print('O conjunto de dados tem %s registros.' % len(dados))
    
    return dados

### 2.2. Criando o banco de dados
Para manipular um banco SQLite com Python, temos que utilizar uma biblioteca específica.

In [None]:
import sqlite3
conn = sqlite3.connect('titanic.db')

O comando acima cria o arquivo [titanic.db](titanic.db), que armazará nossos dados.

### 2.3. Criando as tabelas
Neste momento, temos do dados e o banco SQLlite. Então é hora de começar à usar comandos SQL para criar as tabelas que armazenarão nossos dados dentro do banco.

No SQLlite, precisamos primeiro criar uma conexão e um cursor para executar nossos comandos no banco. Para facilicar, o código abaixo facilita este processo. Você só precisa passar seu comando SQL para a função.

In [None]:
def executa(comando):
    cursor = conn.cursor()
    cursor.execute(comando)
    cursor.close()

Não execute o comando abaixo, pois ele dá um erro. É só um exemplo

In [None]:
# Exemplo
#comando = '<SEU_COMANDO_AQUI>'
#executa(comando)

### TAREFA 03
1. Cria a tabela passageiros.
2. PassengerId deve ser a chave primária.
3. Atualize as partes contendo `...` com o que falta no seu código

In [None]:
tabela_passageiros_comando = """
CREATE TABLE passageiros(
  PassengerId INTEGER NOT NULL PRIMARY KEY, 
  Survived INTEGER NOT NULL, 
  Pclass INTEGER NOT NULL, 
  Name VARCHAR(200), 
  Sex VARCHAR(20), 
  Age INTEGER, 
  SibSp INTEGER, 
  Parch INTEGER);
"""

In [None]:
executa(tabela_passageiros_comando)

### TAREFA 04
1. Cria a tabela passagens.
2. PassengerId deve ser a chave primária.
3. Atualize as partes contendo `...` com o que falta no seu código

In [None]:
tabela_passagens_comando = """
CREATE TABLE passagens(PassengerId INTEGER NOT NULL PRIMARY KEY, 
  Ticket VARCHAR(200), 
  Fare DECIMAL(9,2), 
  Cabin VARCHAR(20), 
  Embarked VARCHAR(5));
"""

In [None]:
executa(tabela_passagens_comando)

**Atenção:** Caso você tente executar os comandos de criação de tabelas mais de uma vez, perceberá um erro de operação informando que a tabela já existe.

Vamos verificar se as tabelas foram realmente criadas? Abra o terminal e na pasta atual digite:
```
$ sqlite3 titanic.db ".tables"
```
O terminal deve retornar com as tabelas existentes em seu banco [titanic.db](titanic.db). Neste casos, *passageiros* e *passagens*. Lembre-se que neste momento, não temos nenhum dado inseridos nas tabelas.

Caso queira verifcar mais algumas informações das tabelas criadas, pode executar esta outra instrução:
```
$ sqlite3 titanic.db "PRAGMA table_info(passageiros)"
```

### TAREFA 05
1. Pelo terminal, verifique mais informações da tabela passagens.

### 2.4. Inserindo dados nas tabelas
Usando o comando INSERT INTO, vamos popular as nossas tabelas. O processo é simples, percorremos as listas de dicionários, montamos nosso comando INSERT INTO e executamos - uma a uma. Para a tabela passageiros:

In [None]:
for p in passageiros:
    p['Name'] = p['Name'].replace('"', "'")
    inserir_passageiro = ("""
    INSERT INTO passageiros(PassengerId, Survived, Pclass, Name, Sex, Age, Sibsp, Parch)
    VALUES (%s, "%s", "%s", "%s", "%s", "%s", "%s", "%s")""") % (p['PassengerId'], p['Survived'], p['Pclass'],
                                                                 p['Name'], p['Sex'], p['Age'], p['SibSp'],
                                                                 p['Parch'])
    executa(inserir_passageiro)

### TAREFA 06
1. Insira os dados de passagens dentro da tabela passagens

In [None]:
for p in passagens:
    inserir_passagens = ("""
    INSERT INTO passagens(PassengerId, Ticket, Fare, Cabin, Embarked)
    VALUES (%s, "%s", "%s", "%s", "%s")""") % (p['PassengerId'], p['Ticket'], p['Fare'], 
                                               p['Cabin'], p['Embarked'])
    executa(inserir_passagens)

### 2.5. Executando consultas
Agora que os dados estão inseridos no arquivo banco SQLite, vamos executar alguns consultas. Vamos começar fazendo uma seleção de todas as colunas das tabelas.

O comando SELECT retorna dados, deste modo, precisamos fazer alguma alteração na função executa. utilize o *executa_consulta()*.

In [None]:
def executa_consulta(consulta):
    cursor = conn.cursor()
    cursor.execute(consulta)
    for linha in cursor.fetchall():
        print(linha)
    
    cursor.close()

Testando nosso código. Repare que o comando LIMIT foi utilizado para limitar a quantidade de linhas.

In [None]:
consulta_passageiro = """SELECT * FROM PASSAGEIROS LIMIT 10"""
executa_consulta(consulta_passageiro)

In [None]:
consulta_passagens = """SELECT * FROM PASSAGENS LIMIT 10"""
executa_consulta(consulta_passagens)

Também podemos imprimir mais informações sobre uma tabela usando o seguinte comando:

In [None]:
executa_consulta('pragma table_info(passageiros)')

### TAREFA 07
1. Verifique quantos tipos de classe (PClass) existem na tabela passageiros.

In [None]:
consulta = """SELECT * FROM passageiros WHERE Sex='male' and PClass=2"""
executa_consulta(consulta)

### TAREFA 08
1. Selecione os passageiros do sexo masculino (Sex) e que estejam na segunda classe (PClass).

**DICA**: Use a cláusula WHERE e uma condicional (AND ou OR).

In [None]:
consulta = """SELECT * FROM passageiros WHERE Sex='male' and PClass=2"""
executa_consulta(consulta)

### TAREFA 09
1. Conte quantos passageiros existem por sexo.

**DICA**: Use GROUP BY e COUNT().

In [None]:
consulta = """SELECT Sex, count() FROM passageiros GROUP BY Sex"""
executa_consulta(consulta)

### TAREFA 10
1. Verifique o valor médio das passagens em cada porto de embarque

**DICA**: Use GROUP BY e AVG(). A presença de valores missing pode apresentar alguns resultados estranhos.

In [None]:
consulta = """SELECT Embarked, AVG(Fare) FROM passagens GROUP BY Embarked"""
executa_consulta(consulta)

### TAREFA 11
1. Selecione o nome (Name), sexo(Sex) e tarifa(Fare) paga de 5 passageiros
2. Utilize as tabelas passageiros e passagens.

**DICA**: Use JOIN.

In [None]:
consulta = """SELECT Name, Sex, Fare 
FROM passagens PA INNER JOIN passageiros PO ON PA.PassengerId=PO.PassengerId
LIMIT 5"""
executa_consulta(consulta)

### TAREFA 12
1. Selecione o valor máximo (Fare) das passagens por classe.

In [None]:
consulta = """SELECT B.Pclass, max(A.Fare)
FROM PASSAGENS A INNER JOIN PASSAGEIROS B
  ON A.PassengerId=B.PassengerId
GROUP BY B.Pclass"""
executa_consulta(consulta)

### TAREFA 13
1. Descubra quantas pessoas embarcaram por porto
2. Agrupando por porto e sexo.

In [None]:
consulta = """SELECT Embarked, Sex, Count()
FROM PASSAGENS A INNER JOIN PASSAGEIROS B
  ON A.PassengerId=B.PassengerId
GROUP BY Embarked, Sex"""
executa_consulta(consulta)

## 3. Conclusão

A quantidade de consultas e a lista de comandos SQL é enorme. A interação foi somente relembrar alguns comandos básicos para que você se sinta confortável para explorar qualquer banco de dados SQL que você encontrar.


### Awari -  <a href="https://awari.com.br/"> awari.com.br</a>