# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Análise de Dados com Linguagem Python</font>

## <font color='blue'>Projeto 1</font>
## <font color='blue'>Banco Relacional, Python e SQL Para Análise de Dados</font>

![title](imagens/Projeto1.png)

## Pré-Requisitos

Recomendamos que você tenha concluído pelo menos os 5 primeiros capítulos do curso gratuito de <a href="https://www.datascienceacademy.com.br/course?courseid=python-fundamentos">Python Fundamentos Para Análise de Dados</a>.

## Instalando e Carregando os Pacotes

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.11.4


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install pandas==1.2.4

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# !pip install -q -U pandas==1.2.4
#!pip install pandas==1.2.4

In [9]:
# Instala o pacote iPython-sql 
# https://pypi.org/project/ipython-sql/
!pip install -q ipython-sql

In [5]:
# Imports
import pandas as pd
import sqlite3

In [6]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

pandas : 1.5.3
sqlite3: 2.6.0



## Banco Relacional, Python e SQL Para Análise de Dados

In [7]:
# Cria um dataframe
dados = pd.DataFrame({'nome': ['Siri', 'Alexa', 'Cortana'],
                      'idade': [28, 47, 18],
                      'cargo': ['Analista de Dados', 'Cientista de Dados', 'Engenheiro de Dados']})

In [8]:
dados.head()

Unnamed: 0,nome,idade,cargo
0,Siri,28,Analista de Dados
1,Alexa,47,Cientista de Dados
2,Cortana,18,Engenheiro de Dados


In [10]:
# Apaga o banco de dados
!del 'database/dbprojeto1.db'
#!rm 'database/dbprojeto1.db'

Opção inválida - "dbprojeto1.db'".


In [15]:
# Criamos a conexão a um banco de dados SQLite
cnn = sqlite3.connect('database/dbprojeto1.db')
cnn.droptable('funcionários')

AttributeError: 'sqlite3.Connection' object has no attribute 'droptable'

In [17]:
# Copia o dataframe para dentro do banco de dados como uma tabela
dados.to_sql('funcionarios', cnn)

ValueError: Table 'funcionarios' already exists.

In [None]:
# Carregamos a extensão SQL
%load_ext sql

In [None]:
# Definimos o banco de dados
%sql sqlite:///database/dbprojeto1.db

> Agora executamos nossas consultas SQL usando diretamente Linguagem SQL dentro do Jupyter Notebook.

In [None]:
%%sql

SELECT * FROM funcionarios

In [None]:
%%sql

SELECT count(*) FROM funcionarios

In [None]:
%%sql

SELECT avg(idade) as 'idade_media' FROM funcionarios

## Banco Relacional, Python e SQL Para Análise de Dados

Temos em mãos um arquivo com dados de pacientes que desenvolveram ou não diabetes. Precisamos gerar uma amostra de dados com os pacientes com mais de 50 anos e para cada um deles indicar em uma nova coluna se o paciente está normal (BMI menor que 30) ou obeso (BMI maior ou igual a 30). Então devemos gerar um novo arquivo CSV e encaminhar para o Cientista de Dados.

In [None]:
df = pd.read_csv('dataset/diabetes.csv')

In [None]:
type(df)

In [None]:
df.shape

In [None]:
df.head()

In [None]:
# Copia o dataframe para dentro do banco de dados como uma tabela
df.to_sql('diabetes', cnn)

In [None]:
%%sql

SELECT count(*) FROM diabetes

In [None]:
%%sql

SELECT Age, Glucose, Outcome FROM diabetes WHERE Glucose > 190

In [None]:
df.columns

In [None]:
%%sql

CREATE TABLE pacientes (Pregnancies INT,
                        Glucose INT,
                        BloodPressure INT,
                        SkinThickness INT,
                        Insulin INT,
                        BMI DECIMAL(8, 2),
                        DiabetesPedigreeFunction DECIMAL(8, 2),
                        Age INT,
                        Outcome INT);

In [None]:
%%sql

SELECT * FROM pacientes

In [None]:
%%sql

INSERT INTO pacientes(Pregnancies, 
                      Glucose, 
                      BloodPressure, 
                      SkinThickness, 
                      Insulin, 
                      BMI, 
                      DiabetesPedigreeFunction, 
                      Age, 
                      Outcome) 
SELECT Pregnancies, 
       Glucose, 
       BloodPressure, 
       SkinThickness, 
       Insulin, 
       BMI, 
       DiabetesPedigreeFunction, 
       Age, 
       Outcome 
FROM diabetes WHERE Age > 50;

In [None]:
%%sql

SELECT * FROM pacientes

In [None]:
%%sql 

ALTER TABLE pacientes
ADD Perfil VARCHAR(10);

In [None]:
%%sql

SELECT * FROM pacientes

In [None]:
%%sql

UPDATE pacientes
SET Perfil = 'Normal'
WHERE BMI < 30;

In [None]:
%%sql

SELECT * FROM pacientes

In [None]:
%%sql

UPDATE pacientes
SET Perfil = 'Obeso'
WHERE BMI >= 30;

In [None]:
%%sql

SELECT * FROM pacientes

## Carregando os Dados no Pandas e Salvando o CSV

In [None]:
# Query
query = cnn.execute("SELECT * FROM pacientes")
query

In [None]:
# List Comprehension
cols = [coluna[0] for coluna in query.description]
cols

In [None]:
# Gera o dataframe
resultado = pd.DataFrame.from_records(data = query.fetchall(), columns = cols)

In [None]:
# Shape
resultado.shape

In [None]:
# Visualiza
resultado.head()

In [None]:
# Salva em CSV
resultado.to_csv('dataset/pacientes.csv', index = False)

# Fim