## <font color='blue'>Projeto 1 - Análise de Dados</font>
### <font color='blue'>Data Science Academy</font>

### Instalando e Carregando os Pacotes

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python usada: ', python_version())

Versão da Linguagem Python usada:  3.9.12


In [2]:
# Instalar o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
# -q para fazer uma instalação silenciosa
!pip install -q -U watermark

In [3]:
# Instala o pacote iPython-sql 
# https://pypi.org/project/ipython-sql/
!pip install -q ipython-sql

In [4]:
# Instala o pacote pandas
!pip install -q -U pandas==1.2.4

In [5]:
# Imports
import pandas as pd # O excel para linguagem python, manipula dados via programação
import sqlite3 # Pacote python para interação com sql para banco relacional

In [6]:
# Versões dos pacotes usados no jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

sqlite3: 2.6.0
pandas : 1.2.4



### Banco Relacional, Python e SQL para Análise de Dados

In [7]:
# Criação de um dataframe com pandas que converte um dicionário de dados em uma tabela
dados = pd.DataFrame({'nome':['Siri','Alexa','Cortana'],
                     'idade':[25,47,18],
                     'cargo':['Analista de Dados','Cientista de Dados','Engenheiro de Dados']})

In [8]:
# Visualização do DataFrame
dados.head()

Unnamed: 0,nome,idade,cargo
0,Siri,25,Analista de Dados
1,Alexa,47,Cientista de Dados
2,Cortana,18,Engenheiro de Dados


In [9]:
# Apaga o banco de dados, caso já esteja na máquina
# Para Windows:
#!del 'database/dbprojeto1.db'
# Para Mac ou Linux:
#!rm 'database/dbprojeto1.db'

In [9]:
# Criação da conexão ao banco de dados SQLite
# Já criando o banco de dados na pasta direcionada
cnn = sqlite3.connect('database/dbprojeto2.db')

In [10]:
# Copia o DataFrame para dentro do banco de dados criado como uma tabela
# Levando da mémoria do computaador para o disco
dados.to_sql('funcionarios', cnn)

In [11]:
# Carregando a extensão SQL do pacote
%load_ext sql

In [12]:
# Indicando o banco de dados a ser usado
%sql sqlite:///database/dbprojeto2.db

> Agora foram executada as consultas SQL usando diretamente Linguagem SQL dentro do Jupyter Notebook.

In [None]:
# Indica qual linguagem vai usar %%sql
# Comando SQL para imprimir todos os dados da tabela funcionário SELECT FROM

In [17]:
%%sql

SELECT * FROM funcionarios

 * sqlite:///database/dbprojeto2.db
Done.


index,nome,idade,cargo
0,Siri,25,Analista de Dados
1,Alexa,47,Cientista de Dados
2,Cortana,18,Engenheiro de Dados


In [None]:
# Comando para imprimir q quantidade de registros contidos na tabela

In [16]:
%%sql

SELECT count(*) FROM funcionarios

 * sqlite:///database/dbprojeto2.db
Done.


count(*)
3


In [19]:
# Calculando a média (avg) de idade dos funcionários

In [20]:
%%sql

SELECT avg(idade) as 'idade media' FROM funcionarios

 * sqlite:///database/dbprojeto2.db
Done.


idade media
30.0


### Dados Reais para Análise
Temos em mãos um arquivo com dados de pacientes que desenvolveram ou não diabetes. 
Precisamos gerar uma amostra de dados com os pacientes com mais de 50 anos e para 
cada um deles indicar em uma nova coluna se o paciente está normal (BMI menor que 
30) ou obeso (BMI maior ou igual a 30). Então devemos gerar um novo arquivo CSV e 
encaminhar para o Cientista de Dados.

In [22]:
# Carregando os dados em csv pelo comando read do pacote pandas
df = pd.read_csv('dataset/diabetes.csv')

In [23]:
# Averiguando o tipo do objeto - sendo um DataFrame do pandas
type(df)

pandas.core.frame.DataFrame

In [24]:
# Averiguando tamanho do DataFrame
df.shape

(768, 9)

In [25]:
# Vendo uma amostra dos dados
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [26]:
# Realizando uma cópia do DataFrame para um banco de dados como uma tabela
df.to_sql('diabetes', cnn)

In [27]:
%%sql

SELECT count(*) FROM diabetes

 * sqlite:///database/dbprojeto2.db
Done.


count(*)
768


In [None]:
# Buscando colunas de Idade, índice de Glicose e o resultado de ter Diabetes ou não

In [28]:
%%sql

SELECT Age, Glucose, Outcome 
FROM diabetes
WHERE Glucose > 190

 * sqlite:///database/dbprojeto2.db
Done.


Age,Glucose,Outcome
53,197,1
41,196,1
41,194,1
57,196,1
31,197,0
24,193,0
34,191,0
59,194,1
29,196,1
25,193,1


In [None]:
# Averiguando quais são as colunas contidas no DataFrame

In [29]:
df.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [None]:
# Cria uma tabela nova (vazia) no banco de dados
# Indicando o nome das colunas e o tipo dos dados

In [35]:
%%sql

CREATE TABLE pacientes (Pregnancies INT,
                       Glucose INT,
                       BloodPressure INT,
                       SkinThickness INT,
                       Insulin INT,
                       BMI DECIMAL(8,2),
                       DiabetesPedigreeFunction DECIMAL(8,2),
                       Age INT,
                       Outcome INT)

 * sqlite:///database/dbprojeto2.db
Done.


[]

In [None]:
# Caso de erro DROP a tabela e CREATE novamente

In [34]:
%%sql

##DROP TABLE pacientes

 * sqlite:///database/dbprojeto2.db
Done.


[]

In [None]:
# Averiguando se a tabela está vazia

In [36]:
%%sql

SELECT * FROM pacientes

 * sqlite:///database/dbprojeto2.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome


In [None]:
# Preenchendo a tabela vazia com instruções DML e buscando dados da tabela diabetes

In [38]:
%%sql

INSERT INTO pacientes(Pregnancies,
                     Glucose,
                     BloodPressure,
                     SkinThickness,
                     Insulin,
                      BMI,
                     DiabetesPedigreeFunction,
                     Age,
                     Outcome)
SELECT Pregnancies,
        Glucose,
        BloodPressure,
        SkinThickness,
        Insulin,
        BMI,
        DiabetesPedigreeFunction,
        Age,
        Outcome
FROM diabetes
WHERE Age > 50

 * sqlite:///database/dbprojeto2.db
81 rows affected.


[]

In [None]:
%%sql

INSERT INTO pacientes(Pregnancies, 
                      Glucose, 
                      BloodPressure, 
                      SkinThickness, 
                      Insulin, 
                      BMI, 
                      DiabetesPedigreeFunction, 
                      Age, 
                      Outcome) 
SELECT Pregnancies, 
       Glucose, 
       BloodPressure, 
       SkinThickness, 
       Insulin, 
       BMI, 
       DiabetesPedigreeFunction, 
       Age, 
       Outcome 
FROM diabetes WHERE Age > 50;

In [None]:
# Consultando a tabela para ver como está

In [39]:
%%sql

SELECT * FROM pacientes

 * sqlite:///database/dbprojeto2.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
2,197,70,45,543,30.5,0.158,53,1
8,125,96,0,0,0.0,0.232,54,1
10,139,80,0,0,27.1,1.441,57,0
1,189,60,23,846,30.1,0.398,59,1
5,166,72,19,175,25.8,0.587,51,1
11,143,94,33,146,36.6,0.254,51,1
13,145,82,19,110,22.2,0.245,57,0
5,109,75,26,0,36.0,0.546,60,0
4,111,72,47,207,37.1,1.39,56,1
9,171,110,24,240,45.4,0.721,54,1


In [None]:
# Cria uma nova coluna chamada Perfil na tabela de pacientes 

In [40]:
%%sql

ALTER TABLE pacientes
ADD Perfil VARCHAR(10);

 * sqlite:///database/dbprojeto2.db
Done.


[]

In [None]:
# Averiguando o que foi feito

In [41]:
%%sql

SELECT * FROM pacientes

 * sqlite:///database/dbprojeto2.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,
8,125,96,0,0,0.0,0.232,54,1,
10,139,80,0,0,27.1,1.441,57,0,
1,189,60,23,846,30.1,0.398,59,1,
5,166,72,19,175,25.8,0.587,51,1,
11,143,94,33,146,36.6,0.254,51,1,
13,145,82,19,110,22.2,0.245,57,0,
5,109,75,26,0,36.0,0.546,60,0,
4,111,72,47,207,37.1,1.39,56,1,
9,171,110,24,240,45.4,0.721,54,1,


In [None]:
# Usa o UPDATE uma instrução DML para atualizar os dados na tabela

In [42]:
%%sql

UPDATE pacientes
SET Perfil = 'Normal'
WHERE BMI < 30;

 * sqlite:///database/dbprojeto2.db
38 rows affected.


[]

In [46]:
%%sql

SELECT * FROM pacientes

 * sqlite:///database/dbprojeto2.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,Obeso
8,125,96,0,0,0.0,0.232,54,1,Normal
10,139,80,0,0,27.1,1.441,57,0,Normal
1,189,60,23,846,30.1,0.398,59,1,Obeso
5,166,72,19,175,25.8,0.587,51,1,Normal
11,143,94,33,146,36.6,0.254,51,1,Obeso
13,145,82,19,110,22.2,0.245,57,0,Normal
5,109,75,26,0,36.0,0.546,60,0,Obeso
4,111,72,47,207,37.1,1.39,56,1,Obeso
9,171,110,24,240,45.4,0.721,54,1,Obeso


In [44]:
%%sql

UPDATE pacientes
SET Perfil = 'Obeso'
WHERE BMI >= 30;

 * sqlite:///database/dbprojeto2.db
43 rows affected.


[]

In [53]:
%%sql

SELECT * FROM pacientes

 * sqlite:///database/dbprojeto2.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,Obeso
8,125,96,0,0,0.0,0.232,54,1,Normal
10,139,80,0,0,27.1,1.441,57,0,Normal
1,189,60,23,846,30.1,0.398,59,1,Obeso
5,166,72,19,175,25.8,0.587,51,1,Normal
11,143,94,33,146,36.6,0.254,51,1,Obeso
13,145,82,19,110,22.2,0.245,57,0,Normal
5,109,75,26,0,36.0,0.546,60,0,Obeso
4,111,72,47,207,37.1,1.39,56,1,Obeso
9,171,110,24,240,45.4,0.721,54,1,Obeso


### Carrega os dados no Pandas e Salva em CSV

In [54]:
# Query que consulta a tabela de pacientes e grava em um cursor
query = cnn.execute("SELECT * FROM pacientes")
# Sendo esse um resultado de uma consulta SQL
query

<sqlite3.Cursor at 0x1589416a3b0>

In [55]:
# Criação de uma List Comprehensions (loop)
# Para cada coluna do resultado da minha query busque cada uma das colunas
# Grave no objeto cols
cols = [coluna[0] for coluna in query.description]
cols

['Pregnancies',
 'Glucose',
 'BloodPressure',
 'SkinThickness',
 'Insulin',
 'BMI',
 'DiabetesPedigreeFunction',
 'Age',
 'Outcome',
 'Perfil']

In [56]:
# Pega o resultado e gera um DataFrame
resultado = pd.DataFrame.from_records(data = query.fetchall(), columns = cols)

In [57]:
# Shape
resultado.shape

(81, 10)

In [58]:
#Visualiza 
resultado.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Perfil
0,2,197,70,45,543,30.5,0.158,53,1,Obeso
1,8,125,96,0,0,0.0,0.232,54,1,Normal
2,10,139,80,0,0,27.1,1.441,57,0,Normal
3,1,189,60,23,846,30.1,0.398,59,1,Obeso
4,5,166,72,19,175,25.8,0.587,51,1,Normal


In [59]:
# Salva em CSV
resultado.to_csv('dataset/pacientes.csv', index = False)

### Fim