### Projeto de Análise de Dados com Linguagem Python

### Projeto 1

#### Extraindo e Analisando Dados  de Banco de Dados

**Manipulando dados apartir de um banco de dados relacional**

**Pacotes Python usados no projeto**

In [1]:
# Instale o pacote watermark
# !python.exe -m pip install --upgrade pip
! pip install -q -U watermark

In [2]:
# Instalando o pacote iPython-sql
! pip install -q -U ipython-sql

In [3]:
# Imports
import os
import pandas as pd
import sqlite3
import prettytable as pt

In [4]:
%reload_ext watermark
%watermark -a "Leonardo da Silva Neves"

Author: Leonardo da Silva Neves



In [5]:
# Sem o ajuste do seguinte parametro, a visualização das tabelas do bd não funciona.
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

**Criando o Banco de Dados Relacional**

In [6]:
# Criando um dataframe com os dados de origem
dados = pd.DataFrame({'Nivel': ['Junior', 'Pleno', 'Senior'],
                      'Salario': [7500, 14500, 18320],
                      'Cargo': ['Analista de Dados', 'Cientista de Dados', 'Engenheiro de Dados']})

In [7]:
# Tabela dos dados
dados.head()

Unnamed: 0,Nivel,Salario,Cargo
0,Junior,7500,Analista de Dados
1,Pleno,14500,Cientista de Dados
2,Senior,18320,Engenheiro de Dados


In [8]:
# Definindo o caminho para o arquivo do banco de dados
arquivo_path = 'Cap03/database.db'

In [9]:
# Verificando se o arquivo existe e deleta se existir para criar um novo arquivo depois
if os.path.exists(arquivo_path):
    try:
        os.remove(arquivo_path)
        print(f"Arquivo {arquivo_path} deletado com sucesso!")
    except Exception as e:
        print(f"Erro ao deletar o arquivo {arquivo_path}. Detalhe: {e}")
else:
    print(f"Arquivo {arquivo_path} não encontrado.")

Arquivo Cap03/database.db não encontrado.


**Conectando ao Banco de Dados com Linguagem Python**

In [10]:
# Criando a conexão a um banco de dados SQLite (Se existir, conecta. Do contrário cria o arquivo .db)
cnn = sqlite3.connect('Cap03/database.db')

In [11]:
# Copiando o dataframe para dentro do banco de dados como uma tabela
dados.to_sql('funcionarios', cnn)

3

In [12]:
# Carregando a extensão SQL
%load_ext sql

In [13]:
# Definindo o banco de dados
%sql sqlite:///Cap03/database.db

**Agora executaremos consultas SQL usando diretamente Linguagem SQL dentro do Jupyter Notebook.**

In [14]:
%%sql

SELECT * FROM funcionarios

 * sqlite:///Cap03/database.db
Done.


index,Nivel,Salario,Cargo
0,Junior,7500,Analista de Dados
1,Pleno,14500,Cientista de Dados
2,Senior,18320,Engenheiro de Dados


In [15]:
%%sql

SELECT COUNT(*) FROM funcionarios

 * sqlite:///Cap03/database.db
Done.


COUNT(*)
3


In [16]:
%%sql

SELECT round(AVG(salario), 2) as 'salario_medio' FROM funcionarios

 * sqlite:///Cap03/database.db
Done.


salario_medio
13440.0


**Carregando o Banco de Dados a Partir de Arquivos CSV**

Temos o arquivo dados de pacientes que desenvolveram ou não diabétes. Vamos colocar o conteúdo do arquivo em um banco de dados.

In [17]:
# Carregando o arquivo
df = pd.read_csv('Cap03/dataset.csv')

In [18]:
type(df)

pandas.core.frame.DataFrame

In [19]:
df.shape

(768, 9)

In [20]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,1,103,30,38,83,43.3,0.183,33,0
1,1,115,70,30,96,34.6,0.529,32,1
2,3,126,88,41,235,39.3,0.704,27,0
3,8,99,84,0,0,35.4,0.388,50,0
4,7,196,90,0,0,39.8,0.451,41,1


In [21]:
# Capia o dataframe para dentro do banco de dados como uma tabela
df.to_sql('diabetes',cnn)

768

In [22]:
%%sql

SELECT COUNT(*) FROM diabetes

 * sqlite:///Cap03/database.db
Done.


COUNT(*)
768


**Sintaxe SQL e Sintaxe Pandas**

Retorne o paciente que tem BMI maior que 52 e idade (Age) entre 25 e 30 anos.

**Sintaxe de consulta do Pandas:**

In [23]:
df.query("BMI > 52 and 25 <= Age <= 30")

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
120,0,162,76,56,100,53.2,0.759,25,1
125,1,88,30,42,99,55.0,0.496,26,1
177,0,129,110,46,130,67.1,0.319,26,1
303,5,115,98,0,0,52.9,0.209,28,1
445,0,180,78,63,14,59.4,2.42,25,1


**Sintaxe de consulta do SQL:**

In [24]:
%%sql

SELECT * FROM diabetes WHERE BMI > 52 AND age BETWEEN 25 AND 30

 * sqlite:///Cap03/database.db
Done.


index,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
120,0,162,76,56,100,53.2,0.759,25,1
125,1,88,30,42,99,55.0,0.496,26,1
177,0,129,110,46,130,67.1,0.319,26,1
303,5,115,98,0,0,52.9,0.209,28,1
445,0,180,78,63,14,59.4,2.42,25,1


**Respondendo perguntas de negócio com análise de dados**

Precisamos de um análise de dados com os paciêntes com mais de 50 anos e para cada um deles indicar em um nova coluna se o paciente está normal (BMI/Indice de massa corporia menor que 30) ou obeso (BMI maior ou igual a 30). Então devemos gerar um novo arquivo CSV encaminhar para o tomador de decisão.

**Retorne Age, Glucose, Outcome para pacientes com Glocose maior que 195.**

In [25]:
%%sql
SELECT Age, Glucose, Outcome FROM diabetes WHERE Glucose > 195;

 * sqlite:///Cap03/database.db
Done.


Age,Glucose,Outcome
41,196,1
53,197,1
57,196,1
31,197,0
29,196,1
39,197,1
28,198,1
62,197,1
22,199,1


In [26]:
df.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

**Criando uma nova tabela no banco de dados**

In [27]:
%%sql

CREATE TABLE pacientes(
    Pregnancies INT,
    Glucose INT,
    BloodPressure INT,
    SkinThickness INT,
    Insulin INT,
    BMI DECIMAL(8,2),
    DiabetesPedigreeFuncion DECIMAL(8,2),
    Age INT,
    Outcome INT);

 * sqlite:///Cap03/database.db
Done.


[]

In [28]:
%%sql
SELECT * FROM pacientes

 * sqlite:///Cap03/database.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome


**Copiando o conteúdo de uma tabela para outra**

In [29]:
%%sql
INSERT INTO pacientes(Pregnancies,
                      Glucose,
                      BloodPressure,
                      SkinThickness,
                      Insulin,
                      BMI,
                      DiabetesPedigreeFuncion,
                      Age,
                      Outcome)
SELECT Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age, Outcome
FROM diabetes WHERE Age > 50;

 * sqlite:///Cap03/database.db
81 rows affected.


[]

**Retorna todos os pacientes**

In [30]:
%%sql
SELECT * FROM pacientes;

 * sqlite:///Cap03/database.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome
2,197,70,45,543,30.5,0.158,53,1
8,125,96,0,0,0.0,0.232,54,1
10,139,80,0,0,27.1,1.441,57,0
1,189,60,23,846,30.1,0.398,59,1
5,166,72,19,175,25.8,0.587,51,1
11,143,94,33,146,36.6,0.254,51,1
13,145,82,19,110,22.2,0.245,57,0
5,109,75,26,0,36.0,0.546,60,0
4,111,72,47,207,37.1,1.39,56,1
9,171,110,24,240,45.4,0.721,54,1


**Alterando a tabela e incluindo uma nova coluna**

In [31]:
%%sql
ALTER TABLE pacientes ADD Perfil VARCHAR(10);

 * sqlite:///Cap03/database.db
Done.


[]

**Coluna criada**

In [32]:
%%sql
SELECT * FROM pacientes

 * sqlite:///Cap03/database.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,
8,125,96,0,0,0.0,0.232,54,1,
10,139,80,0,0,27.1,1.441,57,0,
1,189,60,23,846,30.1,0.398,59,1,
5,166,72,19,175,25.8,0.587,51,1,
11,143,94,33,146,36.6,0.254,51,1,
13,145,82,19,110,22.2,0.245,57,0,
5,109,75,26,0,36.0,0.546,60,0,
4,111,72,47,207,37.1,1.39,56,1,
9,171,110,24,240,45.4,0.721,54,1,


**Agora vamos atualizar a coluna do Perfil com o valor "Normal" se o BMI for menor do que 30**

In [33]:
%%sql
UPDATE pacientes
SET Perfil = 'Normal'
WHERE BMI < 30;

 * sqlite:///Cap03/database.db
38 rows affected.


[]

**Confirmando o resultado**

In [34]:
%%sql

SELECT * FROM pacientes;

 * sqlite:///Cap03/database.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,
8,125,96,0,0,0.0,0.232,54,1,Normal
10,139,80,0,0,27.1,1.441,57,0,Normal
1,189,60,23,846,30.1,0.398,59,1,
5,166,72,19,175,25.8,0.587,51,1,Normal
11,143,94,33,146,36.6,0.254,51,1,
13,145,82,19,110,22.2,0.245,57,0,Normal
5,109,75,26,0,36.0,0.546,60,0,
4,111,72,47,207,37.1,1.39,56,1,
9,171,110,24,240,45.4,0.721,54,1,


**Agora vamos atualizar a coluna com o valor "Obese" se o BMI for maior ou igual a 30.**

In [35]:
%%sql
UPDATE pacientes
SET Perfil = 'Obeso'
WHERE BMI >=30;

 * sqlite:///Cap03/database.db
43 rows affected.


[]

**Conferimos o resultado**

In [36]:
%%sql
SELECT * FROM pacientes;

 * sqlite:///Cap03/database.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome,Perfil
2,197,70,45,543,30.5,0.158,53,1,Obeso
8,125,96,0,0,0.0,0.232,54,1,Normal
10,139,80,0,0,27.1,1.441,57,0,Normal
1,189,60,23,846,30.1,0.398,59,1,Obeso
5,166,72,19,175,25.8,0.587,51,1,Normal
11,143,94,33,146,36.6,0.254,51,1,Obeso
13,145,82,19,110,22.2,0.245,57,0,Normal
5,109,75,26,0,36.0,0.546,60,0,Obeso
4,111,72,47,207,37.1,1.39,56,1,Obeso
9,171,110,24,240,45.4,0.721,54,1,Obeso


**Retornando os dados para o pandas e salvando o CSV**

In [37]:
# Query
df_query = cnn.execute("SELECT * FROM pacientes")

In [38]:
df_query

<sqlite3.Cursor at 0x28ff5c3b9c0>

In [39]:
# List Comprehesion para retornar os metadados da tabela (nome de colunas)
cols = [coluna[0] for coluna in df_query.description]

In [40]:
cols

['Pregnancies',
 'Glucose',
 'BloodPressure',
 'SkinThickness',
 'Insulin',
 'BMI',
 'DiabetesPedigreeFuncion',
 'Age',
 'Outcome',
 'Perfil']

In [41]:
# Gera o dataframe
resultado = pd.DataFrame.from_records(data = df_query.fetchall(), columns = cols)

In [42]:
# Shape
resultado.shape

(81, 10)

In [43]:
# Visualiza
resultado.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFuncion,Age,Outcome,Perfil
0,2,197,70,45,543,30.5,0.158,53,1,Obeso
1,8,125,96,0,0,0.0,0.232,54,1,Normal
2,10,139,80,0,0,27.1,1.441,57,0,Normal
3,1,189,60,23,846,30.1,0.398,59,1,Obeso
4,5,166,72,19,175,25.8,0.587,51,1,Normal


In [44]:
# Salvando em .csv dentro de uma pasta determinada
resultado.to_csv('Cap03/resultado.csv', index = False)

In [45]:
%reload_ext watermark
%watermark -a "Leonardo da Silva Neves"

Author: Leonardo da Silva Neves



In [46]:
%watermark

Last updated: 2025-11-14T14:11:50.725483-03:00

Python implementation: CPython
Python version       : 3.12.7
IPython version      : 8.27.0

Compiler    : MSC v.1929 64 bit (AMD64)
OS          : Windows
Release     : 11
Machine     : AMD64
Processor   : Intel64 Family 6 Model 140 Stepping 1, GenuineIntel
CPU cores   : 8
Architecture: 64bit



In [47]:
%watermark --iversions

sqlite3    : 2.6.0
pandas     : 2.2.2
prettytable: 3.16.0



In [48]:
cnn.close()

### Fim