# Projeto 1 - Banco Relacional, Python e SQL Para Análise de Dados

![Logo de capa](Projeto1-Logo.png)

Autor: Leonardo Simões

---
## Sumário
- [1.Introdução](#introduction)
- [2.Objetivos](#objectives)
- [3.Desenvolvimento](#development)
    - [3.1.Preparação do Ambiente](#imports)
    - [3.2.SQL - Consultas e manipulações](#sql_queries)
    - [3.3.Python - Exportação de Resultados](#export_results)
- [4.Conclusão](#conclusion)
- [Referências](#references)

---
<a id='introduction'></a>
## 1. Introdução
Temos em mãos um arquivo com dados de pacientes que desenvolveram ou não diabetes.

Precisamos gerar uma amostra de dados com os pacientes com mais de 50 anos e para
cada um deles indicar em uma nova coluna se o paciente está normal (índice de massa corpórea
menor que 30) ou obeso (índice de massa corpórea maior ou igual a 30).

Então devemos gerar um novo arquivo CSV e encaminhar para o Cientista de Dados.

Os dados serão inicialmente carregados com Linguagem Python.

Faremos então uma cópia dos dados para um banco de dados e usaremos Linguagem SQL para as transformações necessárias.

Por fim, copiaremos os dados transformados de volta para um dataframe do Pandas para salvar o
resultado em formato CSV.

---
<a id='objectives'></a>
## 2. Objetivos


O objetivo do projeto é usar a Linguagem SQL dentro do Jupyter Notebook, criando assim um ambiente de análise poderoso com Banco de Dados Relacional, Python e SQL.

---
<a id='development'></a>
## 3. Desenvolvimento

---
<a id='imports'></a>
### 3.1 Preparação do Ambiente

In [1]:
# Verificação da versão do Python
from platform import python_version
print('Versão do Python: ', python_version())

Versão do Python:  3.11.2


In [2]:
# Imports das bibliotecas
import pandas as pd
import sqlite3

In [3]:
# Versões da biblioteca pandas
print('Pandas versão ' + pd.__version__)

Pandas versão 1.5.3


In [4]:
# Cria um dataframe
dados = pd.DataFrame({'nome': ['Siri', 'Alexa', 'Cortana', 'Bixby', 'Bard'],
                      'idade': [28, 47, 18, 22, 33],
                      'cargo': ['Analista de Dados', 'Cientista de Dados', 'Engenheiro de Dados',
                                'Arquiteto de Dados', 'Analista de Negócios']})

In [5]:
# Exibe o dataframe
dados.head()

Unnamed: 0,nome,idade,cargo
0,Siri,28,Analista de Dados
1,Alexa,47,Cientista de Dados
2,Cortana,18,Engenheiro de Dados
3,Bixby,22,Arquiteto de Dados
4,Bard,33,Analista de Negócios


In [6]:
# Carrega o conjunto de dados e exibe as primeiras linhas
df = pd.read_csv('diabetes.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
# Exibe as dimesões do dataframe
df.shape

(768, 9)

In [8]:
# Exibe algumas informações sobre o dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [9]:
# Descreve numericamente o dataframe
df.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [10]:
# Cria um arquivo e a conexão com um banco de dados SQLite
cnn = sqlite3.connect('dbprojeto1.db')

In [11]:
# Copia o dataframe para dentro do banco de dados como uma tabela
df.to_sql('diabetes', cnn)

768

---
<a id='sql_queries'></a>
### 3.2 SQL - Consultas e manipulações

In [12]:
# Carrega a extensão SQL
%load_ext sql

In [13]:
# Define o banco de dados
%sql sqlite:///dbprojeto1.db

In [14]:
%%sql

CREATE TABLE pacientes (Pregnancies INT,
                        Glucose INT,
                        BloodPressure INT,
                        SkinThickness INT,
                        Insulin INT,
                        BMI DECIMAL(8, 2),
                        DiabetesPedigreeFunction DECIMAL(8, 2),
                        Age INT,
                        Outcome INT);

 * sqlite:///dbprojeto1.db
Done.


[]

In [15]:
%%sql

SELECT *
FROM pacientes
LIMIT 10;

 * sqlite:///dbprojeto1.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome


In [16]:
%%sql

INSERT INTO pacientes(Pregnancies,
                      Glucose,
                      BloodPressure,
                      SkinThickness,
                      Insulin,
                      BMI,
                      DiabetesPedigreeFunction,
                      Age,
                      Outcome)
    SELECT Pregnancies,
           Glucose,
           BloodPressure,
           SkinThickness,
           Insulin,
           BMI,
           DiabetesPedigreeFunction,
           Age,
           Outcome
    FROM diabetes WHERE Age > 50;

 * sqlite:///dbprojeto1.db
81 rows affected.


[]

In [17]:
%%sql

SELECT *
FROM pacientes
LIMIT 10;

 * sqlite:///dbprojeto1.db
Done.


Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
2,197,70,45,543,30.5,0.158,53,1
8,125,96,0,0,0.0,0.232,54,1
10,139,80,0,0,27.1,1.441,57,0
1,189,60,23,846,30.1,0.398,59,1
5,166,72,19,175,25.8,0.587,51,1
11,143,94,33,146,36.6,0.254,51,1
13,145,82,19,110,22.2,0.245,57,0
5,109,75,26,0,36.0,0.546,60,0
4,111,72,47,207,37.1,1.39,56,1
9,171,110,24,240,45.4,0.721,54,1


In [18]:
%%sql

ALTER TABLE pacientes
ADD Perfil VARCHAR(10);

 * sqlite:///dbprojeto1.db
Done.


[]

In [19]:
%%sql

UPDATE pacientes
SET Perfil = 'Normal'
WHERE BMI < 30;

 * sqlite:///dbprojeto1.db
38 rows affected.


[]

In [20]:
%%sql

UPDATE pacientes
SET Perfil = 'Obeso'
WHERE BMI >= 30;

 * sqlite:///dbprojeto1.db
43 rows affected.


[]

---
<a id='export_results'></a>
### 3.3 Python - Exportação de Resultados

In [21]:
# Consulta dos dados
query = cnn.execute("SELECT * FROM pacientes")
query

<sqlite3.Cursor at 0x1dd654bd3c0>

In [22]:
# Obtém os nomes das colunas
cols = [coluna[0] for coluna in query.description]
cols

['Pregnancies',
 'Glucose',
 'BloodPressure',
 'SkinThickness',
 'Insulin',
 'BMI',
 'DiabetesPedigreeFunction',
 'Age',
 'Outcome',
 'Perfil']

In [23]:
# Cria um dataframe pandas a partir do resultado da manipulação de dados
resultado = pd.DataFrame.from_records(data = query.fetchall(), columns = cols)

In [24]:
# Salva os dados do dataframe em um arquivo CSV
resultado.to_csv('pacientes.csv', index = False)

In [25]:
# Apaga o arquivo de banco de dados
# !del 'dbprojeto1.db' # Para Windows
# !rm 'dbprojeto1.db' # Para MAC e Linux

---
<a id='conclusion'></a>
## 4. Conclusão

O Jupyter Notebook além de ser muito útil na aplicação da linguagem Python (além de R e Julia) para análise de dados, também possui suporte para aplicação da linguagem SQL intermediada pelo Python.

---
<a id='references'></a>
## Referências

Data Science Academy - Formação Analista de Dados:
https://www.datascienceacademy.com.br/bundle/formacao-analista-de-dados

Data Science Academy - Análise de Dados com Linguagem Python:
https://www.datascienceacademy.com.br/course/analise-de-dados-com-linguagem-python-dsa