Sobre o Dataset

Temos em mãos um arquivo com dados de pacientes que desenvolveram ou não diabetes. Precisamos gerar uma amostra de dados com os pacientes com mais de 50 anos e para cada um deles indicar em uma nova coluna se o paciente está normal (BMI menor que 30) ou obeso (BMI maior ou igual a 30). Então devemos gerar um novo arquivo CSV.

Instalando e carregando pacotes

In [None]:
!pip install -q -U watermark
!pip install -q ipython-sql

In [None]:
import pandas as pd
import sqlite3

In [None]:
%reload_ext watermark
%watermark -a "Data Nerd" --iversions

In [None]:
# Criar banco de dados sqlite e conectar
cnn = sqlite3.connect('database/dbprojeto.db')

In [None]:
df = pd.read_csv('csv/diabetes.csv')

In [None]:
df.shape

In [None]:
df.head()

In [None]:
# Copia o dataframe para dentro do banco de dados como uma tabela
df.to_sql('diabetes',cnn)

In [None]:
%load_ext sql
%sql sqlite:///database/dbprojeto.db

In [None]:
%%sql

SELECT COUNT(*) FROM diabetes

In [None]:
df.columns

In [None]:
%%sql

CREATE TABLE pacientes (Pregnancies INT,
                        Glucose INT,
                        BloodPressure INT,
                        SkinThickness INT,
                        Insulin INT,
                        BMI decimal(8,2),
                        DiabetesPedigreeFunction decimal(8,2),
                        Age INT,
                        Outcome INT);

In [None]:
%%sql

INSERT INTO pacientes(Pregnancies,
                        Glucose,
                        BloodPressure,
                        SkinThickness,
                        Insulin,
                        BMI,
                        DiabetesPedigreeFunction,
                        Age,
                        Outcome)
SELECT Pregnancies,
       Glucose,
       BloodPressure,
       SkinThickness,
       Insulin,
       BMI,
       DiabetesPedigreeFunction,
       Age,
       Outcome
FROM diabetes WHERE Age > 50;

In [None]:
%%sql
select * from pacientes

In [None]:
%%sql

ALTER TABLE pacientes
ADD Perfil VARCHAR(10);

In [None]:
%%sql

UPDATE pacientes
SET Perfil = 'Normal'
WHERE BMI < 30;

In [None]:
%%sql

UPDATE pacientes
SET Perfil = 'Obeso'
WHERE BMI >= 30;

In [None]:
%%sql

SELECT * FROM pacientes

Exportando os dados para CSV

In [None]:
# Query
query = cnn.execute("SELECT * FROM pacientes")
query

In [None]:
# Criando Lista
cols = [coluna[0] for coluna in query.description]
cols

In [None]:
# Gerandos o dataframe
resultado = pd.DataFrame.from_records(data =  query.fetchall(), columns = cols)

In [None]:
# Shape
resultado.shape

In [None]:
# Visualizando uma pequema amostra dos dados
resultado.head()

In [None]:
# Salva em CSV - Etapa final
resultado.to_csv('csv/pacientes.csv', index = False)

FIM