In [114]:
# Versão da Linguagem Python
from platform import python_version
print('Versão de Python Neste Jupyter Notebook:', python_version())

# usaremos o filtro 'warning' para deixar mais limpo.
import warnings
warnings.filterwarnings('ignore')

Versão de Python Neste Jupyter Notebook: 3.10.5


### Obtendo dados para Python

A primeira etapa da análise de dados é obter os dados. Mover seus dados de onde você os armazenou para suas ferramentas analíticas e voltar novamente pode ser uma tarefa difícil se você não souber o que está fazendo. O Python e suas bibliotecas tentam torná-lo o mais fácil possível.

Com apenas algumas linhas de código, você poderá importar e exportar dados nos seguintes formatos:

- CSV
- Excel
- SQL

#### Carregando dados de arquivos CSV

Normalmente, os dados chegarão até nós como arquivos ou links de banco de dados. 

In [115]:
# Carregando dados do arquivo CSV.

import pandas as pd

arquivo = "datasets/smallgradesh.csv"
df = pd.read_csv(arquivo, header = None)

Agora, vamos dar uma olhada em como nossos dados se parecem

In [116]:
# Exibir as cinco primeiras linhas de dados.

df.head()

Unnamed: 0,0,1
0,Name,Grade
1,Marcia,82.4
2,Kadeem,78.2
3,Nash,79.3
4,Noelani,83.2


Como você pode ver, nosso dataframe não possui cabeçalhos de coluna. Ou melhor, existem cabeçalhos, mas não foram carregados como cabeçalhos; eles foram carregados como linha um de seus dados.

In [117]:
# Carregando dados do arquivo CSV com cabeçalhos.

caminho = "datasets/gradedata.csv" 
df = pd.read_csv(caminho)

In [118]:
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Se você tiver um conjunto de dados que não inclua cabeçalhos, poderá adicioná-los posteriormente.

In [119]:
# Carregando dados do arquivo CSV e adicionando cabeçalhos.arquivo

caminho = "datasets/smallgrades.csv"

# Para adicionar cabeçalhos enquanto carregamos os dados.
df = pd.read_csv(caminho, 
                 names = ['Names', 'Grades'])

# Para adicionar cabeçalhos a um dataframe.
df.columns = ['Names', 'Grades']

In [120]:
df.head()

Unnamed: 0,Names,Grades
0,Marcia,82.4
1,Kadeem,78.2
2,Nash,79.3
3,Noelani,83.2
4,Noelani,87.4


#### Salvando dados em CSV

Talvez você queira salvar seu progresso ao analisar dados. Talvez você esteja apenas usando o Python para massagear alguns dados para análise posterior em outra ferramenta. Ou talvez você tenha algum outro motivo para exportar seu dataframe para um arquivo CSV.

In [121]:
# Exportando um conjunto de dados para CSV

nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
notas = [76, 95, 77, 78, 99]
GradeList = zip(nomes, notas) 

df = pd.DataFrame(data = GradeList, 
                  columns = ['Nomes', 'Notas'])

df.to_csv('datasets/studentgrades.csv',
          index = False,
          header = False)

- As linhas 3 a 8 são as linhas que criam o dataframe. 
- A linha 10 é o código para exporte o dataframe df para um arquivo CSV chamado studentgrades.csv.

Os únicos parâmetros que usamos são index e header. Configurando estes parâmetros como falso impedirá que os nomes de índice e cabeçalho sejam exportados. Altere os valores desses parâmetros para entender melhor seu uso.

Se você deseja informações detalhadas sobre o método to_csv,

In [122]:
# Obtendo ajuda para to_csv

df.to_csv?

[1;31mSignature:[0m
[0mdf[0m[1;33m.[0m[0mto_csv[0m[1;33m([0m[1;33m
[0m    [0mpath_or_buf[0m[1;33m:[0m [1;34m'FilePath | WriteBuffer[bytes] | WriteBuffer[str] | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0msep[0m[1;33m:[0m [1;34m'str'[0m [1;33m=[0m [1;34m','[0m[1;33m,[0m[1;33m
[0m    [0mna_rep[0m[1;33m:[0m [1;34m'str'[0m [1;33m=[0m [1;34m''[0m[1;33m,[0m[1;33m
[0m    [0mfloat_format[0m[1;33m:[0m [1;34m'str | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcolumns[0m[1;33m:[0m [1;34m'Sequence[Hashable] | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mheader[0m[1;33m:[0m [1;34m'bool_t | list[str]'[0m [1;33m=[0m [1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m:[0m [1;34m'bool_t'[0m [1;33m=[0m [1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mindex_label[0m[1;33m:[0m [1;34m'IndexLabel | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m

In [123]:
# Criando um conjunto de dados para o exercício

names = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 

notas = [76, 95, 77, 78, 99] 
bsdegrees = [1, 1, 0, 0, 1] 
msdegrees = [2, 1, 0, 0, 0] 
phddegrees = [0, 1, 0, 0, 0]

Graus = zip(nomes, notas, bsdegrees, msdegrees, phddegrees) 

colunas = ['Nomes', 'Notas', 'BS', 'MS', 'PhD'] 

df = pd.DataFrame(data = Graus,
                  columns = colunas ) 

df

Unnamed: 0,Nomes,Notas,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessica,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0


Você pode exportar o dataframe criado pelo código na Listagem

#### Carregando dados de arquivos do Excel

Normalmente, os dados chegarão até nós como arquivos ou links de banco de dados. Vamos ver como carregar dados de um arquivo Excel

In [124]:
# Carregando dados do arquivo do Excel

caminho = "datasets/gradedata.xlsx"
df = pd.read_excel(caminho)

vamos dar uma olhada

In [125]:
# Exibir as cinco primeiras linhas de dados
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"7379 Highland Rd. , Dublin, GA 31021"
1,Kadeem,Morrison,male,18,4,4,78.2,"8 Bayport St. , Honolulu, HI 96815"
2,Nash,Powell,male,18,5,9,79.3,"Encino, CA 91316, 3 Lilac Street"
3,Noelani,Wagner,female,14,2,7,83.2,"Riverview, FL 33569, 9998 North Smith Dr."
4,Noelani,Cherry,female,18,4,15,87.4,"97 SE. Ocean Street , Bethlehem, PA 18015"


Se desejar alterar ou simplificar os nomes das colunas, você pode executar o código
mostrado na Listagem 2-11.

In [126]:
# Alterar nomes de colunas

df.columns = ['first', 'last', 'sex', 'age', 'exer', 'hrs', 'grd', 'addr'] 
df.head()

Unnamed: 0,first,last,sex,age,exer,hrs,grd,addr
0,Marcia,Pugh,female,17,3,10,82.4,"7379 Highland Rd. , Dublin, GA 31021"
1,Kadeem,Morrison,male,18,4,4,78.2,"8 Bayport St. , Honolulu, HI 96815"
2,Nash,Powell,male,18,5,9,79.3,"Encino, CA 91316, 3 Lilac Street"
3,Noelani,Wagner,female,14,2,7,83.2,"Riverview, FL 33569, 9998 North Smith Dr."
4,Noelani,Cherry,female,18,4,15,87.4,"97 SE. Ocean Street , Bethlehem, PA 18015"


#### Salvando dados em arquivos do Excel

In [127]:
# Exportando um Dataframe para o Excel

nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
notas = [76, 95, 77, 78, 99]

GradeList = zip(nomes, notas) 
df = pd.DataFrame(data = GradeList, 
                  columns = ['Nomes', 'Notas']) 

escritor = pd.ExcelWriter('datasets/dataframe.xlsx', 
                          engine = 'xlsxwriter') 

df.to_excel(escritor, sheet_name = 'Planilha1') 

escritor.save()

Se desejar, você pode salvar diferentes quadros de dados em diferentes planilhas e com um `.save()` você criará um arquivo do Excel com várias planilhas

In [128]:
nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
notas = [33, 93, 47, 99, 49]

GradeList = zip(nomes, notas) 
df2 = pd.DataFrame(data = GradeList, 
                  columns = ['Nomes', 'Notas']) 

In [129]:
# Exportando Múltiplos Dataframes para o Excel

escritor = pd.ExcelWriter('datasets/dataframe.xlsx',
                          engine = 'xlsxwriter') 
df.to_excel(escritor, 
            sheet_name = 'Sheet1') 

df2.to_excel(escritor, 
             sheet_name = 'Sheet2') 

escritor.save()

In [130]:
# Criando um conjunto de dados para o exercício

marca = ['Nike', 'Adidas', 'New Balance', 'Puma', 'Reebok'] 
price = [176, 59, 47, 38, 99]

PriceList = zip(marca, price) 
df = pd.DataFrame(data = PriceList, 
                  columns = ['Marca', 'Preços'])

Combinando dados de vários arquivos do Excel

Às vezes, precisaremos combinar os dados de vários. Arquivos do Excel no mesmo dataframe.

Podemos fazer isso pelo caminho mais longo ou pelo caminho mais curto.

In [131]:
# Caminho Longo

import numpy as np

dados_completos = pd.DataFrame()

df = pd.read_excel("datasets/data1.xlsx") 
dados_completos = dados_completos.append(df, ignore_index=True)

df = pd.read_excel("datasets/data2.xlsx") 
dados_completos = dados_completos.append(df, ignore_index=True)

df = pd.read_excel("datasets/data3.xlsx") 
dados_completos = dados_completos.append(df, ignore_index=True) 

dados_completos.describe()

Unnamed: 0,age,grade
count,300.0,300.0
mean,16.456667,82.923333
std,1.700321,10.544576
min,14.0,65.0
25%,15.0,73.75
50%,16.0,82.0
75%,18.0,92.0
max,19.0,100.0


- Linha 5: Primeiro, vamos definir dados_completos para um dataframe vazio.
- Linha 7: Carregue o primeiro arquivo Excel no dataframe df.
- Linha 8: Anexa o conteúdo de df ao dataframe dados_completos.
- Linhas 10 e 11: Basicamente o mesmo que as linhas 7 e 8, mas para o próximo arquivo do Excel.

In [132]:
# Caminho curto

import glob

dados_completos = pd.DataFrame() 

for f in glob.glob("datasets/data*.xlsx"):
    df = pd.read_excel(f) 
    dados_completos = dados_completos.append(df, ignore_index = True)

dados_completos.describe()

Unnamed: 0.1,age,grade,Unnamed: 0,Notas
count,300.0,300.0,5.0,5.0
mean,16.456667,82.923333,2.0,85.0
std,1.700321,10.544576,1.581139,11.067972
min,14.0,65.0,0.0,76.0
25%,15.0,73.75,1.0,77.0
50%,16.0,82.0,2.0,78.0
75%,18.0,92.0,3.0,95.0
max,19.0,100.0,4.0,99.0


- Linha 3: Importa a biblioteca glob
- Linha 5: Vamos definir dados_completos para um dataframe vazio.
- Linha 6: Esta linha percorrerá todos os arquivos que correspondem ao padrão.
- Linha 7: Carregue o arquivo Excel em f no dataframe df.
- Linha 8: Anexa o conteúdo de df ao dataframe dados_completos.

Como temos apenas três arquivos de dados, a diferença no código não é tão perceptível. No entanto, se estivéssemos carregando cem arquivos, a diferença na quantidade de código seria enorme. Este código carregará todos os arquivos do Excel cujos nomes começam com dados que estão no diretório de conjuntos de dados, não importa quantos existam.

Na pasta datasets/weekly_call_data, existem 104 arquivos de dados de chamadas semanais por dois anos. Vamos carregar todos esses dados em um dataframe.

In [133]:
# Caminho curto

import glob

dados_completos = pd.DataFrame() 

for f in glob.glob("datasets/weekly_call_data/weekdata_*.xlsx"):
    df = pd.read_excel(f) 
    dados_completos = dados_completos.append(df, ignore_index = True)

dados_completos.describe()

In [None]:
dados_completos.info()

#### Carregando dados do SQL

Normalmente, nossos dados chegarão até nós como arquivos ou links de banco de dados. Vamos aprender como carregar nossos dados de um arquivo de banco de dados sqlite.

In [None]:
# Carregar dados do sqlite

from sqlalchemy import create_engine # Conecte-se ao sqlite db 

db_caminho = r'datasets/gradedata.db'

engine = create_engine(r"sqlite:///{}" .format(db_caminho))

sql =' SELECT * FROM test'
'WHERE Grades in (76, 77, 78)'

dados_de_vendas_df = pd.read_sql(sql, engine) 
dados_de_vendas_df

Esse código cria um link para o arquivo de banco de dados chamado `gradedata.db` e executa uma consulta nele. Em seguida, ele carrega os dados resultantes dessa consulta no dataframe chamado dados_de_vendas_df. Se você não souber os nomes das tabelas em um banco de dados sqlite, poderá descobrir alterando a instrução SQL.

In [None]:
# Encontrando os nomes das tabelas

sql = "SELECT name FROM sqlite_master"
"WHERE type = 'table';"

In [None]:
dados_de_vendas_df = pd.read_sql(sql, engine)
dados_de_vendas_df

Depois de saber o nome de uma tabela que deseja visualizar (digamos que seja um teste), se quiser saber os nomes dos campos dessa tabela, você pode alterar sua instrução SQL

In [None]:
# Uma consulta básica

sql = "SELECT * FROM test;"

In [None]:
dados_de_vendas_df = pd.read_sql(sql, engine)
dados_de_vendas_df

In [None]:
dados_de_vendas_df.head()

Então, depois de executar `dados_de_vendas_df.head()` no dataframe, você ser capaz de ver os campos como cabeçalhos no topo de cada coluna.

Como sempre, se precisar de mais informações sobre o comando,

In [None]:
# Obtenha ajuda em read_sql

pd.read_sql?

vamos carregar dados do banco de dados `datasets/salesdata.db`

In [None]:
db_caminho = r'datasets/salesdata.db'

engine = create_engine(r"sqlite:///{}" .format(db_caminho))

# Encontrando os nomes das tabelas
sql = "SELECT name FROM sqlite_master"
"WHERE type = 'table';"

dados_de_vendas_df = pd.read_sql(sql, engine) 
dados_de_vendas_df

In [None]:
# Encontrando os nomes das tabelas

sql = "SELECT * FROM scores"

In [None]:
dados_de_vendas_df = pd.read_sql(sql, engine)
dados_de_vendas_df

#### Salvando dados em SQL

In [None]:
# Criar conjunto de dados para salvar

nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
notas =[76, 95, 77, 78, 99]

GradeList = zip(nomes,notas) 
df = pd.DataFrame(data = GradeList,
                  columns = ['Nomes', 'Notas'])

df

Para exportá-lo para SQL, podemos usar esse código.

In [None]:
# Exportar dataframe para sqlite
import os
import sqlite3 as lite

db_nome_arquivo = r'datasets/mydb.db' 

con = lite.connect(db_nome_arquivo)
df.to_sql('minha_tabela',
          con,
          schema = None,
          if_exists = 'replace',
          index = True,
          index_label = None,
          chunksize = None,
          dtype = None)

con.close()

- Linha 5: `mydb.db` é o caminho e o nome do sqlite banco de dados que você deseja usar.
- Linha 8: `minha_tabela` é o nome da tabela no base de dados.

se precisar de mais informações sobre o comando, você pode execute o código

In [None]:
# Obtenha ajuda sobre to_sql

df.to_sql?

vamos criar uma tabela sqlite que contenha os dados encontrados em `datasets/gradedata.csv`

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.