<h1>Bibliotecas</h1>

No notebook anterior vimos algumas bibliotecas nativas como random e math, e outras bibliotecas de terceiros como scipy, numpy e matplotlib.

Neste notebook veremos outras bibliotecas úteis e faremos algumas operações úteis para análise de dados. Bem como utilizaremos estas para resolver alguns problemas.

In [None]:
# Instalando a biblioteca pandas
!pip install pandas
# Instalando a biblioteca matplotlib
!pip install matplotlib
# Instalando a biblioteca seaborn
!pip install seaborn
# Instalando a biblioteca requests
!pip install requests

# SQLITE

Na pasta assets temos um arquivo chamado chinook.db. Este arquivo é um banco de dados SQLite3 e contém dados de uma loja antiga de música. Utilizaremos a biblioteca sqlite3 para conectar e executar algumas queries neste arquivo:

In [None]:
# importando a biblioteca sqlite
import sqlite3
# conectando ao banco de dados
conn = sqlite3.connect('assets/chinook.db')
# criando um cursor
cursor = conn.cursor()
# criando a query para ler a tabela tracks
query = "SELECT * FROM tracks"
# executando a query
cursor.execute(query)
# criando uma lista com os resultados da query
result = cursor.fetchall()
# mostrando os resultados
for row in result:
    print(row)
# fechando a conexão
conn.close()

Para ver mais exemplos de queries com SQLite3:
- https://www.w3schools.com/sql/default.asp

Você deve agora mostrar todos os clientes (customers) que moram na França (France), pode usar o código acima como exemplo, mude apenas a query. 

In [None]:
# importando a biblioteca sqlite
import sqlite3
# conectando ao banco de dados
conn = sqlite3.connect('assets/chinook.db')
# criando um cursor
cursor = conn.cursor()
# criando a query para ler a tabela customers com apenas clientes da France
# TODO
query = 
# executando a query
cursor.execute(query)
# criando uma lista com os resultados da query
result = cursor.fetchall()
# mostrando os resultados
for row in result:
    print(row)
# fechando a conexão
conn.close()

# Pandas

A biblioteca pandas é muito útil para trabalhar com planilhas. Uma extensão comum de planilha é .csv. Faremos agora uma operação na planilha

In [None]:
# importando a biblioteca pandas
import pandas as pd
# lendo a planilha coffee_sale.csv
# a planilha contém dados de vendas de café
df = pd.read_csv('assets/coffee_sale.csv')
# queremos filtrar pegando apenas as linhas com café Americano
df_americano = df[df['coffee_name'] == 'Americano']
# agora vamos contar o número de vendas de café americano
total_americano_sale = df_americano.shape[0]
# mostrando o resultado
print(total_americano_sale)

O atributo shape de um objeto do tipo DataFrame retona uma lista com dois valores. O primeiro é o número de linhas e o segundo o número de colunas. 

Agora é sua vez, use a biblioteca pandas e o arquivo *assets/coffee_sale.csv* para calcular o valor médio do café expresso (Espresso). Você pode dar uma olhada na referência:

- https://www.datacamp.com/cheat-sheet/pandas-cheat-sheet-for-data-science-in-python

Sendo mais específico, dê uma olhada na seção Summary

In [None]:
# importando a biblioteca pandas
import pandas as pd
# lendo a planilha coffee_sale.csv
df = pd.read_csv('assets/coffee_sale.csv')
# queremos filtrar pegando apenas as linhas com café Espresso
# TODO
df_espresso = 
# agora vamos calcular a média do preço do café Espresso
# TODO
media_money_espresso = 
# mostrando o resultado
print(media_money_espresso)

# Matplotlib

A biblioteca matplotlib é uma biblioteca de visualização de dados. Vamos utilizar para fazer um histograma dos valores (money) de vendas dos cafés.

In [None]:
# importando a biblioteca matplotlib (para fazer o histograma)
import matplotlib.pyplot as plt
# importando a bibliotecas pandas (para ler o arquivo csv)
import pandas as pd
# lendo assets/coffee_sale.csv
df = pd.read_csv('assets/coffee_sale.csv')
# Escolha um gráfico em https://matplotlib.org/stable/gallery/index.html
# Você também escolher em https://github.com/leandrocl2005/Curso-basico-de-Python-para-cientistas-de-dados/blob/master/aulas/cd_aula_04.ipynb
# código para fazer o gráfico
df['money'].plot(kind='hist')
plt.show()

Chegou a sua vez, faça um gráfico de barras horizontais mostrando o número de vendas por tipo de café.

Use como modelo o código em https://github.com/leandrocl2005/Curso-basico-de-Python-para-cientistas-de-dados/blob/master/aulas/cd_aula_04.ipynb

In [None]:
# importando a biblioteca matplotlib (para fazer o histograma)
import matplotlib.pyplot as plt
# importando a bibliotecas pandas (para ler o arquivo csv)
import pandas as pd
# lendo assets/coffee_sale.csv
df = pd.read_csv('assets/coffee_sale.csv')
# código para fazer o gráfico
# TODO

# Seaborn

Seaborn é outra biblioteca para fazer gráficos. Como você já pegou o jeito, vamos logo para prática. Faça um histograma dos preços dos cafés usando Seaborn.

Referência: https://github.com/leandrocl2005/Curso-basico-de-Python-para-cientistas-de-dados/blob/master/aulas/cd_aula_04.ipynb

Procure por: Histogramas no Seaborn
Fonte: https://seaborn.pydata.org/tutorial/distributions.html

In [None]:
# importando a biblioteca matplotlib 
import matplotlib.pyplot as plt # seaborn depende do matplotlib
# importando a bibliotecas pandas (para ler o arquivo csv)
import pandas as pd
# importando a biblioteca seaborn
import seaborn as sns
# lendo assets/coffee_sale.csv
df = pd.read_csv('assets/coffee_sale.csv')
# código para fazer o gráfico
# TODO

# Statsmodels

Biblioteca para modelagem estatística, incluindo regressões lineares, séries temporais e testes estatísticos. Vamos criar um objeto do tipo DataFrame com pandas representando algumas campanhas de publicidade. Faremos um ajuste de regressão linear nos dados.

In [None]:
import statsmodels.api as sm
import pandas as pd

# Dados de exemplo
df = pd.DataFrame({
    'Publicidade': [100, 200, 300, 400],
    'Preço': [10, 16, 18, 27],
    'Vendas': [980, 1515, 2100, 2800]
})

X = df[['Publicidade']]
y = df['Vendas']

X = sm.add_constant(X)  # Adiciona intercepto
modelo = sm.OLS(y, X).fit()
print(modelo.summary())

O sumário com os resultado apresentam muitas informações, mas por agora vamos focar numa apenas. O R-squared (coeficiente) de determinação é uma métrica para saber se o ajuste ficou bom. Quanto mais perto de 1 melhor. Ajustando uma reta nos valores de publicidade por vendas obtemos 0.996.

In [None]:
# TODO
# Qual o valor de R² ao ajustar o modelo OLS para publicidade X preço?

# Requests

Biblioteca para realização de requisições HTTP, facilitando o consumo de APIs e integração com serviços web. Vamos utilizar a biblioteca requests para listar as tarefas de uma API, bem como para verificar quantas foram feitas e quantas não foram feitas.

In [None]:
# importando a biblioteca requests
import requests
# definindo a url
url = "https://jsonplaceholder.typicode.com/todos"
# fazendo uma requisição HTTP do tipo GET para a url
response = requests.get(url)
# colocando a lista de resultados em uma variável
data = response.json()
# printando o primeiro resultado da lista
print("1º resultado:", data[0])
# temos uma lista de dicionários
# estamos interessados na chave 'completed'
completed = [todo for todo in data if todo['completed'] == True]
uncompleted = [todo for todo in data if todo['completed'] == False]
# mostrando o número de tarefas completas e incompletas
print("Tarefas completas:", len(completed))
print("Tarefas incompletas:", len(uncompleted))

Chegou a sua vez, vamos utilizar a API Fake jsonplaceholder ainda. Queremos saber quantos posts o usuário de Id 5 publicou.

Para isso faça uma chamada HTTP do tipo GET para a url https://jsonplaceholder.typicode.com/posts

In [None]:
# TODO

# Outras bibliotecas

Você já viu que são várias bibliotecas úteis para nosso dia a dia como profissional de analytics. Faça uma pesquisa e lista pelo mais uma biblioteca que não foi citada acima. Explique brevemente para que serve e então faça o código resolvendo um caso de uso.

In [None]:
# TODO