# **Leitura e Estruturação dos Dados (Pandas)**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [1]:
import pandas as pd

caminho_drive = '/content/drive/MyDrive/devinhouse-semana5-notebook/'

df_clientes = pd.read_csv(caminho_drive + 'clientes.csv')
df_pedidos = pd.read_csv(caminho_drive + 'pedidos.csv')
df_produtos = pd.read_csv(caminho_drive + 'produtos.csv')

In [None]:
df_clientes.head()
df_pedidos.head()
df_produtos.head()

In [None]:
df_clientes.info()
df_pedidos.info()
df_produtos.info()

In [None]:
df_clientes.isnull().sum()
df_pedidos.isnull().sum()
df_produtos.isnull().sum()

In [None]:
df_clientes.describe()
df_pedidos.describe()
df_produtos.describe()

# **Filtros e Seleções**

In [None]:
df_clientes_30 = df_clientes[df_clientes['idade'] > 30]
print(df_clientes_30)

In [None]:
df_pedidos_500 = df_pedidos[df_pedidos['valor_total'] > 500]
print(df_pedidos_500)

In [None]:
df_produtos_eletronicos = df_produtos[df_produtos['categoria'] == 'Eletrônicos']
print(df_produtos_eletronicos)

In [None]:
print('Acessando a terceira linha da filtragem de produtos eletrônicos:')
display(df_produtos_eletronicos.iloc[2])

# **Operações com Dataframes**

In [None]:
print('Agrupando pedidos por clientes e somando valores gastos')
display(df_pedidos.groupby('id_cliente')['valor_total'].sum())

In [None]:
df_clientes_pedidos = pd.merge(df_clientes, df_pedidos, on='id_cliente', how='inner')

print("DataFrame mesclado de clientes e pedidos:")
display(df_clientes_pedidos.head())

In [None]:
df_categorias_medias = pd.pivot_table(df_produtos, values='preco', index='categoria', aggfunc='mean')
print("DataFrame com médias de valores por categoria de produtos:")
display(df_categorias_medias.head())

In [None]:
df_clientes_pedidos.duplicated().sum()

np.int64(0)

# **Análise Numérica com NumPy**

In [2]:
import numpy as np

In [None]:
val_pedidos = np.array(df_pedidos['valor_total'])
print(val_pedidos)

[ 320.5  780.   150.   540.9  220.   980.   430.  1200.   310.   150. ]


In [None]:
print('Média dos pedidos:', np.mean(val_pedidos))
print('Soma dos pedidos:', np.sum(val_pedidos))
print(f'Desvio padrão dos pedidos: {np.std(val_pedidos):.2f}')

In [None]:
val_pedidos_10 = val_pedidos * 0.9
print(val_pedidos_10)

In [None]:
print('Tipo de dado dos pedidos:', val_pedidos_10.dtype)
print('Forma da array dos pedidos com 10% de desconto', val_pedidos_10.shape)

# **Relatório Final**

In [3]:
gastos_clientes = pd.merge(df_clientes, df_pedidos, on='id_cliente', how='inner')
soma_gastos = gastos_clientes.groupby('nome')['valor_total'].sum()

cliente_maior_gasto = soma_gastos.idxmax()
maior_gasto_valor = np.max(soma_gastos)

print(f"O cliente que mais gastou foi {cliente_maior_gasto} com um total de {maior_gasto_valor:.2f}")

O cliente que mais gastou foi Felipe Martins com um total de 1200.00


In [4]:
ticket_medio = df_produtos.groupby('categoria')['preco'].mean()
print('Ticket médio por categoria:')
for categoria, preco_medio in ticket_medio.items():
  print(f'{categoria}: R$ {preco_medio:.2f}')

Ticket médio por categoria:
Eletrônicos: R$ 1725.54
Livros: R$ 89.90
Móveis: R$ 464.45
Papelaria: R$ 59.90
Utilidades: R$ 39.90


In [5]:
clientes_por_cidade = df_clientes.groupby('cidade').size()
cidades_com_mais_de_um_cliente = clientes_por_cidade[clientes_por_cidade > 1]

if not cidades_com_mais_de_um_cliente.empty:
  cidade_maior_numero_clientes = cidades_com_mais_de_um_cliente.idxmax()
  print(f'A cidade com o maior número de clientes é: {cidade_maior_numero_clientes}')
else:
  print('Não há nenhuma cidade com mais de um cliente, logo não consigo calcular a cidade com maior número de clientes.')

Não há nenhuma cidade com mais de um cliente, logo não consigo calcular a cidade com maior número de clientes.
