### Projeto desafio 1: vendas online
Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

Remover os dados em listas dentro do DataFrame;
Verificar os tipos de dados;
Identificar colunas numéricas;
Transformar a coluna numérica para o tipo numérico.
Projeto desafio 2: administração de condomínios

In [None]:
# Importa a biblioteca pandas, essencial para manipulação e análise de dados em Python.
# Usamos o apelido 'pd' por convenção para facilitar
import pandas as pd
import json

In [None]:
# Define uma variável com o caminho (localização) do arquivo de dados.
dados = pd.read_json('dados_vendas_clientes.json')
dados

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [22]:
# Normalizando os dados da tabela Pasciente_2
df_normalizado = pd.json_normalize(dados['dados_vendas'])

In [23]:
df_normalizado

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [37]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    5 non-null      object
 1   Cliente          5 non-null      object
 2   Valor da compra  5 non-null      object
dtypes: object(3)
memory usage: 252.0+ bytes


In [38]:
print("--- DataFrame Original (com listas) ---")
print(df_normalizado.head(2))
print("-" * 40)

--- DataFrame Original (com listas) ---
  Data de venda                                            Cliente  \
0    06/06/2022  [@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...   
1    07/06/2022  [Isabely JOanes 738, Isabely JOanes 738, Isabe...   

                                Valor da compra  
0    [R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]  
1  [R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]  
----------------------------------------


In [None]:

# --- Transformação dos Dados ---
# Transforma cada item das listas nas colunas especificadas em uma nova linha.
# Isso "desagrupa" os dados, criando uma linha para cada venda individual.
# O DataFrame original é substituído pelo novo, já "explodido".
colunas = ['Cliente', 'Valor da compra']
dados_explodidos = df_normalizado.explode(colunas)

In [None]:
# --- Limpeza Final ---

# Reorganiza o índice do DataFrame.
# Após o 'explode', o índice fica com valores repetidos (ex: 0, 0, 0, 1, 1...).
# 'reset_index' cria um novo índice sequencial (0, 1, 2, 3, 4...).
# 'drop=True' impede que o índice antigo seja adicionado como uma nova coluna.
# 'inplace=True' modifica o DataFrame 'dados' diretamente, sem precisar criar uma nova variável caso queira
dados_final = dados_explodidos.reset_index(drop=True)

In [None]:
# Imprime as 5 primeiras linhas do DataFrame final para verificar o resultado.
# '.head()' é um método muito útil para inspecionar rapidamente a estrutura dos dados.
print("\n--- DataFrame Final (sem listas e com índice corrigido) ---")
print(dados_final.head())


--- DataFrame Final (sem listas e com índice corrigido) ---
  Data de venda             Cliente Valor da compra
0    06/06/2022     @ANA _LUCIA 321        R$ 836,5
1    06/06/2022  DieGO ARMANDIU 210       R$ 573,33
2    06/06/2022  DieGO ARMANDIU 210        R$ 392,8
3    06/06/2022  DieGO ARMANDIU 210       R$ 512,34
4    07/06/2022  Isabely JOanes 738       R$ 825,31


In [42]:
import numpy as np

In [None]:
# --- ETAPA 1: Limpeza da Coluna (String) ---

# Seleciona a coluna 'Valor da compra'.
# O método .apply() executa uma função para CADA valor (linha) da coluna.
# A função (lambda x: ...) faz o seguinte para cada valor 'x':
#   1. x.replace('R$',''): Remove o símbolo da moeda "R$".
#   2. .replace(',','.'): Substitui a vírgula do decimal por um ponto, que é o padrão para números em Python.
#   3. .strip(): Remove espaços em branco extras no início ou no fim da string.
# O resultado é uma coluna com strings "limpas", prontas para a conversão. Ex: "R$ 836,5 " -> "836.5"
dados_final['Valor da compra'] = dados_final['Valor da compra'].apply(lambda x : x.replace('R$','').replace(',','.').strip())
# --- ETAPA 2: Conversão do Tipo de Dado ---

# Seleciona a coluna 'Valor da compra' novamente.
# O método .astype(np.float64) converte (ou "cast") todos os valores da coluna para o tipo numérico de ponto flutuante (float64).
# Isso é o que permite que você some, tire médias, etc., dos valores.
# np.float64 é o tipo de dado numérico padrão e de alta precisão do NumPy/pandas.
dados_final['Valor da compra'] = dados_final['Valor da compra'].astype(np.float64)

In [44]:
dados_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes
