# **Tratamento e lmpeza do dados**

Iniciando as atividades de tratamento do DF importamos as bibliotecas pandas e numpy, através delas poderemos utilizar comandos que facilitarão a limpeza dos dados e organização do DF para posteriormente iniciar as análises. 

* Neste mesmo dataframe de importação das bilbiotecas criamos uma variável chamada **'df'**, ela contém na memória o arquivo CSV e quando necessitamos referenciar o arquivo utilizamos a nomenclatura da variável(**'df'**) juntamente com os scripts das bilbiotecas para executar as ações no DF e assim realizar as operações necessárias.  

## **Data Frame**
Um DataFrame é uma estrutura de dados bidimensional tabular no pandas, uma biblioteca de análise de dados em Python. É uma das principais estruturas de dados oferecidas pelo pandas e é semelhante a uma planilha ou a uma tabela de banco de dados SQL. O pandas é uma biblioteca amplamente utilizada para manipulação e análise de dados em Python, e o DataFrame é uma de suas principais ferramentas para lidar com dados tabulares.

#### **1. Bidimensional:** 
* O DataFrame é uma estrutura bidimensional, organizada em linhas e colunas. Cada linha representa uma observação, enquanto cada coluna representa uma variável ou um atributo específico.

#### **2. Rótulos de Linhas e Colunas:** 
* Os DataFrames possuem rótulos para linhas e colunas. Os rótulos de colunas são os nomes das variáveis, e os rótulos de linhas são os índices das observações.

#### **3. Flexibilidade de Dados:** 
* Cada coluna em um DataFrame pode conter dados de tipos diferentes, como inteiros, floats, strings, datas, etc.

#### **4. Funcionalidades de Indexação e Seleção:** 
* Os DataFrames oferecem métodos poderosos para indexar e selecionar dados com base em critérios específicos.

#### **5. Manipulação e Transformação de Dados:** 
* O pandas fornece uma ampla variedade de funções para manipulação e transformação de dados, incluindo operações de agregação, filtragem, ordenação, junção, entre outras.

# **Instalação e Importação de bibliotecas**

* **openpyxl:** É uma biblioteca Python que permite a leitura e escrita de arquivos Excel (xlsx). Com o openpyxl, você pode manipular planilhas, células e formatos Excel em seu código Python.

* **xlwt:** Essa biblioteca é usada para criar arquivos Excel no formato antigo (.xls). Note que ela é mais antiga e menos flexível do que o openpyxl e geralmente é usada quando você precisa lidar com formatos de arquivo mais antigos.

* **import pandas as pd:** Importa a biblioteca Pandas e a renomeia como pd. O Pandas é amplamente utilizado para manipulação e análise de dados em Python, fornecendo estruturas de dados flexíveis chamadas DataFrames.

* **import numpy as np:** Importa a biblioteca NumPy e a renomeia como np. O NumPy é usado para operações numéricas eficientes em Python, especialmente quando se lida com arrays e matrizes.

* **from unidecode import unidecode:** Importa a função unidecode do módulo unidecode. Essa função é utilizada para remover acentuações e converter caracteres especiais em suas formas não acentuadas. É útil para normalizar texto, especialmente ao lidar com dados que podem conter caracteres acentuados.

* **import matplotlib.pyplot as plt:** Importa o módulo pyplot da biblioteca Matplotlib e o renomeia como plt. A Matplotlib é uma biblioteca de visualização de dados em Python, e o módulo pyplot fornece funções para criar gráficos e visualizações.

In [None]:
!pip install openpyxl
!pip install xlwt
!pip install pandas
!pip install numpy
!pip install matplotlib


In [None]:
import pandas as pd
import numpy as np
from unidecode import unidecode
import matplotlib.pyplot as plt

# **DataFrame Geolocation**

In [None]:
#Nomeando caminho
csv_olist_geolocation_dataset = "./Files/Dataset/olist_geolocation_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_geolocation_dataset)
df

#### **Função para remover acentos e caracteres especiais**
Essa função e o trecho de código associado têm o objetivo de padronizar as cidades em um DataFrame pandas, removendo acentuações e caracteres especiais. Vamos explicar cada parte:

**Função padronizar_cidade(city):**

* **unidecode(city):** Utiliza a biblioteca unidecode para remover a acentuação do texto da cidade. Por exemplo, converte caracteres acentuados como "á" para "a".

* **''.join(e for e in city_sem_acentos if e.isalnum() or e.isspace()):** Itera pelos caracteres do texto após remover a acentuação (city_sem_acentos). Para cada caractere, verifica se é alfanumérico (e.isalnum()) ou se é um espaço em branco (e.isspace()). Se atender a essas condições, o caractere é mantido. Isso resulta em uma string que contém apenas caracteres alfanuméricos e espaços.

* **Retorna a cidade padronizada.**

* **Aplicação da função ao DataFrame:**

* **df.geo['geolocation_city'].apply(padronizar_cidade):** Aplica a função padronizar_cidade a cada valor na coluna 'geolocation_city' do DataFrame df.geo e cria uma nova coluna chamada 'geolocation_city_padronizada' que contém as cidades padronizadas.

* **df.geo[['geolocation_city', 'geolocation_city_padronizada']]:** Exibe no console as colunas 'geolocation_city' e 'geolocation_city_padronizada' do DataFrame resultante.

Resumindo, a função e o trecho de código têm como objetivo criar uma versão padronizada das cidades removendo acentuações e caracteres especiais, o que pode ser útil para normalizar os dados e facilitar a análise ou comparação de informações geográficas.

In [None]:
# Função para remover acentuações e caracteres especiais
def padronizar_cidade(city):
    city_sem_acentos = unidecode(city)
    city_sem_especiais = ''.join(e for e in city_sem_acentos if e.isalnum() or e.isspace())
    return city_sem_especiais

# Aplica a função à coluna 'geolocation_city'
df['geolocation_city_padronizada'] = df['geolocation_city'].apply(padronizar_cidade)

# Exibe o DataFrame resultante
print(df[['geolocation_city', 'geolocation_city_padronizada']])

### Valores unicos
O código **df.geo['geolocation_city_padronizada'].unique()** é usado para obter os valores únicos na coluna 'geolocation_city_padronizada' de um DataFrame pandas (df).

In [None]:
df['geolocation_city_padronizada'].unique()

## **Reescrevendo nomes de cidades relevantes**
Notamos que algumas cidades tem os nomes repetidos mas escruitos de formas diferetes.
Usamos o codigo a seguir para substituir os valores mais relevanes.

In [None]:
df['geolocation_city_padronizada'] = df['geolocation_city_padronizada'].replace(['saopaulo', 'saPSo paulo' ], 'sao paulo')
df['geolocation_city_padronizada'] = df['geolocation_city_padronizada'].replace(['4o centenario'], 'quarto centenario')
df['geolocation_city_padronizada'] = df['geolocation_city_padronizada'].replace(['floripa'], 'florianopolis')

In [None]:
# Selecione a coluna desejada
unique_cities = df['geolocation_city_padronizada'].unique()

# Crie um DataFrame a partir do array
df_unique_cities = pd.DataFrame({'Unique Cities': unique_cities})

# Exiba o DataFrame
df_unique_cities.describe()

## **Ranking das Cidades**

Abaixo estão as cinco cidades com maior frequência no dataset

In [None]:
df[['geolocation_city_padronizada']].value_counts()

# **Data frame com os dados Tratados**

Foi criado uma nova coluna (*geolocation_city_padronizada*) com os nomes das cidades sem acentos e caracteres especiais.

A partir daqui o Data Frame foi renomeado para **_df_geolocation_**

In [None]:
# Colunas: geolocation_zip_code_prefix	geolocation_lat	geolocation_lng	geolocation_city	geolocation_state
df_geolocation = df[['geolocation_zip_code_prefix','geolocation_city_padronizada','geolocation_state']]
df_geolocation

## **Exportando para um arquivo .csv**
Para facilitar as analises o resultado foi exportado em formato CSV

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_geolocation'

# Exportando o DataFrame para um arquivo CSV
df_geolocation.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DatFrame Payments**

In [None]:
# Nomeando Caminho
csv_olist_order_payments_dataset = "./Files/Dataset/olist_order_payments_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_order_payments_dataset)
df

### **Descrição dos dados**
Descrição dos dados com total de linhas, número de colunas, tipo de cada série e se há valores nulos. (**Não há valores nulos**)

In [None]:
df.info()

### **A partir daqui o Data Frame foi renomeado para df_order_payments**

In [None]:
df_order_payments = df
df_order_payments

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_order_payments'

# Exportando o DataFrame para um arquivo CSV
df_order_payments.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

In [None]:
df_order_payments['payment_type'].value_counts()

# **DataFrame Orders Dataset**

In [None]:
# Nomeando Caminho
csv_olist_orders_dataset = "./Files/Dataset/olist_orders_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_orders_dataset)
df

## **Exploração de valores nulos**

Fora identificados valores nulos nas colunas conforme descrito abaixo:

In [None]:
df.isnull().sum()

### **Remoção de Valores Nulos**

In [None]:
#remoção de valores nulos
df = df.dropna(subset=['order_id', 'customer_id', 'order_status', 'order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date'])

Resultado após a remoção dos valores nulos. 
Conforme o resultado abaixo, foram removidos os valores nulos, facilitando a **análise sobre pedidos aprovados e entregues**

In [None]:
df.isnull().sum()

## **Processando uma lista de colunas**

**colunas_para_processar**Esta linha cria uma lista chamada colunas_para_processar, que contém os nomes das colunas que serão processadas.
Iteração sobre as Colunas e Realização da Separação:

**for coluna in colunas_para_processar:** Este trecho usa um loop for para iterar sobre cada coluna especificada na lista colunas_para_processar.

**df[coluna].str.split(' ', expand=True):** Divide cada valor na coluna atual (coluna) usando o espaço como delimitador e expande o resultado em um DataFrame com duas colunas (uma para data e outra para hora).

**novas_colunas.columns = [f"{coluna}_date", f"{coluna}_hour"]:** Renomeia as colunas do DataFrame resultante para incluir o nome da coluna original e distinguir entre data e hora.

**pd.concat([df, novas_colunas], axis=1):** Concatena horizontalmente o DataFrame original (df) com o DataFrame contendo as novas colunas, adicionando assim essas novas colunas ao DataFrame original.

Ao final do loop, o DataFrame df foi expandido com novas colunas para cada coluna original especificada na lista colunas_para_processar. Cada coluna original foi dividida em duas novas colunas: uma para data e outra para hora. Essa operação é útil quando as colunas originais contêm informações combinadas de data e hora e é necessário analisar ou manipular esses componentes separadamente.

In [None]:
print(df.columns)

In [None]:
# Lista de colunas a serem processadas
colunas_para_processar = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']

# Iterando sobre as colunas e realizando a separação
for coluna in colunas_para_processar:
    # Criando novas colunas
    novas_colunas = df[coluna].str.split(' ', expand=True)
    
    # Nomeando as novas colunas
    novas_colunas.columns = [f"{coluna}_date", f"{coluna}_hour"]
    
    # Adicionando as novas colunas ao DataFrame original
    df = pd.concat([df, novas_colunas], axis=1)

In [None]:
print(df.columns)

## **Removendo Colunas**
Este trecho de código está removendo colunas específicas do DataFrame df. Aqui está uma explicação passo a passo:

* **colunas_para_remover:** Nessa linha, uma lista chamada colunas_para_remover é criada, contendo os nomes das colunas que você deseja remover do DataFrame.
* **df = df.drop(columns=colunas_para_remover):** Aqui, o método drop é utilizado no DataFrame df para remover as colunas especificadas na lista colunas_para_remover. O argumento columns é usado para indicar quais colunas devem ser removidas.

O resultado da operação é atribuído novamente à variável df, ou seja, o DataFrame original é modificado para refletir as colunas removidas.

Com isso, o DataFrame df não terá mais as colunas listadas em colunas_para_remover. Essa abordagem é útil quando você deseja eliminar colunas que não são relevantes ou necessárias para a análise que está realizando.

Se precisar de mais esclarecimentos ou tiver outras perguntas, sinta-se à vontade para perguntar!

In [None]:
# Lista de colunas a serem removidas
colunas_para_remover = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']

# Removendo as colunas
df = df.drop(columns=colunas_para_remover)

In [None]:
print(df.columns)

### **A partir daqui o Data Frame foi renomeado para df_order_dataset**

In [None]:
df_order_dataset = df
df_order_dataset

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_order_dataset'

# Exportando o DataFrame para um arquivo CSV
df_order_dataset.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DataFrame Products**

In [None]:
# Nomeando Caminho
csv_olist_products_dataset = "./Files/Dataset/olist_products_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_products_dataset)
df

## **Composição de Tipos de Dados no Dataset**

O script abaixo exibe através do comando .dtypes a composição das colunas onde "objects" são strings e "float64" trata-se de números de pontos flutuantes ou com casas decimais após a vírgula. As colunas compostas por "float64" podem ser tratadas com operadores matemáticos no momento da análise exploratória, por tanto, caso alguma coluna contendo números que necessitarão sofrer operações nas análises não esteja no formato "float64" será necessário a conversão para este formato para a efetividade das análises.

In [None]:
df.dtypes

### Identificando
* **dts.shape:** Exibe o total de linhas e colunas presentes no DF utilizando o comando ".shape" ,  neste caso podemos observar que ele é composto por 32951 linhas e 9 colunas
* **dts.columns:** Exibe o nome das colunas presentes no arquivo. Através do nome das colunas poderemos elaborar scripts especificando quais colunas serão tratadas.


In [None]:
df.shape

In [None]:
df.columns

### **A partir daqui o Data Frame foi renomeado para df_products_dataset.csv**

In [None]:
df_products_dataset = df
df_products_dataset

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_products_dataset'

# Exportando o DataFrame para um arquivo CSV
df_products_dataset.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DataFrame Category Name**

In [None]:
# Nomeando Caminho
csv_product_category_name_translation = "./Files/Dataset/product_category_name_translation.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_product_category_name_translation)
df

### **Verificação**

O Codigo abaixo serve para verificar se a dados nulos

In [None]:
df.isnull()

### **A partir daqui o Data Frame foi renomeado para df_category_names**

In [None]:
df_category_names = df
df_category_names

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_category_names'

# Exportando o DataFrame para um arquivo CSV
df_category_names.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DataFrame Sellers**

In [None]:
# Nomeando Caminho
csv_olist_sellers_dataset = "./Files/Dataset/olist_sellers_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_sellers_dataset)
df

* Resultados obtidos sem a tratativa de padronização no nome da cidade de sao paulo que possui a maior variação de formas escritas dentro do dataframe

In [None]:
df.columns

### **Padronização de escrita**

Este trecho de código tem o objetivo de padronizar diferentes formas de escrever "São Paulo" na coluna 'seller_city' de um DataFrame chamado df. Vamos explicar cada parte:

In [None]:
# Define as diferentes formas de escrever "Sao Paulo"
diferentes_formas_sao_paulo = ['Sao Paulo', 'São Paulo', 'são paulo', 'SAO PAULO', 'SÃO PAULO', 'sao pulo', 'sp - sp', 'sao paulo - sp', 
                               'sao paulo / sao paulo', 'sao paulop', 'sao paluo', 'sao paulo sp' ]

# Cria uma condição booleana para identificar as linhas que atendem ao critério
condicao = df['seller_city'].str.lower().isin(diferentes_formas_sao_paulo)

# Substitui os valores na coluna 'seller_city' onde a condição é verdadeira
df.loc[condicao, 'seller_city'] = 'sao paulo'

# Exibe o DataFrame atualizado
print(df)

### **A partir daqui o Data Frame foi renomeado para df_sellers**

In [None]:
df_sellers = df
df_sellers

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_sellers'

# Exportando o DataFrame para um arquivo CSV
df_sellers.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DatFrame Customers**

In [None]:
# Nomeando Caminho
csv_olist_customers_dataset = "./Files/Dataset/olist_customers_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_customers_dataset)
df

* Esta função oferece uma visão geral da estrutura do DataFrame, incluindo detalhes sobre os tipos de dados de cada coluna, a contagem de valores não nulos em cada coluna e a quantidade de memória utilizada pelo DataFrame. É uma maneira rápida e útil de entender a composição do DataFrame, identificar valores ausentes e compreender a distribuição de dados antes de realizar análises mais detalhadas.

In [None]:
# Informações do dataframe clientes

df.info()

* O código 'df.describe(include=object)' apresenta estatísticas descritivas das colunas não numéricas do DataFrame 'df_clientes', incluindo contagem, quantidade de valores únicos, valor mais frequente e sua frequência. Essas estatísticas oferecem uma visão geral dos dados textuais presentes nessas colunas.

In [None]:
# Apresenta os tipos de dados

df.describe(include = object)

* O código 'df['customer_city'].value_counts()' conta e retorna a frequência de ocorrência de valores únicos na coluna 'customer_city' do DataFrame 'df_clientes'. Isso oferece insights sobre a distribuição das cidades dos clientes na base de dados.

In [None]:
# Contabiliza e retorna os as ocorrencias na coluna

df['customer_city'].value_counts()


* O código cria um novo DataFrame chamado 'clientes' a partir do DataFrame 'df_clientes', incluindo apenas as colunas especificadas ('customer_id', 'customer_unique_id', 'customer_zip_code_prefix', 'customer_city', 'customer_state'). Isso simplifica o DataFrame para conter apenas informações relevantes para análise ou manipulação.

In [None]:
# Código de definição de colunas

clientes = df.filter(items=['customer_id', 'customer_unique_id', 'customer_zip_code_prefix',
       'customer_city', 'customer_state'])

* O código 'df_clientes.columns.values' retorna os nomes das colunas presentes no DataFrame 'df_clientes' como um array NumPy. Isso é útil para obter uma lista rápida dos nomes das colunas no DataFrame para referência ou manipulação direta das colunas.

In [None]:
# Seleção de colunas

df.columns.values

* O código cria um novo DataFrame chamado 'df_clientes' a partir do DataFrame 'clientes', incluindo apenas as colunas especificadas ('customer_id', 'customer_unique_id', 'customer_zip_code_prefix', 'customer_city', 'customer_state'). Essa ação simplifica o DataFrame, mantendo apenas as informações relevantes para análise.

In [None]:
# Código de definição de colunas

df_clientes= clientes.filter(items=['customer_id', 'customer_unique_id', 'customer_zip_code_prefix',
       'customer_city', 'customer_state'])


* O código substitui células vazias por NaN no DataFrame 'clientes', remove as linhas com valores nulos criando o DataFrame 'clientes_sem_celulas_vazias', exibe a contagem de valores não nulos após a remoção e calcula a diferença na contagem de valores não nulos antes e depois da limpeza para identificar a quantidade de valores nulos removidos.

In [None]:
# Substituir células vazias por NaN

clientes_sem_celulas_vazias = df.replace("", pd.NA)

# Remover linhas com células vazias

clientes_sem_celulas_vazias = clientes_sem_celulas_vazias.dropna()

# Mostrar a contagem de valores não nulos após a remoção

print("\nValores não nulos APÓS a remoção:")
print(clientes_sem_celulas_vazias.count())

# Comparar a diferença na contagem de valores não nulos

diferenca = clientes.count() - clientes_sem_celulas_vazias.count()
print("\nDiferença na contagem de valores não nulos:")
print(diferenca)

### **A partir daqui o Data Frame foi renomeado para df_customers**

In [None]:
df_customers = df_clientes
df_customers

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_customers'

# Exportando o DataFrame para um arquivo CSV
df_customers.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DataFrame Order Items**

In [None]:
# Nomeando Caminho
csv_olist_order_items_dataset = "./Files/Dataset/olist_order_items_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_order_items_dataset)
df

* 'df.info()' fornece um resumo breve e essencial do DataFrame unidades, incluindo o número de linhas, os nomes das colunas, os tipos de dados em cada coluna e a contagem de valores não nulos. Essa função é fundamental para obter uma visão geral da estrutura e qualidade dos dados antes de realizar análises mais detalhadas.

In [None]:
# Informações do dataframe clientes
df.info()

* O código df.describe(include=object) fornece um resumo estatístico das colunas não numéricas (do tipo 'object') no DataFrame unidades, incluindo contagem, quantidade de valores únicos, valor mais frequente e sua respectiva frequência. Isso é útil para entender a natureza e a diversidade dos dados textuais presentes nessas colunas específicas.

In [None]:
# Apresenta os tipos de dados
df.describe(include = object)

* O comando 'df.columns.values' retorna os nomes das colunas presentes no DataFrame 'unidades' como um array NumPy. Essa ação é útil para obter rapidamente uma lista dos nomes das colunas para referência ou manipulação específica das colunas no DataFrame.

In [None]:
# Seleção de colunas
df.columns.values

* O código 'df['price'].value_counts()' em Python, usando o Pandas, conta a frequência dos valores únicos presentes na coluna 'price' do DataFrame 'unidades'. Isso proporciona uma visão da distribuição dos valores de preço e suas frequências no conjunto de dados.

In [None]:
# Contabiliza e retorna os as ocorrencias na coluna
df['price'].value_counts()

* O código 'df.columns.values' em Python, utilizando Pandas, retorna os nomes das colunas presentes no DataFrame 'unidades' como um array NumPy. Essa ação é útil para obter uma lista dos nomes das colunas e utilizá-la em operações de referência ou manipulação específica das colunas no DataFrame.

In [None]:
# Seleção de colunas
df.columns.values

* O código 'df = df.filter(items=[...])' seleciona e recria o DataFrame 'unidades' incluindo apenas as colunas especificadas ('order_id', 'order_item_id', 'product_id', 'seller_id', 'shipping_limit_date', 'price', 'freight_value'). Isso ajuda a focar a análise nos dados relevantes contidos nessas colunas específicas.

In [None]:
# Código de definição de colunas
df = df.filter(items=['order_id', 'order_item_id', 'product_id',
       'seller_id', 'shipping_limit_date', 'price', 'freight_value'])

* O código remove células vazias do DataFrame 'df' substituindo-as por NaN, em seguida, elimina as linhas com valores nulos criando o DataFrame 'unidades_sem_celulas_vazias'. Posteriormente, exibe a contagem de valores não nulos após a remoção e calcula a diferença na contagem de valores não nulos antes e depois da remoção para identificar a quantidade de valores nulos removidos.

In [None]:
# Substituir células vazias por NaN
unidades_sem_celulas_vazias = df.replace("", pd.NA)

# Remover linhas com células vazias
unidades_sem_celulas_vazias = unidades_sem_celulas_vazias.dropna()

# Mostrar a contagem de valores não nulos após a remoção
print("\nValores não nulos APÓS a remoção:")
print(unidades_sem_celulas_vazias.count())

# Comparar a diferença na contagem de valores não nulos
diferenca = df.count() - unidades_sem_celulas_vazias.count()
print("\nDiferença na contagem de valores não nulos:")
print(diferenca)

### **A partir daqui o Data Frame foi renomeado para df_order_itens**

In [None]:
df_order_itens = df
df_order_itens

## **Exportando para um arquivo .csv**

In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_order_itens'

# Exportando o DataFrame para um arquivo CSV
df_order_itens.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **DataFrame Order Reviews**

In [None]:
# Nomeando Caminho
csv_olist_order_reviews_dataset = "./Files/Dataset/olist_order_reviews_dataset.csv"

In [None]:
# Carrega o dataset
df = pd.read_csv(csv_olist_order_reviews_dataset)
df

#### **Seguindo os mesmos principios dos DataFrames anteriores realizamos as analises a seguir.**

In [None]:
# Informações do dataframe clientes
df.info()

In [None]:
# Apresenta os tipos de dados
df.describe(include = object)

In [None]:
# Seleção de colunas
df.columns.values

* O código divide a coluna 'review_creation_date' do DataFrame 'df' em duas colunas separadas ('review_creation_date' e 'review_creation_hour') utilizando o espaço como delimitador. O DataFrame 'df_avaliacoes' é atualizado com as novas colunas adicionadas pela operação split.

In [None]:
# Criação de duas novas colunas
df[['review_creation_date', 'review_creation_hour']] = df['review_creation_date'].str.split(' ', expand=True)
df

* O código divide a coluna 'review_answer_timestamp' do DataFrame 'df' em duas novas colunas ('review_answer_date' e 'review_answer_hour') utilizando o espaço como delimitador. Em seguida, essas novas colunas são adicionadas ao DataFrame 'df_avaliacoes'.

In [None]:
# Criação de duas novas colunas

df[['review_answer_date', 'review_answer_hour']] = df['review_answer_timestamp'].str.split(' ', expand=True)
df

* O código remove a coluna 'review_answer_timestamp' do DataFrame 'df', especificando o eixo como colunas (axis=1), mas não atualiza o DataFrame original. É necessário atribuir o resultado a uma variável para aplicar a remoção permanentemente.

In [None]:
# Remoção de coluna
df.drop('review_answer_timestamp', axis=1)


* O código 'df_avaliacoes.columns.values' retorna os nomes das colunas do DataFrame 'df' como um array NumPy. A chamada 'df_avaliacoes' exibe o conteúdo do DataFrame, mostrando as novas colunas criadas anteriormente.

In [None]:
# Visualização após a criação das novas colunas
df.columns.values
df  

In [None]:
# Conferindo as colunas
df.columns.values

* O código seleciona a coluna 'review_comment_title' do DataFrame 'df' e utiliza o método 'value_counts()' para contar a frequência dos diferentes valores presentes nessa coluna. A opção 'dropna=False' mantém a contagem dos valores ausentes (NaN) e 'value_counts' mostra a contagem de cada valor na coluna 'review_comment_title'.

In [None]:
# Conferindo valores
columns_to_count = ['review_comment_title']

value_counts = df[columns_to_count].value_counts(dropna=False)

print(value_counts)

* O código conta a frequência de ocorrência dos números na coluna 'review_comment_message' do DataFrame 'df'. Ele utiliza 'value_counts()' para mostrar a contagem de cada número presente nessa coluna, incluindo valores ausentes (NaN), e exibe os resultados com 'print(value_counts)'.

In [None]:
# Contagem de numeros

columns_to_count = ['review_comment_message']

value_counts = df[columns_to_count].value_counts(dropna=False)

print(value_counts)

* O código cria um novo DataFrame chamado 'df', selecionando apenas colunas específicas ('order_id', 'order_item_id', 'product_id', 'seller_id', 'price', 'freight_value', 'date_id', 'time_id') do DataFrame 'df_avaliacoes'. Essa ação foca em informações específicas para análise ou manipulação adicional.

In [None]:
# Criando um novo dataframe

df = df.filter(items=['order_id', 'order_item_id', 'product_id', 'seller_id', 'price',
       'freight_value', 'date_id', 'time_id'])

### **A partir daqui o Data Frame foi renomeado para df_order_reviews**

In [None]:
df_order_reviews = df
df_order_reviews

## **Exportando para um arquivo .csv**


In [None]:
# Especificando o caminho do arquivo CSV de destino
caminho_arquivo_csv = './Files/Dataset_tratado/df_order_reviews'

# Exportando o DataFrame para um arquivo CSV
df_order_reviews.to_csv(caminho_arquivo_csv, index=False)

# Imprimindo mensagem de confirmação
print(f'O DataFrame foi exportado com sucesso')

# **Finalização**

* Aqui finaliza a parte de limpeza e tratamento de dados