# Exploração de Dados

O objetivo deste notebook é realizar a exploração de dados para entender melhor o conjunto de dados, identificar padrões, características e potenciais problemas. A exploração de dados é uma etapa fundamental para garantir que as análises subsequentes sejam precisas e relevantes.

### Passos principais:
1. **Carregamento dos Dados**: O primeiro passo é carregar os dados no ambiente de análise para visualizar sua estrutura e conteúdo.
2. **Análise das Colunas e Tipos de Dados**: Verificaremos os tipos de dados, se existem valores nulos e outros aspectos importantes das colunas.
3. **Estatísticas Descritivas**: Calcularemos estatísticas descritivas para entender a distribuição e os principais parâmetros das variáveis numéricas.
4. **Identificação de Outliers e Anomalias**: Identificaremos possíveis valores atípicos que possam interferir nas análises.
5. **Conversão de Tipos de Dados**: Em alguns casos, será necessário converter os tipos de dados para que as análises sejam realizadas de forma eficiente.

Vamos iniciar carregando os dados e explorando seu conteúdo.

## Carregar Bibliotecas

Para este notebook de exploração de dados, começamos importando a biblioteca **Pandas**, que é fundamental para manipulação e análise de dados em Python. O Pandas oferece estruturas de dados rápidas, poderosas e flexíveis, que são essenciais para o processamento de dados em formato tabular.


In [0]:
import pandas as pd



## Carregamento dos Dados

Nesta etapa, estamos carregando os dados de um arquivo CSV localizado no caminho especificado. Utilizamos o **Apache Spark** para fazer isso, o que nos permite processar grandes volumes de dados de forma distribuída e eficiente.

Primeiro, definimos o caminho do arquivo CSV e, em seguida, carregamos os dados em um DataFrame Spark. O parâmetro `header=True` garante que a primeira linha do arquivo seja usada como nomes das colunas, e o `inferSchema=True` permite que o Spark detecte automaticamente os tipos de dados das colunas.

Após o carregamento dos dados, exibimos o esquema para verificar os tipos de cada coluna e garantir que os dados foram interpretados corretamente.


In [0]:
# Definir o caminho do arquivo
file_path = "/FileStore/Data/Walmart.csv"

# Carregar os dados em um DataFrame Spark
walmart_data = spark.read.csv(file_path, header=True, inferSchema=True)

# Exibir o esquema dos dados (tipos de cada coluna)
walmart_data.printSchema()

root
 |-- transaction_id: integer (nullable = true)
 |-- customer_id: integer (nullable = true)
 |-- product_id: integer (nullable = true)
 |-- product_name: string (nullable = true)
 |-- category: string (nullable = true)
 |-- quantity_sold: integer (nullable = true)
 |-- unit_price: double (nullable = true)
 |-- transaction_date: string (nullable = true)
 |-- store_id: integer (nullable = true)
 |-- store_location: string (nullable = true)
 |-- inventory_level: integer (nullable = true)
 |-- reorder_point: integer (nullable = true)
 |-- reorder_quantity: integer (nullable = true)
 |-- supplier_id: integer (nullable = true)
 |-- supplier_lead_time: integer (nullable = true)
 |-- customer_age: integer (nullable = true)
 |-- customer_gender: string (nullable = true)
 |-- customer_income: double (nullable = true)
 |-- customer_loyalty_level: string (nullable = true)
 |-- payment_method: string (nullable = true)
 |-- promotion_applied: boolean (nullable = true)
 |-- promotion_type: string

## Conversão para Pandas

Para facilitar a visualização e manipulação dos dados, convertemos o DataFrame do Spark para um DataFrame do **Pandas**. O Pandas oferece uma interface mais familiar e poderosa para análise de dados em pequenos conjuntos de dados, permitindo visualizar e realizar operações como filtrar, agrupar e transformar os dados de forma mais intuitiva.

Após a conversão, usamos o método `head()` do Pandas para exibir as primeiras linhas do DataFrame e termos uma ideia do conteúdo dos dados.


In [0]:
# Converter o DataFrame Spark para Pandas para melhor visualização
walmart_pd = walmart_data.toPandas()

# Exibir as primeiras linhas do Pandas DataFrame
walmart_pd.head()


Unnamed: 0,transaction_id,customer_id,product_id,product_name,category,quantity_sold,unit_price,transaction_date,store_id,store_location,...,customer_loyalty_level,payment_method,promotion_applied,promotion_type,weather_conditions,holiday_indicator,weekday,stockout_indicator,forecasted_demand,actual_demand
0,1,2824,843,Fridge,Electronics,3,188.46,3/31/2024 21:46,3,"Miami, FL",...,Silver,Credit Card,True,,Stormy,False,Friday,True,172,179
1,2,1409,135,TV,Electronics,4,1912.04,7/28/2024 12:45,5,"Dallas, TX",...,Gold,Cash,True,Percentage Discount,Rainy,False,Monday,True,109,484
2,3,5506,391,Fridge,Electronics,4,1377.75,6/10/2024 4:55,1,"Los Angeles, CA",...,Platinum,Cash,False,,Sunny,False,Tuesday,True,289,416
3,4,5012,710,Smartphone,Electronics,5,182.31,8/15/2024 1:03,5,"Miami, FL",...,Silver,Cash,True,Percentage Discount,Sunny,True,Sunday,False,174,446
4,5,4657,116,Laptop,Electronics,3,499.28,9/13/2024 0:45,6,"Chicago, IL",...,Bronze,Digital Wallet,False,,Sunny,False,Thursday,True,287,469


## Número de Linhas e Colunas

Nesta etapa, estamos verificando o número de linhas e colunas do DataFrame. Isso é importante para entender o tamanho do conjunto de dados e garantir que ele foi carregado corretamente.

Usamos o atributo `shape` do DataFrame Pandas para obter as dimensões do dataset. O `shape[0]` nos fornece o número de linhas e o `shape[1]` nos fornece o número de colunas.


In [0]:
#Exibir o número de linhas e colunas:
print(f"Número de linhas: {walmart_pd.shape[0]}")
print(f"Número de colunas: {walmart_pd.shape[1]}")

Número de linhas: 5000
Número de colunas: 28


## Resumo Estatístico

Agora, vamos calcular as **estatísticas descritivas** do conjunto de dados. Esse resumo fornece informações como a média, o desvio padrão, o valor mínimo, o valor máximo e os quartis das variáveis numéricas. Ele é essencial para compreender a distribuição e a variabilidade dos dados.

O método `describe()` do Pandas gera essas estatísticas para todas as colunas numéricas no DataFrame.


In [0]:
#Exibir o resumo estatístico
walmart_pd.describe()  # Estatísticas descritivas

Unnamed: 0,transaction_id,customer_id,product_id,quantity_sold,unit_price,store_id,inventory_level,reorder_point,reorder_quantity,supplier_id,supplier_lead_time,customer_age,customer_income,forecasted_demand,actual_demand
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,2500.5,5542.4972,551.2334,2.9828,1023.467294,10.525,253.1218,99.788,200.517,300.1256,5.523,44.124,70041.627846,297.134,299.0884
std,1443.520003,2582.126997,258.826606,1.419474,559.614242,5.786888,142.885456,29.132387,58.257381,116.39486,2.863549,15.329358,29053.371736,115.568806,121.68078
min,1.0,1001.0,100.0,1.0,50.1,1.0,0.0,50.0,100.0,100.0,1.0,18.0,20005.34,100.0,90.0
25%,1250.75,3279.0,322.0,2.0,537.775,5.0,130.0,75.0,150.75,199.0,3.0,31.0,44865.4175,195.0,194.0
50%,2500.5,5558.0,559.0,3.0,1029.175,11.0,253.0,100.0,200.5,299.0,6.0,44.0,70188.29,297.5,299.0
75%,3750.25,7767.25,776.0,4.0,1506.3075,16.0,377.25,125.0,251.0,405.0,8.0,58.0,95395.8725,395.0,404.0
max,5000.0,9998.0,999.0,5.0,1999.85,20.0,500.0,150.0,300.0,500.0,10.0,70.0,119999.78,500.0,510.0


## Remover Linhas Duplicadas

Em alguns casos, podemos ter **linhas duplicadas** nos dados, o que pode afetar a análise. Para garantir que cada observação seja única, aplicamos a função `drop_duplicates()` do Pandas. Essa função remove todas as linhas que são duplicadas, deixando apenas a primeira ocorrência de cada combinação única de valores.

Usamos o parâmetro `inplace=True` para garantir que a remoção seja realizada diretamente no DataFrame, sem a necessidade de criar uma cópia.


In [0]:
# Remover linhas duplicadas
walmart_pd.drop_duplicates(inplace=True)


## Verificar Valores Nulos

Agora, vamos verificar se há **valores nulos** no conjunto de dados. A presença de valores nulos pode interferir nas análises subsequentes, por isso é importante identificá-los.

O método `isnull()` retorna um DataFrame booleano onde `True` indica que o valor é nulo. Em seguida, usamos `sum()` para contar o número total de valores nulos em cada coluna.


In [0]:
#Verificar valores nulos
walmart_pd.isnull().sum()

Out[19]: transaction_id            0
customer_id               0
product_id                0
product_name              0
category                  0
quantity_sold             0
unit_price                0
transaction_date          0
store_id                  0
store_location            0
inventory_level           0
reorder_point             0
reorder_quantity          0
supplier_id               0
supplier_lead_time        0
customer_age              0
customer_gender           0
customer_income           0
customer_loyalty_level    0
payment_method            0
promotion_applied         0
promotion_type            0
weather_conditions        0
holiday_indicator         0
weekday                   0
stockout_indicator        0
forecasted_demand         0
actual_demand             0
dtype: int64

## Converter `transaction_date` para Datetime

Nesta etapa, estamos convertendo a coluna `transaction_date` para o tipo de dado **datetime**, que é mais adequado para análises de séries temporais, como agregações por data, visualizações e cálculos baseados em tempo.

Usamos o método `pd.to_datetime()` do Pandas para realizar a conversão. O parâmetro `errors='coerce'` é utilizado para garantir que valores inválidos sejam transformados em `NaT` (Not a Time) em vez de gerar erros.

Após a conversão, exibimos as primeiras linhas do DataFrame para verificar se a transformação foi bem-sucedida.


In [0]:
#Converter transaction_date para datetime:
walmart_pd['transaction_date'] = pd.to_datetime(walmart_pd['transaction_date'], errors='coerce')
# Exibir as primeiras linhas do Pandas DataFrame
walmart_pd.head()

Unnamed: 0,transaction_id,customer_id,product_id,product_name,category,quantity_sold,unit_price,transaction_date,store_id,store_location,...,customer_loyalty_level,payment_method,promotion_applied,promotion_type,weather_conditions,holiday_indicator,weekday,stockout_indicator,forecasted_demand,actual_demand
0,1,2824,843,Fridge,Electronics,3,188.46,2024-03-31 21:46:00,3,"Miami, FL",...,Silver,Credit Card,True,,Stormy,False,Friday,True,172,179
1,2,1409,135,TV,Electronics,4,1912.04,2024-07-28 12:45:00,5,"Dallas, TX",...,Gold,Cash,True,Percentage Discount,Rainy,False,Monday,True,109,484
2,3,5506,391,Fridge,Electronics,4,1377.75,2024-06-10 04:55:00,1,"Los Angeles, CA",...,Platinum,Cash,False,,Sunny,False,Tuesday,True,289,416
3,4,5012,710,Smartphone,Electronics,5,182.31,2024-08-15 01:03:00,5,"Miami, FL",...,Silver,Cash,True,Percentage Discount,Sunny,True,Sunday,False,174,446
4,5,4657,116,Laptop,Electronics,3,499.28,2024-09-13 00:45:00,6,"Chicago, IL",...,Bronze,Digital Wallet,False,,Sunny,False,Thursday,True,287,469


## Converter para DataFrame do PySpark e Salvar em Parquet

Após realizar as transformações e análises no **DataFrame Pandas**, podemos convertê-lo para um **DataFrame PySpark** para aproveitarmos o poder de processamento distribuído do Spark, especialmente útil quando lidamos com grandes volumes de dados.

A função `createDataFrame()` do PySpark é utilizada para converter o DataFrame Pandas em um DataFrame PySpark. Em seguida, o DataFrame é salvo em formato **Parquet**, um formato de armazenamento eficiente para grandes volumes de dados.

O caminho onde os dados serão salvos é especificado na variável `path_temp`, e usamos o método `write.parquet()` para gravar os dados no DBFS (Databricks File System).


In [0]:
# Converter para DataFrame do PySpark
walmart_spark_df = spark.createDataFrame(walmart_pd)
# Caminho para salvar no DBFS local
path_temp = '/tmp/dados_transformed.parquet'
# Salvar em Parquet
walmart_spark_df.write.parquet(path_temp)