In [2]:
import pandas as pd

In [3]:
df_venda = pd.read_csv('./base/itens_pedido.csv')

In [4]:
df_venda.head()

Unnamed: 0,id_pedido,id_item_pedido,id_produto,id_vendedor,dt_limite_envio,preco,vl_frete
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


## QUANTIDADE DE LINHAS E COLUNAS
***

Retorna uma tupla com a informação da quantidade de linha e colunas.

In [5]:
df_venda.shape

(112650, 7)

In [6]:
df_venda.shape[0]

112650

In [7]:
df_venda.shape[1]

7

## INFORMAÇÕES SOBRE O DATAFRAME
***

__Informações básicas sobre o df:__
* Nome das colunas
* Índice
* Quantidade de linhas não nulas
* Data Type das colunas

[Link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html)

### TABELA DE TIPO DE DADOS

| Pandas   | Python   | NumPy | Uso |
|---------------|--------------|---------------------------------|----------------------------------------------|
| __object__        | str or mixed | string_, unicode_, mixed types | Texto ou valores mistos numéricos e não numéricos. |
| __int64__         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Números inteiros. |
| __float64__       | float        | float_, float16, float32, float64 | Números com ponto flutuante. |
| __bool__          | bool         | bool_ | Valores booleanos. |
| __datetime64__    | datetime     | datetime64[ns] | Valores de data e hora. |
| __timedelta[ns]__ | | | Diferenças entre duas datas. |
| __category__      | | | Lista finita de valores de texto. |

[Fonte da Tabela](https://pbpython.com/pandas_dtypes.html)

In [8]:
df_venda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   id_pedido        112650 non-null  object 
 1   id_item_pedido   112650 non-null  int64  
 2   id_produto       112650 non-null  object 
 3   id_vendedor      112650 non-null  object 
 4   dt_limite_envio  112650 non-null  object 
 5   preco            112650 non-null  float64
 6   vl_frete         112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [13]:
df_venda['dt_limite_envio'] = df_venda['dt_limite_envio'].astype('datetime64')

In [14]:
df_venda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id_pedido        112650 non-null  object        
 1   id_item_pedido   112650 non-null  int64         
 2   id_produto       112650 non-null  object        
 3   id_vendedor      112650 non-null  object        
 4   dt_limite_envio  112650 non-null  datetime64[ns]
 5   preco            112650 non-null  float64       
 6   vl_frete         112650 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 6.0+ MB


## __ESTATÍSTICAS DESCRITIVAS DAS COLUNAS NÚMERICAS__
***

* Contagem de linhas
* Média
* Desvio Padrão
* Menor Valor da Linha
* 25% dos dados
* Mediana = 50% dos dados
* 75% dos dados
* Maior Valor da Linha

[Link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe)

In [9]:
df_venda.describe()

Unnamed: 0,id_item_pedido,preco,vl_frete
count,112650.0,112650.0,112650.0
mean,1.197834,120.653739,19.99032
std,0.705124,183.633928,15.806405
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


In [10]:
df_venda.describe().round(2)

Unnamed: 0,id_item_pedido,preco,vl_frete
count,112650.0,112650.0,112650.0
mean,1.2,120.65,19.99
std,0.71,183.63,15.81
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


## CORRELAÇÃO ENTRE AS COLUNAS NÚMERICAS
***

[Link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html)

![](./img/correlacao.png)

* Nula = 0
* Positiva = Maior que Zero
* Negativa = Menor que Zero

In [12]:
df_venda.corr().round(4)

Unnamed: 0,id_item_pedido,preco,vl_frete
id_item_pedido,1.0,-0.0605,-0.0294
preco,-0.0605,1.0,0.4142
vl_frete,-0.0294,0.4142,1.0
