#### Análise da base: olist_sellers_dataset

##### Utilizando pacotes necessários

#### Obs: Para instalar o pacote, é necessário fazer: pip install pacote (Ex: pip install pandas)

In [15]:
#chamar o pacote Pandas para utilizar os códigos necessários. Os pacotes geralmente chamam assim, mas não são todos.
import pandas as pd

##### Criação da variável e leitura da base.


In [2]:
#Criei uma variável para a leitura do csv. A variavel é livre. 
#Estrutura: nome_da_variável=pd.read_csv('nome_do_arquivo.csv')
sellers_base=pd.read_csv('olist_sellers_dataset.csv')

##### Visualização da Tabela

In [3]:
#Existe dois meios de ver a tabela:
#print(nome_da_base)
#display(nome_da_base)
display(sellers_base)

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP
...,...,...,...,...
3090,98dddbc4601dd4443ca174359b237166,87111,sarandi,PR
3091,f8201cab383e484733266d1906e2fdfa,88137,palhoca,SC
3092,74871d19219c7d518d0090283e03c137,4650,sao paulo,SP
3093,e603cf3fec55f8697c9059638d6c8eb5,96080,pelotas,RS


##### Visualização do tipo de dados das colunas da base

In [5]:
#Aqui é possível ver o tipo de variáveis das colunas.
sellers_base.dtypes

seller_id                 object
seller_zip_code_prefix     int64
seller_city               object
seller_state              object
dtype: object

##### Verificação de células vazias ou com erro:

In [10]:
#Como ver se há células vazias:
#nome_da_base.isnull() ou nome_da_base.isnull().any() ou nome_da_base.isnull().any().any() 
#Tanto faz, o resultado é o mesmo, a visão que é diferente.
sellers_base.isnull().any()

seller_id                 False
seller_zip_code_prefix    False
seller_city               False
seller_state              False
dtype: bool

##### Verificação das estatísticas da base de dados:

In [17]:
estatisticas = sellers_base.describe()
print(estatisticas)

       seller_zip_code_prefix
count             3095.000000
mean             32291.059451
std              32713.453830
min               1001.000000
25%               7093.500000
50%              14940.000000
75%              64552.500000
max              99730.000000


#### Ranking de cidades:

In [20]:
# Ranking das cidades dos vendedores com base na frequência
ranking_city = sellers_base['seller_city'].value_counts().rank(method='first')
print(ranking_city)

sao paulo              611.0
curitiba               610.0
rio de janeiro         609.0
belo horizonte         608.0
ribeirao preto         607.0
                       ...  
taruma                 338.0
s jose do rio preto    339.0
domingos martins       340.0
messias targino        341.0
leme                   342.0
Name: seller_city, Length: 611, dtype: float64


In [21]:
# Ranking dos estados dos vendedores com base na frequência
ranking_state = sellers_base['seller_state'].value_counts().rank(method='min')
print(ranking_state)

SP    23.0
PR    22.0
MG    21.0
SC    20.0
RJ    19.0
RS    18.0
GO    17.0
DF    16.0
ES    15.0
BA    14.0
CE    13.0
PE    12.0
PB    11.0
RN     9.0
MS     9.0
MT     8.0
RO     6.0
SE     6.0
PI     1.0
AC     1.0
MA     1.0
AM     1.0
PA     1.0
Name: seller_state, dtype: float64


In [22]:
#Ranking do melhor vendedor:

#ranking só do vendedor:
ranking_vendedores = sellers_base['seller_id'].value_counts()

#Descobrir quem é o primeiro
top_vendedor = ranking_vendedores.idxmax()

# Associar o ID do vendedor com a cidade e estado.
cidade_estado = sellers_base[sellers_base['seller_id'] == top_vendedor][['seller_city', 'seller_state']].iloc[0]

#Visualizar quem é:
print(f"O vendedor no topo do ranking é {top_vendedor} de {cidade_estado['seller_city']}, {cidade_estado['seller_state']}.")


O vendedor no topo do ranking é 3442f8959a84dea7ee197c632cb2df15 de campinas, SP.


##### Comentário da base: 

seller_id : ID do vendedor da loja
seller_zip_code_prefix : CEP do vendedor da loja
seller_city : Cidade do vendedor da loja         
seller_state : Estado do vendedor da loja      

#### Verificar outliers

#### Pacotes necessários:

In [25]:
import numpy as np

#### Código:

In [28]:
# Função para calcular o IQR
def calcular_iqr(serie):
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    return IQR

# Calcular o IQR para cada coluna numérica
iqr = sellers_base.select_dtypes(include=['int64', 'float64']).apply(calcular_iqr)

# Identificar outliers
outliers = pd.DataFrame(np.zeros(sellers_base.shape, dtype=bool), columns=sellers_base.columns) #o dtype foi booleano, V ou F, mas pode ter outra visão
for col in iqr.index:
    Q1 = sellers_base[col].quantile(0.25)
    Q3 = sellers_base[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers[col] = (sellers_base[col] < (Q1 - 1.5 * IQR)) | (sellers_base[col] > (Q3 + 1.5 * IQR))

display(outliers)

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
3090,False,False,False,False
3091,False,False,False,False
3092,False,False,False,False
3093,False,False,False,False
