In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import numpy as np

veiculos_usados = pd.read_csv('/content/cars_train_estatistico.csv', sep=',')

# informações sobre o conjunto de dados
veiculos_usados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26296 entries, 0 to 26295
Data columns (total 26 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   num_fotos                26296 non-null  int64  
 1   marca                    26296 non-null  object 
 2   modelo                   26296 non-null  object 
 3   versao                   26296 non-null  object 
 4   ano_de_fabricacao        26296 non-null  int64  
 5   ano_modelo               26296 non-null  int64  
 6   hodometro                26296 non-null  float64
 7   cambio                   26296 non-null  object 
 8   num_portas               26296 non-null  int64  
 9   tipo                     26296 non-null  object 
 10  blindado                 26296 non-null  bool   
 11  cor                      26296 non-null  object 
 12  tipo_vendedor            26296 non-null  object 
 13  cidade_vendedor          26296 non-null  object 
 14  estado_vendedor       

# **EDA**

**a) Qual o melhor estado cadastrado na base de dados para se vender um carro de marca popular e por quê?**

In [None]:
# Retorna um array com as marcas populares
def obter_carros_populares():

  # Obtém a relação ( marcas => quantidade )
  marcas = veiculos_usados['marca'].value_counts()

  # Ordena a quantidade de anúncio de cada marca em ordem crescente
  marcas_valores_asc = marcas.sort_values()

  # Calcular o percentil de 85% para identificar os valores que delimitam a maior parte dos dados
  percentil = np.percentile(marcas_valores_asc, 85)

  # Inicializa array das marcas populares
  marcas_populares = []

  # Para cada marca de veículo no dataset, verifica-se se a marca pertence aos 85% dos dados
  for nome_marca, value in marcas.items():
    if value >= percentil:
      marcas_populares.append(nome_marca)
    #print(f"Index: {index}, Value: {value}, Valuex: {(value/total_marcas)*100}")

  return marcas_populares

In [None]:
obter_carros_populares()

['VOLKSWAGEN', 'CHEVROLET', 'JEEP', 'TOYOTA', 'FIAT', 'HYUNDAI']

In [None]:
def obter_estatistica_marca_por_estado( marca ):

  # Aplica o filtro para obter os anúncios da marca correspondente
  anuncios = veiculos_usados.loc[veiculos_usados['marca'] == marca]

  # Obtém os estados contidos nos anúncios
  anuncios_estados = anuncios['estado_vendedor'].unique()

  # Array de estatistica
  marcas = []
  estados = []
  estado_anuncios = []
  for estado in anuncios_estados:

    # Obtém todos os anúncios do estado atual
    anuncios_estado_atual =  anuncios.loc[anuncios['estado_vendedor'] == estado]

    marcas.append(marca)
    estados.append(estado)
    estado_anuncios.append(len(anuncios_estado_atual))

  # Create a DataFrame from the lists
  estatisticas = pd.DataFrame({'marca': marcas, 'estado': estados, 'anuncios': estado_anuncios})
  return estatisticas


estatisticas = pd.DataFrame()
marcas_populares = obter_carros_populares()

for marca in marcas_populares:
  estatistica = obter_estatistica_marca_por_estado(marca)
  estatisticas = pd.concat([estatisticas, estatistica], ignore_index=True)
  break

total_anuncios_carros_populares_por_estado = estatisticas.groupby('estado')['anuncios'].sum().sort_values()
total_anuncios_carros_populares_por_estado

estado
Tocantins (TO)                 1
Sergipe (SE)                   1
Rondônia (RO)                  1
Espírito Santo (ES)            2
Acre (AC)                      2
Mato Grosso do Sul (MS)        3
Mato Grosso (MT)               4
Amazonas (AM)                  8
Pará (PA)                      8
Rio Grande do Norte (RN)       9
Ceará (CE)                     9
Paraíba (PB)                  29
Alagoas (AL)                  34
Pernambuco (PE)               48
Bahia (BA)                    68
Goiás (GO)                   125
Rio Grande do Sul (RS)       229
Minas Gerais (MG)            252
Santa Catarina (SC)          288
Paraná (PR)                  320
Rio de Janeiro (RJ)          331
São Paulo (SP)              2372
Name: anuncios, dtype: int64

O estado de São Paulo (SP) tem o maior número de anúncios de carros populares, enquanto o estado do Rio de Janeiro (RJ) tem o segundo maior número de anúncios, logo são 2 estados candidatos a ser indicado para vender um veículo popular levando em consideração a lei da oferta e demanda

**b) Qual o melhor estado para se comprar uma picape com transmissão automática e por quê?**


Filtrando a base de dados com o tipo picape e cambio automático

In [None]:
picape_automatica = veiculos_usados[(veiculos_usados.tipo == 'Picape') & (veiculos_usados.cambio == 'Automática')]

In [None]:
picape_automatica.shape

(3010, 26)

Quantidade de vezes que cada estado está no dataframe filtrado

In [None]:
picape_automatica.estado_vendedor.value_counts()

São Paulo (SP)              1557
Paraná (PR)                  320
Rio de Janeiro (RJ)          286
Santa Catarina (SC)          253
Minas Gerais (MG)            194
Rio Grande do Sul (RS)       180
Goiás (GO)                    98
Bahia (BA)                    66
Pernambuco (PE)               13
Alagoas (AL)                  12
Acre (AC)                      6
Mato Grosso (MT)               6
Paraíba (PB)                   4
Piauí (PI)                     4
Sergipe (SE)                   4
Mato Grosso do Sul (MS)        3
Tocantins (TO)                 3
Rio Grande do Norte (RN)       1
Name: estado_vendedor, dtype: int64

Agrupando os estados com o menor preço de cada um

In [None]:
separando_por_estado = picape_automatica.groupby("estado_vendedor")["preco"].min()
separando_por_estado.sort_values()

estado_vendedor
São Paulo (SP)               25664.65
Paraná (PR)                  33474.73
Rio Grande do Sul (RS)       40222.47
Santa Catarina (SC)          41524.67
Rio de Janeiro (RJ)          45299.29
Mato Grosso do Sul (MS)      51084.11
Alagoas (AL)                 52207.25
Acre (AC)                    56452.61
Minas Gerais (MG)            58014.16
Bahia (BA)                   61529.78
Goiás (GO)                   72266.20
Paraíba (PB)                 73223.79
Pernambuco (PE)              75521.48
Tocantins (TO)              121772.92
Piauí (PI)                  147846.62
Mato Grosso (MT)            167591.88
Rio Grande do Norte (RN)    179961.69
Sergipe (SE)                233540.34
Name: preco, dtype: float64

Verificando o menor valor

In [None]:
sao_paulo = picape_automatica[picape_automatica.estado_vendedor == 'São Paulo (SP)']
sao_paulo.groupby("estado_vendedor")["preco"].min()

estado_vendedor
São Paulo (SP)    25664.65
Name: preco, dtype: float64

O estado de SP é o melhor estado para se comprar uma Picape com transmissão automática, já que é o estado com o menor valor de mercado.

In [None]:
sao_paulo[sao_paulo.preco == 25664.65]

Unnamed: 0,num_fotos,marca,modelo,versao,ano_de_fabricacao,ano_modelo,hodometro,cambio,num_portas,tipo,...,entrega_delivery,troca,veiculo_único_dono,revisoes_concessionaria,garantia_de_fábrica,revisoes_dentro_agenda,dono_aceita_troca,ipva_pago,veiculo_licenciado,preco
25344,8,TOYOTA,ETIOS,1.5 PLATINUM 16V FLEX 4P AUTOMÁTICO,2017,2018,112344.0,Automática,4,Picape,...,False,False,True,True,False,True,False,True,True,25664.65


**c) Qual o melhor estado para se comprar carros que ainda estejam dentro da garantia de fábrica e por quê?**

In [None]:
veiculos_usados.loc[veiculos_usados['garantia_de_fábrica'] == True].groupby("estado_vendedor")['estado_vendedor'].count().sort_values()

estado_vendedor
Tocantins (TO)                 1
Paraíba (PB)                   1
Ceará (CE)                     1
Mato Grosso (MT)               2
Acre (AC)                      2
Sergipe (SE)                   3
Espírito Santo (ES)            9
Amazonas (AM)                  9
Rio Grande do Norte (RN)       9
Mato Grosso do Sul (MS)       13
Pará (PA)                     17
Pernambuco (PE)               20
Bahia (BA)                    51
Alagoas (AL)                  58
Goiás (GO)                   185
Minas Gerais (MG)            262
Rio Grande do Sul (RS)       281
Santa Catarina (SC)          326
Paraná (PR)                  388
Rio de Janeiro (RJ)          409
São Paulo (SP)              2285
Name: estado_vendedor, dtype: int64

Conclui-se que o estado de São Paulo (SP) é o melhor estado para comprar carros que ainda estejam dentro da garantia de fábrica, pois é o estado com maior número de carros que estão dentro da garantia.

**1 Hipótese de negócio: Carros com hodômetro relativamente baixos são em maioria veículos de único dono**

In [None]:
# Obtém lista dos hodometros em ordem crescente
hodometros = veiculos_usados['hodometro'].sort_values()

# Calcula 1 quartil dos hodometros
hodometro_q1 = hodometros.quantile(0.25)

# Obtém lista dos hodometros que pertencem ao 1 quartil
hodometros_q1  = veiculos_usados.loc[veiculos_usados['hodometro'] <= hodometro_q1]
hodometros_q1_len  = len(hodometros_q1)

# Obtém lista dos hodometros de veículos de único dono que pertencem ao 1 quartil
hodometros_unico_dono  = hodometros_q1.loc[veiculos_usados['veiculo_único_dono'] == True]
hodometros_unico_dono_len = len(hodometros_unico_dono)

# Obtém lista dos hodometros de veículos de múltiplos donos que pertencem ao 1 quartil
hodometros_multiplos_donos  = hodometros_q1.loc[veiculos_usados['veiculo_único_dono'] == False]
hodometros_multiplos_donos_len = len(hodometros_multiplos_donos)

print(f'Total de hodometros relativamente baixos de único dono: {hodometros_unico_dono_len} (representa {round((hodometros_unico_dono_len/hodometros_q1_len)*100,2)} dos hodometros baixos)')
print(f'Total de hodometros relativamente baixos de múltiplos donos: {hodometros_multiplos_donos_len} (representa {round((hodometros_multiplos_donos_len/hodometros_q1_len)*100,2)} dos hodometros baixos)')

Total de hodometros relativamente baixos de único dono: 4133 (representa 62.87 dos hodometros baixos)
Total de hodometros relativamente baixos de múltiplos donos: 2441 (representa 37.13 dos hodometros baixos)


Para teste de hipótese foi utilizado valores de hodometro que pertencem ao 1 quartil em relação aos valores do dataset. Logo foi concluído que veículos com hodômetros relativamente baixos são em maioria veículos de único dono, pois estes representam 62,87% dos anúncios, enquanto que os veículos de múltiplos donos representam só 37,13%