## Iniciação

Para o presente estudo, iremos utiliar o pandas e o matplotlib como bibliotecas para o tratamento de dados e a apresentação de resultados.

In [None]:
# Carregando todas as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt

### Carregue dados

In [None]:
# Carregue o arquivo com os dados em um DataFrame

data = pd.read_csv('/datasets/vehicles_us.csv')

### Explore os dados iniciais

O conjunto de dados contém os seguintes campos:
- `price`
- `model_year`
- `model`
- `condition`
- `cylinders`
- `fuel` — gasolina, diesel etc.
- `odometer` — a quilometragem do veículo quando a propaganda foi publicada 
- `transmission`
- `paint_color`
- `is_4wd` — Se o veículo é 4 por 4 (tipo Booleano)
- `date_posted` — a data que a propaganda foi publicada
- `days_listed` — dias desde a publicação até a retirada

Aqui temos a relação de alguns style guide para o projeto que iremos utilizar.

In [None]:
# imprima as informações gerais/resumidas sobre o DataFrame

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [None]:
# imprima uma amostragem dos dados

data.head(15)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


In [None]:
data['fuel'].unique()

array(['gas', 'diesel', 'other', 'hybrid', 'electric'], dtype=object)

In [None]:
data['transmission'].unique()

array(['automatic', 'manual', 'other'], dtype=object)

In [None]:
data['condition'].unique()

array(['good', 'like new', 'fair', 'excellent', 'salvage', 'new'],
      dtype=object)

In [None]:
data['model'].unique()

array(['bmw x5', 'ford f-150', 'hyundai sonata', 'chrysler 200',
       'chrysler 300', 'toyota camry', 'honda pilot', 'kia sorento',
       'chevrolet silverado 1500', 'honda accord', 'ram 1500',
       'gmc yukon', 'jeep cherokee', 'chevrolet traverse',
       'hyundai elantra', 'chevrolet tahoe', 'toyota rav4',
       'chevrolet silverado', 'jeep wrangler', 'chevrolet malibu',
       'ford fusion se', 'chevrolet impala', 'chevrolet corvette',
       'jeep liberty', 'toyota camry le', 'nissan altima',
       'subaru outback', 'toyota highlander', 'dodge charger',
       'toyota tacoma', 'chevrolet equinox', 'nissan rogue',
       'mercedes-benz benze sprinter 2500', 'honda cr-v',
       'jeep grand cherokee', 'toyota 4runner', 'ford focus',
       'honda civic', 'kia soul', 'chevrolet colorado',
       'ford f150 supercrew cab xlt', 'chevrolet camaro lt coupe 2d',
       'chevrolet cruze', 'ford mustang', 'chevrolet silverado 3500hd',
       'nissan frontier crew cab sv', 'subaru imp

In [None]:
data['type'].unique()

array(['SUV', 'pickup', 'sedan', 'truck', 'coupe', 'van', 'convertible',
       'hatchback', 'wagon', 'mini-van', 'other', 'offroad', 'bus'],
      dtype=object)

__Após a análise dos dados temos alguns pontos a serem estudados mais próximos, dessa forma, destaco aqui alguns para serem melhor visualizados.__

   * Price está em valores int, teremos que passa-los para floats, de forma qual será informado os centavos em cada locação.
   * Os valores em anos estão em float, precisamos passar para int.
   * Encontramos alguns valores ausentes em __(model_year, cylinders, odometer, paint_color e is_4wd)__. Iremos precisar análisar de mais perto cada uma dessas colunas para saber se podemos alterar tais dados.
   * Em __'transmission'__ há outros, entretanto, não existe outro tipo de transmissão além das duas convêncionais.
   * Já em model teremos que visualizar melhor os dados e observar se há duplicatas e se houver, retira-lás.
   * Há km ausente em __'odometer'__ informação importante para visualização da condição do carro futuramente. 
       * Juntamente nesse tópico, talvez seja interessante análisar e montar uma qualidade de odometer boa média e ruim.
   * Em 'paint_color', podemos trocar os valores ausentes por unknown.

__Ao mais, outras informações poderemos tirar durante o projeto.__

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


__Colunas com tipos de dados inapropriados:__
   * price 
   * model_year
   * cylinders
   * date_posted
   * is_4wd - __Compreender melhor a demanda dessa coluna.__
   

__Colunas com valores ausentes:__
   * model_year
   * cylinders
   * odometer
   * paint_color
   * is_4wd

In [None]:
def count_na (column):
    missing_values = data[column].isnull().sum()
    return missing_values

count_na('model_year')

3619

In [None]:
count_na('cylinders')

5260

In [None]:
count_na('odometer')

7892

In [None]:
count_na('paint_color')

9267

In [None]:
count_na('is_4wd')

25953

Conforme demonstrado pela função acima, a coluna que há mais valores ausentes é a de __'is_4wd'__

### Conclusões e próximos passos

Assim como visualizados nos resumos de cada linhas acima, concluimos que há algumas incongruências. Dessa forma, iremos analisar e caso seja interessante alterar e alinhar os dados de maneira que contribua ao projeto. 

## Cuide dos valores ausentes (se houver algum)

Como os dados que estāo ausentes eles sāo caracteristicas dos carros, e os valores ausentes em cada coluna representam mais que 1% de cada, compreende-se que a melhor coisa a ser feita nesse momento é especificar como 'unknwon', de forma que preencheremos os valores e assim nāo comprometera os dados.

In [None]:
colunas = ["odometers", "cylinders", "model_year"]

for coluna in colunas: 

    data[coluna].fillna(data[coluna].mean(),inplace=True)

KeyError: 'odometers'

In [None]:
data.head(5)

__Foi feito manualmente para cada coluna pois, há valores que seriam interessantes estarem em int, str e futuramente em float.__
   * Pontos para a revisão do tutor, há uma maneira de fazer isso tudo automaticamente ?

__Foi decidido trocar os valores ausentes pela palavra 'unknwon' em colunas object e '0' em colunas de int e float, sendo mais fácil de outra pessoa visualizar e compreender que o dado para aquele lugar é desconhecido. Assim, deixamos todas as colunas com valores ausentes sem os mesmos.__

## Corrija os tipos de dados

In [None]:
data = data.astype({'model_year': 'int64','odometer': 'int64', 'is_4wd':'float64'})

In [None]:
data['date_posted'] = pd.to_datetime(data['date_posted'], format='%Y-%m-%d')

Aqui fizemos a troca de dtype das colunas, juntamente de corrigir o datetime no 'date_posted'. 

In [None]:
data['model'].unique()

In [None]:
def new_model(old_models):
    if 'ford' and '350' in old_models:
        return 'ford f350 super duty'
    elif 'ford' and '250' in old_models:
        return 'ford f250 super duty'
    elif 'ford' and '150' in old_models:
        return 'ford f150'
    elif 'chevrolet silverado 1500' in old_models:
        return 'chevrolet silverado 1500 crew'
    elif 'ford fusion se' in old_models:
        return 'ford fusion'
    elif 'jeep wrangler unlimited' in old_models:
        return 'jeep wrangler'
    elif 'jeep grand cherokee' in old_models:
        return 'jeep grand cherokee'
    elif 'ford mustang' in old_models:
        return 'ford mustang'
    elif 'chevrolet camaro' in old_models:
        return 'chevrolet camaro'
    elif 'honda civic' in old_models:
        return 'honda civic'
    else:
        return old_models

In [None]:
# Iremos salvar a tabela tratada em uma nova variavel para facilitar a visualização da mesma.

data['model'] = data['model'].apply(new_model)

print(data['model'].unique())
print('~~~~~~~~~~~~~~~~')
print(data['model'].value_counts())

In [None]:
data['type'] = data['type'].str.lower()
data['type'].unique()

In [None]:
data.info()
print('--------')
data.head(5)

Aqui então encontramos pequenos erros que poderiam comprometer a nossa data base e também trocamos os formatos de cada coluna.

__Dados modificados nessa sessão:__
   * model_year
   * odometer
   * is_4wd
   * date_posted
   * model
   * type

## Enriqueça os dados

Vamos facilitar a vida de outro analista caso ele visualize os dados posteriormente, além de deixar os dados mais completos para futuras entradas.

In [None]:
# Adicione a idade do veículo quando a propaganda for colocada

data['year_posted'] = data['date_posted'].dt.year
data['age'] = data['year_posted'] - data['model_year'] + 1

In [None]:
data.head(5)

In [None]:
# Adicione a quilometragem média por ano

data['odometer_mean'] = data['odometer']/data['age']

In [None]:
data.head(5)

In [None]:
# Adicionaremos ao 'model_year' nulo referenciado os modelos já existentes

year_nan = data[data['model_year'] == 0]
year_nan.head(7)

## Verifique os dados limpos

Os dados já foram tratados, dessa forma, podemos dar uma breve olhada neles para saber o que iremos analisar e criar de gráficos futuramente. 

__Abaixo iremos encontrar algumas informações importantes:__

In [None]:
# imprima as informações gerais/resumidas sobre o DataFrame

data.info()
print('_______________')
data.describe()

In [None]:
# imprima uma amostragem dos dados
data.head(20)

## Estude os parâmetros fundamentais

__O que sera estudado:__

Analisaremos se há correlação entre os parâmetros informados abaixo, observando algum padrão, e se encontramos casos extraordinários dentre os valores. 

__Os parâmetros são:__

   - Preço
   - Quilometragem
   - Condição
   - Idade
   - Dias postados
   - Type
   
__Com essas variaveis vamos compreender a relação entre o tempo de espera até a venda de um veiculo.__

In [None]:
# Primeiramente vamos analisar a correlação entre quilometragem e condição do veículo.

condition_by_odometer = data.pivot_table(index='condition', values='odometer', aggfunc='median')
condition_by_odometer.sort_values(by='odometer', ascending=False).plot(grid=True,kind='bar', figsize=(10,5))

Conseguimos perceber algumas coisas por esse grafico. 
  - Não necessáriamente o carro que está muito rodado está mais deteriorado, pois como pode ser observados os carros qualificados como "good" estão quase em paridade com os "salvage".
  - Os carros que percorreram maiores distancias são os que estão qualificados como "fair".
  
Dessa forma, podemos levar esses pensamentos podemos tentar entender se há outra correlação, a de dias listados e condição do carro.

In [None]:
# Agora poderemos analisar a classificação dos carros em relação a dias postados.


(data
     .query('days_listed')
     .pivot_table(index='condition', values='days_listed')
     .plot(kind='bar', figsize=(13, 5))
) 

Percebemos aqui, que para os compradores, não importa se o carro é muito novo, novo ou excelente para que tenha uma vazão mais rápida, da mesma forma se os carros foram muito ou pouco usados.

Vamos analisar o preço em relação a condição deles, para que dessa forma possamos angariar as informações já adquiridas com as outras analises e assim compreender melhor os dados que temos.

In [None]:
# Vamos analisar a relação de preço e dias postados.

data.plot(x='days_listed', y='price', kind='hexbin',gridsize=25, figsize=(10,6), sharex=False, grid=False) 

Basenado no grafico de hexagonos apresentado acima, conseguimos então que carros que tem seu valor menor que 50 mil são os que tem menor taxa de permanencia dentro da plataforma de vendas.

Por fim, veremos a relação de preços e condições, podendo assim propesctar tempo medio a ser vendido, preço de melhor saida e a condição ideal para os mesmos.

In [None]:
# Por fim, vamos analisar a relação de preço e condição de veiculo.

(data
     .pivot_table(index='condition', values='price', aggfunc='median')
     .plot(figsize=(8,5),kind='bar')
)

In [None]:
data['type'].value_counts()

__Conclusão:__

Compreendemos então que os carros caracterizados como razoaveis são os de maior custo beneficio e portanto, os mais vendidos dentre os outros na plataforma. Além disso, conseguimos visualizar também que carros novos são os de maior valor e menor saida, enquanto os deteriorizados são de valor alto em comparação ao razoaveis e de menor saida.

## Estude e cuide dos valores ausentes

Baseado nos estudos dos graficos acima, podemos pensar que algumas das colunas podem haver valores atípicos. Sendo eles: 
  - price
  - odometer_mean

In [None]:
# Aqui iremos determinar o limite superior e inferior para valores atípicos.

Q1 = data['price'].quantile(0.25)
Q3 = data['price'].quantile(0.75)
IQR = Q3 - Q1
plt.ylim(-30000, 50000)
data.boxplot('price')
plt.hlines(y=[Q1 - 1.5*IQR], xmin=1, xmax=1.1, color='red')

Para 'price', seu limite para valor atípico tanto superior quanto inferior é de:
   * Superior: Acima de 35000
   * Inferior: 0.

In [None]:
Q2 = data['odometer'].quantile(0.25)
Q4 = data['odometer'].quantile(0.75)
IQR = Q4 - Q1
plt.ylim(-250000, 600000)
data.boxplot('odometer')
plt.hlines(y=[Q1 - 1.5*IQR], xmin=1, xmax=1.1, color='red')

Para 'odometer', seu limite para valor atípico tanto superior quanto inferior é:
   * Positivo: Acima de 300000
   * Negativo: 0

In [None]:
#Criando uma variavel armazeando as informações sem os valores atípicos

va1 = data.boxplot("price")
plt.ylim(0, 30000)

In [None]:
va2 = data.boxplot("odometer")
plt.ylim(0, 300000)

## Tempo de vida das propagandas

Iremos analisar algumas informações basicas mas de suma importancia para compreender o funcionamento e o periodo de propaganda dos modelos.

In [None]:
print(data['days_listed'].min())
print('__________')
print(data['days_listed'].max())
print('__________')
print(data['days_listed'].mean())
print('__________')
print(data['days_listed'].median())

In [None]:
va2 = data.boxplot("days_listed")
plt.ylim(0, 300)

Aqui conseguimos observar o tempo medio das propagandas na plataforma, quando uma propaganda é retirada de forma rapida por algum erro ou outro fator exogeno, da mesma forma valores atípicos para um periodo de tempo de anuncio.

## Média de preços por cada tipo de veículo

__Vamos analisar aqui o preço médio de cada modelo de carro e a dependência do número de propagandas para cada um desses modelos.__

In [None]:
median_price = data.groupby('model').mean().sort_values('price', ascending=False)
median_price.head(15)

In [None]:
number_adv = data['model'].value_counts()
number_adv.plot(kind='pie', figsize=(15,30))

__Com base nas informações adquiridas por meio da tabela e o grafico de pizza, conseguimos compreender algumas informações.__

Os modelos que tem mais anuncio dentro da plataforma são o ford f150 e o f250 super dusty.
O preço médio de cada um dos carros.
Conseguimos também a data média de cada um desses carros na plataforma e o odometer_mean dos mesmos.

## Conclusão

Conclui-se que, dentro dos Estados Unidos há uma grande utiização de SUV, dessa forma, compreende-se que há maiores números de propagandas de modelos compativeis com o 'type'. Assim, considerando o fato que SUV são os carros mais utilizados dentro do territorio, compreende-se também que isso aumentará o odometer_mean como um todo, e consequentemente abaixará a classificação dos mesmos por estarem mais utilizados. Portanto, o preço será dentro de até 30k, entretanto há valores atípicos ao mesmo como evidenciado em formulas acima.

Por fim, levando-se também em consideração a informação adquirida pela classificação dos carros, uma maneira de fazer tais carros demorarem menos para serem vendidos é ajustar sua classificação, podendo assim abaixar seu tempo médio de propaganda.