# COMANDOS AUXILIARES

## Inserção de imagens

In [1]:
from IPython.display import Image

## Imports

In [2]:
import seaborn as sns
import pandas  as pd
import numpy   as np
import math

# KICK OFF DO PROJETO!

## Contexto do Problema de Negócio

A Xtreme Groovy Bikes Sales é uma empresa de revenda de motocicletas. Seu modelo de nogócio é revender motocicletas usadas. Com a crescente do valor dos veículos usados, a XGB Sales, como é conhecida, deseja expandir os seus negócios. Você foi contratado como cientista de dados pela empresa XGB Sales para ajudá-los a encotrar as melhores motocicletas para revenda. 

Para isso, o CEO da empresa fez um estudo de mercado lhe entregou uma base de dados, obtida através desse estudo, para que você consiga auxiliá-lo a encontrar as melhores motocicletas para revenda, aumentando assim o lucro da empresa.

Além disso, o CEO lhe fez algumas perguntas a cerca da base de dados que a empresa possui.
Lembrando que o contexto, pessoas e perguntas são completamente fictícios e existem somente na minha imaginação.

## O Desafio

A empresa XGB Sales lhe contratou como cientista de dados pois ela deseja aumentar o seu lucro comprando e revendendo as melhores motos disponíveis dentro da base de dados que a empresa adquiriu através de um estudo de mercado. 

Dessa forma, o CEO da XGB Sales lhe fez as seguintes perguntas:

1. Quantas motos temos dentro do Dataset?
2. Qual é o ano da moto mais antiga da base de dados?
3. Qual é o ano da moto mais nova da base de dados?
4. Qual é o valor da moto mais cara da base de dados?
5. Qual é o valor do hodômotro da moto com a maior quilometragem?
6. Qual é o valor do hodômotro da moto com a menor quiilometragem?
7. Das motocicletas que estão sendo expostas dentro de um Show Room, qual é o maior valor registrado na base de dados?
8. Das motocicletas que estão sendo expostas dentro de um Show Room, qual é o menor valor registrado na base de dados?
9. Quantas motocicletas estão sendo vendidades pelos seus donos e quantas estão sendo vendidas por outros revendedores?
10. Qual é a média de valores das motos na base de dados?
11. Qual é a média de ano das motos cadastradas dentro da base de dados?
12. Qual é a média de quilometragem das motos cadastradas dentro da base de dados?
13. Existem quantas motos dentro da base de dados que são motos de um único dono?
14. As motos com menor quilometragem são as motos mais baratas do Dataset?

## A Base de Dados

O conjunto de dados que representam o contexto está disponível na plataforma do Kaggle. O link para acesso aos dados:

[Motorcycle Dataset](https://www.kaggle.com/datasets/nehalbirla/motorcycle-dataset)

## Como Solucionar Esse Desafio

Aqui vão algumas dicas para você começar a resolver esse problema:

* **Tenha calma e não tenha medo:** Crie suposições e faça testes, dando um passo de cada vez para, a cada novo passo, estar mais próximo da resposta.

* **Responda as perguntas antes de Codificar:** Como você faria, se não tivesse que programar, para responder as perguntas feitas? Pensando antes em como responder, facilitará no momento de codificar o algoritmo para achar a resposta, porque isso faz parte do planejamento da solução!

* **Tenha Paciência e Resiliência:** Criar soluções e, principalmente, pensar e planejá-las leva tempo. Assuma uma postura resiliente e não desista! Afinal, você quer se tornar um Cientista de Dados, ganhar ótimos salários e trabalhar em ótimas empresas, certo?

* **A Comunidade:** Caso você tenha tentado várias estratégias e não tenha chegado a uma solução ou não tenha avançado, peça ajuda dentro da Comunidade de DS! Estamos todos para nos ajudar nessa jornada que é a Ciência de Dados.

## Solucionando o Desafio

### Carregamento dos Dados

In [3]:
df = pd.read_csv('csv/bike.csv')
df.head()

Unnamed: 0,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price
0,Royal Enfield Classic 350,175000,2019,Individual,1st owner,350,
1,Honda Dio,45000,2017,Individual,1st owner,5650,
2,Royal Enfield Classic Gunmetal Grey,150000,2018,Individual,1st owner,12000,148114.0
3,Yamaha Fazer FI V 2.0 [2016-2018],65000,2015,Individual,1st owner,23000,89643.0
4,Yamaha SZ [2013-2014],20000,2011,Individual,2nd owner,21000,


### Verificação das Colunas

In [4]:
df.dtypes

name                  object
selling_price          int64
year                   int64
seller_type           object
owner                 object
km_driven              int64
ex_showroom_price    float64
dtype: object

### Ajuste dos tipos de dados das colunas

In [5]:
# Ajustando a coluna para Datetime
df['year'] = pd.to_datetime(df['year'], format='%Y')

# Recuperando somente o ano da coluna
df['year'] = df['year'].dt.year

df.head()

Unnamed: 0,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price
0,Royal Enfield Classic 350,175000,2019,Individual,1st owner,350,
1,Honda Dio,45000,2017,Individual,1st owner,5650,
2,Royal Enfield Classic Gunmetal Grey,150000,2018,Individual,1st owner,12000,148114.0
3,Yamaha Fazer FI V 2.0 [2016-2018],65000,2015,Individual,1st owner,23000,89643.0
4,Yamaha SZ [2013-2014],20000,2011,Individual,2nd owner,21000,


In [6]:
# Criando a coluna Index para registrarmos
df = df.reset_index()
df = df.rename(columns={'index': 'id'})
df.head()

Unnamed: 0,id,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price
0,0,Royal Enfield Classic 350,175000,2019,Individual,1st owner,350,
1,1,Honda Dio,45000,2017,Individual,1st owner,5650,
2,2,Royal Enfield Classic Gunmetal Grey,150000,2018,Individual,1st owner,12000,148114.0
3,3,Yamaha Fazer FI V 2.0 [2016-2018],65000,2015,Individual,1st owner,23000,89643.0
4,4,Yamaha SZ [2013-2014],20000,2011,Individual,2nd owner,21000,


In [7]:
# Deixando a coluna ex_showroom_price e selling_price na mesma grandeza
df['selling_price'] = df['selling_price'].astype(float)
df.head()

Unnamed: 0,id,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price
0,0,Royal Enfield Classic 350,175000.0,2019,Individual,1st owner,350,
1,1,Honda Dio,45000.0,2017,Individual,1st owner,5650,
2,2,Royal Enfield Classic Gunmetal Grey,150000.0,2018,Individual,1st owner,12000,148114.0
3,3,Yamaha Fazer FI V 2.0 [2016-2018],65000.0,2015,Individual,1st owner,23000,89643.0
4,4,Yamaha SZ [2013-2014],20000.0,2011,Individual,2nd owner,21000,


### Descrição das Colunas

| Coluna | Descrição |
| :----- | --------: |
| ID | Identificador da linha/registro |
| name | Fabricante e Modelo da Moto |
| selling_price | Preço de Venda |
| year | Ano de Fabricação da Moto |
| seller_type | Tipo de Vendedor - Se é vendedor pessoal ou revendedor |
| owner | Se é primeiro, segundo, terceiro ou quarto dono da moto |
| km_driven | Quantidade de Quilometros percorrido pela moto |
| ex_showroom_price | Preço da motocicleta sem as taxas de seguro e registro |

### Perguntas

#### 1. Quantas motos temos dentro do Dataset?

##### Planejamento

A quantidade de motos é a quantidade de linhas que existem dentro do dataset

##### Resolução

##### Resposta

In [8]:
print(f'A quantidade de motos registradas no Dataset é de {df.shape[0]} motos')

A quantidade de motos registradas no Dataset é de 1061 motos


#### 2. Qual é o ano da moto mais antiga da base de dados?

##### Planejamento

Basta verificarmos qual o menor valor da coluna `year` da base de dados

##### Resolução

##### Resposta

In [9]:
antiga = df[df['year'] == df['year'].min()].iloc[0, 3]
antiga

1988

In [10]:
print(f'O ano da moto mais antiga é {antiga}')

O ano da moto mais antiga é 1988


#### 3. Qual é o ano da moto mais nova da base de dados?

##### Planejamento

Basta verificarmos qual é o maior valor da coluna `year`

##### Resolução

##### Resposta

In [11]:
nova = df[df['year'] == df['year'].max()].iloc[0, 3]
nova

2020

In [12]:
print(f'O da moto mais nova é {2020}')

O da moto mais nova é 2020


#### 4. Qual é o valor da moto mais cara da base de dados?

##### Planejamento

Basta verificarmos qual é o maior valor da coluna `selling_price`

##### Resolução

##### Resposta

In [13]:
cara = df[df['selling_price'] == df['selling_price'].max()].iloc[0, 2]
cara

760000.0

In [14]:
print(f'O valor da mot mais cara da base de dados é U$ {cara:.2f}')

O valor da mot mais cara da base de dados é U$ 760000.00


#### 5. Qual é o valor do hodômotro da moto com a maior quilometragem?

##### Planejamento

Basta verificarmos qual é o maior valor da coluna `km_driven`

##### Resolução

##### Resposta

In [15]:
maior_km = df[df['km_driven'] == df['km_driven'].max()].iloc[0, 6]
maior_km


880000

In [16]:
print(f'A moto que possui a maior quilometragem da base de dados andou {maior_km} Km')

A moto que possui a maior quilometragem da base de dados andou 880000 Km


#### 6. Qual é o valor do hodômotro da moto com a menor quiilometragem?

##### Planejamento

Basta verificarmos qual é o menor valor da coluna `km_driven`

##### Resolução

##### Resposta

In [17]:
menor_km = df[df['km_driven'] == df['km_driven'].min()].iloc[0, 6]
menor_km

350

In [18]:
print(f'A moto que possui a menor quilometragem da base de dados andou {menor_km} Km')

A moto que possui a menor quilometragem da base de dados andou 350 Km


#### 7. Dos valores das motos que que possuem o valor de venda sem as taxas de registro e seguro, qual seria o maior valor registrado na base de dados?

##### Planejamento

Basta verificarmos qual é o maior valor registrado na coluna `ex_showroom_price`

##### Resolução

##### Resposta

In [19]:
ex_cara = df[df['ex_showroom_price'] == df['ex_showroom_price'].max()].iloc[0, -1]
ex_cara

1278000.0

In [20]:
print(f'O maior valor da moto sem as taxas de registro e seguro é de U$ {ex_cara:.2f}')

O maior valor da moto sem as taxas de registro e seguro é de U$ 1278000.00


#### 8. Dos valores das motos que que possuem o valor de venda sem as taxas de registro e seguro, qual seria o menor valor registrado na base de dados?

##### Planejamento

Basta verificarmos qual é o menor valor registrado na coluna `ex_showroom_price`

##### Resolução

##### Resposta

In [21]:
ex_barata = df[df['ex_showroom_price'] == df['ex_showroom_price'].min()].iloc[0, -1]
ex_barata

30490.0

In [22]:
print(f'O maior valor da moto sem as taxas de registro e seguro é de U$ {ex_barata:.2f}')

O maior valor da moto sem as taxas de registro e seguro é de U$ 30490.00


#### 9. Quantas motocicletas estão sendo vendidades pelos seus donos e quantas estão sendo vendidas por outros revendedores?

##### Planejamento

Temos que contar quantas linhas possuem a coluna `seller_type` preenchida com o conteúdo 'Individual' e quantas estão preenchdidas com o conteúdo 'Dealer'. Uma das maneiras de fazermos esse cálculo é agrupar os dados pela coluna `seller_type` e depois realizar uma contagem nos dados

##### Resolução

##### Resposta

In [23]:
df_grouped = df[['id', 'seller_type']].groupby('seller_type')

df_grouped = df_grouped.count().reset_index()

df_grouped = df_grouped.rename(columns={'id': 'count'})

df_grouped

Unnamed: 0,seller_type,count
0,Dealer,6
1,Individual,1055


In [24]:
print(f'Dessa forma, temos {df_grouped.loc[0, "count"]} motos sendo vendidas por revendedores')
print(f'E temos {df_grouped.loc[1, "count"]} motos sendo vendidas por seus donos')

Dessa forma, temos 6 motos sendo vendidas por revendedores
E temos 1055 motos sendo vendidas por seus donos


#### 10. Qual é a média de valores das motos na base de dados?

##### Planejamento

Basta calcularmos a média dos valores da coluna `selling_price`. Uma maneira de realizar esse cálculo é selecionar os dados da coluna `selling_price` e utilizar a função `mean()`.

##### Resolução

##### Resposta

In [25]:
media = df['selling_price'].mean()
media

59638.151743638075

In [26]:
print(f'O valor média do preço de venda das motos é de U$ {media:.2f}')

O valor média do preço de venda das motos é de U$ 59638.15


#### 11. Qual é a média de ano das motos cadastradas dentro da base de dados?

##### Planejamento

Basta calcularmos a média dos valores que estão na coluna `year`.

##### Resolução

##### Resposta

In [27]:
media_y = df['year'].mean()
media_y

2013.8671065032988

In [28]:
print(f'A média do ano das motos da base de dados é {media_y:.2f}')

A média do ano das motos da base de dados é 2013.87


#### 12. Qual é a média de quilometragem das motos cadastradas dentro da base de dados?

##### Planejamento

Basta calcularmos a média dos valores da coluna `km_driven`

##### Resolução

##### Resposta

In [29]:
media_km = df['km_driven'].mean()
media_km

34359.83317624882

In [30]:
print(f'A média de quilometros percorridos das motos da base de dados é de {media_km:.2f} Km')

A média de quilometros percorridos das motos da base de dados é de 34359.83 Km


#### 13. Existem quantas motos dentro da base de dados que são motos de um único dono?

##### Planejamento

Selecionarmos as linhas que possuem a coluna `owner` igual `1st owner` e depois fazer a contagem da quantidade de linhas

##### Resolução

##### Resposta

In [31]:
unico_dono = df[df['owner'] == '1st owner'].shape[0]
unico_dono

924

In [32]:
print(f'A base de dados possui {unico_dono} motos de um único dono')

A base de dados possui 924 motos de um único dono


#### 14. As motos com maior quilometragem são as motos mais baratas do Dataset?

##### Planejamento

Aqui a ideia será categorizar as motos conforme a quantidade de quilometros percorridos. A cada 5 mil quilometros será criada uma nova categoria. E depois, iremos agrupar as categorias e tirar a média de cada categoria, para verificarmos qual é a categoria que tem a menor média de valor.

##### Resolução

##### Resposta

In [8]:
df.head()

Unnamed: 0,id,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price
0,0,Royal Enfield Classic 350,175000.0,2019,Individual,1st owner,350,
1,1,Honda Dio,45000.0,2017,Individual,1st owner,5650,
2,2,Royal Enfield Classic Gunmetal Grey,150000.0,2018,Individual,1st owner,12000,148114.0
3,3,Yamaha Fazer FI V 2.0 [2016-2018],65000.0,2015,Individual,1st owner,23000,89643.0
4,4,Yamaha SZ [2013-2014],20000.0,2011,Individual,2nd owner,21000,


In [10]:
# Função que criará as classes
def create_km_class(km_driven):
    # Cria a categoria a cada 5 mil Km percorridos
    return math.ceil(km_driven / 5000)

In [11]:
# Aplica a classificação das motocicletas
df['km_class'] = df['km_driven'].apply( lambda km_driven: create_km_class(km_driven) )
df.head()

Unnamed: 0,id,name,selling_price,year,seller_type,owner,km_driven,ex_showroom_price,km_class
0,0,Royal Enfield Classic 350,175000.0,2019,Individual,1st owner,350,,1
1,1,Honda Dio,45000.0,2017,Individual,1st owner,5650,,2
2,2,Royal Enfield Classic Gunmetal Grey,150000.0,2018,Individual,1st owner,12000,148114.0,3
3,3,Yamaha Fazer FI V 2.0 [2016-2018],65000.0,2015,Individual,1st owner,23000,89643.0,5
4,4,Yamaha SZ [2013-2014],20000.0,2011,Individual,2nd owner,21000,,5


In [13]:
len(df['km_class'].unique())

32

In [17]:
df_grouped = df[['km_class', 'selling_price']].groupby('km_class')

df_grouped = df_grouped.mean().sort_values('selling_price').reset_index()

df_grouped.head()

Unnamed: 0,km_class,selling_price
0,130,10000.0
1,176,15000.0
2,24,16250.0
3,100,19994.5
4,18,20400.0


Como podemos observar, as motos com maior quilometragem não são as mais baratas na média. Visto que a maior classificação com relação à quilometragem percorrida é de 177.

### Salvando o Progresso

Como já respondemos algumas perguntas e fizemos algumas alterações em nosos Dataset, como limpeza e criação de novas colunas, para não termos que refazer tudo isso, vamos converter o nosso DataFrame em um arquivo .csv para que nas próximas aulas o DataFrame tratado fique disponível para nós

In [56]:
df.to_csv('csv/exported/aula_11.csv', index=False)