#Introdução Machine Learning
---
**Aula Prática 01**: Tratamento de dados

**Objetivo**: Análise exploratória dos dados e tratamento deles.

Banco de dados:

Preço de carros usados

[Disponível no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Descrição dos dados:
* car_name: nome do carro
* registration_year: ano de registro
* insurance_validity: tipo de seguro
* fuel_type: tipo de combustível
* seats: número de assentos
* kms_drive: total km dirigidos
* ownsership: número de proprietários
* transmission: tipo de câmbio
* manufacturing_year: ano de fabricação
* mileage(kmpl): km por litro
* engine (cc): tamanho do motor
* max_power(bhp): potência do carro
* torque(Nm): torque do motor
* price (in lakhs): preço em lakhs (medida indiana para 100.000)

##Import das principais funções e leitura dos dados


---



In [None]:
import pandas as pd #pacote para leitura dos dados
import numpy as np

In [None]:
#opção 1 -> montar o drive no colab e acessar o arquivo
#from google.colab import drive
#drive.mount('/content/drive')


#opção 2 -> fazer download e fazer upload por aqui
from google.colab import files
uploaded = files.upload()

In [None]:
path = 'Used Car Dataset.csv'
df = pd.read_csv(path)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

##Exploratória dos dados
---
Sugestões de análise exploratória

* Para dados contínuos ou inteiros utilizar a função describe do pandas para obter estatísticas descritivas.
* Utilizar visualizações como boxplot e histograma para dados numéricos
* Utilizar visualizações como gráfico de barras para dados categóricos
* Utilizar a função value_counts do pandas para contar a frequência de cada categoria
* Realizar análise de correlação
* Criar gráficos com mais de uma variável

**Pergunta**

Qual das nossas variáveis são contínuas e quais são categóricas?

In [None]:
#renomear as colunas

df = df.rename(columns = {'mileage(kmpl)':'mileage',
                          'engine(cc)':'engine',
                          'max_power(bhp)': 'max_power',
                          'torque(Nm)': 'torque',
                          'price(in lakhs)': 'price'})

df.drop(columns='Unnamed: 0', inplace=True)

### Descritivas

Funções no pandas para descrição dos dados

``` python
#Descritiva dos dados
df['col_numerica'].describe()

df[['col_numerica_1', 'col_numerica_2']].describe()

df['col_numerica'].mean()
df['col_numerica'].median()
df['col_numerica'].var()
df['col_numerica'].quantile([.9, .95, .99])


df['col_categorica'].value_counts()
#Contagem normalizada (soma deve dar 100)
df['col_categorica'].value_counts(normalize=True)
```

**Utilizando estes comandos responda as perguntas:**
* Qual a média da variável mileage?
* Alguma variável apresenta presença de outliers (valores discrepantes)?
* Quantas categorias há na variável fuel_type? Qual é a mais presente?

### Visualização

Iremos utilizar o pacote plotly

``` python
import plotly.express as px

#Gráfico de violino (boxplot + distribuição)
px.violin(data_frame=df, x='column')
px.violin(data_frame=df, x='column', color='column_cat')
px.violin(data_frame=df, x='column', box=True)

#Histograma dos dados
px.histogram(data_frame=df, x='column')
px.histogram(data_frame=df, marginal='box')

#Gráfico de barras
px.bar(data_frame=df, x='column')
```

**Utilizando estes comandos responda as perguntas:**

* Há outlier na variável mileage? Há um volume grande de outliers?
* A distribuição de kms_driven é a mesma por fuel_type (remova a categoria em que fuel_type=5 seats)?
* Para a variável ownership qual a categoria mais frequente?

In [None]:
import plotly.express as px
?px.violin

Para realizar análises que relaciona os dados utilize os comandos

```python
#Scatter plot de duas variáveis
px.scatter(data_frame=df, x='column', y='column')
px.scatter(data_frame=df, x='column', y='column', marginal_x='histogram', marginal_y='box')

#Análise de correlação
df.corr()
```



In [None]:
px.scatter(data_frame=df,
           x='kms_driven',
           y='torque',
           marginal_y='box',
           marginal_x='histogram')

In [None]:
df.corr(numeric_only=True)

##Tratamento dos dados
---

* Dados duplicados
* Dados faltantes
* Dados estranhos

```python
# Indicativo se o dado é duplicado ou não
df.duplicated()
# Indicativo se o dado é duplicado ou não com referência a uma coluna
df.duplicated(['colunas'])

# Indicativo se o dado é na ou nulo
df.isna()
df.isnull()

# Preencher dado faltante
df['coluna'].fillna(valor)
```

Responda:
* Há dados duplicados no banco? Quantos
* Há campos com dados faltantes? Quais campos? Quantos?

Faça:
* Remova as duplicadas do dado
* Preencha os na com a mediana
* Remova as categorias estranhas para ownsership