# Introdução à Análise Exploratória de Dados (EDA)
---
**Aula Prática 01**: Tratamento de dados

**Objetivo**: Entender a importância da análise exploratória de dados e aprender técnicas básicas para explorar e descrever dados.

A análise exploratória de dados (EDA) é uma etapa crucial no processo de análise de dados. Ela nos ajuda a entender a estrutura dos dados, identificar padrões, detectar anomalias e testar hipóteses. Nesta aula, vamos aprender a realizar EDA usando o Pandas e o Plotly em Python.

**Banco de dados**: Preço de carros usados

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)


[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Descrição dos dados:
* car_name: nome do carro
* registration_year: ano de registro
* insurance_validity: tipo de seguro
* fuel_type: tipo de combustível
* seats: número de assentos
* kms_drive: total km dirigidos
* ownsership: número de proprietários
* transmission: tipo de câmbio
* manufacturing_year: ano de fabricação
* mileage(kmpl): km por litro
* engine (cc): tamanho do motor
* max_power(bhp): potência do carro
* torque(Nm): torque do motor
* price (in lakhs): preço em lakhs (medida indiana para 100.000)

## Importação das Principais Funções e Leitura dos Dados
---

Vamos começar importando as bibliotecas necessárias. O Pandas é uma biblioteca poderosa para manipulação de dados, e o NumPy é útil para operações numéricas.

In [1]:
import pandas as pd #pacote para leitura dos dados
import numpy as np

Em seguida, vamos carregar os dados. Você pode fazer o upload do arquivo diretamente no Colab.

In [3]:
#opção 1 -> montar o drive no colab e acessar o arquivo
#from google.colab import drive
#drive.mount('/content/drive')


#opção 2 -> fazer download e fazer upload por aqui
from google import files
uploaded = files.upload()

ModuleNotFoundError: No module named 'google'

In [4]:
path = 'Used Car Dataset.csv'
df = pd.read_csv(path)

#### Visualização Inicial dos Dados
Adicionar explicações sobre o que cada função faz.

A função head() exibe as primeiras 5 linhas do DataFrame. Isso nos dá uma ideia de como os dados estão organizados.

Também podemos verificar o tamanho do DataFrame e os tipos de dados em cada coluna.

In [6]:
df.head()

Unnamed: 0.1,Unnamed: 0,car_name,registration_year,insurance_validity,fuel_type,seats,kms_driven,ownsership,transmission,manufacturing_year,mileage(kmpl),engine(cc),max_power(bhp),torque(Nm),price(in lakhs)
0,0,2017 Mercedes-Benz S-Class S400,Jul-17,Comprehensive,Petrol,5,56000,First Owner,Automatic,2017,7.81,2996.0,2996.0,333.0,63.75
1,1,2020 Nissan Magnite Turbo CVT XV Premium Opt BSVI,Jan-21,Comprehensive,Petrol,5,30615,First Owner,Automatic,2020,17.4,999.0,999.0,9863.0,8.99
2,2,2018 BMW X1 sDrive 20d xLine,Sep-18,Comprehensive,Diesel,5,24000,First Owner,Automatic,2018,20.68,1995.0,1995.0,188.0,23.75
3,3,2019 Kia Seltos GTX Plus,Dec-19,Comprehensive,Petrol,5,18378,First Owner,Manual,2019,16.5,1353.0,1353.0,13808.0,13.56
4,4,2019 Skoda Superb LK 1.8 TSI AT,Aug-19,Comprehensive,Petrol,5,44900,First Owner,Automatic,2019,14.67,1798.0,1798.0,17746.0,24.0


In [7]:
df.shape

(1553, 15)

In [8]:
df.dtypes

Unnamed: 0              int64
car_name               object
registration_year      object
insurance_validity     object
fuel_type              object
seats                   int64
kms_driven              int64
ownsership             object
transmission           object
manufacturing_year     object
mileage(kmpl)         float64
engine(cc)            float64
max_power(bhp)        float64
torque(Nm)            float64
price(in lakhs)       float64
dtype: object

## Análise Exploratória
---
Sugestões de análise exploratória

* Para dados contínuos ou inteiros utilizar a função describe do pandas para obter estatísticas descritivas.
* Utilizar visualizações como boxplot e histograma para dados numéricos
* Utilizar visualizações como gráfico de barras para dados categóricos
* Utilizar a função value_counts do pandas para contar a frequência de cada categoria
* Realizar análise de correlação
* Criar gráficos com mais de uma variável

**Pergunta**

Qual das nossas variáveis são contínuas e quais são discretas?

In [9]:
#renomear as colunas

df = df.rename(columns = {'mileage(kmpl)':'mileage',
                          'engine(cc)':'engine',
                          'max_power(bhp)': 'max_power',
                          'torque(Nm)': 'torque',
                          'price(in lakhs)': 'price'})

df.drop(columns='Unnamed: 0', inplace=True)



### Descritivas

Vamos usar a função `describe()` do Pandas para obter estatísticas descritivas das variáveis numéricas.

A função `describe()` retorna estatísticas como média, mediana, desvio padrão, valores mínimos e máximos, e os quartis.

Para algumas estatísticas específicas, podemos usar funções próprias:

* Média: `mean()`
* Mediana: `median()`
* Variância: `var()`
* Quantis: `quantile()`

Para variáveis categóricas, utilizamos a função `value_counts()`, que fornece a distribuição das categorias.

* value_counts(): Conta a frequência de cada categoria em uma variável categórica.
* value_counts(normalize=True): Conta a frequência de cada categoria em uma variável categórica, normalizando os valores para que a soma seja 1 (ou 100%).


``` python
#Descritiva dos dados
df['col_numerica'].describe()

df[['col_numerica_1', 'col_numerica_2']].describe()

df['col_numerica'].mean()
df['col_numerica'].median()
df['col_numerica'].var()
df['col_numerica'].quantile([.9, .95, .99])

df['col_categorica'].value_counts()
#Contagem normalizada (soma deve dar 100)
df['col_categorica'].value_counts(normalize=True)
```

**Utilizando estes comandos, responda às perguntas:**
* Qual a média da variável mileage?
* Alguma variável apresenta presença de outliers (valores discrepantes)?
* Quantas categorias há na variável fuel_type? Qual é a mais presente?

### Visualização

Iremos utilizar o pacote plotly

Vamos criar algumas visualizações para entender melhor os dados.

Boxplot
Um boxplot é útil para identificar outliers e entender a distribuição dos dados.

Histograma
Um histograma mostra a distribuição de uma variável numérica.

Gráfico de Barras
Um gráfico de barras é útil para visualizar a frequência de categorias.

``` python
import plotly.express as px

#Gráfico de violino (boxplot + distribuição)
px.violin(data_frame=df, x='column')
px.violin(data_frame=df, x='column', color='column_cat')
px.violin(data_frame=df, x='column', box=True)

#Histograma dos dados
px.histogram(data_frame=df, x='column')
px.histogram(data_frame=df, marginal='box')

#Gráfico de barras
px.bar(data_frame=df, x='column')
```

**Utilizando estes comandos responda as perguntas:**

* Há outlier na variável mileage? Há um volume grande de outliers?
* A distribuição de kms_driven é a mesma por fuel_type (remova a categoria em que fuel_type=5 seats)?
* Para a variável ownership qual a categoria mais frequente?

In [None]:
df[df.fuel_type != '5 Seats'].shape

In [None]:
df[df.fuel_type.isin(['Petrol', 'Diesel'])]

##Tratamento dos dados
---


* Dados duplicados
* Dados faltantes
* Dados estranhos


```python
# Indicativo se o dado é duplicado ou não
df.duplicated()
# Indicativo se o dado é duplicado ou não com referência a uma coluna
df.duplicated(['colunas'])


# Indicativo se o dado é na ou nulo
df.isna()
df.isnull()


# Preencher dado faltante
df['coluna'].fillna(valor)
```

Responda:
* Há dados duplicados no banco? Quantos
* Há campos com dados faltantes? Quais campos? Quantos?


Faça:
* Remova as duplicadas do dado
* Preencha os na com a mediana
* Remova as categorias estranhas para ownsership