# Exploratory Data Analysis



O objetivo da análise exploratória de dados (*Exploratory Data Analysis* - EDA) é conhecer os dados. Isto nos ajuda a:

- *conhecer a natureza dos dados*:
    - Importante para construir teses de extração de valor a partir destes: o que será que podemos obter destes dados para trazer mais valor ao nosso negócio?
    - Descobrir anomalias nos dados originais:
        - dados faltantes;
        - *outliers*: dados raros porém legítimos;
        - *erros e inconsistências de formatação*: dados registrados de forma errônea ou com formatos inconsistentes (e.g. datas em formatos diferentes ao longo do conjunto de dados)
- *formular teses*:
    - construir e validar mecanismos explicativos para a criação dos dados;
- *construir modelos*:
    - Modelos explicativos: 
        - baseados em formulação de teses explicativas, e geralmente são chamados de *interpretáveis*, pois seus parâmetros correspondem a idéias da tese explicativa. 
        - Por exemplo: criar um modelo linear baseado na tese de que a variável dependente se relaciona linearmente com as variáveis independentes, a menos de um ruído independente e de média zero. 
        - Os parâmetros deste modelo são comumente associados a fenômenos físicos/econômicos/biológicos/sociológicos, etc..
        - Um dos objetivos centrais da *Estatística*
    - Modelos preditivos não-interpretáveis: 
        - Também chamados de modelos *caixa-preta*, não permitem uma análise que associe seus parâmetros internos a alguma tese simples de funcionamento dos dados. 
        - Geralmente são modelos com maior capacidade preditiva (mas nem sempre). 
        - Este é um dos pontos centrais do *Machine Learning*. 

# Um projeto de *machine learning*

Vamos construir um exemplo de projeto de *machine learning* nestas primeiras aulas. Para isso vamos usar um *dataset* de preços de carros usados.

## Obtendo os dados

O *dataset* vem do *site* 'Kaggle' (https://www.kaggle.com/). Sempre que possível é bom automatizar o processo de *download*, descompactação e leitura dos dados.

In [1]:
import shutil
import zipfile
from pathlib import Path

import pandas as pd
import requests

DATA_DIR = Path.cwd().resolve().parents[1] / 'datasets' / 'car_price'
CAR_DATASET_URL = 'https://www.kaggle.com/api/v1/datasets/download/asinow/car-price-dataset'


def fetch_car_dataset(raw_dataset_path: Path, data_dir: Path) -> None:
    data_dir.mkdir(parents=True, exist_ok=True)
    response = requests.get(CAR_DATASET_URL)
    response.raise_for_status()
    with open(raw_dataset_path, 'wb') as f:
        f.write(response.content)


def unpack_car_dataset(raw_dataset_path: Path, data_dir: Path) -> None:
    with zipfile.ZipFile(raw_dataset_path, 'r') as zip_ref:
        zip_ref.extractall(data_dir)


def fetch_and_unpack_car_dataset(data_dir: Path) -> None:
    raw_dataset_path = data_dir / 'car_price_dataset.zip'
    fetch_car_dataset(raw_dataset_path, data_dir)
    unpack_car_dataset(raw_dataset_path, data_dir)


def load_car_dataset(data_dir: Path) -> None:
    dataset_path = data_dir / 'car_price_dataset.csv'
    if not dataset_path.exists():
        fetch_and_unpack_car_dataset(data_dir)
    dataset = pd.read_csv(dataset_path)
    return dataset

In [2]:
dataset = load_car_dataset(DATA_DIR)

In [3]:
dataset.head()

Unnamed: 0,Brand,Model,Year,Engine_Size,Fuel_Type,Transmission,Mileage,Doors,Owner_Count,Price
0,Kia,Rio,2020,4.2,Diesel,Manual,289944,3,5,8501
1,Chevrolet,Malibu,2012,2.0,Hybrid,Automatic,5356,2,3,12092
2,Mercedes,GLA,2020,4.2,Diesel,Automatic,231440,4,2,11171
3,Audi,Q5,2023,2.0,Electric,Manual,160971,2,1,11780
4,Volkswagen,Golf,2003,2.6,Hybrid,Semi-Automatic,286618,3,3,2867
