# Um projeto de *machine learning*

**Objetivos:**

- Aprender sobre o processo CRISP-DM;
- Aplicar o CRISP-DM a um projeto real de *machine learning*;
- Praticar análise exploratória;
- Construir *pipelines* de processamento de dados em scikit-learn;
- Entender o processo de construção, escolha e avaliação de modelos de *machine learning*;

## O processo CRISP-DM

CRISP-DM: CRoss-Industry Standard Process for Data Mining

***Atividade***: Leia o artigo "The CRISP-DM Model: The New Blueprint for Data Mining" (arquivo [`crisp-dm.pdf`](../resources/crisp-dm.pdf)) e responda:

1. O CRISP-DM é um processo de gerenciamento de equipes ou de estruturação de projetos?

---

CRISP-DM é um método de estruturação de projetos de "Data Mining", um nome antigo para o que hoje chamamos geralmente de "Ciência dos Dados". O método CRISP-DM especifica quais atividades devem acontecer em um projeto típico de ciência dos dados, sem especificar como a equipe de trabalho deve se organizar - e.g. SCRUM.

---


2. Construa uma explicação do ciclo do CRISP-DM conforme visto na figura abaixo. Preste atenção especial para o fato de que temos setas bidirecionais entre "Business Understanding" e "Data Understanding", e entre "Data Preparation" e "Modeling" - porque os autores se deram ao trabalho de fazer isso?

![CRISP-DM diagram](../resources/crisp-dm.png)

Fonte: Kenneth Jensen, CC BY-SA 3.0 <https://creativecommons.org/licenses/by-sa/3.0>, via Wikimedia Commons. https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_Diagram.png

---

Podemos observar alguns elementos sugestivos na figura acima:

- No centro da figura temos uma imagem representando a base de dados. Isto indica a proeminência dos dados - sua disponibilidade, seu entendimento, questões éticas e de segurança, etc - em todas as fases do projeto de *data science*.

- Na região externa da figura temos um grande círculo indicando:

    - A direção do fluxo do projeto;

    - O fato de que um projeto de ciência dos dados é feito de modo iterativo, onde as lições aprendidas em um ciclo do projeto são incorporadas à próxima iteração. Desta forma, existe um aperfeiçoamento contínuo do projeto, e mesmo uma reavaliação periódica de seus objetivos. Tal filosofia de desenvolvimento de projetos se assemelha ao desenvolvimento ágil de software, onde reconhece-se primordialmente que projetos desta natureza (seja desenvolvimento de software ou ciência dos dados) possuem uma grande incerteza inicial em relação aos objetivos e ao potencial do projeto, e que portanto a construção de valor tem que ser progressiva.

- Na região intermediária da figura existe um diagrama de blocos que representa a sequência de etapas do ciclo de projeto, com destaque para três fases:

    - A interação $\text{"Business Understanding"} \rightleftarrows \text{"Data Understanding"}$: Indica a importância da construção de conhecimento compartilhado entre profissionais complementares:

        - O especialista de negócios: entende o contexto do problema à qual o projeto se destina, e auxilia na concepção de objetivos que agregam valor ao negócio. Transfere conhecimento de contexto do problema e da natureza da origem dos dados ao especialista de dados. Ajusta seu próprio entendimento do potencial do projeto ao receber do especialista de dados mais conhecimento sobre a real informação contida nos dados, suas limitações e potenciais;

        - O especialista de dados: Tal qual um arquiteto que traduz os desejos do cliente em algo factível frente às limitações do mundo real, o especialista de dados explora os dados junto com o especialista de negócios para construir um entendimento conjunto destes dados, e do que se pode obter destes (insights, modelagem preditiva, etc)

        Nesta fase constrói-se o conjunto de objetivos do ciclo atual de desenvolvimento.

    - A interação $\text{"Data preparation"} \rightleftarrows \text{"Modeling"}$: 
    
        Preparação e modelagem de dados não são atividades estanques. Cada modelo requer uma preparação diferente, e a gama de modelos existentes é muito grande. Ademais, ao experimentar com o uso de um modelo pode-se descobrir que pode ser vantajoso processar os dados de maneira diferente, para um mesmo modelo. Esta manipulação de processamento e modelagem é um processo criativo, porém sujeito à rigorosa avaliação. Realizam-se iterações nesta fase até que um desempenho satisfatório seja atingido - ou que se estabeleça que talvez um desempenho satisfatório não seja possível, e que a fase de "Evaluation" a seguir deverá provavelmente enviar o fluxo de projeto para o ponto de partida.

        Nesta fase escolhe-se a melhor combinação pré-processamento/modelagem para o conjunto de dados de <span style="color:red;font-weight:bold">TREINO</style>.

    - O ponto de decisão "Evaluate" e os fluxos resultantes:

        Neste ponto devemos tomar a pipeline de processamento e modelagem advinda do processo anterior e avaliar seu desempenho em um conjunto de dados de <span style="color:red;font-weight:bold">TESTE</style>.

        Se o desempenho de <span style="color:red;font-weight:bold>teste</span> for satisfatório podemos seguir para a fase "Deployment". Nesta fase iremos produzir um artefato deste ciclo de trabalho que traga valor para o negócio, similar ao "minimum-viable-product" do desenvolvimento ágil. Este artefato pode ser um relatório com insights e lições aprendidas neste ciclo de análise dos dados, um novo conjunto de código e de parâmetros de modelo a ser utilizado em uma aplicação (e.g. em um microsserviço de predição que faz parte de um produto online da empresa), etc.

        Se o desempenho de <span style="color:red;font-weight:bold">teste</span> não for satisfatório, devemos tomar as lições aprendidas e retornar ao sub-ciclo $\text{"Business Understanding"} \rightleftarrows \text{"Data Understanding"}$ e levar esse novo conhecimento em consideração para melhorar o entendimento global do problema e recomeçar a modelagem com maiores chances de sucesso.

Após o "Deployment" em um ciclo bem-sucedido de projeto, devemos decidir se o projeto chegou a um estado final (seja um estado satisfatório ou porque houve uma decisão executiva de parar o projeto). Caso o projeto ainda deva continuar, iniciamos um novo ciclo.

---

3. Segundo o artigo, qual a porcentagem do tempo que se gasta, tipicamente, em cada uma das fases?

No artigo, página 15, segunda coluna, segundo parágrafo, lê-se:

> Generally accepted industry timeline standards are: $50$ to $70$
> percent of the time and effort in a data mining project involves
> the Data Preparation Phase; $20$ to $30$ percent involves the Data
> Understanding Phase; only $10$ to $20$ percent is spent in each of
> the Modeling, Evaluation, and Business Understanding Phases;
> and $5$ to $10$ percent is spent in the Deployment Planning Phase.

Essas frações não somam 100% porque existe sobreposição entre as fases:

- "Business Understanding" e "Data Understanding": duração total de $20\%$ a $30\%$
- "Data Preparation" e "Modeling": duração total de $50\%$ a $70\%$
- "Evaluation" e "Deployment": $10\%$ a $20\%$

Somando-se as durações médias das fases temos $25\% + 60\% + 15\%$ totalizando $100\%$.

## *California Housing*

Vamos trabalhar com um *dataset* de imóveis residenciais da Califórnia nos anos 1990.

### Obtendo os dados

In [1]:
from pathlib import Path

DATA_DIR = Path.cwd().parents[1] / 'datasets' / 'housing'
print(f'Saving data to {DATA_DIR}')

Saving data to /home/fjayres/dev/ml_labs/labs/datasets/housing


In [2]:
import tarfile
from urllib import request


def fetch_housing_data(data_dir: Path) -> None:
    '''Downloads the California Housing Prices dataset.

    Downloads the California Housing Prices dataset from Aurelien Geron's
    GitHub repository and saves it to the specified directory.

    Args:
        data_dir: The directory to which the dataset will be saved.

    Returns:
        None
    '''
    if not data_dir.exists():
        data_dir.mkdir(parents=True)

    # Fetch the housing data.
    HOUSING_URL = ('https://raw.githubusercontent.com/ageron/handson-ml2/'
                   'master/datasets/housing/housing.tgz')
    tgz_path = data_dir / 'housing.tgz'
    request.urlretrieve(HOUSING_URL, tgz_path)

    # Extract the housing data.
    with tarfile.open(tgz_path) as housing_tgz:
        housing_tgz.extractall(path=data_dir, filter='data')

In [3]:
fetch_housing_data(DATA_DIR)

In [4]:
import pandas as pd


def load_housing_data(data_dir: Path) -> pd.DataFrame:
    '''Loads the California Housing Prices dataset.

    Loads the California Housing Prices dataset from the specified directory.

    Args:
        data_dir: The directory from which the dataset will be loaded.

    Returns:
        A pandas DataFrame containing the California Housing Prices dataset.
    '''
    csv_path = data_dir / 'housing.csv'
    df = pd.read_csv(csv_path)
    return df

In [5]:
data = load_housing_data(DATA_DIR)

print(f'O dataset tem {data.shape[0]} linhas e {data.shape[1]} colunas.')
print('As colunas são:')
for column_name in data.columns:
    print(f'- "{column_name}"')


O dataset tem 20640 linhas e 10 colunas.
As colunas são:
- "longitude"
- "latitude"
- "housing_median_age"
- "total_rooms"
- "total_bedrooms"
- "population"
- "households"
- "median_income"
- "median_house_value"
- "ocean_proximity"


### Entendimento do negócio

Esses dados representam informações censitárias acerca de *distritos* residenciais no estado da California na década de 1990.

Atividade: Baseado nos nomes das colunas, você conseguiria escrever o significado de cada coluna?

Resposta: não muito bem.

Consultando o livro-texto da disciplina, capítulo 2, aprendemos que esses dados se referem aos distritos (conforme escrito no enunciado) e, portanto, são um pouco estranhos. Provavelmente significam, para cada distrito, o seguinte:

- `longitude`: a longitude do centro;
- `latitude`: a latitude do centro;
- `housing_median_age`: a idade mediana dos imóveis;
- `total_rooms`: essa é estranha, é a quantidade **total** de cômodos no distrito. Ou seja, a soma do número de cômodos de todos os imóveis;
- `total_bedrooms`: a soma do número de *quartos* de todos os imóveis;
- `population`: quantas pessoas moram no distrito;
- `households`: número de imóveis;
- `median_income`: renda mediana dos moradores do distrito;
- `median_house_value`: o valor mediano dos imóveis do distrito. Esta é a nossa variável a ser predita;
- `ocean_proximity`: só pelo nome é difícil saber a natureza exata desta variável. Trata-se de uma variável *categórica* indicando o "status" do distrito em relação à sua proximidade com o oceano Pacífico.

Atividade: Escreva o objetivo de negócios deste projeto

Nosso objetivo é prever o valor mediano dos imóveis de um distrito residencial da Califórnia, baseado em uma série de atributos deste conforme visto acima.

### Análise exploratória

O objetivo da análise exploratória é "conhecer" os dados:

- Qual a distribuição de cada *feature*?

- Qual a natureza de cada *feature*?

    - Unidade de medida

    - Se é estritamente positiva ou se pode ser positiva ou negativa

    - Para que serve?

- Quais e como são as distribuições conjuntas de *features*? Em particular, como as *features* se relacionam com o *target*?

- Existem anomalias e erros?

    - Dados faltantes

    - "Saturação" de dados

    - Outliers

    - Desbalanceamento de classes

    - Dados duplicados

#### Análise exploratória: antes ou depois da separação treino-teste?

Durante o processo de modelagem vamos dividir os dados em dois conjuntos: "dados de treino" e "dados de teste". Devemos treinar nossos modelos com o conjunto de dados de treino, e avaliar seu desempenho no conjunto de teste, para que não nos enganemos com desempenhos preditivos excelentes no conjunto de treino e que não se reproduzem no conjunto de teste!

Atividade: Como se chama o fenômeno no qual temos um excelente desempenho no conjunto de treino e um desempenho bem menor no conjunto de teste?

<center><span style="color:red;font-weight:bold;font-size:30px">OVERFITTING!</span></center>

Quando devemos fazer a análise exploratória?

- Antes da separação treino-teste, ou seja, no conjunto de dados completo?

- Depois da separação treino-teste, ou seja, usando apenas o conjunto de dados de treino?

Esta é uma pergunta difícil de responder.

- Analisar antes da separação:

    - Vantagens: todo o conjunto de dados de exemplo que foi coletado está á nossa disposição para estudo, o que torna mais fácil a detecção de anomalias raras, como outliers ou a ocorrência de categorias raras em *features* categóricas.

    - Desvantagens: corremos o risco de "data snooping" ("bisbilhotar" os dados), onde acabamos por aprender algo sobre os dados que pode impactar de modo "injusto" nossa modelagem - é como se estivéssemos "overfittando" sem querer!

- Analisar depois da separação:

    - Vantagens: reduz o risco de "data snooping"

    - Desvantagens: podemos não perceber anomalias e erros raros nos dados, que podem impactar nossa modelagem de uma forma que é difícil de identificar.

O que fazer então? Em geral, queremos balancear o risco de "data snooping" com o risco de não entender os detalhes mais finos e raros dos dados. Portando a recomendação é fazer análises exploratórias antes e depois da separação, com objetivos diferentes:

- Análise exploratória antes da separação: faça apenas análises globais e simples, para checar a sanidade dos dados e realizar filtragens simples. Evite análises que conectem as *features* com o *target*.

- Análise exploratória depois da separação: você está livre para explorar o que quiser.

Vamos fazer uma primeira análise dos dados, apenas para checar a integridade destes.

In [6]:
data.head(n=5)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


Atividade: Acompanhe o desenvolvimento da análise exploratória a ser feito pelo professor.

---

Nossa exploração terá três fases:

- Análise exploratória preliminar
- Separação treino-teste
- Análise exploratória complementar

É importante distinguir a análise exploratória realizada antes da separação de dados em conjuntos de treino e teste, daquela posterior a esta separação, para evitar o *"data snooping"* descrito acima.

#### Análise exploratória

Nesta fase vamos conhecer a natureza dos dados sem explorar suas interrelações, em especial não vamos explorar a conexão entre as *features* e o *target*.

Vamos proceder da seguinte forma:

<table>

<tr>
<th> Etapa </th>
<th> Objetivos </th>
<th> Ferramentas </th>
</tr>

<tr>

<td>
    Uma análise global do volume de dados
</td>

<td>
    <ul>
    <li> Quais são as <em>features</em>?</li>
    <li> Quem é o <em>target</em>?</li>
    <li> Quais variáveis são contínuas e quais são categóricas?</li>
    <li> Existem dados faltantes? </li>
    <li> Existem dados duplicados? </li>
    </ul>
</td>

<td>
    <div>
    <ul>
    <li> Número de linhas e colunas </li>
    <li> Tipo de dados de cada coluna </li>
    <li> Remoção de linhas duplicadas <em>se isso realmente for um erro</em> </li>
    </ul>
    </div>
</td>
</tr>

<tr>

<td>
    Uma primeira análise da natureza das features
</td>

<td>
    <ul>
    <li> Qual a unidade de medida de cada variável? </li>
    <li> Existem anomalias? 
        <ul>
            <li> <em>outliers</em> </li>
            <li> erros grosseiros </li>
            <li> <em>spikes</em> </li>
        </ul>
    </li>
    <li> Para cada variável contínua
        <ul>
            <li> Simétrica? </li>
            <li> Estritamente positiva/negativa? </li>
            <li> Unimodal / multimodal? </li>
            <li> Cauda longa à direita/esquerda? </li>
        </ul>
    </li>
    <li> Para cada variável categórica
        <ul>
            <li>Categorias raras?</li>
            <li>Categorias dominantes?</li>
        </ul>
    </li>
    </ul>
</td>

<td>
    <ul>
    <li>Medidas descritivas de posição e espalhamento</li>
    <li>Histogramas</li>
    <li>Tabelas de frequência</li>
    <li>Gráficos de barra</li>
    </ul>
</td>

</tr>

</table>

##### Análise global

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


As colunas do tipo `float64` são todas contínuas neste exemplo. Isso nem sempre é verdade: pode ser que tenhamos uma variável categórica que foi lida como `float64` por engano! Sempre verifique a natureza das suas variáveis.

A feature `ocean_proximity` é do tipo `object`, que é o tipo de dados que o Pandas associa a qualquer coisa que não seja um número. 

Vamos conferir os tipos de dados espiando as primeiras linhas do *dataset*:

In [9]:
data.head(n=5)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Parece que estamos corretos. Vamos registrar as descrições e unidades de medida de cada variável:

| Variável             | Unidade de medida  | Descrição                                         |
|----------------------|--------------------|---------------------------------------------------|
| `longitude`          | graus              | a longitude do centro                             |
| `latitude`           | graus              | a latitude do centro                              |
| `housing_median_age` | anos               | a idade mediana dos imóveis                       |
| `total_rooms`        | n/a - contagem     | soma do número de cômodos de todos os imóveis     |
| `total_bedrooms`     | n/a - contagem     | a soma do número de *quartos* de todos os imóveis |
| `population`         | n/a - contagem     | quantas pessoas moram no distrito                 |
| `households`         | n/a - contagem     | número de imóveis                                 |
| `median_income`      | US$ $\times 10000$ | renda mediana dos moradores do distrito           |
| `median_house_value` | US$                | o valor mediano dos imóveis do distrito           |
| `ocean_proximity`    | n/a - categoria    | categoria de proximidade com o oceano Pacífico    |

As informações aqui foram obtidas do livro-texto da disciplina, capítulo 2, que está servindo de "Business Expert" para a gente.

### Filtragem

Atividade: Baseado no que aprendemos na análise exploratória, escreva um código para filtrar o *dataset*. Não modifique as colunas, apenas aceite ou rejeite cada linha de dados.

Salve o resultado do processamento na forma de um arquivo "Parquet": https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_parquet.html

## Processamento dos dados e Pipelines

## Escolha de modelos

## Avaliação