# Preparar e Tratar Dados

Antes de analisar os dados, um Cientista de Dados deve extraí-los e torná-los limpos e valiosos.

## Extraindo e lendo dados com Pandas

Antes que os dados possam ser analisados, eles devem ser importados/extraídos.

Utilizamos a read_csv()função para importar um arquivo CSV com os dados de saúde:

In [None]:
import pandas as pd

health_data = pd.read_csv("data.csv", header=0, sep=",")

print(health_data)

Exemplo explicado

    Importe a biblioteca Pandas.

    Nomeie o quadro de dados como health_data.

    header=0 significa que os cabeçalhos dos nomes das variáveis ​​podem ser encontrados na primeira linha, linha 0.

    sep=","significa que "," é usado como separador entre os valores. Isso ocorre porque estamos usando o tipo de arquivo .csv (valores separados por vírgula)

Dica: Se tiver um arquivo CSV grande, poderá usar a função head() para mostrar apenas as 5 linhas principais:

In [None]:
import pandas as pd

health_data = pd.read_csv("data.csv", header=0, sep=",")

print(health_data.head())

Limpeza de dados

| Duration | Average_Pulse | Max_Pulse | Calorie_Burnage | Hours_Work | Hours_Sleep |
|----------|---------------|-----------|-----------------|------------|-------------|
| 30       | 80            | 120       | 240             | 10         | 7           |
| 45       | 85            | 120       | 250             | 10         | 7           |
| 45       | 90            | 130       | 260             | 8          | 7           |
| 60       | 95            | 130       | 270             | 8          | 7           |
| 60       | 100           | 140       | 280             | 0          | 7           |
| 60       | 105           | 140       | 290             | 7          | 8           |
| 60       | 110           | 145       | 300             | 7          | 8           |
| 45       | NaN              | AF        | NaN                | 8          | 8           |
| 45       | 115           | 145       | 310             | 8          | 8           |
| 60       | 120           | 150       | 320             | 0          | 8           |
| 60       | 9000          | 130       | NaN                | NaN           | 8           |
| 45       | 125           | 150       | 330             | 8          | 8           |

Veja os dados importados. Como você pode ver, os dados estão "sujos" com valores errados ou não registrados:
Dados sujos

    Existem alguns campos em branco = NaN

    Pulso médio de 9.000 não é possível.

    9.000 serão tratados como não numéricos, devido ao separador de espaço

    Uma observação do pulso máximo é denotada como "AF", o que não faz sentido

Portanto, devemos limpar os dados para realizar a análise.

# Remover linhas em branco

Vemos que os valores não numéricos (9.000 e AF) estão nas mesmas linhas com valores ausentes.

    Solução: podemos remover as linhas com observações ausentes para corrigir esse problema.

    Quando carregamos um conjunto de dados usando Pandas, todas as células em branco são automaticamente convertidas em valores “NaN”.

    Portanto, remover as células NaN nos dá um conjunto de dados limpo que pode ser analisado.

Podemos usar a função dropna() para remover os NaNs.

axis=0 significa que queremos remover todas as linhas que possuem um valor NaN:

In [None]:
health_data.dropna(axis=0,inplace=True)

print(health_data)

O resultado é um conjunto de dados sem linhas NaN

# Categorias de dados

Para analisar dados, também precisamos conhecer os tipos de dados com os quais estamos lidando.

Os dados podem ser divididos em três categorias principais:

    Numérico - Contém valores numéricos. Pode ser dividido em duas categorias:
        Discreto: os números são contados como "inteiros". Exemplo: Você não pode ter treinado 2,5 sessões, são 2 ou 3
        Contínuo: os números podem ter precisão infinita. Por exemplo, você pode dormir 7 horas, 30 minutos e 20 segundos, ou 7.533 horas

    Categórico - Contém valores que não podem ser medidos entre si. Exemplo:
      uma cor ou um tipo de treinamento

    Ordinal - Contém dados categóricos que podem ser comparados entre si.
    
    Exemplo: Notas escolares onde A é melhor que B e assim por diante

Ao conhecer o tipo de seus dados, você saberá qual técnica utilizar na hora de analisá-los.

# Tipos de dados

Podemos usar a função info() para listar os tipos de dados em nosso conjunto de dados:

In [None]:
print(health_data.info())

Vemos que este conjunto de dados possui dois tipos diferentes de dados:

    Float64
    Objeto

Não podemos usar objetos para calcular e realizar análises aqui. Devemos converter o tipo object para float64 (float64 é um número com decimal em Python).

Podemos usar a astype()função para converter os dados em float64.

O exemplo a seguir converte "Average_Pulse" e "Max_Pulse" no tipo de dados float64 (as outras variáveis ​​já são do tipo de dados float64):

In [None]:
health_data["Average_Pulse"] = health_data['Average_Pulse'].astype(float)
health_data["Max_Pulse"] = health_data["Max_Pulse"].astype(float)

print (health_data.info())

Agora, o conjunto de dados possui apenas tipos de dados float64.

# Analise os dados

Depois de limparmos o conjunto de dados, podemos começar a analisar os dados.

Podemos usar a função describe() em Python para resumir os dados:

In [None]:
print(health_data.describe())

Resultado:


|          | Duração | Média_Pulso | Pulso_máx. | Caloria_Burnage | Horas_Trabalho | Horas_sono |
|----------|----------|--------------|-------------|-----------------|------------------|-------------|
| Contar   |   10.0   |     10.0        |     10.0        |       10.0            |          10.0         |     10.0      |
| Significar |  51.0 |   102.5       |    137.0      |      285.0           |           6.6           |       7.5       |
| Padrão   |  10.49  |    15.4          |      11.35     |        30.28          |           3.63          |      0.53     |
| Mínimo  |  30.0    |    80.0         |     120.0     |        240.0         |           0.0             |       7.0      |
| 25%       |  45.0    |    91.25       |     130.0     |       262.5          |           7.0             |       7.0      |
| 50%       |  52.5    |    102.5       |     140.0     |       285.0          |           8.0             |       7.5      |
| 75%       |  60.0    |    113.75     |     145.0     |       307.5          |           8.0             |       8.0      |
| Máx.    |  60.0    |    125.0       |     150.0     |       330.0          |          10.0            |       8.0      |


    Contar - Conta o número de observações
    Média - O valor médio
    Std - Desvio padrão (explicado no capítulo de estatísticas)
    Mínimo - O valor mais baixo
    25% , 50% e 75% são percentis (explicados no capítulo de estatísticas)
    Máx. - O valor mais alto
