# Análise descritiva

Este componente realiza a análise descritiva de cada coluna do dataset fornecido. Para colunas numéricas, são calculadas as seguintes estatísticas: `count`, `mean`, `std`, `min`, `max`, além dos percentis. Para dados categóricos, por outro lado, calculam-se `count`, `unique`, `top` e `freq`. O valor de `top` representa a **moda** , enquanto `freq` é a frequência da **moda**.

## Declaração de parâmetros e hiperparâmetros

Declare parâmetros com o botão  na barra de ferramentas.<br>
A variável `dataset` possui o caminho para leitura do arquivos importados na tarefa de "Upload de dados".<br>
Você também pode importar arquivos com o botão  na barra de ferramentas.

In [None]:
# parameters
dataset = "/tmp/data/titanic.csv" #@param {type:"string"}

## Acesso ao conjunto de dados

O conjunto de dados utilizado nesta etapa será o mesmo carregado através da plataforma.<br>
O tipo da variável retornada depende do arquivo de origem:
- [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) para CSV e compressed CSV: .csv .csv.zip .csv.gz .csv.bz2 .csv.xz
- [Binary IO stream](https://docs.python.org/3/library/io.html#binary-i-o) para outros tipos de arquivo: .jpg .wav .zip .h5 .parquet etc

In [None]:
import pandas as pd
from platiagro import stat_dataset

df = pd.read_csv(dataset)
featuretypes = stat_dataset(name=dataset)["featuretypes"]

## Realiza a análise descritiva

In [None]:
import numpy as np
from platiagro import CATEGORICAL, NUMERICAL

for i, col in enumerate(df):
    if featuretypes[i] == CATEGORICAL:
        df[col] = df[col].astype("category")


def get_description(df, col_type):
    idx = np.where(np.array(featuretypes) == col_type)[0]
    if len(idx) > 0:
        return df.iloc[:, idx].describe().T
    return None


categorical_description = get_description(df, CATEGORICAL)
numeric_description = get_description(df, NUMERICAL)

## Visualiza resultados

In [None]:
import matplotlib.pyplot as plt
from platiagro.plotting import plot_data_table

if categorical_description is not None:
    plot_data_table(categorical_description)
    plt.show()

if numeric_description is not None:
    plot_data_table(numeric_description)
    plt.show()