<a href="https://colab.research.google.com/github/salles97/Project_Data_View/blob/main/PCO114_Explorando_Dados_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/flavio-mota/fundamentos-pln/master/unifei-inpe.png" align="right" width="150" />

<br/>
<br/>

# <span style="color:#336699">Visualização de Informação - Perfil de Dados com Python</span>
<hr style="border:2px solid #0077b9;">

<br/>

<div style="text-align: center;font-size: 90%;">
    Autores:<br/>
    Flávio Belizário da Silva Mota¹<br/>
    Melise Maria Veiga de Paula²
    <br/><br/>
    ¹Instituto Nacional de Pesquisas Espaciais (INPE) <br/>
    ²Universidade Federal de Itajubá (UNIFEI)
    <br/>
    <br/>
    Contato: <a href="mailto:flavio.mota@inpe.com">flavio.mota@inpe.com</a>
    <br/>
    04/10/2023
    <br>
</div>

<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
<b>Objetivo.</b> Esse caderno Jupyter tem como objetivo apresentar um <i>template</i> para a implementação de uma estratégia para coletar, descrever, explorar e verificar a qualidade de um conjunto de dados.
</div>

## Instalando a biblioteca necessária
<hr style="border:2px solid #0077b9;">

Para apresentar o exemplo dessa aula, precisaremos instalar uma das bibliotecas do ambiente colab que usaremos para gerar as descrições dos nossos dados. Isso é necessário porque o Colab é uma máquina virtual que é instanciada com algumas bibliotecas padrão para análise de dados e aprendizado de máquina. Entretanto, por se tratarem de bibliotecas do python, elas podem não estar instaladas ou ficarem desatualizadas e perder o suporte da versão da linguagem. Podemos instalar a biblioteca <code>ydata-profiling</code> utilizando o comando abaixo:



In [1]:
!pip install ydata-profiling

Collecting ydata-profiling
  Downloading ydata_profiling-4.6.0-py2.py3-none-any.whl (357 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/357.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m357.5/357.5 kB[0m [31m11.8 MB/s[0m eta [36m0:00:00[0m
Collecting visions[type_image_path]==0.7.5 (from ydata-profiling)
  Downloading visions-0.7.5-py3-none-any.whl (102 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/102.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m102.7/102.7 kB[0m [31m14.1 MB/s[0m eta [36m0:00:00[0m
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (679 kB)
[2K     [90m━━━

## Coletando os dados
<hr style="border:2px solid #0077b9;">

Como exemplo de coleta de dados, vamos trabalhar com o conjunto de dados fornecido e, nesse caso, carregar a base a partir de um arquivo CSV. Para isso utilizaremos a biblioteca <code>pandas</code>.<br/><br/>
De forma muito resumida, essa biblioteca é uma das mais empregadas (se não a mais) para análise de dados com Python. Ela permite trabalhar com dados estruturados ou tabulares de forma rápida e fácil. A principal estrutura da biblioteca é o <code>DataFrame</code>, que é uma estrutura de dados tabular, orientada a colunas, com rótulos tanto para as linhas quanto para colunas. Existem também as <code>Series</code>, que são objetos de array unidimensional com rótulo. Veremos essas estruturas na prática posteriormente.<br/><br/>
Mais detalhes da biblioteca podem ser encontrados em <a>https://pandas.pydata.org/</a>.

Vamos importar a biblioteca <code>pandas</code> e <code>ydata-profiling</code>, definir a <i>URL</i> da qual vamos coletar o conjunto de dados e por fim ler o arquivo CSV em uma estrutura <code>DataFrame</code>:

In [2]:
import pandas as pd # importando pandas
from ydata_profiling import ProfileReport # importando ydata_profiling

# Define a url com o arquivo CSV que será utilizado
url = 'https://raw.githubusercontent.com/flavio-mota/PCO114_2022/main/dados/datatran2020.csv'

# Lê o arquivo CSV com a biblioteca pandas e salva em uma estrutura DataFrame na variável df
# Atenção para o parâmetro 'sep'. É ele que define o caracter separador do arquivo CSV
df = pd.read_csv(url, sep=';')

Agora que temos nossos dados carregados em um <code>DataFrame</code>, podemos começar a explorá-lo utilizando todos os recursos da biblioteca.

## Descrevendo os dados
<hr style="border:2px solid #0077b9;">

Após coletar os dados e armazená-los em uma estrutura <code>DataFrame</code>, podemos acessar alguns atributos dessa estrutura que são capazes de trazer algumas informações sobre os dados. A primeira informação que podemos consultar é sobre o tamanho do conjunto de dados. Podemos fazer isso com o comando a seguir:

In [3]:
df.shape

(15708, 30)

O resultado exibido informa a quantidade de linhas e colunas do nosso conjunto de dados. Vamos deixar essa informação mais agradável para o nosso relatório:

In [4]:
print('O conjunto contém %s registros (linhas) e %s colunas (atributos).' % (df.shape[0], df.shape[1]))

O conjunto contém 15708 registros (linhas) e 30 colunas (atributos).


Podemos verificar quais são as colunas/atributos do conjunto com o seguinte comando:

In [None]:
df.columns

Agora que sabemos o que nome de cada coluna, podemos verificar os tipos de dados que cada uma delas armazena e também se existem valores ausentes:

In [None]:
df.info()

O resultado retornado nos mostra que temos colunas que armazenam dados do tipo inteiro (<code>int64</code>), numérico/ponto flutuante (<code>float64</code>) e dados do tipo <code>object</code>. O tipo <code>object</code> pela documentação da biblioteca pandas, representa um tipo de "objeto arbitrário". As cadeias de caracteres também são entendidas pela biblioteca como sendo desse tipo. Nem todas as colunas possuem dados, uma vez que a coluna <code>Non-Null Count</code> apresentou o valores diferentes para cada coluna.

Podemos visualizar alguns registros do conjunto de dados para ter uma noção do que cada um deles armazena:

In [None]:
df.head()

No comando acima, listamos os 5 primeiros registros do conjunto de dados e algumas de suas colunas. Por serem muitas colunas, o pandas oculta algumas delas para não sobrecarregar a visualização. Aqui já conseguimos ter uma pequena noção de como são nossos dados e que valores eles apresentam. Podemos solicitar ao <code>DataFrame</code> uma descrição do conjunto de dados através do comando abaixo:

In [None]:
# O parâmetro include com o valor "all" é informado aqui porque temos variáveis categóricas (object) no conjunto
# e sem esse parâmetro, o método describe retornaria descrições somente dos dados numéricos
df.describe(include='all')

Através do método <code>describe()</code> é possível extrair algumas medidas estatísticas do conjunto, como contagens, valores únicos, valores mais frequentes, média, desvio padrão, valor mínimo e máximo e as distribuições por quartis.

Uma outra forma mais prática e agradável de descrever e explorar os dados que facilita muito essa etapa é utilizar a biblioteca <code>pandas-profiling</code>. Essa biblioteca gera relatórios a partir de um <code>DataFrame</code>. A função <code>describe()</code> é útil, mas um pouco básica para análise exploratória de dados. Para cada coluna, um conjunto de informações (sempre que relevantes para o tipo de coluna) são apresentadas em um relatório HTML interativo. Para isso, vamos utilizar o comando a seguir:

In [None]:
profile = ProfileReport(df, title='Descrevendo os dados', html={'style':{'full_width':True}})

Esse comando define qual a fonte de dados que queremos usar para gerar o relatório, o título que queremos dar a ele e alguns parâmetros de estilo para o HTML que será gerado. Para construir de fato o relatório, usamos o comando a seguir. O processo pode ser demorado a depender do conjunto de dados.

In [None]:
profile.to_notebook_iframe()

Agora que já conseguimos descrever e explorar nossos dados, podemos exportar o relatório gerado como um arquivo HTML que pode ser utilizado fora do ambiente jupyter. Para isso, basta utilizarmos o seguinte comando:

In [None]:
profile.to_file("descrevendo_dados.html")

Após essas etapas, já somos capazes de descrever nosso conjunto de dados, apontar alguns ajustes que devem ser feitos e partir para a etapa de preparação dos dados. A ideia é que uma vez que esses dados estejam em uma estrutura <code>DataFrame</code>, o processo de descrever e explorar o dado seja o mesmo que vimos nesse notebook.

## Referências

Python para Análise de Dados - Wes McKiney. Novatec, São Paulo, 2021.<br/>
Projetos de Ciência de Dados com Pyhton - Stephen Klosterman. Novatec, São Paulo, 2020.<br/>
[Biblioteca pandas](https://pandas.pydata.org/)<br/>
[Biblioteca ydata-profiling](https://docs.profiling.ydata.ai/4.5/)