<a href="https://colab.research.google.com/github/adilsong3/DataScience_Junior/blob/master/Explorando_Dataframes_com_Pandas_Profiling_para_iniciantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Explorando DataFrames com Pandas Profiling**

<p align = "center"><img src="https://image.freepik.com/vetores-gratis/analise-de-dados-ferramentas-tecnicas-diagramas-graficos-simbolos-apresentacao-analise-estrategia-coloridos-plana-elementos-conjunto-isolado_1284-33092.jpg" />

* Antes de iniciarmos a exploração com o pandas profiling vamos primeiro dar uma pequena base do que é o pandas de forma objetiva e prática. Lembrando que se quer saber como criar um [**DataFrame do zero para iniciantes**](https://github.com/adilsong3/DataScience_Junior/blob/master/Cria%C3%A7%C3%A3o_de_DataFrames_para_iniciantes.ipynb), leia meu notebook sobre esse tema clicando no link.

* Todas as pessoas que pensam em trabalhar com a área de dados ou pelo menos entender como os cientistas de dados fazem aquelas "mágicas" com os grandes bancos de dados conhecidos como [**Big data**](https://pt.wikipedia.org/wiki/Big_data) chegam na biblioteca [**Pandas**](https://pandas.pydata.org/docs/).

* E isso com certeza não é a toa, essa biblioteca é uma das mais poderosas quando o assunto é exploração/mineração de dados de forma simples e prática. Com apenas algumas linhas de código é possivel (limpar dados faltantes, criar gráficos, excluir e editar colunas, alterar seu [**dataframe**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) (tabela) como quiser, etc...)

* Veja alguns exemplos com a biblioteca pandas:

  * 1º importar essa biblioteca;
  * 2º Ler uma tabela seja online ou do seu computador;
  * 3º Verificar as 5 primeiras linhas;
  * 4º Alterar os nomes das colunas;
  * 5º Vamos analisar os dados estátisticos;

* Vamos utilizar um dataset [**+Bike**](http://maisbikecompartilhada.com.br/) que distribui bicicletas em pontos estratégicos de Brasília-DF, oferecendo uma solução de transporte que contribui com a mobilidade das pessoas na capital.




In [None]:
# Primeiro tópico importando a biblioteca
import pandas as pd

# Segundo tópico pegando uma tabela online e atribuindo dentro de uma variavel. df = abreviação de (dataframe)
df = pd.read_csv("http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv")

In [None]:
# Terceiro tópico verificar as 5 primeiras linhas, .head() = cabeça se eu utilizar .tail() é para pegar as ultimas 5.
df.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


In [None]:
# Quarto tópico alterar nome das colunas
df.columns = ['genero','data_aniversario','estado','data_passeio','horario_inicial','horario_final','estacao_inicial','estacao_final','duracao_passeio','atraso']

In [None]:
# verificando colunas alteradas
df.head(2)

Unnamed: 0,genero,data_aniversario,estado,data_passeio,horario_inicial,horario_final,estacao_inicial,estacao_final,duracao_passeio,atraso
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0


In [None]:
# Quinto tópico analisando dados estátisticos
df.describe()

Unnamed: 0,duracao_passeio,atraso
count,214148.0,214148.0
mean,29.915932,0.098829
std,58.857297,0.298433
min,3.0,0.0
25%,8.083333,0.0
50%,14.2,0.0
75%,33.766667,0.0
max,999.6,1.0


* Verificamos que com apenas algumas linhas de código python utilizando a biblioteca pandas é possivel iniciar uma analise exploratória e o limite é apenas o seu conhecimento, na verdade irei um pouco além, o limite é até onde você quer buscar e formar o seu conhecimento. Pois tudo, literalmente tudo você encontra na internet, basta ter vontade e interesse de buscar.

![alt text](https://i.imgur.com/qHzefwF.jpg)

# **Chega de enrolação, conhecendo o pandas profiling**

* Meu caro leitor, conforme viu acima não é dificil explorar dados, pois com poucas linhas de código chegamos a algumas conclusões ou pelo menos noções do que é e como trabalhar daqui pra frente com nosso dataframe tudo depende do seu objetivo com a analise.

* Mas se eu te falar que podemos fazer uma analise muito mais ampla, robusta, limpa, detalhada e com um numero menor de linhas de código do que viu acima, você acreditaria? Pois eu afirmo que é possivel com o [**pandas profiling**](https://github.com/pandas-profiling/pandas-profiling). Mas o que é esse tall de pandas profiling?

* Boa pergunta, basicamente é uma ferramenta que gera um relatório estátisticos de todos os dados do data frame em formato html e isso pode ser facilmente apresentado para uma equipe ou para ter um primeiro contato com os dados.

### **Com o pandas profiling você conseguira visualizar**

* Qual o tamanho do dataset (MB, GB);
* Quantidade de linhas duplicadas;
* Quantidade de linhas do dataframe;
* Quantidade de linhas por colunas;
* O tipo de dado de cada coluna;
* Quais colunas contém missing values (valores nulos ou faltantes);
* Qual a distribuição das colunas numéricas;
* Correlações entre colunas;

### **Para utilizarmos o pandas profiling primeiro vamos precisar instalar**

* Para instalar é super simples basta utilizar o comando: `!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip -q` **ou** `conda install -c conda-forge pandas-profiling`

* Vamos roda-lo agora.

In [None]:
# instalando o pandas profiling
!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip -q

[K     / 46.8MB 637kB/s
[K     |████████████████████████████████| 61kB 3.2MB/s 
[K     |████████████████████████████████| 604kB 11.0MB/s 
[K     |████████████████████████████████| 3.1MB 44.9MB/s 
[K     |████████████████████████████████| 71kB 7.1MB/s 
[K     |████████████████████████████████| 296kB 34.8MB/s 
[?25h  Building wheel for pandas-profiling (setup.py) ... [?25l[?25hdone
  Building wheel for confuse (setup.py) ... [?25l[?25hdone
  Building wheel for htmlmin (setup.py) ... [?25l[?25hdone
  Building wheel for imagehash (setup.py) ... [?25l[?25hdone


In [None]:
# importando os pacotes
import pandas as pd
from pandas_profiling import ProfileReport

In [None]:
# Lendo o mesmo arquivo anterior
df_2 = pd.read_csv("http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv")

# Alterando nome das colunas
df_2.columns = ['genero','data_aniversario','estado','data_passeio','horario_inicial','horario_final','estacao_inicial','estacao_final','duracao_passeio','atraso']

In [None]:
# criando o arquivo profiling
# passamos o df_2 que é o dataframe, titulo referente ao seu arquivo e o estilo
arquivo_profiling = ProfileReport(df_2, title='Dataset +BIKE',html={'style':{'full_width':True}})

In [None]:
# Executando o arquivo em formato notebook, o mesmo possui a opção HTML .to_html()
arquivo_profiling.to_notebook_iframe()

HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=24.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Generate report structure', max=1.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Render HTML', max=1.0, style=ProgressStyle(description_wi…




* **Para ver o relatório abra o colab no seu navegador pelo** [**link**](https://colab.research.google.com/drive/1Olu8bf4tqZcoj9GSOYseuetc8gulVqE6?usp=sharing).

* **O github infelizmente não permite mostrar essa executação em tempo real, clique no link acima e verifique quão maravilhoso ficará seu relatório.**

* Te falei que era simples, com apenas algumas 5 linhas de código foi capaz de criar um relatório bem detalhado, com esse relatório em mãos é possivel ter uma visão boa de como estão distruibos os dados e dai pra frente você começa o seu trabalho.

* Nesse formato atual já é possivel apresenta-lo para sua equipe ou grupo de estudo, basta antes fazer seu dever de casa, ou seja, alguns ajustes como colocar legenda caso as pessoas não entenda algumas coisas, fazer alteração nos nomes das colunas para ficar limpo.

### **Momento de reflexão**

* O objetivo não foi apenas mostrar essa nova funcionalidade que muitos não conhecem é também quebrar o paradigma que para aprender Datascience é necessário fazer graduação, ter mestrado ou até doutorado.

* Todas as graduações são sempre bem vindo e com toda certeza contribuem para a carreira, mas não entram de maneira nenhuma como requisito principal para se tornar cientista de dados. 

* A diferença entre uma pessoa com graduação e uma sem é principalmente o curriculo, pois aqui no brasil e até fora possuem grandes empresas que ainda buscam muitas pessoas que tenham algum tipo de formação na área.

* Porém acredito que se você for ativo nas comunidades, publicar seus projetos e estudos, evoluir seu personal branding (marca pessoal) logo terá muito espaço na área.

# **Conclusão**

* Acredito que fazer uma analise exploratória pode e deve ir além do que fizemos acima, mas o espero ter conseguido trazer mais uma forma de ver os dados de uma forma simples.

#**Refêrencias**

* [Documentação pandas](https://pandas.pydata.org/docs/)
* [Carlos de Melo](https://www.linkedin.com/in/carlosfab/)
* [Sigmoidal](https://sigmoidal.ai/)
* [Minerando dados](https://minerandodados.com.br/inspecionando-dataframes-com-pandas-profiling/)
* [Github pandas](https://github.com/pandas-profiling/pandas-profiling)
* [Adilson Gustavo](https://www.linkedin.com/in/adilson-gustavo-a74b98133/)
* <a href="https://br.freepik.com/fotos-vetores-gratis/negocio">Imagens - br.freepik.com</a>