## Escolhendo o Dataset: Dicas para uma Análise Exploratória Mais Rica

A escolha do dataset é um passo fundamental para uma análise exploratória de dados (EDA) eficaz e interessante. É verdade que datasets como o do Titanic e Pokémon são muito populares e servem como excelentes exemplos introdutórios, mas explorar novos horizontes pode render insights mais originais e desafiadores.

**Por que evitar os datasets mais populares?**

* **Super análise:** Datasets muito explorados já tiveram suas principais características e padrões amplamente descritos.
* **Falta de originalidade:** Análises repetidas podem não agregar muito valor à comunidade de data science.
* **Limitação de aprendizado:** Ao focar em datasets mais simples, você pode perder a oportunidade de desenvolver habilidades para lidar com dados mais complexos e desafiadores.

**Dicas para escolher um dataset:**

* **Buscar por datasets brasileiros:** Plataformas como o Kaggle oferecem uma variedade de datasets sobre temas brasileiros, como economia, saúde, meio ambiente, etc. Ao explorar dados locais, você pode contribuir para a compreensão de problemas e desafios específicos do nosso país.
* **Priorizar datasets menos conhecidos:** Procure por datasets que tenham menos visualizações e downloads no Kaggle. Isso indica que eles são menos explorados e podem oferecer insights mais originais.
* **Considerar o tamanho e a complexidade do dataset:** Datasets muito pequenos podem limitar a profundidade da análise, enquanto datasets muito grandes podem demandar maior poder computacional. O ideal é encontrar um equilíbrio entre o tamanho e a complexidade do dataset.
* **Analisar a documentação do dataset:** Leia atentamente a descrição do dataset para entender a origem dos dados, as variáveis disponíveis e o objetivo da coleta.

**Superando o desafio de ter poucos dados:**

É comum se sentir preso em uma análise exploratória quando o dataset possui poucas colunas. Para superar esse desafio, você pode:

* **Criar novas variáveis:** Combine as variáveis existentes para criar novas features que possam ser mais informativas.
* **Explorar visualizações diferentes:** Utilize diferentes tipos de gráficos (histogramas, boxplots, scatter plots, etc.) para visualizar os dados sob diferentes perspectivas.
* **Realizar análise de correlação:** Verifique se existe alguma relação entre as variáveis numéricas.
* **Comparar com outros datasets:** Se possível, compare os seus dados com outros datasets semelhantes para identificar padrões e diferenças.
* **Buscar dados externos:** Complemente o seu dataset com dados de outras fontes para enriquecer a análise.

**Em resumo:**



Antes de começar a análise exploratória, o mais importante é escolher um dataset para trabalhar. O crucial, é escolher datasets menos populares, como o do Titanic e o do Pokémon, pois é algo que todo mundo já faz. É melhor priorizar dataset não tão populares, buscar no kangle datasets com nome "Brazil" pode te abrir uma infinidade de possibilidade, assim como base de dados brasileiros abertas ao público. 

A maior dificuldade é fazer apenas 3-4 gráficos e travar na evolução da análise exploratório, isso é muito comum quando se tem poucas colunas de dados.


## Análise exploratória na prática ##
 Em ambiente de trabalho, gesto normamente encarrega de dizer qual o objetivo da análise e o que você deve procurar. Mas uma boa prática é:

 * **1** Você começar explorando os dados, fazendo descobertas e só depois você organizaria o jupyter de forma que o storytelling fique legal e coerente.
 * **2** Você bolar algumas hipóteses ou perguntas a serem exploradas e já iniciar a análise atrás delas.

A primeira permite que você explore melhor os dados, mas dificulta depois na hora de montar um storytelling dos dados, organizando de forma coesa. 

Já a segunda, apesar de facilitar na hora de apresentar esses dados, pode acabar limitando a exploração de dados porque justamente está muito fechado nas hipóteses.

Mas de toda forma, é sempre bom partir de algumas perguntas pré-estabelecidas.

Olhando para os dados, conseguimos nos fazer algumas perguntas básicas:

- Quais os bairros mais caros de São Paulo?
- Quais os bairros com os maiores apartamentos?
- Existe correlação entre tamanho do apartamento e o seu preço? E entre o número de banheiros? E o número de vagas?
- Qual a característica de cada tipo de imóvel, em relação a preço, metragem, etc.?
- O que parece influenciar a diferença entre o aluguel e o custo total? Qual característica do imóvel?


## introdução ##

## o básico de todo notebook > bibliotecas

In [11]:
# Bibliotecas para tratar dados
import pandas as pd
import numpy as np

# Bibliotecas para EDA
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configurar para não exibir Warnings
import warnings

warnings.filterwarnings('ignore')

# Configurar o estilo de gráfico do ggplot
plt.style.use('ggplot')

# Configurar para exibir até 15 linhas de um Dataframe do Pandas
pd.set_option ('display.max_rows', 15)

# Configurar para exibir todas as colunas de um Dataframe do Pandas
pd.set_option('display.max_columns', None)

# Configurar quebras e espaçamentos automáticas com nb_black
%load_ext nb_black

ModuleNotFoundError: No module named 'nb_black'

In [18]:
# Bibliotecas para tratar dados
import pandas as pd
import numpy as np

# Bibliotecas para EDA
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configurar para não exibir Warnings
import warnings
warnings.filterwarnings('ignore')

# Configurar o estilo de gráfico do ggplot
plt.style.use('ggplot')

# Configurar para exibir até 15 linhas de um Dataframe do Pandas
pd.set_option('display.max_rows', 15)

# Configurar para exibir todas as colunas de um Dataframe do Pandas
pd.set_option('display.max_columns', None)

# Configurar quebras e espaçamentos automáticas com nb_black
!pip install nb_black
%load_ext nb_black #precisa instalar caso não tiver (!pip install nb_black)


Defaulting to user installation because normal site-packages is not writeable


ModuleNotFoundError: No module named 'nb_black #precisa instalar caso não tiver (!pip install nb_black)'

<IPython.core.display.Javascript object>