<h1>Projeto final</h1>
<br>

Neste caderno, concluiremos um projeto completo de visualização de dados e aprenderemos como podemos usar a visualização para resolver problemas do mundo real.

<p class="lead">
Índice:

- <a href="#Come-up-with-questions">Crie perguntas</a>
- <a href="#Find-data">Encontre dados</a>
- <a href="#Refine-questions">Refine suas perguntas</a>
- <a href="#Data-cleaning">Limpeza de dados</a>
- <a href="#Data-exploration-and-visualization">Exploração e visualização de dados</a>

</p>

<div>
<h2 class="breadcrumb">Crie perguntas</h2><p>
</div>

- O que te empolga? Que tipo de problemas você gostaria de explorar e resolver com a visualização de dados?

![](https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/UFO1.gif)

<div>
<h2 class="breadcrumb">Encontrar dados</h2><p>
</div>

- Google
- Encontrar conjuntos de dados públicos (por exemplo, https://www.kaggle.com/datasets/)
- Usar API (por exemplo, API do Twitter)
- Raspagem da web
- Pesquisa

Dados de OVNIs: https://www.kaggle.com/datasets/NUFORC/ufo-sightings

<div>
<h2 class="breadcrumb">Refinar perguntas</h2><p>
</div>

Com os dados que vemos, podemos refinar nossas perguntas:

- Qual é a tendência anual/mensal/diária de avistamentos de OVNIs? Qual ano/mês/dia do mês tem o maior número de avistamentos de OVNIs?
- Qual país tem o maior número de avistamentos de OVNIs?
- Há diferenças gerais na tendência por país?

<div>
<h2 class="breadcrumb">Limpeza de dados</h2><p>
</div>

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/scrubbed.csv', storage_options = {'User-Agent': 'Mozilla/5.0'},low_memory=False)

In [None]:
df.head()

In [None]:
df.columns

In [None]:
# renomeia a coluna "longitude" para "longitude". Há um espaço extra.
df = df.rename(columns={"longitude ": "longitude"})

In [None]:
# verifica tipos de dados
df.dtypes

In [None]:
# converte duração para float
# df['duration (seconds)'] = df['duration (seconds)'].astype(float)

In [None]:
# encontrou um problema com os dados
df[df['duration (seconds)']=='2`']

In [None]:
# limpeza da duração
df['duration (seconds)'] = df['duration (seconds)'].str.strip('`')

In [None]:
# converte duração para float
df['duration (seconds)'] = df['duration (seconds)'].astype(float)

In [None]:
# converte latitude para flutuante
# df['latitude'] = df['latitude'].astype(float)

In [None]:
# encontrou um problema com os dados
df[df.latitude=='33q.200088']

In [None]:
# verifica dados
df.iloc[43780: 43786]

In [None]:
# verifica linhas com latitude contendo a string q
df[df['latitude'].str.contains('q')]

In [None]:
# limpa latitude
df['latitude'] = df['latitude'].str.replace('q','')

In [None]:
# converte latitude para flutuante
df['latitude'] = df['latitude'].astype(float)

In [None]:
# converte data e hora para objeto pandas datetime
# df['datetime'] = pd.to_datetime(df['datetime'])

In [None]:
# encontrou um problema
df[df['datetime']=='10/11/2006 24:00']

In [None]:
# limpa data e hora
df['datetime'] = df['datetime'].str.replace('24:00','23:59')

In [None]:
# converte data e hora para objeto pandas datetime
df['datetime'] = pd.to_datetime(df['datetime'])

In [None]:
# criar variáveis ​​ano, mês, dia 
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day

In [None]:
# verifica os tipos de dados novamente
df.dtypes

<div>
<h2 class="breadcrumb">Exploração e visualização de dados</h2><p>
</div>

### Qual é a tendência geral de avistamentos de OVNIs ao longo do tempo?

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
sns.histplot(data=df, x='datetime', kde=True);

### Qual ano tem o maior número de avistamentos de OVNIs?

In [None]:
df.year.value_counts()

In [None]:
fig, ax = plt.subplots(figsize=(15,5), constrained_layout=True)
sns.countplot(data=df[df.year>1980], x='year');
ax.set_xlabel("Year");
plt.xticks(rotation=90);
ax.grid()


In [None]:
df.head()

### Qual dia do mês tem o maior número de avistamentos de OVNIs?

In [None]:
df.day.value_counts()

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
sns.countplot(data=df, x='day');
ax.set_xlabel("Day of month");
for p in ax.patches:
    ax.annotate(p.get_height(),  (p.get_x(), p.get_height()));

### Qual mês do ano tem o maior número de avistamentos de OVNIs?

In [None]:
df.month.value_counts()

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
sns.countplot(data=df, x='month');
ax.set_xlabel("Month of year");
for p in ax.patches:
    ax.annotate(p.get_height(),  (p.get_x()+0.2, p.get_height()));

### Qual país tem o maior número de avistamentos de OVNIs?

In [None]:
df.plot('longitude', 'latitude', kind='scatter', alpha=0.1);
# there are other tools more approriate for geographical plotting that we will not cover here. 

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
sns.countplot(data=df, x='country');
ax.set_xlabel("Country");
for p in ax.patches:
    ax.annotate(p.get_height(),  (p.get_x()+0.3, p.get_height()));

### Existem diferenças gerais nas tendências por país?

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
sns.kdeplot(data=df, x='datetime', hue='country');

In [None]:
fig, ax = plt.subplots(figsize=(14,5), constrained_layout=True)
for c in df['country'].unique():
    sns.kdeplot(data=df[df.country==c], x='datetime', label=c, ax=ax);
ax.legend();


É a sua vez!

Que outros insights você pode obter com este ou outro conjunto de dados escolhido?