# Análise Exploratória de Dados usando Pandas

EDA é o processo de obter, preparar e apresentar dados com o objetivo de obter insights que direcionem o negócio de maneira eficiente e eficaz.

<img src="assets/data_prep_pipeline.png" />

É o processo mais demorado, visto que exige atenção especial para preparar dados corretamente a fim de não produzir resultados enviesados ou mesmos incorretos. 

Ao longo do processo exploratório, vamos estudar vários conceitos extremamente úteis para lidar com dados de maneira geral. Esses conceitos, que serão transformados em funções, poderão compor nossa biblioteca pessoal de análise de dados

Documentação oficial do Pandas para consulta: [link](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('bases/Space_Missions.csv')
print(data.columns)
print()
data.head()

Ao olhar nosso dataset, percebemos algumas colunas que não ajudarão em nossa análise, podendo ser removidas. As demais, todas contêm informações úteis que ou podemos usá-las diretamente ou manipulá-las para que possam ser usadas no processo exploratório.

## ToDo 1

Elimine as duas primeiras colunas do Dataset. Utilize a mesma variável para armazenar o resultado da operação. 

In [None]:
# Resposta

Os nomes das colunas precisam ser significativos para que possamos usá-las corretamente. Nesse dataset, a maioria dos nomes é de fácil compreensão, com exceção da coluna "Rocket", que representa o custo da missão (não apenas do foguete) em milhões de dólares. Assim, vamos renomear as colunas para tornar seus nomes mais compreensíveis.

## ToDo 2
Renomeie o nome das colunas conforme a lista abaixo:

> Company Name => company_name

> Location => location

> Datum => date

> Detail => detail

> Status Rocket => status_rocket

> Rocket = cost_mission

> Status Mission => status_mission

In [None]:
# Resposta

O método info retorna informações sobre os tipos de dados presentes no nosso dataset

In [None]:
data.info()

O método describe() fornece uma visão geral de como estão os dados. Entretanto, nosso dataset é composto em sua grande parte por dados categóricos. Ainda assim, o método describe() consegue apresentar informações muito relevantes. 

In [None]:
data.describe()

Valores faltantes são um problemas ao realizarmos Análise Exploratória de Dados. Existem algumas abordagens que podemos utilizar para tratar desse problema:

> Remoção da linha que contenha elementos faltantes

> Sustituição do valor faltante pela média dos valores da coluna

> Substituição do valor faltante pela mediana dos valores da coluna

## ToDo 3

Julgue cada das 3 abordagens e diga qual delas você escolheria, justificando sua resposta:

In [None]:
# Resposta


## ToDo 4

Trate os valores faltantes de acordo com a abordagem escolhida:

In [None]:
# Resposta

Percebemos que os valores da coluna status_rocket apresenta duas possibilidades de valores. São elas:

In [None]:
data['status_rocket'].unique()

## ToDo 5
Ajuste os valores dessa coluna para que eles sejam Active ou Retired, apenas. 

In [None]:
#Resposta

## ToDo 6

Crie duas colunas: Year e Country. Extraia a informação do ano de lançamento da coluna Date e a informação do País que lançou o foguete da coluna Location

In [None]:
#Resposta

## Visualização de Dados

## ToDo 7
Vamos começar a partir das duas colunas que acabamos de criar. Crie dois gráficos:

> um que mostre o total de lançamentos por anos 

> e outro que mostre, de maneira descendente, o total de vezes que um pais fez um lançamento. Dica: Adicione num pandas DataFrame o país numa coluna e a quantidade de lançamentos em outra. Depois, ordene os valores pela quantidade de lançamentos e insira, em formato numpy array, os dados para criar um gráfico.

In [None]:
# Resposta

In [None]:
# Resposta

## ToDo 8

Crie um gráfico de linha que mostre a evolução do custo da missão ao longo do tempo

In [None]:
# Resposta

## ToDo 9

Crie um gráfico de barras empilhadas que apresente a proporção do Status da Missão (Success, Failure, Partial Failure, PreLaunch Failure).

In [None]:
# Resposta