# Análise Exploratória de Dados usando Pandas

EDA é o processo de obter, preparar e apresentar dados com o objetivo de obter insights que direcionem o negócio de maneira eficiente e eficaz.

<img src="assets/data_prep_pipeline.png" />

É o processo mais demorado, visto que exige atenção especial para preparar dados corretamente a fim de não produzir resultados enviesados ou mesmos incorretos. 

Ao longo do processo exploratório, vamos estudar vários conceitos extremamente úteis para lidar com dados de maneira geral. Esses conceitos, que serão transformados em funções, poderão compor nossa biblioteca pessoal de análise de dados

Documentação oficial do Pandas para consulta: [link](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) 

In [30]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [31]:
data = pd.read_csv('Space_Missions.csv')
print(data.columns)
print()
data.head()

Index(['Unnamed: 0.1', 'Unnamed: 0', 'Company Name', 'Location', 'Datum',
       'Detail', 'Status Rocket', ' Rocket', 'Status Mission'],
      dtype='object')



Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Company Name,Location,Datum,Detail,Status Rocket,Rocket,Status Mission
0,0,0,SpaceX,"LC-39A, Kennedy Space Center, Florida, USA","Fri Aug 07, 2020 05:12 UTC",Falcon 9 Block 5 | Starlink V1 L9 & BlackSky,StatusActive,50.0,Success
1,1,1,CASC,"Site 9401 (SLS-2), Jiuquan Satellite Launch Ce...","Thu Aug 06, 2020 04:01 UTC",Long March 2D | Gaofen-9 04 & Q-SAT,StatusActive,29.75,Success
2,2,2,SpaceX,"Pad A, Boca Chica, Texas, USA","Tue Aug 04, 2020 23:57 UTC",Starship Prototype | 150 Meter Hop,StatusActive,,Success
3,3,3,Roscosmos,"Site 200/39, Baikonur Cosmodrome, Kazakhstan","Thu Jul 30, 2020 21:25 UTC",Proton-M/Briz-M | Ekspress-80 & Ekspress-103,StatusActive,65.0,Success
4,4,4,ULA,"SLC-41, Cape Canaveral AFS, Florida, USA","Thu Jul 30, 2020 11:50 UTC",Atlas V 541 | Perseverance,StatusActive,145.0,Success


Ao olhar nosso dataset, percebemos algumas colunas que não ajudarão em nossa análise, podendo ser removidas. As demais, todas contêm informações úteis que ou podemos usá-las diretamente ou manipulá-las para que possam ser usadas no processo exploratório.

## ToDo 1

Elimine as duas primeiras colunas do Dataset. Utilize a mesma variável para armazenar o resultado da operação. 

In [32]:
data.drop(['Unnamed: 0.1', 'Unnamed: 0'], axis=1,inplace=True)

Os nomes das colunas precisam ser significativos para que possamos usá-las corretamente. Nesse dataset, a maioria dos nomes é de fácil compreensão, com exceção da coluna "Rocket", que representa o custo da missão (não apenas do foguete) em milhões de dólares. Assim, vamos renomear as colunas para tornar seus nomes mais compreensíveis.

## ToDo 2
Renomeie o nome das colunas conforme a lista abaixo:

> Company Name => company_name

> Location => location

> Datum => date

> Detail => detail

> Status Rocket => status_rocket

> Rocket = cost_mission

> Status Mission => status_mission

In [33]:
data.columns = ["company_name","location","date","detail","status_rocket","cost_mission","status_mission"]
data

Unnamed: 0,company_name,location,date,detail,status_rocket,cost_mission,status_mission
0,SpaceX,"LC-39A, Kennedy Space Center, Florida, USA","Fri Aug 07, 2020 05:12 UTC",Falcon 9 Block 5 | Starlink V1 L9 & BlackSky,StatusActive,50.0,Success
1,CASC,"Site 9401 (SLS-2), Jiuquan Satellite Launch Ce...","Thu Aug 06, 2020 04:01 UTC",Long March 2D | Gaofen-9 04 & Q-SAT,StatusActive,29.75,Success
2,SpaceX,"Pad A, Boca Chica, Texas, USA","Tue Aug 04, 2020 23:57 UTC",Starship Prototype | 150 Meter Hop,StatusActive,,Success
3,Roscosmos,"Site 200/39, Baikonur Cosmodrome, Kazakhstan","Thu Jul 30, 2020 21:25 UTC",Proton-M/Briz-M | Ekspress-80 & Ekspress-103,StatusActive,65.0,Success
4,ULA,"SLC-41, Cape Canaveral AFS, Florida, USA","Thu Jul 30, 2020 11:50 UTC",Atlas V 541 | Perseverance,StatusActive,145.0,Success
...,...,...,...,...,...,...,...
4319,US Navy,"LC-18A, Cape Canaveral AFS, Florida, USA","Wed Feb 05, 1958 07:33 UTC",Vanguard | Vanguard TV3BU,StatusRetired,,Failure
4320,AMBA,"LC-26A, Cape Canaveral AFS, Florida, USA","Sat Feb 01, 1958 03:48 UTC",Juno I | Explorer 1,StatusRetired,,Success
4321,US Navy,"LC-18A, Cape Canaveral AFS, Florida, USA","Fri Dec 06, 1957 16:44 UTC",Vanguard | Vanguard TV3,StatusRetired,,Failure
4322,RVSN USSR,"Site 1/5, Baikonur Cosmodrome, Kazakhstan","Sun Nov 03, 1957 02:30 UTC",Sputnik 8K71PS | Sputnik-2,StatusRetired,,Success


O método info retorna informações sobre os tipos de dados presentes no nosso dataset

In [34]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4324 entries, 0 to 4323
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   company_name    4324 non-null   object
 1   location        4324 non-null   object
 2   date            4324 non-null   object
 3   detail          4324 non-null   object
 4   status_rocket   4324 non-null   object
 5   cost_mission    964 non-null    object
 6   status_mission  4324 non-null   object
dtypes: object(7)
memory usage: 236.6+ KB


O método describe() fornece uma visão geral de como estão os dados. Entretanto, nosso dataset é composto em sua grande parte por dados categóricos. Ainda assim, o método describe() consegue apresentar informações muito relevantes. 

In [35]:
data.describe()

Unnamed: 0,company_name,location,date,detail,status_rocket,cost_mission,status_mission
count,4324,4324,4324,4324,4324,964.0,4324
unique,56,137,4319,4278,2,56.0,4
top,RVSN USSR,"Site 31/6, Baikonur Cosmodrome, Kazakhstan","Wed Nov 05, 2008 00:15 UTC",Cosmos-3MRB (65MRB) | BOR-5 Shuttle,StatusRetired,450.0,Success
freq,1777,235,2,6,3534,136.0,3879


Valores faltantes são um problemas ao realizarmos Análise Exploratória de Dados. Existem algumas abordagens que podemos utilizar para tratar desse problema:

> Remoção da linha que contenha elementos faltantes

> Sustituição do valor faltante pela média dos valores da coluna

> Substituição do valor faltante pela mediana dos valores da coluna

## ToDo 3

Julgue cada das 3 abordagens e diga qual delas você escolheria, justificando sua resposta:

In [36]:
# Resposta
# A coluna com valores nulos é a cost_mission , se essa for a coluna a ser analizada eu removeria as colunas,
#  pois  há 70% de dados faltantes, o que acabaria tornando a analise ineficas  

## ToDo 4

Trate os valores faltantes de acordo com a abordagem escolhida:

In [42]:
# Resposta

data.dropna(axis=0,inplace=True)
data.describe()

Unnamed: 0,company_name,location,date,detail,status_rocket,cost_mission,status_mission
count,964,964,964,964,964,964.0,964
unique,25,56,963,962,2,56.0,4
top,CASC,"LC-39A, Kennedy Space Center, Florida, USA","Wed Nov 05, 2008 00:15 UTC",Long March 2D | Shiyan-3 & Chuangxin-1(02),StatusActive,450.0,Success
freq,158,120,2,2,586,136.0,910


Percebemos que os valores da coluna status_rocket apresenta duas possibilidades de valores. São elas:

In [43]:
data['status_rocket'].unique()

array(['StatusActive', 'StatusRetired'], dtype=object)

## ToDo 5
Ajuste os valores dessa coluna para que eles sejam Active ou Retired, apenas. 

In [44]:
#Resposta
data.replace({'status_rocket': "StatusActive"}, {'status_rocket': 'Active'}, inplace=True)
data.replace({'status_rocket': "StatusRetired"}, {'status_rocket': 'Retired'}, inplace=True)
data['status_rocket'].unique()


array(['Active', 'Retired'], dtype=object)

## ToDo 6

Crie duas colunas: Year e Country. Extraia a informação do ano de lançamento da coluna Date e a informação do País que lançou o foguete da coluna Location

In [75]:
#Resposta
data['location'].str.extract(r", ([a-zA-Z]*)$")
data['date'].str.extract(r"([0-9]{4})")

data["country"] = data['location'].str.extract(r", ([a-zA-Z]*)$")
data["year"] = data['date'].str.extract(r"([0-9]{4})")

data


Unnamed: 0,company_name,location,date,detail,status_rocket,cost_mission,status_mission,country,year
0,SpaceX,"LC-39A, Kennedy Space Center, Florida, USA","Fri Aug 07, 2020 05:12 UTC",Falcon 9 Block 5 | Starlink V1 L9 & BlackSky,Active,50.0,Success,USA,2020
1,CASC,"Site 9401 (SLS-2), Jiuquan Satellite Launch Ce...","Thu Aug 06, 2020 04:01 UTC",Long March 2D | Gaofen-9 04 & Q-SAT,Active,29.75,Success,China,2020
3,Roscosmos,"Site 200/39, Baikonur Cosmodrome, Kazakhstan","Thu Jul 30, 2020 21:25 UTC",Proton-M/Briz-M | Ekspress-80 & Ekspress-103,Active,65.0,Success,Kazakhstan,2020
4,ULA,"SLC-41, Cape Canaveral AFS, Florida, USA","Thu Jul 30, 2020 11:50 UTC",Atlas V 541 | Perseverance,Active,145.0,Success,USA,2020
5,CASC,"LC-9, Taiyuan Satellite Launch Center, China","Sat Jul 25, 2020 03:13 UTC","Long March 4B | Ziyuan-3 03, Apocalypse-10 & N...",Active,64.68,Success,China,2020
...,...,...,...,...,...,...,...,...,...
3855,US Air Force,"SLC-4W, Vandenberg AFB, California, USA","Fri Jul 29, 1966 18:43 UTC",Titan IIIB | KH-8,Retired,59.0,Success,USA,1966
3971,US Air Force,"SLC-20, Cape Canaveral AFS, Florida, USA","Thu May 06, 1965 15:00 UTC",Titan IIIA | LES 2 & LCS 1,Retired,63.23,Success,USA,1965
3993,US Air Force,"SLC-20, Cape Canaveral AFS, Florida, USA","Thu Feb 11, 1965 15:19 UTC",Titan IIIA | LES 1,Retired,63.23,Success,USA,1965
4000,US Air Force,"SLC-20, Cape Canaveral AFS, Florida, USA","Thu Dec 10, 1964 16:52 UTC",Titan IIIA | Transtage 2,Retired,63.23,Success,USA,1964
