Objeto do projeto

Fatores que seram a bordados

* Desenvolver código Python para manipular dados em um quadro de dados do Pandas
* Converta um arquivo JSON em um quadro de dados Python Pandas convertendo um arquivo JSON
* Crie um notebook Jupyter e torne-o compartilhável usando o GitHub
* Utilizar metodologias de ciência de dados para definir e formular um problema comercial do mundo real
* Utilize suas ferramentas de análise de dados para carregar um conjunto de dados, limpá-lo e descobrir insights interessantes sobre ele

## Visão Geral do Projeto

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/lab_v2/images/landing_1.gif)

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/lab_v2/images/crash.gif)

# <center> Extrair Dados pela API SpaceX </center>

In [74]:
# Biblioteca para requisição requests
import requests

# Biblioteca para manipulação de dados tabular
import pandas as pd

# Biblioteca para matrizes e arrays grandes e multidimensionais, funções matemáticas de alto nível
import numpy as np

import datetime
import warnings
warnings.filterwarnings("ignore")

# Permite visualizar todas as colunas de um dataframe
pd.set_option('display.max_columns', None)

# Permite visualizar todas as linhas da coluna de um dataframe
#pd.set_option('display.max_colwidth', None)

Neste laboratório, você coletará e garantirá que os dados estejam no formato correto de uma API.

In [75]:
# Acessando todas as pastas presentas nesta api
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/datasets/API_call_spacex_api.json"

#"https://api.spacexdata.com/v4/launches/past"
# requisição/solicitação get
response = requests.get(url)

# Retorna o Status da resposta obtida (200 = OK)
print(response.status_code)

# Objeto requests json para DataFrame
data = pd.json_normalize(response.json())

200


In [76]:
data.head(2)

Unnamed: 0,static_fire_date_utc,static_fire_date_unix,tbd,net,window,rocket,success,details,crew,ships,capsules,payloads,launchpad,auto_update,failures,flight_number,name,date_utc,date_unix,date_local,date_precision,upcoming,cores,id,fairings.reused,fairings.recovery_attempt,fairings.recovered,fairings.ships,links.patch.small,links.patch.large,links.reddit.campaign,links.reddit.launch,links.reddit.media,links.reddit.recovery,links.flickr.small,links.flickr.original,links.presskit,links.webcast,links.youtube_id,links.article,links.wikipedia,fairings
0,2006-03-17T00:00:00.000Z,1142554000.0,False,False,0.0,5e9d0d95eda69955f709d1eb,False,Engine failure at 33 seconds and loss of vehicle,[],[],[],[5eb0e4b5b6c3bb0006eeb1e1],5e9e4502f5090995de566f86,True,"[{'time': 33, 'altitude': None, 'reason': 'mer...",1,FalconSat,2006-03-24T22:30:00.000Z,1143239400,2006-03-25T10:30:00+12:00,hour,False,"[{'core': '5e9e289df35918033d3b2623', 'flight'...",5eb87cd9ffd86e000604b32a,False,False,False,[],https://images2.imgbox.com/3c/0e/T8iJcSN3_o.png,https://images2.imgbox.com/40/e3/GypSkayF_o.png,,,,,[],[],,https://www.youtube.com/watch?v=0a_00nJ_Y88,0a_00nJ_Y88,https://www.space.com/2196-spacex-inaugural-fa...,https://en.wikipedia.org/wiki/DemoSat,
1,,,False,False,0.0,5e9d0d95eda69955f709d1eb,False,Successful first stage burn and transition to ...,[],[],[],[5eb0e4b6b6c3bb0006eeb1e2],5e9e4502f5090995de566f86,True,"[{'time': 301, 'altitude': 289, 'reason': 'har...",2,DemoSat,2007-03-21T01:10:00.000Z,1174439400,2007-03-21T13:10:00+12:00,hour,False,"[{'core': '5e9e289ef35918416a3b2624', 'flight'...",5eb87cdaffd86e000604b32b,False,False,False,[],https://images2.imgbox.com/4f/e3/I0lkuJ2e_o.png,https://images2.imgbox.com/be/e7/iNqsqVYM_o.png,,,,,[],[],,https://www.youtube.com/watch?v=Lk4zQ2wP-Nc,Lk4zQ2wP-Nc,https://www.space.com/3590-spacex-falcon-1-roc...,https://en.wikipedia.org/wiki/DemoSat,


Nota se que, algumas das variaveis não possuem os dados corretos em seus campos, somente o ID de identificação, não consta os dados, por exemplo, a variavel ``rocket`` não tem informação sobre o foguete, apenas um número de identificação.

Será enviado uma requisição a API novamente, para obter informações sobre os lançamentos, usando os IDs fornecidos para cada lançamento.

Especificamente, usaremos as colunas <code>rocket</code>, <code>payloads</code>, <code>launchpad</code> e <code>cores</code>.


In [77]:
# Vamos pegar um subconjunto do nosso dataframe mantendo apenas os recursos que queremos, o flight number e o date_utc.
data = data[['rocket', 'payloads', 'launchpad', 'cores', 'flight_number', 'date_utc']]

# Remover linhas com foguetes de múltiplos núcleos, porque são foguetes Falcon com 2 propulsores de foguete extras
data = data[data['cores'].map(len)==1]

# Remover também linhas que têm múltiplas cargas úteis em um único foguete.
data = data[data['payloads'].map(len)==1]

# Como cargas úteis e núcleos são listas de tamanho 1, também extrairemos o valor único na lista e substituiremos o recurso.
data['cores'] = data['cores'].map(lambda x : x[0])
data['payloads'] = data['payloads'].map(lambda x : x[0])

# Também queremos converter o date_utc para um tipo de dados datetime e então extrair a data deixando a hora
data['date'] = pd.to_datetime(data['date_utc']).dt.date

# Usando a data restringiremos as datas dos lançamentos
data = data[data['date'] <= datetime.date(2020, 11, 13)]

Abaixo uma série de funções auxiliares que ajudarão a usar a API para extrair informações usando números de identificação nos dados de lançamento.

### Na coluna ``rocket`` saber o nome do booster.

In [78]:
# Pega o conjunto de dados e usa a coluna rocket para chamar a API e anexar os dados à lista
def getBoosterVersion(data):
    for x in data['rocket']:

        # Solicitação a API
        response = requests.get("https://api.spacexdata.com/v4/rockets/"+str(x)).json()

        # Armazenar os dados referente a variavel "name"
        BoosterVersion.append(response['name'])

### Na coluna ``payload`` saber a massa da carga útil e a órbita.

In [79]:
# Pega o conjunto de dados e usa a coluna de cargas úteis para chamar a API e anexar os dados às listas
def getPayloadData(data):
    for load in data['payloads']:

        # Solicitação a API
        response = requests.get("https://api.spacexdata.com/v4/payloads/"+load).json()

        # Armazenar os dados referente a variavel "mass_kg"
        PayloadMass.append(response['mass_kg'])

        # Armazenar os dados referente a variavel "orbit"
        Orbit.append(response['orbit'])

### Na coluna ``launchpad`` saber o nome do local de lançamento que está sendo usado, a latitude e a longitude.

In [80]:
# Pega o conjunto de dados e usa a coluna do launchpad para chamar a API e anexar os dados à lista
def getLaunchSite(data):
    for x in data['launchpad']:

        # Solicitação a API
        response = requests.get("https://api.spacexdata.com/v4/launchpads/"+str(x)).json()

        # Armazenar os dados referente a variavel "longitude"
        Longitude.append(response['longitude'])

        # Armazenar os dados referente a variavel "latitude"
        Latitude.append(response['latitude'])

        # Armazenar os dados referente a variavel "name"
        LaunchSite.append(response['name'])

### Na coluna ``cores`` saber o resultado do pouso, o tipo de pouso, o número de voos com aquele núcleo, se foram usadas aletas de grade, se o núcleo foi reutilizado, se foram usadas landing, a plataforma de pouso usada, o bloco do núcleo, que é um número usado para separar versões de núcleos, o número de vezes que esse núcleo específico foi reutilizado e o número de série do núcleo.

In [81]:
# Pega o conjunto de dados e usa a coluna núcleos para chamar a API e anexar os dados às listas
def getCoreData(data):
    for core in data['cores']:
            if core['core'] != None:

                # Solicitação a API
                response = requests.get("https://api.spacexdata.com/v4/cores/"+core['core']).json()

                # Armazenar os dados referente a variavel "block"
                Block.append(response['block'])

                # Armazenar os dados referente a variavel "reuse_count"
                ReusedCount.append(response['reuse_count'])

                # Armazenar os dados referente a variavel "serial"
                Serial.append(response['serial'])
            else:

                # Inserir 'None' para incosistencia ou nulos
                Block.append(None)
                ReusedCount.append(None)
                Serial.append(None)

            # Armazenar os dados referente a variavel "landing_success" e "landing_type"
            Outcome.append(str(core['landing_success'])+' '+str(core['landing_type']))

            # Armazenar os dados referente a variavel "flight"
            Flights.append(core['flight'])

            # Armazenar os dados referente a variavel "gridfins"
            GridFins.append(core['gridfins'])

            # Armazenar os dados referente a variavel "reused"
            Reused.append(core['reused'])

            # Armazenar os dados referente a variavel "legs"
            Legs.append(core['legs'])

            # Armazenar os dados referente a variavel "landpad"
            LandingPad.append(core['landpad'])

Os dados provenientes das solicitações realizadas pelas funções que forá definidas anteriormente, serão armazenados em listas, e serão usados ​​para criar um novo dataframe.

In [82]:
# Lista para armazenar os dados da função "getBoosterVersion()"
BoosterVersion = []

# Aplicando a função já definida
getBoosterVersion(data)

In [83]:
# Lista para armazenar os dados da função "getPayloadData()"
PayloadMass = []
Orbit = []

# Aplicando a função já definida
getPayloadData(data)

In [84]:
# Lista para armazenar os dados da função "getLaunchSite()"
Longitude = []
Latitude = []
LaunchSite = []

# Aplicando a função já definida
getLaunchSite(data)

In [85]:
# Lista para armazenar os dados da função "getCoreData()"
Block = []
ReusedCount = []
Serial = []
Outcome = []
Flights = []
GridFins = []
Reused = []
Legs = []
LandingPad = []

# Aplicando a função já definida
getCoreData(data)

Neste momento, ja se pode construir o conjunto de dados, com as extrações realizadas nas APIs

In [86]:
# Dicionario que irá ser tranformado, a partir das listas, um dataframe
launch_dict = {'FlightNumber': list(data['flight_number']),
'Date': list(data['date']),
'BoosterVersion':BoosterVersion,
'PayloadMass':PayloadMass,
'Orbit':Orbit,
'LaunchSite':LaunchSite,
'Outcome':Outcome,
'Flights':Flights,
'GridFins':GridFins,
'Reused':Reused,
'Legs':Legs,
'LandingPad':LandingPad,
'Block':Block,
'ReusedCount':ReusedCount,
'Serial':Serial,
'Longitude': Longitude,
'Latitude': Latitude}

In [87]:
df_spacex = pd.DataFrame.from_dict(launch_dict)

### Salvando o dataframe com os dados brutos de todos os foguetes em um arquivo "CSV"

In [88]:
df_spacex.to_csv("DbApi_bruto_scapcex.csv",
                 index_label=False,
                 index=False)

In [89]:
df_spacex.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94 entries, 0 to 93
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   FlightNumber    94 non-null     int64  
 1   Date            94 non-null     object 
 2   BoosterVersion  94 non-null     object 
 3   PayloadMass     88 non-null     float64
 4   Orbit           94 non-null     object 
 5   LaunchSite      94 non-null     object 
 6   Outcome         94 non-null     object 
 7   Flights         94 non-null     int64  
 8   GridFins        94 non-null     bool   
 9   Reused          94 non-null     bool   
 10  Legs            94 non-null     bool   
 11  LandingPad      64 non-null     object 
 12  Block           90 non-null     float64
 13  ReusedCount     94 non-null     int64  
 14  Serial          94 non-null     object 
 15  Longitude       94 non-null     float64
 16  Latitude        94 non-null     float64
dtypes: bool(3), float64(4), int64(3), obj

In [90]:
df_spacex.head()

Unnamed: 0,FlightNumber,Date,BoosterVersion,PayloadMass,Orbit,LaunchSite,Outcome,Flights,GridFins,Reused,Legs,LandingPad,Block,ReusedCount,Serial,Longitude,Latitude
0,1,2006-03-24,Falcon 1,20.0,LEO,Kwajalein Atoll,None None,1,False,False,False,,,0,Merlin1A,167.743129,9.047721
1,2,2007-03-21,Falcon 1,,LEO,Kwajalein Atoll,None None,1,False,False,False,,,0,Merlin2A,167.743129,9.047721
2,4,2008-09-28,Falcon 1,165.0,LEO,Kwajalein Atoll,None None,1,False,False,False,,,0,Merlin2C,167.743129,9.047721
3,5,2009-07-13,Falcon 1,200.0,LEO,Kwajalein Atoll,None None,1,False,False,False,,,0,Merlin3C,167.743129,9.047721
4,6,2010-06-04,Falcon 9,,LEO,CCSFS SLC 40,None None,1,False,False,False,,1.0,0,B0003,-80.577366,28.561857


### Filtrando o dataframe para incluir apenas os lançamentos do foguet Falcon 9

In [91]:
df_falcon9 = df_spacex.loc[df_spacex['BoosterVersion'] == "Falcon 9"]
df_falcon9.info()

<class 'pandas.core.frame.DataFrame'>
Index: 90 entries, 4 to 93
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   FlightNumber    90 non-null     int64  
 1   Date            90 non-null     object 
 2   BoosterVersion  90 non-null     object 
 3   PayloadMass     85 non-null     float64
 4   Orbit           90 non-null     object 
 5   LaunchSite      90 non-null     object 
 6   Outcome         90 non-null     object 
 7   Flights         90 non-null     int64  
 8   GridFins        90 non-null     bool   
 9   Reused          90 non-null     bool   
 10  Legs            90 non-null     bool   
 11  LandingPad      64 non-null     object 
 12  Block           90 non-null     float64
 13  ReusedCount     90 non-null     int64  
 14  Serial          90 non-null     object 
 15  Longitude       90 non-null     float64
 16  Latitude        90 non-null     float64
dtypes: bool(3), float64(4), int64(3), object(7

In [92]:
#df_falcon9 = df_spacex.loc[df_spacex['BoosterVersion']!="Falcon 1"]
#df_falcon9.info()

Como os numeros de voos, coluna ``FlightNumber`` representam somente uma posição de um ordenamento, deve se reformatar a coluna para que os posicionamentos sejam reorganizados, uma vez que, algumas linhas foram removidas no processo de filtragem

### Agora que foram removidos alguns valores por conta do processo anterior, devemos redefinir a coluna ``FlightNumber``

In [93]:
df_falcon9.loc[:,'FlightNumber'] = list(range(1, df_falcon9.shape[0]+1))

### Salvando o novo dataframe com apenas dados brutos referente ao foguete falcon 9 em um arquivo "CSV"

In [94]:
df_falcon9.to_csv("DbApi_bruto_falcon_09.csv",
                 index_label=False,
                 index=False)

Se faz necessario aplicar tecnicas para data wrangling nos dados brutos, e este é o processo de transformar e estruturar dados, para torná-los mais consumíveis e úteis para analytics ou machine learnin