# Disputa de datos - data wrangling 🧹

<strong>Objetivos:</strong>
+ Realizar nálisis exploratorio de datos (EDA).
+ Determinar etiquetas de entrenamiento.

---

## Importar librerías y cargar datos

In [1]:
# Importar.
import pandas as pd
import numpy as np

# Para ignorar Warnings.
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Cargar dataset de Space X provisto por IBM.
df = pd.read_csv('https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/datasets/dataset_part_1.csv')
''' 
o cargar dataset obtenido en el primer cuaderno.
df = pd.read_csv('./datasets/dataset_part_1.csv')
df.head(10)
'''
df.head(10)

Unnamed: 0,FlightNumber,Date,BoosterVersion,PayloadMass,Orbit,LaunchSite,Outcome,Flights,GridFins,Reused,Legs,LandingPad,Block,ReusedCount,Serial,Longitude,Latitude
0,1,2010-06-04,Falcon 9,6104.959412,LEO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0003,-80.577366,28.561857
1,2,2012-05-22,Falcon 9,525.0,LEO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0005,-80.577366,28.561857
2,3,2013-03-01,Falcon 9,677.0,ISS,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0007,-80.577366,28.561857
3,4,2013-09-29,Falcon 9,500.0,PO,VAFB SLC 4E,False Ocean,1,False,False,False,,1.0,0,B1003,-120.610829,34.632093
4,5,2013-12-03,Falcon 9,3170.0,GTO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B1004,-80.577366,28.561857
5,6,2014-01-06,Falcon 9,3325.0,GTO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B1005,-80.577366,28.561857
6,7,2014-04-18,Falcon 9,2296.0,ISS,CCAFS SLC 40,True Ocean,1,False,False,True,,1.0,0,B1006,-80.577366,28.561857
7,8,2014-07-14,Falcon 9,1316.0,LEO,CCAFS SLC 40,True Ocean,1,False,False,True,,1.0,0,B1007,-80.577366,28.561857
8,9,2014-08-05,Falcon 9,4535.0,GTO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B1008,-80.577366,28.561857
9,10,2014-09-07,Falcon 9,4428.0,GTO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B1011,-80.577366,28.561857


## Análisis exploratorio de datos

In [3]:
# Identificar y calcular el porcentaje de valores faltantes en cada variable/columna.
df.isnull().sum()/df.count()*100

FlightNumber       0.000
Date               0.000
BoosterVersion     0.000
PayloadMass        0.000
Orbit              0.000
LaunchSite         0.000
Outcome            0.000
Flights            0.000
GridFins           0.000
Reused             0.000
Legs               0.000
LandingPad        40.625
Block              0.000
ReusedCount        0.000
Serial             0.000
Longitude          0.000
Latitude           0.000
dtype: float64

In [4]:
# Identificar variables numéricas y categóricas.
df.dtypes

FlightNumber        int64
Date               object
BoosterVersion     object
PayloadMass       float64
Orbit              object
LaunchSite         object
Outcome            object
Flights             int64
GridFins             bool
Reused               bool
Legs                 bool
LandingPad         object
Block             float64
ReusedCount         int64
Serial             object
Longitude         float64
Latitude          float64
dtype: object

### Tareas

#### Tarea 1: Calcular el número de lanzamientos en cada ubicación

La ubicación de cada lanzamiento está en la columna <code>LaunchSite</code>.
Utilizar el método <code>value_counts()</code> en la columna LaunchSite.

In [5]:
df['LaunchSite'].value_counts()

CCAFS SLC 40    55
KSC LC 39A      22
VAFB SLC 4E     13
Name: LaunchSite, dtype: int64

Además, cada lanzamiento apunta a una órbita. A continuación, algunos tipos comunes de órbita:

+ <strong>OTB</strong>: Una órbita terrestre baja, OTB o LEO, es una órbita alrededor de la Tierra entre la atmósfera y el cinturón de radiación de Van Allen, con un ángulo bajo de inclinación.
Posee un período inferior a 128 minutos (por lo que un cuerpo en dicha órbita por lo menos da unas 11.25 vueltas a la Tierra por día) y una excentricidad inferior a 0.25.<br>
La mayoría de los objetos en el espacio exterior se encuentran en OTB, a una altitud que nunca excede aproximadamente un tercio del radio terrestre.​ Estos límites no están rígidamente definidos, pero están típicamente entre 150 - 2000 km sobre la superficie de la Tierra.<br>
La mayoría de los vuelos espaciales tripulados han sido en órbita terrestre baja

+ <strong>VLEO</strong>: Las órbitas terrestres muy bajas (VLEO) se pueden definir como las órbitas con una altitud media inferior a 450 km. Operar en estas órbitas puede proporcionar una serie de beneficios a las naves espaciales de observación de la Tierra, ya que la nave espacial opera más cerca de la observación.

+ <strong>GTO</strong>: Una órbita heliosincrónica es una órbita casi polar alrededor de un planeta, en la que el satélite pasa sobre cualquier punto dado de la superficie del planeta en el mismo tiempo solar medio local.

+ <strong>SSO</strong>: Una órbita heliosíncrona, sincrónica al sol​ o SSO (acrónimo del inglés Sun-Synchronous Orbit) es una órbita geocéntrica que combina altitud e inclinación para lograr que un objeto en esa órbita pase sobre una determinada latitud terrestre a un mismo tiempo solar local.

+ <strong>ES-L1</strong>: En los puntos de Lagrange las fuerzas gravitatorias de los dos grandes cuerpos se anulan de tal manera que un pequeño objeto puesto en órbita allí está en equilibrio con respecto al centro de masa de los grandes cuerpos. L1 es uno de esos puntos entre el sol y la tierra.

+ <strong>HEO</strong>: Una órbita altamente elíptica, es una órbita elíptica con alta excentricidad, generalmente refiriéndose a una alrededor de la Tierra.

+ <strong>ISS</strong>: Una estación espacial modular (satélite artificial habitable) en órbita terrestre baja. Es un proyecto de colaboración multinacional entre cinco agencias espaciales participantes: NASA (Estados Unidos), Roscosmos (Rusia), JAXA (Japón), ESA (Europa) y CSA (Canadá).

+ <strong>MEO</strong>: Órbitas geocéntricas que varían en altitud desde 2000 km (1200 millas) hasta justo debajo de la órbita geosíncrona a 35 786 kilómetros (22 236 millas). También conocida como órbita circular intermedia. Estos son 'más comúnmente a 20.200 kilómetros (12.600 mi), o 20.650 kilómetros (12.830 mi), con un período orbital de 12 horas.

+ <strong>HEO</strong>: Órbitas geocéntricas por encima de la altitud de la órbita geosíncrona (35 786 km o 22 236 mi).

+ <strong>GEO</strong>: Es una órbita geosíncrona circular de 35 786 kilómetros (22 236 millas) sobre el ecuador de la Tierra y sigue la dirección de rotación de la Tierra.

+ <strong>PO</strong>: Es un tipo de satélite en el que un satélite pasa por encima o casi por encima de ambos polos del cuerpo que está en órbita (generalmente un planeta como la Tierra).

Algunas de estas órbitas se muestran en el siguiente gráfico:

<img src='https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/api/Images/Orbits.png'>

#### Tarea 2: Calcular el número y ocurrencia de cada órbita

Usar el método <code>.value_counts()</code> para obtener el número y la ocurrencia de cada órbita en la columna <code>Orbit</code>.

In [6]:
df['Orbit'].value_counts()

GTO      27
ISS      21
VLEO     14
PO        9
LEO       7
SSO       5
MEO       3
ES-L1     1
HEO       1
SO        1
GEO       1
Name: Orbit, dtype: int64

#### Tarea 3: Calcular el número y la ocurrencia de los resultados por misión

Utilizar el método <code>.value_counts()</code> en la columna <code>Outcome</code>. Asignar resultado a una variable llamada <code>landing_outcomes</code>.

In [7]:
landing_outcomes = df['Outcome'].value_counts()
landing_outcomes

True ASDS      41
None None      19
True RTLS      14
False ASDS      6
True Ocean      5
False Ocean     2
None ASDS       2
False RTLS      1
Name: Outcome, dtype: int64

+ <code>True Ocean</code> significa que el cohete aterrizó con éxito en una región específica del océano, mientras que <code>False Ocean</code> significa que la misión aterrizó sin éxito en una región específica del océano.
+ <code>True RTLS</code> significa que la misión aterrizó con éxito en una plataforma de tierra, mientras que <code>False RTLS</code> significa que la misión aterrizó sin éxito en una plataforma de tierra.
+ <code>True ASDS</code> significa que la misión aterrizó con éxito en una una nave no tripulada, <code>False ASDS</code> significa que la misión aterrizó sin éxito en una nave no tripulada.
+ Por último, <code>None ASDS</code> y <code>None None</code> representan un fallo en el aterrizaje.

In [8]:
'''
El ciclo for se encarga de iterar sobre cada uno de los elementos devueltos por enumerate(landing_outcomes.keys()) y de guardar el índice (primer elemento) en la variable i y la clave (segundo elemento) en la variable outcome. Por último en cada iteración del ciclo se imprimirá el valor de i y outcome.
'''
for i, outcome in enumerate(landing_outcomes.keys()):
    print(i, outcome)

0 True ASDS
1 None None
2 True RTLS
3 False ASDS
4 True Ocean
5 False Ocean
6 None ASDS
7 False RTLS


A partir de los resultados de la celda anterior, crear un conjunto de resultados donde la segunda etapa NO aterrizó con éxito:

In [9]:
bad_outcomes = set(landing_outcomes.keys()[[1, 3, 5, 6, 7]])
bad_outcomes

{'False ASDS', 'False Ocean', 'False RTLS', 'None ASDS', 'None None'}

#### Tarea 4: con la columna <code>Outcome</code>, crear etiquetas de entrenamiento con los resultados de los aterrizajes

Primero, usar <code>Outcome</code> para crear una lista, donde el elemento sea cero si la fila correspondiente al Outcome está en el conjunto <code>bad_outcomes</code>; de lo contrario, que sea uno. Asignar esto a una variable llamada <code>landing_class</code>:

In [10]:
# landing_class = 0 si pertenece a bad_outcomes.
# landing_class = 1 si pertenece a otro valor.

# Craer una función.
def one_hot(item):
    if item in bad_outcomes:
        return 0
    else:
        return 1
landing_class = df['Outcome'].apply(one_hot)
landing_class

0     0
1     0
2     0
3     0
4     0
     ..
85    1
86    1
87    1
88    1
89    1
Name: Outcome, Length: 90, dtype: int64

La variable <code>landing_class</code> es la variable de clasificación que representá el resultado de cada lanzamiento. Si el valor es cero, la primera etapa no aterrizó con éxito, mientras que si el valor es uno significa que sí lo hizo.

In [11]:
# Agregar esta variable al dataset como una nueva columna.
df['Class'] = landing_class
df[['Class']].head(8)

Unnamed: 0,Class
0,0
1,0
2,0
3,0
4,0
5,0
6,1
7,1


In [12]:
# Ver todas las columnas del dataset.
df.head()

Unnamed: 0,FlightNumber,Date,BoosterVersion,PayloadMass,Orbit,LaunchSite,Outcome,Flights,GridFins,Reused,Legs,LandingPad,Block,ReusedCount,Serial,Longitude,Latitude,Class
0,1,2010-06-04,Falcon 9,6104.959412,LEO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0003,-80.577366,28.561857,0
1,2,2012-05-22,Falcon 9,525.0,LEO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0005,-80.577366,28.561857,0
2,3,2013-03-01,Falcon 9,677.0,ISS,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B0007,-80.577366,28.561857,0
3,4,2013-09-29,Falcon 9,500.0,PO,VAFB SLC 4E,False Ocean,1,False,False,False,,1.0,0,B1003,-120.610829,34.632093,0
4,5,2013-12-03,Falcon 9,3170.0,GTO,CCAFS SLC 40,None None,1,False,False,False,,1.0,0,B1004,-80.577366,28.561857,0


Se puede usar la siguiente línea de código para determinar la tasa de éxito:

In [13]:
df['Class'].mean()

0.6666666666666666

Por último, exportar el dataset a un CSV para la siguiente sección.

In [14]:
df.to_csv('../datasets/dataset_part_3.csv', index=False)

> **NOTA:**
Para que las respuestas sean consistentes en caso de que que hayan dificultades, los siguientes archivos utilizarán un dataset proporcionado para que cada cuaderno sea independiente.

## Resumen

El desarrollo de este cuaderno puede resumirse en los siguientes puntos:

+ El primer paso fue Importar las librerías necesarias y cargar los datos de Space X proporcionados por IBM.
+ Luego tuvo lugar un análisis exploratorio de datos donde se identificaron los valores faltantes a través de porcentajes, y donde también se identificaron qué variables categóricas y numéricas conforman el dataset.
+ Además, se calculó lo siguiente: el numéro de lanzamientos por zona, las orbitas a las que apuntan los lanzamientos junto con su número de ocurrencia, y también los tipos de aterrizajes con su número de ocurrencia.
+ Con los resultados de los aterrizajes se creó un set con los valores correspondientes a aterrizajes fallidos. Este set se asignó a la variable <code>bad_outcomes</code>. Esta variable se utilizó para crear la función <code>one_hot()</code>, que devuelve una lista llamada <code>landing_class</code> con el éxito de los aterrizajes, donde 0 representa un aterrizaje fallido y 1 representa que el aterrizaje fue exitoso. Agregué esta variable al dataset como una nueva columna llamada <code>Class</code>.<br>
  Es importante mencionar que en este punto se convierten los resultados de los aterrizajes en etiquetas de entrenamiento necesarias para la parte predictiva de este proyecto.
+ Finalmente, importé el dataset final como un archivo CSV para usarlo en la siguiente sección.

---