<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo">
    </a>
</p>


# **Space X  Falcon 9 First Stage Landing Prediction**
# **Predicción del aterrizaje de la primera etapa del Falcon 9 de Space X**

## Web scraping Falcon 9 and Falcon Heavy Launches Records from Wikipedia
## Web scraping Falcon 9 y Falcon Heavy lanzan registros de Wikipedia

Estimated time needed: **40** minutes


In this lab, you will be performing web scraping to collect Falcon 9 historical launch records from a Wikipedia page titled `List of Falcon 9 and Falcon Heavy launches`

https://en.wikipedia.org/wiki/List_of_Falcon_9_and_Falcon_Heavy_launches

En este laboratorio, realizará un raspado web para recopilar registros históricos de lanzamiento de Falcon 9 de una página de Wikipedia titulada "Lista de lanzamientos de Falcon 9 y Falcon Heavy".

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/labs/module_1_L2/images/Falcon9_rocket_family.svg)


Falcon 9 first stage will land successfully
La primera etapa del Falcon 9 aterrizará con éxito

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/api/Images/landing_1.gif)


Several examples of an unsuccessful landing are shown here:
A continuación se muestran varios ejemplos de aterrizajes fallidos:

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/api/Images/crash.gif)


More specifically, the launch records are stored in a HTML table shown below:
Más específicamente, los registros de lanzamiento se almacenan en una tabla HTML que se muestra a continuación:

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/labs/module_1_L2/images/falcon9-launches-wiki.png)


  ## Objectives
Web scrap Falcon 9 launch records with `BeautifulSoup`: 
- Extract a Falcon 9 launch records HTML table from Wikipedia
- Parse the table and convert it into a Pandas data frame

## Objetivos
Crear un archivo web de los registros de lanzamiento de Falcon 9 con `BeautifulSoup`:
- Extraer una tabla HTML de registros de lanzamiento de Falcon 9 de Wikipedia
- Analizar la tabla y convertirla en un marco de datos de Pandas

First let's import required packages for this lab

Primero, importemos los paquetes necesarios para este laboratorio.

In [8]:
!pip3 install beautifulsoup4
!pip3 install requests



In [9]:
import sys

import requests
from bs4 import BeautifulSoup
import re
import unicodedata
import pandas as pd

and we will provide some helper functions for you to process web scraped HTML table

y le proporcionaremos algunas funciones auxiliares para procesar la tabla HTML extraída de la web.

In [10]:
def date_time(table_cells):
    """
    This function returns the data and time from the HTML  table cell
    Input: the  element of a table data cell extracts extra row
    """
    return [data_time.strip() for data_time in list(table_cells.strings)][0:2]

def booster_version(table_cells):
    """
    This function returns the booster version from the HTML  table cell 
    Input: the  element of a table data cell extracts extra row
    """
    out=''.join([booster_version for i,booster_version in enumerate( table_cells.strings) if i%2==0][0:-1])
    return out

def landing_status(table_cells):
    """
    This function returns the landing status from the HTML table cell 
    Input: the  element of a table data cell extracts extra row
    """
    out=[i for i in table_cells.strings][0]
    return out


def get_mass(table_cells):
    mass=unicodedata.normalize("NFKD", table_cells.text).strip()
    if mass:
        mass.find("kg")
        new_mass=mass[0:mass.find("kg")+2]
    else:
        new_mass=0
    return new_mass


def extract_column_from_header(row):
    """
    This function returns the landing status from the HTML table cell 
    Input: the  element of a table data cell extracts extra row
    """
    if (row.br):
        row.br.extract()
    if row.a:
        row.a.extract()
    if row.sup:
        row.sup.extract()
        
    colunm_name = ' '.join(row.contents)
    
    # Filter the digit and empty names
    if not(colunm_name.strip().isdigit()):
        colunm_name = colunm_name.strip()
        return colunm_name    


To keep the lab tasks consistent, you will be asked to scrape the data from a snapshot of the  `List of Falcon 9 and Falcon Heavy launches` Wikipage updated on
`9th June 2021`

Para mantener la coherencia en las tareas de laboratorio, se le pedirá que extraiga los datos de una instantánea de la página Wiki «Lista de lanzamientos de Falcon 9 y Falcon Heavy» actualizada el 9 de junio de 2021.

In [11]:
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

Next, request the HTML page from the above URL and get a `response` object

A continuación, solicita la página HTML desde la URL anterior y obtén un objeto `respuesta`

### TASK 1: Request the Falcon9 Launch Wiki page from its URL
### TAREA 1: Solicitar la página Wiki de lanzamiento de Falcon9 desde su URL

First, let's perform an HTTP GET method to request the Falcon9 Launch HTML page, as an HTTP response.

Primero, ejecutemos un método HTTP GET para solicitar la página HTML de lanzamiento de Falcon9, como una respuesta HTTP.

In [12]:
# use requests.get() method with the provided static_url
# assign the response to a object

# Usar el método requests.get() con la URL estática proporcionada
# Asignar la respuesta a un objeto

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<p style=\"text-align:center\">\n",
    "    <a href=\"https://skills.network\" target=\"_blank\">\n",
    "    <img src=\"https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png\" width=\"200\" alt=\"Skills Network Logo\">\n",
    "    </a>\n",
    "</p>\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# **Space X  Falcon 9 First Stage Landing Prediction**\n",
    "# **Predicción del aterrizaje de la primera etapa del Falcon 9 de Space X**"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Web scraping Falcon 9 and Falcon Heavy Launches Records from Wikipedia\n",
    "## Web scraping Falcon 9 y Falcon Heavy lanzan registros de Wikipedia"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Estimated time needed: **40** minutes\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In this lab, you will be performing web scraping to collect Falcon 9 historical launch records from a Wikipedia page titled `List of Falcon 9 and Falcon Heavy launches`\n",
    "\n",
    "https://en.wikipedia.org/wiki/List_of_Falcon_9_and_Falcon_Heavy_launches\n",
    "\n",
    "En este laboratorio, realizará un raspado web para recopilar registros históricos de lanzamiento de Falcon 9 de una página de Wikipedia titulada \"Lista de lanzamientos de Falcon 9 y Falcon Heavy\"."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/labs/module_1_L2/images/Falcon9_rocket_family.svg)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Falcon 9 first stage will land successfully\n",
    "La primera etapa del Falcon 9 aterrizará con éxito"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/api/Images/landing_1.gif)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Several examples of an unsuccessful landing are shown here:\n",
    "A continuación se muestran varios ejemplos de aterrizajes fallidos:"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DS0701EN-SkillsNetwork/api/Images/crash.gif)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "More specifically, the launch records are stored in a HTML table shown below:\n",
    "Más específicamente, los registros de lanzamiento se almacenan en una tabla HTML que se muestra a continuación:"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DS0321EN-SkillsNetwork/labs/module_1_L2/images/falcon9-launches-wiki.png)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "  ## Objectives\n",
    "Web scrap Falcon 9 launch records with `BeautifulSoup`: \n",
    "- Extract a Falcon 9 launch records HTML table from Wikipedia\n",
    "- Parse the table and convert it into a Pandas data frame\n",
    "\n",
    "## Objetivos\n",
    "Crear un archivo web de los registros de lanzamiento de Falcon 9 con `BeautifulSoup`:\n",
    "- Extraer una tabla HTML de registros de lanzamiento de Falcon 9 de Wikipedia\n",
    "- Analizar la tabla y convertirla en un marco de datos de Pandas"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "First let's import required packages for this lab\n",
    "\n",
    "Primero, importemos los paquetes necesarios para este laboratorio."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Instalamos las librerías necesarias. Esto solo se necesita ejecutar una vez.\n",
    "# !pip3 install beautifulsoup4\n",
    "# !pip3 install requests\n",
    "\n",
    "import sys\n",
    "import requests\n",
    "from bs4 import BeautifulSoup\n",
    "import re\n",
    "import unicodedata\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "and we will provide some helper functions for you to process web scraped HTML table\n",
    "\n",
    "y le proporcionaremos algunas funciones auxiliares para procesar la tabla HTML extraída de la web."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "def date_time(table_cells):\n",
    "    \"\"\"\n",
    "    Esta función extrae la fecha y la hora de una celda de tabla HTML.\n",
    "    Entrada: el elemento de una celda de datos de tabla.\n",
    "    \"\"\"\n",
    "    return [data_time.strip() for data_time in list(table_cells.strings)][0:2]\n",
    "\n",
    "def booster_version(table_cells):\n",
    "    \"\"\"\n",
    "    Esta función extrae la versión del propulsor de una celda de tabla HTML.\n",
    "    Entrada: el elemento de una celda de datos de tabla.\n",
    "    \"\"\"\n",
    "    out=''.join([booster_version for i,booster_version in enumerate( table_cells.strings) if i%2==0][0:-1])\n",
    "    return out\n",
    "\n",
    "def landing_status(table_cells):\n",
    "    \"\"\"\n",
    "    Esta función extrae el estado de aterrizaje de una celda de tabla HTML.\n",
    "    Entrada: el elemento de una celda de datos de tabla.\n",
    "    \"\"\"\n",
    "    out=[i for i in table_cells.strings][0]\n",
    "    return out\n",
    "\n",
    "\n",
    "def get_mass(table_cells):\n",
    "    \"\"\"\n",
    "    Esta función extrae y normaliza la masa de una celda de tabla HTML.\n",
    "    \"\"\"\n",
    "    mass=unicodedata.normalize(\"NFKD\", table_cells.text).strip()\n",
    "    if mass:\n",
    "        mass.find(\"kg\")\n",
    "        new_mass=mass[0:mass.find(\"kg\")+2]\n",
    "    else:\n",
    "        new_mass=0\n",
    "    return new_mass\n",
    "\n",
    "\n",
    "def extract_column_from_header(row):\n",
    "    \"\"\"\n",
    "    Esta función extrae el nombre de la columna de un elemento de encabezado (<th>) de una tabla HTML.\n",
    "    Elimina etiquetas como <br/>, <a>, <sup> para obtener solo el texto del nombre.\n",
    "    \"\"\"\n",
    "    if (row.br):\n",
    "        row.br.extract()\n",
    "    if row.a:\n",
    "        row.a.extract()\n",
    "    if row.sup:\n",
    "        row.sup.extract()\n",
    "        \n",
    "    colunm_name = ' '.join(row.contents)\n",
    "    \n",
    "    # Filtra los nombres que son solo dígitos o están vacíos\n",
    "    if not(colunm_name.strip().isdigit()):\n",
    "        colunm_name = colunm_name.strip()\n",
    "        return colunm_name    \n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "To keep the lab tasks consistent, you will be asked to scrape the data from a snapshot of the  `List of Falcon 9 and Falcon Heavy launches` Wikipage updated on\n",
    "`9th June 2021`\n",
    "\n",
    "Para mantener la coherencia en las tareas de laboratorio, se le pedirá que extraiga los datos de una instantánea de la página Wiki «Lista de lanzamientos de Falcon 9 y Falcon Heavy» actualizada el 9 de junio de 2021."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "static_url = \"https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922\""
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Next, request the HTML page from the above URL and get a `response` object\n",
    "\n",
    "A continuación, solicita la página HTML desde la URL anterior y obtén un objeto `respuesta`"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### TAREA 1: Solicitar la página Wiki de lanzamiento de Falcon9 desde su URL\n",
    "Primero, ejecutemos un método HTTP GET para solicitar la página HTML de lanzamiento de Falcon9, como una respuesta HTTP."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Usar el método requests.get() con la URL estática proporcionada\n",
    "# Asignar la respuesta a un objeto\n",
    "response = requests.get(static_url)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Create a `BeautifulSoup` object from the HTML `response`\n",
    "\n",
    "Crea un objeto `BeautifulSoup` a partir de la `respuesta` HTML"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Utilice BeautifulSoup() para crear un objeto BeautifulSoup a partir de un contenido de texto de respuesta\n",
    "soup = BeautifulSoup(response.text, 'html.parser')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Print the page title to verify if the `BeautifulSoup` object was created properly \n",
    "\n",
    "Imprima el título de la página para verificar si el objeto `BeautifulSoup` se creó correctamente"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Utilice el atributo soup.title\n",
    "print(soup.title)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### TAREA 2: Extraer todos los nombres de columnas/variables del encabezado de la tabla HTML\n",
    "A continuación, queremos recopilar todos los nombres de columnas relevantes del encabezado de la tabla HTML."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Let's try to find all tables on the wiki page first. If you need to refresh your memory about `BeautifulSoup`, please check the external reference link towards the end of this lab\n",
    "Primero, intentemos encontrar todas las tablas en la página wiki. Si necesita refrescar su memoria sobre «BeautifulSoup», consulte el enlace de referencia externa al final de este laboratorio."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Use la función find_all en el objeto BeautifulSoup, con elemento de tipo `table`\n",
    "# Asignar el resultado a una lista llamada `html_tables`\n",
    "html_tables = soup.find_all('table')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Starting from the third table is our target table contains the actual launch records.\n",
    "# Usamos la tercera tabla, ya que es la que contiene los registros de lanzamiento reales."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Imprimamos la tercera tabla y verifiquemos su contenido\n",
    "first_launch_table = html_tables[2]\n",
    "print(first_launch_table)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "You should able to see the columns names embedded in the table header elements `<th>` as follows:\n",
    "\n",
    "Debería poder ver los nombres de las columnas incrustados en los elementos del encabezado de tabla `<th>` de la siguiente manera:"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "```\n",
    "<tr>\n",
    "<th scope=\"col\">Flight No.\n",
    "</th>\n",
    "<th scope=\"col\">Date and<br/>time (<a href=\"/wiki/Coordinated_Universal_Time\" title=\"Coordinated Universal Time\">UTC</a>)\n",
    "</th>\n",
    "<th scope=\"col\"><a href=\"/wiki/List_of_Falcon_9_first-stage_boosters\" title=\"List of Falcon 9 first-stage boosters\">Version,<br/>Booster</a> <sup class=\"reference\" id=\"cite_ref-booster_11-0\"><a href=\"#cite_note-booster-11\">[b]</a></sup>\n",
    "</th>\n",
    "<th scope=\"col\">Launch site\n",
    "</th>\n",
    "<th scope=\"col\">Payload<sup class=\"reference\" id=\"cite_ref-Dragon_12-0\"><a href=\"#cite_note-Dragon-12\">[c]</a></sup>\n",
    "</th>\n",
    "<th scope=\"col\">Payload mass\n",
    "</th>\n",
    "<th scope=\"col\">Orbit\n",
    "</th>\n",
    "<th scope=\"col\">Customer\n",
    "</th>\n",
    "<th scope=\"col\">Launch<br/>outcome\n",
    "</th>\n",
    "<th scope=\"col\"><a href=\"/wiki/Falcon_9_first-stage_landing_tests\" title=\"Falcon 9 first-stage landing tests\">Booster<br/>landing</a>\n",
    "</th></tr>\n",
    "```\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Next, we just need to iterate through the `<th>` elements and apply the provided `extract_column_from_header()` to extract column name one by one\n",
    "\n",
    "A continuación, solo necesitamos iterar a través de los elementos `<th>` y aplicar el `extract_column_from_header()` proporcionado para extraer el nombre de la columna uno por uno."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "column_names = []\n",
    "\n",
    "# Aplicar la función find_all() con el elemento `th` en first_launch_table\n",
    "# Iterar cada elemento `th` y aplicar la función extract_column_from_header() proporcionada para obtener el nombre de la columna\n",
    "# Añadir el nombre de la columna no vacía (`si `name` no es `Ninguno` y `len(name) > 0`) a una lista llamada `column_names`\n",
    "for th in first_launch_table.find_all('th'):\n",
    "    name = extract_column_from_header(th)\n",
    "    if name is not None and len(name) > 0:\n",
    "        column_names.append(name)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Check the extracted column names\n",
    "Compruebe los nombres de las columnas extraídas"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(column_names)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## TAREA 3: Crear un marco de datos analizando las tablas HTML de lanzamiento\n",
    "Crearemos un diccionario vacío con las claves de los nombres de columna extraídos en la tarea anterior. Posteriormente, este diccionario se convertirá en un dataframe de Pandas."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "launch_dict= dict.fromkeys(column_names)\n",
    "\n",
    "# Eliminar una columna irrelevante\n",
    "del launch_dict['Date and time ( )']\n",
    "\n",
    "# Inicialicemos launch_dict con cada valor para que sea una lista vacía\n",
    "launch_dict['Flight No.'] = []\n",
    "launch_dict['Launch site'] = []\n",
    "launch_dict['Payload'] = []\n",
    "launch_dict['Payload mass'] = []\n",
    "launch_dict['Orbit'] = []\n",
    "launch_dict['Customer'] = []\n",
    "launch_dict['Launch outcome'] = []\n",
    "\n",
    "# Se agregaron algunas columnas nuevas para los datos divididos\n",
    "launch_dict['Version Booster']=[]\n",
    "launch_dict['Booster landing']=[]\n",
    "launch_dict['Date']=[]\n",
    "launch_dict['Time']=[]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Next, we just need to fill up the `launch_dict` with launch records extracted from table rows.\n",
    "A continuación, solo necesitamos llenar el `launch_dict` con registros de lanzamiento extraídos de las filas de la tabla."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Usually, HTML tables in Wiki pages are likely to contain unexpected annotations and other types of noises, such as reference links `B0004.1[8]`, missing values `N/A [e]`, inconsistent formatting, etc.\n",
    "Generalmente, las tablas HTML en páginas Wiki tienden a contener anotaciones inesperadas y otros tipos de ruidos, como enlaces de referencia `B0004.1[8]`, valores faltantes `N/A [e]`, formato inconsistente, etc."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "To simplify the parsing process, we have provided an incomplete code snippet below to help you to fill up the `launch_dict`. Please complete the following code snippet with TODOs or you can choose to write your own logic to parse all launch tables:\n",
    "Para simplificar el análisis, proporcionamos un fragmento de código incompleto a continuación para ayudarle a completar el `launch_dict`. Complete el siguiente fragmento de código con las tareas pendientes o puede escribir su propia lógica para analizar todas las tablas de lanzamiento:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "extracted_row = 0\n",
    "#Extraer cada tabla \n",
    "for table_number,table in enumerate(soup.find_all('table',\"wikitable plainrowheaders collapsible\")):\n",
    "   # obtener fila de la tabla\n",
    "    for rows in table.find_all(\"tr\"):\n",
    "        #comprobar si el primer encabezado de la tabla es un número correspondiente a un número de lanzamiento\n",
    "        if rows.th:\n",
    "            if rows.th.string:\n",
    "                flight_number=rows.th.string.strip()\n",
    "                flag=flight_number.isdigit()\n",
    "        else:\n",
    "            flag=False\n",
    "        #obtener elemento de la tabla\n",
    "        row=rows.find_all('td')\n",
    "        #si es un número, guardar las celdas en un diccionario\n",
    "        if flag:\n",
    "            extracted_row += 1\n",
    "            # Valor del número de vuelo\n",
    "            launch_dict['Flight No.'].append(flight_number)\n",
    "            datatimelist=date_time(row[0])\n",
    "            \n",
    "            # Valor de la fecha\n",
    "            date = datatimelist[0].strip(',')\n",
    "            launch_dict['Date'].append(date)\n",
    "            \n",
    "            # Valor de la hora\n",
    "            time = datatimelist[1]\n",
    "            launch_dict['Time'].append(time)\n",
    "              \n",
    "            # Versión del propulsor\n",
    "            bv=booster_version(row[1])\n",
    "            if not(bv):\n",
    "                if row[1].a: # Manejo de casos donde no hay texto directo pero sí un enlace\n",
    "                    bv=row[1].a.string\n",
    "                else:\n",
    "                    bv = list(row[1].strings)[0].strip() if len(list(row[1].strings)) > 0 else None\n",
    "            launch_dict['Version Booster'].append(bv)\n",
    "            \n",
    "            # Lugar de lanzamiento\n",
    "            launch_site = row[2].a.string if row[2].a else None # Algunos sitios de lanzamiento pueden no tener un enlace 'a'\n",
    "            launch_dict['Launch site'].append(launch_site)\n",
    "            \n",
    "            # Carga útil\n",
    "            payload = row[3].a.string if row[3].a else None # Algunas cargas útiles pueden no tener un enlace 'a'\n",
    "            launch_dict['Payload'].append(payload)\n",
    "            \n",
    "            # Masa de la carga útil\n",
    "            payload_mass = get_mass(row[4])\n",
    "            launch_dict['Payload mass'].append(payload_mass)\n",
    "            \n",
    "            # Órbita\n",
    "            orbit = row[5].a.string if row[5].a else None # Algunas órbitas pueden no tener un enlace 'a'\n",
    "            launch_dict['Orbit'].append(orbit)\n",
    "            \n",
    "            # Cliente\n",
    "            if row[6].a is not None: # Algunos clientes pueden no tener un enlace 'a'\n",
    "                customer = row[6].a.string\n",
    "            else:\n",
    "                customer = list(row[6].strings)[0].strip() if len(list(row[6].strings)) > 0 else None\n",
    "            launch_dict['Customer'].append(customer)\n",
    "            \n",
    "            # Resultado del lanzamiento\n",
    "            launch_outcome = list(row[7].strings)[0].strip() \n",
    "            launch_dict['Launch outcome'].append(launch_outcome)\n",
    "            \n",
    "            # Aterrizaje del propulsor\n",
    "            booster_landing = landing_status(row[8])\n",
    "            launch_dict['Booster landing'].append(booster_landing)\n",
    "            "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "After you have fill in the parsed launch record values into `launch_dict`, you can create a dataframe from it.\n",
    "Después de haber llenado el `launch_dict` con los valores de los registros de lanzamiento analizados, puedes crear un dataframe a partir de él."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "df= pd.DataFrame({ key:pd.Series(value) for key, value in launch_dict.items() })"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We can now export it to a <b>CSV</b> for the next section, but to make the answers consistent and in case you have difficulties finishing this lab. \n",
    "\n",
    "Following labs will be using a provided dataset to make each lab independent. \n",
    "Ahora podemos exportarlo a un <b>CSV</b> para la siguiente sección, pero para que las respuestas sean consistentes y en caso de que tengas dificultades para terminar este laboratorio.\n",
    "\n",
    "Los siguientes laboratorios utilizarán un conjunto de datos proporcionado para hacer que cada laboratorio sea independiente."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": None,
   "metadata": {},
   "outputs": [],
   "source": [
    "df.to_csv('spacex_web_scraped.csv', index=False)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Authors\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<a href=\"https://www.linkedin.com/in/yan-luo-96288783/\">Yan Luo</a>\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<a href=\"https://www.linkedin.com/in/nayefaboutayoun/\">Nayef Abou Tayoun</a>\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Copyright © 2021 IBM Corporation. All rights reserved.\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python",
   "language": "python",
   "name": "conda-env-python-py"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.12"
  },
  "prev_pub_hash": "64f1b0aac408997185c47caba18730e0028b75e7934a0e5bf0ae73c5cb7ba677"
 },
 "nbformat": 4,
 "nbformat_minor": 4
}


{'cells': [{'cell_type': 'markdown',
   'metadata': {},
   'source': ['<p style="text-align:center">\n',
    '    <a href="https://skills.network" target="_blank">\n',
    '    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo">\n',
    '    </a>\n',
    '</p>\n']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['# **Space X  Falcon 9 First Stage Landing Prediction**\n',
    '# **Predicción del aterrizaje de la primera etapa del Falcon 9 de Space X**']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['## Web scraping Falcon 9 and Falcon Heavy Launches Records from Wikipedia\n',
    '## Web scraping Falcon 9 y Falcon Heavy lanzan registros de Wikipedia']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['Estimated time needed: **40** minutes\n']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['In this lab, you will be performing web s

Create a `BeautifulSoup` object from the HTML `response`


In [13]:
# Use BeautifulSoup() to create a BeautifulSoup object from a response text content

# Utilice BeautifulSoup() para crear un objeto BeautifulSoup a partir de un contenido de texto de respuesta

import requests
from bs4 import BeautifulSoup

# URL estática de la página de Wikipedia de lanzamientos de Falcon 9.
# Esta variable se usaría para obtener la respuesta HTML.
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

# Primero, necesitamos obtener la respuesta HTML de la página.
# Si estás siguiendo el notebook completo, 'response' ya estaría definida.
# Para que este fragmento sea ejecutable de forma independiente, la volvemos a obtener.
try:
    response = requests.get(static_url)
    # Creamos un objeto BeautifulSoup a partir del contenido HTML de la respuesta.
    # 'response.text' contiene el HTML de la página web.
    # 'html.parser' es el analizador que BeautifulSoup utilizará para interpretar la estructura HTML.
    soup = BeautifulSoup(response.text, 'html.parser')

    print("Objeto BeautifulSoup creado exitosamente.")
    # Puedes imprimir el título de la página para verificar que funciona:
    # print(soup.title)

except Exception as e:
    print(f"Ocurrió un error: {e}")
    print("Asegúrate de que las librerías 'requests' y 'beautifulsoup4' estén instaladas en tu entorno.")

Objeto BeautifulSoup creado exitosamente.


Print the page title to verify if the `BeautifulSoup` object was created properly 

Imprima el título de la página para verificar si el objeto `BeautifulSoup` se creó correctamente

In [14]:
# Use soup.title attribute

# Utilice el atributo soup.title

import requests
from bs4 import BeautifulSoup

# URL estática de la página de Wikipedia de lanzamientos de Falcon 9
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

try:
    # Realizamos una solicitud HTTP GET para obtener el contenido HTML de la página
    response = requests.get(static_url)

    # Creamos un objeto BeautifulSoup a partir del contenido HTML de la respuesta
    soup = BeautifulSoup(response.text, 'html.parser')

    # Imprimimos el título de la página para verificar que el objeto BeautifulSoup
    # se creó correctamente. El atributo .title de un objeto BeautifulSoup
    # devuelve la etiqueta <title> completa del documento HTML.
    print(soup.title)

except Exception as e:
    print(f"Ocurrió un error: {e}")
    print("Asegúrate de que las librerías 'requests' y 'beautifulsoup4' estén instaladas en tu entorno para que este código funcione.")

<title>List of Falcon 9 and Falcon Heavy launches - Wikipedia</title>


### TASK 2: Extract all column/variable names from the HTML table header
### TAREA 2: Extraer todos los nombres de columnas/variables del encabezado de la tabla HTML

Next, we want to collect all relevant column names from the HTML table header


A continuación, queremos recopilar todos los nombres de columnas relevantes del encabezado de la tabla HTML.

Let's try to find all tables on the wiki page first. If you need to refresh your memory about `BeautifulSoup`, please check the external reference link towards the end of this lab


Primero, intentemos encontrar todas las tablas en la página wiki. Si necesita refrescar su memoria sobre «BeautifulSoup», consulte el enlace de referencia externa al final de este laboratorio.

In [15]:
# Use the find_all function in the BeautifulSoup object, with element type `table`
# Assign the result to a list called `html_tables`


# Use la función find_all en el objeto BeautifulSoup, con elemento de tipo `table`
# Asignar el resultado a una lista llamada `html_tables`

import requests
from bs4 import BeautifulSoup

# URL estática de la página de Wikipedia de lanzamientos de Falcon 9
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

try:
    # Realizamos una solicitud HTTP GET para obtener el contenido HTML de la página
    response = requests.get(static_url)

    # Creamos un objeto BeautifulSoup a partir del contenido HTML de la respuesta
    soup = BeautifulSoup(response.text, 'html.parser')

    # Usamos la función find_all() en el objeto BeautifulSoup.
    # Esta función busca todas las ocurrencias de una etiqueta HTML específica en el documento.
    # Aquí, estamos buscando todas las etiquetas 'table' (tablas HTML).
    # El resultado se asigna a una lista llamada `html_tables`.
    html_tables = soup.find_all('table')

    print(f"Se encontraron {len(html_tables)} tablas en la página.")
    # Puedes imprimir la primera tabla para ver su contenido (opcional)
    # print(html_tables[0])

except Exception as e:
    print(f"Ocurrió un error: {e}")
    print("Asegúrate de que las librerías 'requests' y 'beautifulsoup4' estén instaladas en tu entorno para que este código funcione.")

Se encontraron 25 tablas en la página.


Starting from the third table is our target table contains the actual launch records.


# Use la función find_all en el objeto BeautifulSoup, con elemento de tipo `table`


# Asignar el resultado a una lista llamada `html_tables`

In [16]:
# Asegúrate de tener instaladas las librerías 'requests' y 'beautifulsoup4'.
# Si no las tienes, puedes instalarlas en tu entorno Jupyter con:
# !pip install requests beautifulsoup4

import requests
from bs4 import BeautifulSoup

# URL estática de la página de Wikipedia de lanzamientos de Falcon 9
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

try:
    # Realizamos una solicitud HTTP GET para obtener el contenido HTML de la página
    response = requests.get(static_url)

    # Creamos un objeto BeautifulSoup a partir del contenido HTML de la respuesta
    soup = BeautifulSoup(response.text, 'html.parser')

    # Usamos find_all para obtener una lista de todas las tablas en la página
    html_tables = soup.find_all('table')

    # Seleccionamos la tercera tabla de la lista (índice 2, ya que la indexación es base 0).
    # Esta es la tabla que, según la estructura de la página de Wikipedia,
    # contiene los registros de lanzamiento históricos de Falcon 9.
    first_launch_table = html_tables[2]

    print("La tercera tabla ha sido seleccionada y asignada a 'first_launch_table'.")
    # Opcional: Imprime el inicio de la tabla seleccionada para verificar
    # print(first_launch_table.prettify()[:500]) # Imprime los primeros 500 caracteres formateados

except Exception as e:
    print(f"Ocurrió un error: {e}")
    print("Asegúrate de que las librerías 'requests' y 'beautifulsoup4' estén instaladas en tu entorno para que este código funcione.")

La tercera tabla ha sido seleccionada y asignada a 'first_launch_table'.


In [17]:
# Let's print the third table and check its content
# Imprimamos la tercera tabla y verifiquemos su contenido
first_launch_table = html_tables[2]
print(first_launch_table)

<table class="wikitable plainrowheaders collapsible" style="width: 100%;">
<tbody><tr>
<th scope="col">Flight No.
</th>
<th scope="col">Date and<br/>time (<a href="/wiki/Coordinated_Universal_Time" title="Coordinated Universal Time">UTC</a>)
</th>
<th scope="col"><a href="/wiki/List_of_Falcon_9_first-stage_boosters" title="List of Falcon 9 first-stage boosters">Version,<br/>Booster</a> <sup class="reference" id="cite_ref-booster_11-0"><a href="#cite_note-booster-11"><span class="cite-bracket">[</span>b<span class="cite-bracket">]</span></a></sup>
</th>
<th scope="col">Launch site
</th>
<th scope="col">Payload<sup class="reference" id="cite_ref-Dragon_12-0"><a href="#cite_note-Dragon-12"><span class="cite-bracket">[</span>c<span class="cite-bracket">]</span></a></sup>
</th>
<th scope="col">Payload mass
</th>
<th scope="col">Orbit
</th>
<th scope="col">Customer
</th>
<th scope="col">Launch<br/>outcome
</th>
<th scope="col"><a href="/wiki/Falcon_9_first-stage_landing_tests" title="Falcon 

You should able to see the columns names embedded in the table header elements `<th>` as follows:

Debería poder ver los nombres de las columnas incrustados en los elementos del encabezado de tabla `<th>` de la siguiente manera:

```
<tr>
<th scope="col">Flight No.
</th>
<th scope="col">Date and<br/>time (<a href="/wiki/Coordinated_Universal_Time" title="Coordinated Universal Time">UTC</a>)
</th>
<th scope="col"><a href="/wiki/List_of_Falcon_9_first-stage_boosters" title="List of Falcon 9 first-stage boosters">Version,<br/>Booster</a> <sup class="reference" id="cite_ref-booster_11-0"><a href="#cite_note-booster-11">[b]</a></sup>
</th>
<th scope="col">Launch site
</th>
<th scope="col">Payload<sup class="reference" id="cite_ref-Dragon_12-0"><a href="#cite_note-Dragon-12">[c]</a></sup>
</th>
<th scope="col">Payload mass
</th>
<th scope="col">Orbit
</th>
<th scope="col">Customer
</th>
<th scope="col">Launch<br/>outcome
</th>
<th scope="col"><a href="/wiki/Falcon_9_first-stage_landing_tests" title="Falcon 9 first-stage landing tests">Booster<br/>landing</a>
</th></tr>
```


Next, we just need to iterate through the `<th>` elements and apply the provided `extract_column_from_header()` to extract column name one by one

A continuación, solo necesitamos iterar a través de los elementos `<th>` y aplicar el `extract_column_from_header()` proporcionado para extraer el nombre de la columna uno por uno.

In [18]:
column_names = []

# Apply find_all() function with `th` element on first_launch_table
# Iterate each th element and apply the provided extract_column_from_header() to get a column name
# Append the Non-empty column name (`if name is not None and len(name) > 0`) into a list called column_names

# Aplicar la función find_all() con el elemento `th` en first_launch_table
# Iterar cada elemento `th` y aplicar la función extract_column_from_header() proporcionada para obtener el nombre de la columna
# Añadir el nombre de la columna no vacía (`si `name` no es `Ninguno` y `len(name) > 0`) a una lista llamada `column_names`

Check the extracted column names

Compruebe los nombres de las columnas extraídas

In [19]:
print(column_names)

[]


## TASK 3: Create a data frame by parsing the launch HTML tables
## TAREA 3: Crear un marco de datos analizando las tablas HTML de lanzamiento

We will create an empty dictionary with keys from the extracted column names in the previous task. Later, this dictionary will be converted into a Pandas dataframe


Crearemos un diccionario vacío con las claves de los nombres de columna extraídos en la tarea anterior. Posteriormente, este diccionario se convertirá en un dataframe de Pandas.

In [21]:
    # Creamos un diccionario vacío a partir de los nombres de las columnas extraídos.
    # Por defecto, dict.fromkeys asigna None como valor para cada clave.
    launch_dict = dict.fromkeys(column_names)

    # Eliminamos la columna 'Date and time' que se desglosará en 'Date' y 'Time'.
    # NOTA: El nombre de la columna es 'Date and time' después de ser procesado por extract_column_from_header(),
    # no 'Date and time ( )' como podría aparecer en el HTML original.
    if 'Date and time' in launch_dict: # Verificamos si existe antes de eliminar para evitar KeyError
        del launch_dict['Date and time']

    # Inicializamos las listas para cada clave en el diccionario.
    # Esto es crucial para poder añadir elementos a cada columna más adelante.
    launch_dict['Flight No.'] = []
    launch_dict['Launch site'] = []
    launch_dict['Payload'] = []
    launch_dict['Payload mass'] = []
    launch_dict['Orbit'] = []
    launch_dict['Customer'] = []
    launch_dict['Launch outcome'] = []
    launch_dict['Version Booster'] = [] # Nueva columna para la versión del propulsor
    launch_dict['Booster landing'] = [] # Nueva columna para el estado de aterrizaje del propulsor
    launch_dict['Date'] = []            # Nueva columna para la fecha
    launch_dict['Time'] = []            # Nueva columna para la hora

    print("\nDiccionario 'launch_dict' inicializado correctamente. Sus claves son:")
    print(launch_dict.keys())
    # Puedes verificar los primeros valores para asegurarte de que son listas vacías
    # print(launch_dict['Flight No.'])


Diccionario 'launch_dict' inicializado correctamente. Sus claves son:
dict_keys(['Flight No.', 'Launch site', 'Payload', 'Payload mass', 'Orbit', 'Customer', 'Launch outcome', 'Version Booster', 'Booster landing', 'Date', 'Time'])


Next, we just need to fill up the `launch_dict` with launch records extracted from table rows.

Usually, HTML tables in Wiki pages are likely to contain unexpected annotations and other types of noises, such as reference links `B0004.1[8]`, missing values `N/A [e]`, inconsistent formatting, etc.

To simplify the parsing process, we have provided an incomplete code snippet below to help you to fill up the `launch_dict`. Please complete the following code snippet with TODOs or you can choose to write your own logic to parse all launch tables:

A continuación, solo necesitamos llenar el `launch_dict` con registros de lanzamiento extraídos de las filas de la tabla.

Generalmente, las tablas HTML en páginas Wiki tienden a contener anotaciones inesperadas y otros tipos de ruidos, como enlaces de referencia `B0004.1[8]`, valores faltantes `N/A [e]`, formato inconsistente, etc.


Para simplificar el análisis, proporcionamos un fragmento de código incompleto a continuación para ayudarle a completar el `launch_dict`. Complete el siguiente fragmento de código con las tareas pendientes o puede escribir su propia lógica para analizar todas las tablas de lanzamiento:

In [23]:
# Asegúrate de tener instaladas las librerías 'requests', 'beautifulsoup4', 'pandas'.
# Si no las tienes, puedes instalarlas en tu entorno Jupyter con:
# !pip install requests beautifulsoup4 pandas

import requests
from bs4 import BeautifulSoup
import re
import unicodedata
import pandas as pd

# --- Funciones auxiliares (necesarias para la extracción de datos) ---
def date_time(table_cells):
    """
    Esta función extrae la fecha y la hora de una celda de tabla HTML.
    """
    return [data_time.strip() for data_time in list(table_cells.strings)][0:2]

def booster_version(table_cells):
    """
    Esta función extrae la versión del propulsor de una celda de tabla HTML.
    """
    out=''.join([booster_version for i,booster_version in enumerate( table_cells.strings) if i%2==0][0:-1])
    return out

def landing_status(table_cells):
    """
    Esta función extrae el estado de aterrizaje de una celda de tabla HTML.
    """
    out=[i for i in table_cells.strings][0]
    return out

def get_mass(table_cells):
    """
    Esta función extrae y normaliza la masa de una celda de tabla HTML.
    """
    mass=unicodedata.normalize("NFKD", table_cells.text).strip()
    if mass:
        mass.find("kg")
        new_mass=mass[0:mass.find("kg")+2]
    else:
        new_mass=0
    return new_mass

def extract_column_from_header(row):
    """
    Esta función extrae el nombre de la columna de un elemento de encabezado (<th>) de una tabla HTML.
    Elimina etiquetas como <br/>, <a>, <sup> para obtener solo el texto del nombre.
    """
    if (row.br):
        row.br.extract()
    if row.a:
        row.a.extract()
    if row.sup:
        row.sup.extract()

    colunm_name = ' '.join(row.contents)

    # Filtra los nombres que son solo dígitos o están vacíos
    if not(colunm_name.strip().isdigit()):
        colunm_name = colunm_name.strip()
        return colunm_name

# --- URL estática de la página de Wikipedia ---
static_url = "https://en.wikipedia.org/w/index.php?title=List_of_Falcon_9_and_Falcon_Heavy_launches&oldid=1027686922"

try:
    # 1. Realizar la solicitud HTTP y crear el objeto BeautifulSoup
    response = requests.get(static_url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # 2. Encontrar todas las tablas y seleccionar la tercera (índice 2)
    html_tables = soup.find_all('table')
    first_launch_table = html_tables[2]

    # 3. Extraer nombres de columnas
    column_names = []
    for th in first_launch_table.find_all('th'):
        name = extract_column_from_header(th)
        if name is not None and len(name) > 0:
            column_names.append(name)

    # 4. Inicializar launch_dict
    launch_dict = dict.fromkeys(column_names)
    if 'Date and time' in launch_dict:
        del launch_dict['Date and time']

    launch_dict['Flight No.'] = []
    launch_dict['Launch site'] = []
    launch_dict['Payload'] = []
    launch_dict['Payload mass'] = []
    launch_dict['Orbit'] = []
    launch_dict['Customer'] = []
    launch_dict['Launch outcome'] = []
    launch_dict['Version Booster'] = []
    launch_dict['Booster landing'] = []
    launch_dict['Date'] = []
    launch_dict['Time'] = []

    # --- Llenar launch_dict con registros de lanzamiento ---
    extracted_row = 0
    # Iterar sobre cada tabla con la clase "wikitable plainrowheaders collapsible"
    for table_number, table in enumerate(soup.find_all('table', "wikitable plainrowheaders collapsible")):
        # Obtener las filas de la tabla
        for rows in table.find_all("tr"):
            # Comprobar si el primer encabezado de la fila (th) es un número de vuelo
            if rows.th:
                if rows.th.string:
                    flight_number = rows.th.string.strip()
                    flag = flight_number.isdigit()
            else:
                flag = False

            # Obtener todos los elementos de celda de la fila (td)
            row = rows.find_all('td')

            # Si la fila corresponde a un número de vuelo válido, extraemos sus datos
            if flag:
                extracted_row += 1
                # Valor del número de vuelo y lo añadimos al diccionario
                launch_dict['Flight No.'].append(flight_number)

                # Extraemos la fecha y la hora usando la función auxiliar date_time
                datatimelist = date_time(row[0])

                # Valor de la fecha y lo añadimos al diccionario
                date = datatimelist[0].strip(',')
                launch_dict['Date'].append(date)

                # Valor de la hora y lo añadimos al diccionario
                time = datatimelist[1]
                launch_dict['Time'].append(time)

                # Versión del propulsor y lo añadimos al diccionario
                bv = booster_version(row[1])
                if not(bv):
                    # Manejo de casos donde no hay texto directo pero sí un enlace o el texto está directamente
                    if row[1].a:
                        bv = row[1].a.string
                    else:
                        bv = list(row[1].strings)[0].strip() if len(list(row[1].strings)) > 0 else None
                launch_dict['Version Booster'].append(bv)

                # Lugar de lanzamiento y lo añadimos al diccionario
                # Manejar el caso donde no hay enlace 'a' o no hay texto
                launch_site = row[2].a.string if row[2].a else (list(row[2].strings)[0].strip() if len(list(row[2].strings)) > 0 else None)
                launch_dict['Launch site'].append(launch_site)

                # Carga útil y lo añadimos al diccionario
                # Manejar el caso donde no hay enlace 'a' o no hay texto
                payload = row[3].a.string if row[3].a else (list(row[3].strings)[0].strip() if len(list(row[3].strings)) > 0 else None)
                launch_dict['Payload'].append(payload)

                # Masa de la carga útil y lo añadimos al diccionario
                payload_mass = get_mass(row[4])
                launch_dict['Payload mass'].append(payload_mass)

                # Órbita y lo añadimos al diccionario
                # Manejar el caso donde no hay enlace 'a' o no hay texto
                orbit = row[5].a.string if row[5].a else (list(row[5].strings)[0].strip() if len(list(row[5].strings)) > 0 else None)
                launch_dict['Orbit'].append(orbit)

                # Cliente y lo añadimos al diccionario
                # Manejar el caso donde no hay enlace 'a' o no hay texto (esto causaba el AttributeError)
                if row[6].a is not None:
                    customer = row[6].a.string
                else:
                    customer = list(row[6].strings)[0].strip() if len(list(row[6].strings)) > 0 else None
                launch_dict['Customer'].append(customer)

                # Resultado del lanzamiento y lo añadimos al diccionario
                launch_outcome = list(row[7].strings)[0].strip()
                launch_dict['Launch outcome'].append(launch_outcome)

                # Aterrizaje del propulsor y lo añadimos al diccionario
                booster_landing = landing_status(row[8])
                launch_dict['Booster landing'].append(booster_landing)

    print("\nDiccionario 'launch_dict' llenado con los registros de lanzamiento.")
    print(f"Total de filas extraídas: {extracted_row}")

    # Opcional: Convertir el diccionario a un DataFrame de Pandas para una mejor visualización
    df = pd.DataFrame({ key:pd.Series(value) for key, value in launch_dict.items() })
    print("\nPrimeras 5 filas del DataFrame resultante:")
    print(df.head())

except Exception as e:
    print(f"Ocurrió un error: {e}")
    print("Asegúrate de que todas las librerías necesarias estén instaladas en tu entorno y que la URL sea accesible.")


Diccionario 'launch_dict' llenado con los registros de lanzamiento.
Total de filas extraídas: 121

Primeras 5 filas del DataFrame resultante:
  Flight No.  Date and time ( ) Launch site  \
0          1                NaN       CCAFS   
1          2                NaN       CCAFS   
2          3                NaN       CCAFS   
3          4                NaN       CCAFS   
4          5                NaN       CCAFS   

                                Payload Payload mass Orbit Customer  \
0  Dragon Spacecraft Qualification Unit            0   LEO   SpaceX   
1                                Dragon            0   LEO     NASA   
2                                Dragon       525 kg   LEO     NASA   
3                          SpaceX CRS-1     4,700 kg   LEO     NASA   
4                          SpaceX CRS-2     4,877 kg   LEO     NASA   

  Launch outcome   Version Booster Booster landing             Date   Time  
0        Success  F9 v1.07B0003.18         Failure      4 June 2010  1



After you have fill in the parsed launch record values into `launch_dict`, you can create a dataframe from it.

Después de completar los valores del registro de lanzamiento analizados en `launch_dict`, puede crear un marco de datos a partir de él.

In [24]:
df= pd.DataFrame({ key:pd.Series(value) for key, value in launch_dict.items() })

  """Entry point for launching an IPython kernel.


We can now export it to a <b>CSV</b> for the next section, but to make the answers consistent and in case you have difficulties finishing this lab. 

Following labs will be using a provided dataset to make each lab independent. 


Ahora podemos exportarlo a un archivo CSV para la siguiente sección, pero para que las respuestas sean consistentes y en caso de que tenga dificultades para completar este laboratorio, se utilizará un conjunto de datos proporcionado para que cada laboratorio sea independiente.

<code>df.to_csv('spacex_web_scraped.csv', index=False)</code>


## Authors


<a href="https://www.linkedin.com/in/yan-luo-96288783/">Yan Luo</a>


<a href="https://www.linkedin.com/in/nayefaboutayoun/">Nayef Abou Tayoun</a>


<!--
## Change Log
-->


<!--
| Date (YYYY-MM-DD) | Version | Changed By | Change Description      |
| ----------------- | ------- | ---------- | ----------------------- |
| 2021-06-09        | 1.0     | Yan Luo    | Tasks updates           |
| 2020-11-10        | 1.0     | Nayef      | Created the initial version |
-->


Copyright © 2021 IBM Corporation. All rights reserved.
