# EXTRAYENDO IMAGENES DE UNA URL
## PAQUETES UTILIZADOS
### 1. request 
Es una librería que nos proporciona una interfaz fácil de utilizar con http, lo que simplifica el proceso de envió y recepción 
de datos de las páginas web
### 2. bs4
Es una librería que nos permite el web scrapping, es decir extraer información de las páginas web.  
### 3. pandas
Es una librería de software de código abierto que se utiliza para analizar y manipular datos en Python
### 4. urllib.request
Es una librería que nos proporciona una manera simple de obtener URL usando una variedad de protocolos 
### 5. os
Es una librería que nos permite interacturar con los programas del sisteme operativo

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
pd.set_option('display.max_colwidth',None)
import urllib.request
import os

In [3]:
#Extrayendo URL link
Contenido=requests.get("https://science.nasa.gov/mission/hubble/science/explore-the-night-sky/hubble-messier-catalog/?exclude_child_pages=false&order=ASC&orderby=menu_order&layout=grid&number_of_items=100&requesting_id=29926&science_only=false&show_content_type_tags=no&show_excerpts=yes&show_pagination=false&show_readtime=no&show_thumbnails=yes&response_format=html&listing_page=no&listing_page_category_id=1170&post_types=mission&categories=3608").text
soup=BeautifulSoup(Contenido,'html.parser')
imagenes=soup.find_all('img')


## PRIMERA FORMA
- Se extrae la URL, para lo cual se crea una variable datos, podemos hacerlo mediante dos formas

In [4]:
datos=[]
for image in imagenes:
    image_src=(image.get('src'))
    datos.append(image_src)  

## SEGUNDA FORMA

In [5]:
imagenes_src=[image.get('src') for image in imagenes]
images_M=list(imagenes_src)

## CREACION DE UN DATAFRAME CON PANDAS

In [6]:
images_df=pd.DataFrame(datos)
images_df=images_df.rename({0:"URL"},axis='columns')     #Renombrar el encabezado
images_df.head(10)                                       #Muestra 

Unnamed: 0,URL
0,https://science.nasa.gov/wp-content/themes/nasa-child/assets/images/nasa-logo@2x.png
1,https://science.nasa.gov/wp-content/themes/nasa-child/assets/images/nasa-logo@2x.png
2,https://www.nasa.gov/wp-content/uploads/2025/01/med-mounted.jpg
3,https://science.nasa.gov/wp-content/uploads/2024/01/hubble-ngc1356-potw2352a.jpg?w=1024
4,https://www.nasa.gov/wp-content/uploads/2025/01/jsc2024e063102-1.jpg
5,https://www.nasa.gov/wp-content/uploads/2025/01/med-mounted.jpg
6,https://science.nasa.gov/wp-content/uploads/2024/01/hubble-ngc1356-potw2352a.jpg?w=1024
7,https://www.nasa.gov/wp-content/uploads/2025/01/jsc2024e063102-1.jpg
8,https://www.nasa.gov/wp-content/uploads/2025/01/jsc2023e030777-bluejet.webp
9,https://www.nasa.gov/wp-content/uploads/2022/04/apollo_16_landing_37_eva3_lm_w_rover_and_young_as16-116-18578.jpg


### La URL de las imagenes que deseamos extraer tiene las siguientes características 
- 1) https:
- 2) science.nasa.gov
- 3) wp-content
- 4) uploads 
- 5) year 
- 6) month
- 7) name_img

### Diviendo el URL en columnas para hallar las relaciones

In [7]:
images_df[['P1','P2','P3','P4','P5','P6','P7','P8','P9','P10','P11','P12']]=images_df['URL'].str.split('/',n=11,expand=True)
images_df.describe()

Unnamed: 0,URL,P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12
count,131,131,131.0,131,131,131,131,130,130,14,9,9,3
unique,114,1,1.0,4,4,5,9,14,111,7,6,6,2
top,https://www.nasa.gov/wp-content/uploads/2025/01/med-mounted.jpg,https:,,science.nasa.gov,wp-content,uploads,2023,4,med-mounted.jpg,nasa-logo@2x.png,4110,Glowing_bands_over_Earth_at_night.gif?w=800&h=600&fit=clip&crop=faces%2Cfocalpoint,fig-cover-na-v3-wide.png?w=6809&h=3827&fit=clip&crop=faces%2Cfocalpoint
freq,4,131,131.0,98,119,116,85,83,4,3,3,3,2


In [8]:
P3_count=images_df.P3.value_counts()
P4_count=images_df.P4.value_counts()
P5_count=images_df.P5.value_counts()
print(P3_count)
print(P4_count)
print(P5_count)

science.nasa.gov           98
www.nasa.gov               21
assets.science.nasa.gov    11
images-assets.nasa.gov      1
Name: P3, dtype: int64
wp-content      119
dynamicimage      8
content           3
image             1
Name: P4, dtype: int64
uploads          116
assets             8
themes             3
dam                3
iss072e034702      1
Name: P5, dtype: int64


#### Actualizamos nuestro dataframe con los siguientes filtros
1. Filtramos con 'science.nasa.gov'
2. Eliminamos las primeras 9 que no tienen relacion
3. Eliminamos la última que es el logo 

In [9]:
df=images_df[images_df['P3'] == 'science.nasa.gov']  
df=df.drop(df.index[0:10]) 
df=df.drop([df.index[87]])
df




Unnamed: 0,URL,P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11,P12
43,https://science.nasa.gov/wp-content/uploads/2023/04/crab-nebula-mosaic-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,crab-nebula-mosaic-jpg.webp?w=1024,,,,
44,https://science.nasa.gov/wp-content/uploads/2023/04/m2-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,m2-jpg.webp?w=1024,,,,
45,https://science.nasa.gov/wp-content/uploads/2023/04/m3-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,m3-jpg.webp?w=1024,,,,
46,https://science.nasa.gov/wp-content/uploads/2023/04/potw1236a-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,potw1236a-jpg.webp?w=1024,,,,
47,https://science.nasa.gov/wp-content/uploads/2023/04/potw1118a-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,potw1118a-jpg.webp?w=1024,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
125,https://science.nasa.gov/wp-content/uploads/2023/04/m106-1-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,m106-1-jpg.webp?w=1024,,,,
126,https://science.nasa.gov/wp-content/uploads/2023/04/potw1229a-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,04,potw1229a-jpg.webp?w=1024,,,,
127,https://science.nasa.gov/wp-content/uploads/2018/03/hubble-m108-1-flat-final-new-tag-new-image.jpg?w=1024,https:,,science.nasa.gov,wp-content,uploads,2018,03,hubble-m108-1-flat-final-new-tag-new-image.jpg?w=1024,,,,
128,https://science.nasa.gov/wp-content/uploads/2023/06/hubble-m109-wfc3-2flat-jpg.webp?w=1024,https:,,science.nasa.gov,wp-content,uploads,2023,06,hubble-m109-wfc3-2flat-jpg.webp?w=1024,,,,


#### Creamos los nombres de las imágenes

In [10]:
nameimg=df['P8'].str.split('.',expand=True)
nameimg.head(5)


Unnamed: 0,0,1
43,crab-nebula-mosaic-jpg,webp?w=1024
44,m2-jpg,webp?w=1024
45,m3-jpg,webp?w=1024
46,potw1236a-jpg,webp?w=1024
47,potw1118a-jpg,webp?w=1024


In [11]:
#Esta es una función de ejemplo que nos permite guardar en la carpeta de trabajo
def download_image(image_url, save_as):
    urllib.request.urlretrieve(image_url, save_as)
    

En status_code se utiliza el valor 200 para identificar que el servidor tiene acceso de manera existosa, en pocas palabras"Ok"
##### https://en.wikipedia.org/wiki/List_of_HTTP_status_codes 

In [12]:
#Definimos la función para guardar en una carpeta especifica, se utilizará esta función 
def download_imgdir(image_url, file_dir):
    response = requests.get(image_url)

    if response.status_code == 200:
        directory = os.path.dirname(file_dir)
        if not os.path.exists(directory):
            os.makedirs(directory)

        with open(file_dir, "wb") as fp:
            fp.write(response.content)
        print("Descarga exitosa")
    else:
        print(f"Fallo en descargar la imagen. Status code: {response.status_code}")


In [16]:
#Finalmente con el ciclo For empezamos a revisar cada URL y empezar a descargar cada una 
#a=len(df)
a=5                           #Puedes modificar la cantidad de imagen que quieres descargar 
for i in range(a):
    image_url=df['URL'].iloc[i]
    save_as=nameimg[0].iloc[i]+'.png'
    file_dir='C:/Users/Ariel/Desktop/Visual Data/Messier Img/' + save_as    
    download_imgdir(image_url,file_dir)
    response = requests.get(image_url)
    
    


Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
