### Actividad: Tipos de Datos y Adquisición de

### Datos en Python

### Parte 2: Adquisición y Almacenamiento de Datos
- Objetivos:
    - Aprender cómo obtener datos de fuentes externas (APIs, web scraping).
    - Aprender a almacenar los datos adquiridos en archivos adecuados.

### Instrucciones Paso a Paso

### 1. Investigación Teórica (1 hora)

- Objetivo: Entender cómo funcionan las APIs, el web scraping y la conexión con bases de datos.

    - 1. Lee sobre las siguientes técnicas de adquisición de datos:
        - APIs: Son interfaces que permiten interactuar con servicios externos para obtener datos. Por ejemplo, puedes obtener datos de Twitter, OpenWeather o cualquier otra fuente pública.
        - Web Scraping: Consiste en extraer datos de sitios web automáticamente. Se usan herramientas como BeautifulSoup o Scrapy.
        - Bases de Datos: Son sistemas de almacenamiento de datos organizados. Puedes acceder a ellas desde Python usando bibliotecas como sqlite3 o SQLAlchemy.
    - 2. Responde las siguientes preguntas en tu informe:
        - ¿Qué es una API y cómo puedes interactuar con ellas para obtener datos?
    - ¿Cuál es la diferencia entre el web scraping y el uso de APIs?
    - ¿Cómo puedes almacenar los datos adquiridos de una API o scraping en un archivo CSV?
    
### 2. Actividad Práctica

- Objetivo: Obtener datos de una API pública y almacenarlos en un archivo CSV.


### 1. Trabajo con una API (Ejemplo con OpenWeather):

- Paso 1: Regístrate en OpenWeatherMap y obtén una clave API.
- Paso 2: Usa la biblioteca requests en Python para obtener datos
del clima. El siguiente código te ayudará a hacer una solicitud a
la API:


In [19]:
import requests
import pandas as pd
api_key = '0ce292f0aab9c9340055125db900e1bb'
url = f'http://api.openweathermap.org/data/2.5/forecast?id=524901&appid={api_key}'
response = requests.get(url)
data = response.json()
# Muestra los datos obtenidos
print(data)

{'cod': '200', 'message': 0, 'cnt': 40, 'list': [{'dt': 1740139200, 'main': {'temp': 272.39, 'feels_like': 269.22, 'temp_min': 269.56, 'temp_max': 272.39, 'pressure': 1040, 'sea_level': 1040, 'grnd_level': 1019, 'humidity': 50, 'temp_kf': 2.83}, 'weather': [{'id': 803, 'main': 'Clouds', 'description': 'broken clouds', 'icon': '04d'}], 'clouds': {'all': 60}, 'wind': {'speed': 2.51, 'deg': 268, 'gust': 4.44}, 'visibility': 10000, 'pop': 0, 'sys': {'pod': 'd'}, 'dt_txt': '2025-02-21 12:00:00'}, {'dt': 1740150000, 'main': {'temp': 270.61, 'feels_like': 267.54, 'temp_min': 267.05, 'temp_max': 270.61, 'pressure': 1040, 'sea_level': 1040, 'grnd_level': 1019, 'humidity': 63, 'temp_kf': 3.56}, 'weather': [{'id': 803, 'main': 'Clouds', 'description': 'broken clouds', 'icon': '04n'}], 'clouds': {'all': 66}, 'wind': {'speed': 2.15, 'deg': 248, 'gust': 5.89}, 'visibility': 10000, 'pop': 0, 'sys': {'pod': 'n'}, 'dt_txt': '2025-02-21 15:00:00'}, {'dt': 1740160800, 'main': {'temp': 268.19, 'feels_like

- Paso 3: Almacena los datos en un archivo CSV. Por ejemplo:

In [24]:
# Supón que 'data' tiene la información del clima
df = pd.json_normalize(data['list'])
df.to_csv('weather_data.csv', index=False)
print("Data has been saved to weather_data.csv")

Data has been saved to weather_data.csv


### 2. Trabajo con Web Scraping (Ejemplo con BeautifulSoup):
- Paso 1: Instala BeautifulSoup:

In [23]:
%pip install beautifulsoup4 requests

Note: you may need to restart the kernel to use updated packages.


- Paso 2: Realiza scraping de un sitio web (por ejemplo, extraer los títulos de noticias de un sitio):


In [31]:
from bs4 import BeautifulSoup # Importamos BeautifulSoup para analizar el contenido  HTML
import requests # Importamos la librería requests para hacer peticiones HTTP
# Definimos la URL del sitio web que queremos scrape
url = 'https://www.bbc.com'
# Realizamos la solicitud HTTP al sitio web y obtenemos la respuesta
response = requests.get(url)
# Usamos BeautifulSoup para analizar el contenido de la respuesta en formato HTML
soup = BeautifulSoup(response.content, 'html.parser')
# Buscamos todas las etiquetas <h2> en el contenido HTML, que deberían contener los titulares
headlines = soup.find_all('h2')
# Almacenamos los titulares en una lista
news= []
# Recorremos cada uno de los elementos encontrados
for headline in headlines:
    text = headline.text.strip()
if text: # Solo añadimos si no está vacío
    news.append(text)
# Imprimimos todos los titulares juntos, cada uno en una línea
print("\n".join(news))


Follow BBC on:


- Paso 3: Almacena los datos obtenidos en un archivo CSV:

In [32]:
headlines_text = [headline.text for headline in headlines]
df = pd.DataFrame(headlines_text, columns=['Headline'])
df.to_csv('bbc_headlines.csv', index=False)


### 3. Entregable:
- Un informe que incluya:
    - Respuestas a las preguntas teóricas.
    - El código utilizado para obtener y almacenar los datos (de la API o mediante scraping)
    - Los archivos CSV con los datos obtenidos