In [None]:
pip install pandas requests




Obtener Noticias

In [30]:
import requests
import pandas as pd

# Clave de API (Sustituye con tu clave real)
NEWS_API_KEY = "e624185635c04d0ca296acd2724015c6"

# Funci√≥n para obtener noticias de un pa√≠s
def obtener_noticias(pais="us"):
    try:
        url = f"https://newsapi.org/v2/top-headlines?country={pais}&apiKey={NEWS_API_KEY}"
        response = requests.get(url)
        data = response.json()

        if "articles" not in data:
            print(f"‚ö†Ô∏è No se encontraron noticias para {pais}.")
            return pd.DataFrame()

        noticias = [{
            "pais": pais.upper(),
            "fecha": article.get("publishedAt", "Desconocido"),
            "titulo": article.get("title", "Sin t√≠tulo"),
            "fuente": article["source"].get("name", "Desconocido")
        } for article in data.get("articles", [])[:10]]  # Se toman las primeras 10 noticias

        return pd.DataFrame(noticias)
    except Exception as e:
        print(f"‚ùå Error obteniendo noticias para {pais}: {e}")
        return pd.DataFrame()

# Obtener datasets de noticias de EE.UU. y Per√∫
df_usa = obtener_noticias("us")
df_peru = obtener_noticias("pe")

# Combinar datasets
df_noticias = pd.concat([df_usa, df_peru], ignore_index=True)

# üîπ **Verificar si hay datos antes de calcular indicadores**
if df_noticias.empty:
    print("‚ö†Ô∏è No hay datos disponibles. No se pueden calcular indicadores de calidad.")
else:
    # ‚úÖ **Convertir la columna "fecha" a datetime y eliminar la zona horaria**
    df_noticias['fecha'] = pd.to_datetime(df_noticias['fecha'], errors='coerce')
    df_noticias['fecha'] = df_noticias['fecha'].dt.tz_localize(None)  # Eliminar la zona horaria

    # ‚ùå Eliminar filas con fecha nula para evitar errores
    df_noticias = df_noticias.dropna(subset=['fecha'])

    # 1Ô∏è‚É£ **Completitud**: % de noticias con t√≠tulo y fuente
    completitud_titulo = 100 - (df_noticias['titulo'].isna().mean() * 100)
    completitud_fuente = 100 - (df_noticias['fuente'].isna().mean() * 100)

    # 2Ô∏è‚É£ **Diversidad de fuentes**: N√∫mero de fuentes √∫nicas
    fuentes_unicas = df_noticias['fuente'].nunique()

    # 3Ô∏è‚É£ **Recencia de datos**: Noticias publicadas en las √∫ltimas 24 horas
    fecha_limite = pd.Timestamp.now().tz_localize(None) - pd.Timedelta(days=1)
    recientes = (df_noticias['fecha'] >= fecha_limite).mean() * 100

    # 4Ô∏è‚É£ **Noticias sin t√≠tulo "Sin t√≠tulo"**: % de noticias sin t√≠tulo real
    sin_titulo_real = (df_noticias['titulo'] == "Sin t√≠tulo").mean() * 100

    # Mostrar resultados
    print("\nüìä Indicadores de Calidad de Datos:")
    print(f"‚úÖ Completitud (T√≠tulo): {completitud_titulo:.2f}% de noticias tienen t√≠tulo")
    print(f"‚úÖ Completitud (Fuente): {completitud_fuente:.2f}% de noticias tienen fuente")
    print(f"‚úÖ Diversidad de fuentes: {fuentes_unicas} fuentes √∫nicas")
    print(f"‚úÖ Recencia: {recientes:.2f}% de noticias publicadas en las √∫ltimas 24 horas")
    print(f"‚ö†Ô∏è Noticias sin t√≠tulo real: {sin_titulo_real:.2f}% de los casos")

    # Guardar en CSV
    df_noticias.to_csv("noticias.csv", index=False)

    # Mostrar primeros registros
    print("\nüì¢ Noticias obtenidas:\n", df_noticias.head())



üìä Indicadores de Calidad de Datos:
‚úÖ Completitud (T√≠tulo): 100.00% de noticias tienen t√≠tulo
‚úÖ Completitud (Fuente): 100.00% de noticias tienen fuente
‚úÖ Diversidad de fuentes: 7 fuentes √∫nicas
‚úÖ Recencia: 0.00% de noticias publicadas en las √∫ltimas 24 horas
‚ö†Ô∏è Noticias sin t√≠tulo real: 0.00% de los casos

üì¢ Noticias obtenidas:
   pais               fecha                                             titulo  \
0   US 2025-03-27 23:22:00  Judge orders Trump administration to keep Sign...   
1   US 2025-03-27 23:13:58  Trump tariffs: Can Vietnam golf its way out of...   
2   US 2025-03-27 23:07:16  'We're going to feel the impacts': NC Health D...   
3   US 2025-03-27 22:57:32  Selena's Killer Yolanda Sald√≠var Denied Parole...   
4   US 2025-03-27 21:44:00  Republicans grow concerned about Trump‚Äôs handp...   

     fuente  
0       CNN  
1  BBC News  
2  WRAL.com  
3    PEOPLE  
4       CNN  


Obtener Temperaturas

In [25]:
import requests
import pandas as pd
from datetime import datetime, timedelta

# Clave de API
WEATHER_API_KEY = "6215ab1921e5d5625a96fd0df204c2cf"

# Funci√≥n para obtener temperatura diaria en 2025
def obtener_temperaturas_anuales(ciudad="Lima"):
    try:
        fecha_actual = datetime(2025, 1, 1)
        temperaturas = []

        while fecha_actual.year == 2025:
            fecha_str = fecha_actual.strftime("%Y-%m-%d")
            url = f"http://api.openweathermap.org/data/2.5/weather?q={ciudad}&units=metric&appid={WEATHER_API_KEY}"
            response = requests.get(url)
            data = response.json()

            temperatura = data.get("main", {}).get("temp", "No disponible")
            temperaturas.append({"ciudad": ciudad, "fecha": fecha_str, "temperatura_c": temperatura})

            fecha_actual += timedelta(days=1)  # Avanzar un d√≠a

        return pd.DataFrame(temperaturas)
    except Exception as e:
        print(f"Error obteniendo temperaturas: {e}")
        return pd.DataFrame()

# Obtener dataset
df_temperaturas = obtener_temperaturas_anuales("Lima")

# üîπ Indicadores de calidad de datos

# 1. **Completitud**: % de datos disponibles vs. esperados
completitud = 100 - (df_temperaturas['temperatura_c'].isna().mean() * 100)

# 2. **Consistencia temporal**: % de d√≠as con datos (esperado 365 d√≠as)
dias_esperados = 365
dias_reales = df_temperaturas['fecha'].nunique()
consistencia = (dias_reales / dias_esperados) * 100

# 3. **Validez**: Temperaturas dentro del rango esperado en Lima (-5¬∞C a 40¬∞C)
df_temperaturas['temperatura_c'] = pd.to_numeric(df_temperaturas['temperatura_c'], errors='coerce')
fuera_de_rango = ((df_temperaturas['temperatura_c'] < -5) | (df_temperaturas['temperatura_c'] > 40)).mean() * 100

# 4. **Precisi√≥n decimal**: Verificar que los valores tienen 1 o 2 decimales
precision_decimal = df_temperaturas['temperatura_c'].dropna().astype(str).apply(lambda x: len(x.split(".")[-1]) if "." in x else 0)
precision_correcta = ((precision_decimal == 1) | (precision_decimal == 2)).mean() * 100

# 5. **Errores de API**: % de datos "No disponible"
errores_api = (df_temperaturas['temperatura_c'].isna().mean()) * 100

# Mostrar resultados
print("\nüìä Indicadores de Calidad de Datos:")
print(f"‚úÖ Completitud: {completitud:.2f}% de datos disponibles")
print(f"‚úÖ Consistencia: {consistencia:.2f}% de d√≠as con datos registrados")
print(f"‚ö†Ô∏è Validez: {fuera_de_rango:.2f}% de valores fuera del rango esperado (-5¬∞C a 40¬∞C)")
print(f"‚úÖ Precisi√≥n decimal: {precision_correcta:.2f}% con 1 o 2 decimales")
print(f"‚ö†Ô∏è Errores de API: {errores_api:.2f}% de respuestas incorrectas o vac√≠as")

# Guardar en CSV
df_temperaturas.to_csv("temperaturas_2025.csv", index=False)

# Mostrar primeros registros
print("\nTemperaturas:\n", df_temperaturas.head())



üìä Indicadores de Calidad de Datos:
‚úÖ Completitud: 100.00% de datos disponibles
‚úÖ Consistencia: 100.00% de d√≠as con datos registrados
‚ö†Ô∏è Validez: 0.00% de valores fuera del rango esperado (-5¬∞C a 40¬∞C)
‚úÖ Precisi√≥n decimal: 100.00% con 1 o 2 decimales
‚ö†Ô∏è Errores de API: 0.00% de respuestas incorrectas o vac√≠as

Temperaturas:
   ciudad       fecha  temperatura_c
0   Lima  2025-01-01          24.39
1   Lima  2025-01-02          24.39
2   Lima  2025-01-03          24.39
3   Lima  2025-01-04          24.39
4   Lima  2025-01-05          24.39


Obtener Tipo Cambio

In [24]:
import requests
import pandas as pd
from datetime import datetime, timedelta

# Claves de API
NEWS_API_KEY = "be17d72a88da4150a7358d5f2512dc25"
WEATHER_API_KEY = "6215ab1921e5d5625a96fd0df204c2cf"
EXCHANGE_API_KEY = "5qUu0OStUqC30001qs7mJyiamFHElBmz"

# Funci√≥n para obtener tipo de cambio diario durante dos a√±os (2024 y 2025)
def obtener_tipo_cambio_anual(base="USD", destino="PEN", anios=2):
    try:
        fecha_actual = datetime(2024, 1, 1)  # Ahora comienza en 2024
        fecha_final = fecha_actual + timedelta(days=365 * anios)
        tipos_cambio = []

        while fecha_actual < fecha_final:
            fecha_str = fecha_actual.strftime("%Y-%m-%d")
            url = f"https://api.exchangerate-api.com/v4/latest/{base}"
            response = requests.get(url)
            data = response.json()

            tipo_cambio = data.get("rates", {}).get(destino, "No disponible")
            tipos_cambio.append({"fecha": fecha_str, "moneda": f"{base}/{destino}", "tipo_cambio": tipo_cambio})

            fecha_actual += timedelta(days=1)  # Avanzar un d√≠a

        return pd.DataFrame(tipos_cambio)
    except Exception as e:
        print(f"Error obteniendo tipo de cambio: {e}")
        return pd.DataFrame()

# Obtener dataset para 2024 y 2025
df_tipo_cambio = obtener_tipo_cambio_anual("USD", "PEN", anios=2)

# üîπ Indicadores de calidad de datos
# 1. Completitud de datos
completitud = 100 - (df_tipo_cambio['tipo_cambio'].isna().mean() * 100)

# 2. Consistencia temporal
dias_esperados = 365 * 2  # 2024 y 2025
dias_reales = df_tipo_cambio['fecha'].nunique()
consistencia = (dias_reales / dias_esperados) * 100

# 3. Validez del tipo de cambio (fuera del rango esperado 3-5)
df_tipo_cambio['tipo_cambio'] = pd.to_numeric(df_tipo_cambio['tipo_cambio'], errors='coerce')
fuera_de_rango = ((df_tipo_cambio['tipo_cambio'] < 3) | (df_tipo_cambio['tipo_cambio'] > 5)).mean() * 100

# 4. Precisi√≥n decimal (4 decimales)
precision_decimal = df_tipo_cambio['tipo_cambio'].dropna().astype(str).apply(lambda x: len(x.split(".")[-1]) if "." in x else 0)
precision_correcta = (precision_decimal == 4).mean() * 100

# 5. Errores en la API
errores_api = (df_tipo_cambio['tipo_cambio'].isna().mean()) * 100

# Mostrar resultados
print("\nüìä Indicadores de Calidad de Datos para 2024 y 2025:")
print(f"‚úÖ Completitud: {completitud:.2f}% de datos disponibles")
print(f"‚úÖ Consistencia: {consistencia:.2f}% de d√≠as con datos registrados")
print(f"‚ö†Ô∏è Validez: {fuera_de_rango:.2f}% de valores fuera del rango esperado (3-5)")
print(f"‚úÖ Precisi√≥n decimal: {precision_correcta:.2f}% con 4 decimales")
print(f"‚ö†Ô∏è Errores de API: {errores_api:.2f}% de respuestas incorrectas o vac√≠as")

# Guardar en CSV
df_tipo_cambio.to_csv("tipo_cambio_2024_2025.csv", index=False)

# Mostrar primeros registros
print("\nTipo de Cambio:\n", df_tipo_cambio.head())



üìä Indicadores de Calidad de Datos para 2024 y 2025:
‚úÖ Completitud: 100.00% de datos disponibles
‚úÖ Consistencia: 100.00% de d√≠as con datos registrados
‚ö†Ô∏è Validez: 0.00% de valores fuera del rango esperado (3-5)
‚úÖ Precisi√≥n decimal: 0.00% con 4 decimales
‚ö†Ô∏è Errores de API: 26.03% de respuestas incorrectas o vac√≠as

Tipo de Cambio:
         fecha   moneda  tipo_cambio
0  2024-01-01  USD/PEN         3.64
1  2024-01-02  USD/PEN         3.64
2  2024-01-03  USD/PEN         3.64
3  2024-01-04  USD/PEN         3.64
4  2024-01-05  USD/PEN         3.64
