<a href="https://colab.research.google.com/github/josenomberto/UTEC-CDIAV3-MCD8009/blob/main/laboratorio_1_josenomberto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MCD8009: Data Discovery - Laboratorio 1

**Integrantes**

| N° | Código | Nombres |  Contribución (0% - 100%) |
|----|--------|---------|---------------------------|
| 1  |        | José Carlos Nomberto        | 100%                           |
| 2  |        |         |                           |
| 3  |        |         |                           |
| 4  |        |         |                           |

### Indicaciones

- El laboratorio podrá resolverse de manera **individual o en equipos de hasta cuatro (4) personas**. Deberán completar los datos de todos los integrantes, y **una sola persona realizará la entrega del archivo ipynb**.

- Salvo que se indique explícitamente lo contrario, no se prohibe el uso de herramientas de Inteligencia Artificial Generativa, siempre que los integrantes comprendan y puedan explicar el proceso y los resultados obtenidos. **Las respuestas no deben consistir en transcripciones literales de resultados generados por estas herramientas, sino evidenciar comprensión del tema por parte del estudiante o del equipo.**

- En caso de utilizar herramientas de IA Generativa, cada equipo es responsable de verificar la coherencia de las respuestas presentadas. Si se detectan errores, inconsistencias o falta de comprensión, la pregunta podrá ser anulada sin derecho a reclamo.

- En todos los casos, deberá completarse la **Declaración de Uso de IA Generativa.**

- Pueden agregar libremente celdas de código o de Markdown según lo consideren conveniente.

### Declaración de uso de IA Generativa
- Indicar de manera breve la(s) herramienta(s) y/o modelo(s) de IA Generativa utilizados, especificando en qué pregunta(s) se emplearon y con qué propósito.
- En caso no se haya usado, también indicarlo.

## INICIO DEL LABORATORIO

### Parte 1: Frameworks de la industria: CRISP-DM [Sin uso de IA generativa] (3 puntos)

CRISP-DM suele presentarse como un framework de Ciencia de Datos, pero muchas de sus fases se aplican también en proyectos de analytics, BI y toma de decisiones data-driven, incluso sin usar modelos de machine learning. ¿En qué medida reconoce que, consciente o inconscientemente, ha trabajado siguiendo las fases de CRISP-DM en su experiencia profesional?
Conversen entre los integrantes del equipo y presenten solo 1 caso.


Contraste su forma real de trabajo con las fases del framework:

- Business Understanding

- Data Understanding

- Data Preparation

- Modeling (si aplica)

- Evaluation

- Deployment / uso en negocio

### Parte 2: Tipos de analítica [Sin uso de IA generativa] (3 puntos)

**Caso: Análisis de datos para una tienda en línea**

Imagine que es consultor de análisis de datos y has sido contratado por una tienda en línea que vende productos electrónicos. La tienda desea aprovechar al máximo los datos recopilados de sus clientes y mejorar su estrategia de marketing, la experiencia del cliente y la toma de decisiones comerciales. Tu objetivo es aplicar diferentes tipos de análisis de datos para obtener información valiosa y proporcionar recomendaciones basadas en los resultados obtenidos.

La tienda en línea ha recopilado una amplia variedad de datos sobre sus clientes y las transacciones realizadas. Entro los datos demográficos con los que cuenta tenemos: edad, género, ubicación geográfica, etc. Asimismo, cuenta con datos de navegación por el sitio web en donde se puede ver los productos vistos, los comentarios de los clientes, entre otros.

Tu misión es utilizar diferentes enfoques de análisis de datos para ayudar a la tienda a comprender mejor a sus clientes, optimizar sus operaciones y tomar decisiones informadas. En función de la información dada y supuestos que pueda añadir, realice los 4 Tipos de Data Analytics estudiados comentando qué deberíamos hacer en cada uno de ellos.

- **Analítica Descriptiva**

...

- **Analítica Diagnóstico**

...

- **Analítica Predictiva**

...

- **Analítica Prescriptiva**

...


### Parte 3: Lectura de datos (5 puntos)

En clase vimos cómo leer datos desde distintas fuentes. En la industria es muy común recibir archivos planos como CSV; sin embargo, con frecuencia no se conoce de antemano:

- El *encoding* del archivo.
- El delimitador utilizado (`;`, `,`, `|`, `\t`, etc.).
- La existencia de líneas "basura" al inicio (metadatos, comentarios, encabezados duplicados, etc.).

El objetivo es leer correctamente los datos del archivo `lab1.csv` sin modificar el archivo original, resolviendo las incertidumbres mencionadas.

Antes de programar, lea la documentación de [chardet](https://chardet.readthedocs.io/en/latest/) y de [csv.Sniffer](https://docs.python.org/es/3/library/csv.html#csv.Sniffer)

Adicional a la implementación del código, imprima el head del archivo y responda las preguntas solicitadas.

#### Funciones a implementar

In [None]:
import chardet
import csv
import pandas as pd


def detectar_encoding(nombre_archivo, longitud_muestra):
    """
    Detecta la codificación del archivo.
    Argumentos:
      nombre_archivo: nombre del archivo a leer
      longitud_muestra: número de bytes a leer para la muestra
    Retorna:
      codificacion: diccionario con la codificación detectada
    """
    with open(nombre_archivo, 'rb') as archivo:
        codificacion = chardet.detect(archivo.read(longitud_muestra))

    return codificacion


def detectar_delimitador(nombre_archivo, longitud_muestra, codificacion, skip_lines):
    """
    Detecta el delimitador del archivo CSV.
    Argumentos:
      nombre_archivo: nombre del archivo a leer
      longitud_muestra: número de bytes a leer para la muestra
      codificacion: codificación del archivo
      skip_lines: número de líneas iniciales a ignorar
    Retorna:
      delimitador: delimitador del archivo
    """
    with open(nombre_archivo, 'r', newline='', encoding=codificacion) as archivo:
        for _ in range(skip_lines):
            next(archivo)
        archivo_muestra = archivo.read(longitud_muestra)
        archivo.seek(0)
        delimitador = csv.Sniffer().sniff(archivo_muestra, delimiters=[',', ';', '|', '\t']).delimiter

    return delimitador


def leer_csv_inteligente(ruta_archivo, skip_lines=0):
    """
    Lee un archivo CSV detectando automáticamente:
    - El encoding
    - El delimitador

    Parámetros:
    - ruta_archivo: ruta al archivo CSV
    - skip_lines: número de líneas iniciales a ignorar

    Retorna:
    - pandas.DataFrame
    """
    longitud_muestra = 600

    # 1. Detectando la codificación del archivo
    print("\n")
    print(f"Detectando la codificación del archivo ... ")
    encoding = detectar_encoding(ruta_archivo, longitud_muestra)
    print(f"   La codificación del archivo '{ruta_archivo}' es:  {encoding['encoding']}")
    print(f"   El nivel de confianza para la codificación detectada es:  {encoding['confidence']}")

    # 2. Detectando el delimitador del archivo
    print("\n")
    print(f"Detectando el delimitador del archivo ... ")
    delimitador = detectar_delimitador(ruta_archivo, longitud_muestra, encoding['encoding'], skip_lines)
    print(f"   El delimitador del archivo '{ruta_archivo}' es:  '{delimitador}'")

    # 3. Abriendo el archivo con codificacion, delimitador y saltando lineas
    try:
        # Leer archivo en DataFrame
        print("\n")
        print(f"Leyendo el archivo ... ")
        df = pd.read_csv(
            ruta_archivo,
            sep=delimitador,
            #sep='|',
            encoding=encoding['encoding'],
            skiprows=skip_lines
        )
        # Imprime la cabecera del DataFrame
        print(f"Imprimiendo cabecera del archivo ... ")
        print("\n")
        print(df.head())

    except FileNotFoundError:
        print(f"Error: Archivo '{ruta_archivo}' no encontrado.")
    except Exception as e:
        print(f"Error: {e}")

    return df


In [None]:
# Lectura inteligente de archivo csv
nombre_archivo = "lab1.csv"
skip_lines = 1
print(f"Lectura interligente de archivo '{nombre_archivo}' con '{skip_lines}' línea(s) inicial(es) a ignorar:")
archivo_df = leer_csv_inteligente(nombre_archivo, skip_lines)

Lectura interligente de archivo 'lab1.csv' con '1' línea(s) inicial(es) a ignorar:


Detectando la codificación del archivo ... 
   La codificación del archivo 'lab1.csv' es:  ISO-8859-1
   El nivel de confianza para la codificación detectada es:  0.73


Detectando el delimitador del archivo ... 
   El delimitador del archivo 'lab1.csv' es:  '|'


Leyendo el archivo ... 
Imprimiendo cabecera del archivo ... 


   id nombre apellido  edad    monto    estado
0   1   José   García    20  4210.24    ACTIVO
1   2  María    Pérez    44  3950.89  INACTIVO
2   3   Peña    López    56  2890.01    ACTIVO
3   4   Luis  Sánchez    50  1962.01    ACTIVO
4   5    Ana   Torres    51  4075.63  INACTIVO



#### Requisitos técnicos

La solución debe cumplir con lo siguiente:

- Detectar el encoding del archivo utilizando `chardet`.
- Detectar el delimitador del archivo CSV utilizando `csv.Sniffer`.
- Incluir el argumento `skip_lines` como el número de líneas iniciales a ignorar.
- Devolver los datos en una estructura `pandas.DataFrame`.
- Optimizar la detección del encoding y delimitador (tomar un sample del archivo, no un full read)


#### Preguntas teóricas

Responda brevemente las siguientes preguntas:

1. ¿Qué problema resuelve **chardet**?  
   ¿Qué información devuelve el método `chardet.detect()`?

2. ¿Para qué sirve **csv.Sniffer**?  
   ¿Cuáles son sus principales limitaciones?  
   ¿Qué sucede si `csv.Sniffer` detecta incorrectamente el delimitador?

3. ¿Cuál era el encoding y el delimitador del archivo `lab1.csv`?

4. ¿Por qué no siempre es una buena práctica confiar únicamente en la detección automática?

5. En la función propuesta, el argumento `skip_lines` se determina de manera manual.  
   ¿Qué alternativas podrían implementarse para automatizar la detección de las líneas a ignorar?

6. Desde un criterio de negocio o de mejora de procesos, ¿qué mejora general propondría para gestionar de forma más eficiente la recepción de este tipo de archivos “problemáticos”?

**RESPUESTAS:**

1.   La libreria chardet sirve para detectar la codificacion de un archivo.
Devuelve un diccionario con la información de la codificacion detectada y el nivel de confianza para la detección.

2.   La libreria csv.Sniffer sirve para detectar el formato de un archivo CSV analizando una muestra del texto. Las principales limitaciones son:
  *   no detecta los caracteres de escape de secuencia
  *   resultados inconsistentes segun el orden de los datos

      Si csv.Sniffer detecta incorrectamente el delimitador, la importacion del archivo fallara causando que los datos no esten bien estructurados o se carguen todos en una misma columna

3.   El encoding del archivo es 'ISO-8859-1', y el delimtador '|'.

4.   No es bueno solo confiar en la detección automática ya que es suceptible a errores de interferencia para detectar el tipo de datos (por ejemplo, fechas), detección incorrecta en archivos sin cabecera, el sniffer analiza solamente hasta los primero 2048 bytes lo cual podria no ser suficiente, etc.

5.   Alternativas al uso del parametro skip_lines definido manualmente:

*   Leer el archivo linea por linea
*   Identificar lineas con espacios en blanco
*   Ignorar lineas en blanco
*   Ignorar lineas comentadas (#)

6.   Mejoras en el proceso:

*   Definir estructura (formato) para archivos a leer
*   Estandarizar el encoding a uno estandar para todos los archivos
*   Definir cabecera de archivos para uniformizar y adaptar aquellos que no tengan cabecera
*   Mostrar métricas en la lectura de archivos, como por ejemplo archivos "limpios" vs archivos "sucios",



### Parte 4: Webscrapping (5 puntos)

En clase vimos cómo aplicar webscraping. Ahora es momento de practicar. Puede usar la(s) librería(s) que considere más conveniente para esta casuística.

La actividad consiste en obtener un dataframe de esta página: https://www.imdb.com/chart/top/, la cual muestra las 250 mejores películas de IMDb.

Los campos a extraer son los siguientes, con el siguiente formato (se muestra un registro a modo de ejemplo):

| rankings | titulo           | anio  | duracion_minutos   | clasificacion | calificacion |  votos_millones       |
|----------|------------------|-------|--------------------|---------------|--------------|-----------------------|
| 1        | Sueño de fuga    | 1994  |    142             |       B       |    9.3       |  2.2                  |

- Note que la duración se ha convertido a minutos y que los votos han sido transformados a millones (como variable numérica).
- Aplique buenas prácticas de webscrapping (ej: Uso de User-Agent en los headers HTTP, uso de timeout en la petición, manejo de errores HTTP, etc.)
- Sustente brevemente las razones por las que empleó dicha(s) librería(s) de webscrapping.
- Finalmente, imprimir el head del dataframe, además, exportar dicho dataframe en un archivo llamado `top250_imdb.csv`. No adjunte el archivo en su entrega, pero debe realizar el código para generarlo.

In [23]:
# 1. Install required modules

!pip install curl_cffi



In [24]:
# 2. Import required modules

from bs4 import BeautifulSoup
from curl_cffi import requests
import pandas as pd
import time
import re

In [29]:
# 3. Functions

def get_imdb_top(url):
    """
    Get HTTP Responde from url.
    Input:
      url: link for webscrapping
    Output:
      response: HTTP GET Response
    """
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
    headers = {
        "User-Agent": user_agent,
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Encoding": "gzip, deflate, br",
        'Connection': 'keep-alive',
        "Referer": "https://www.google.com/"
    }
    params = {
        "count": "250"        # Intentamos forzar la cuenta a 250
    }
    print(f"\n1. Target URL for Web Scrapping: {url}")
    try:
        # Use the 'chrome110' impersonate string
        response = requests.get(
            url,
            headers=headers,
            params=params,
            impersonate="chrome110", # This handles the specific TLS/HTTP2 fingerprint
            timeout=10
        )
        if response.status_code == 200:
            print(f"\n2. HTTP Request Succeded with response status code: {response.status_code}")
            print(f"   Content Length: {len(response.content)} bytes")
        else:
            print(f"\n2. HTTP Request Failed with response status code: {response.status_code}")
    except Exception as e:
        print(f"Could not get information from {url}")
        print(f"An error occurred: {e}")

    return(response)


def parse_imdb_top(movies):
    """
    Get HTTP Responde from url.
    Input:
      url: link for webscrapping
    Output:
      response: HTTP GET Response
    """
    movies_top250 = []
    for movie in movies:
        ranking = movie.find("div", class_="ipc-signpost__text").text.lstrip('#')
        title = movie.find("h3", class_="ipc-title__text").text.strip()
        title_metadata = movie.find_all("span", class_="cli-title-metadata-item")
        year = title_metadata[0].text.strip()
        # Title duration
        duration = title_metadata[1].text.strip()
        hours = re.search(r'(\d+)h', duration)
        minutes = re.search(r'(\d+)m', duration)
        total_minutes = 0
        if hours: total_minutes += int(hours.group(1)) * 60
        if minutes: total_minutes += int(minutes.group(1))
        classification = title_metadata[2].text.strip()
        #year = movie.find("span", class_="cli-title-metadata-item").text.strip()
        rating = movie.find("span", class_="ipc-rating-star--rating").text.strip()
        votes = movie.find("span", class_="ipc-rating-star--voteCount").text.strip().strip("()")
        votes_millions = float(votes[:-1]) if votes[-1] == "M" else float(votes[:-1]) / 1000
        #print(f"{ranking} | {title} | {year} | {total_minutes} | {classification} | {rating} | {votes_millions}")
        movies_top250.append({
            "ranking": int(ranking),
            "title": title,
            "year": int(year),
            "duration": total_minutes,
            "classification": classification,
            "rating": float(rating),
            "votes": votes_millions
        })

    return pd.DataFrame(movies_top250)

In [31]:
# 4. Run functions to parse IMDB information to Dataframe

# 4.1. Define URL for Web Scrapping
url = "https://www.imdb.com/chart/top/"
try:
    # 4.2. Get HTTP response from URL
    response = get_imdb_top(url)
    # 4.3. Parse HTML and extract all movie containers
    soup = BeautifulSoup(response.text, "html.parser")
    movies = soup.find_all("li", class_="ipc-metadata-list-summary-item")
    # 4.4. Parse IMDB information to dataframe
    df_imdb_top = parse_imdb_top(movies)
    # 4.5. Print Dataframe Head
    print(f"\n3. IMDB into Dataframe Head")
    print(df_imdb_top.head())
except Exception as e:
    print(f"An error occurred: {e}")


1. Target URL for Web Scrapping: https://www.imdb.com/chart/top/

2. HTTP Request Succeded with response status code: 200
   Content Length: 1770953 bytes

3. IMDB into Dataframe Head
   ranking                     title  year  duration classification  rating  \
0        1  The Shawshank Redemption  1994       142              R     9.3   
1        2             The Godfather  1972       175              R     9.2   
2        3           The Dark Knight  2008       152          PG-13     9.1   
3        4     The Godfather Part II  1974       202              R     9.0   
4        5              12 Angry Men  1957        96       Approved     9.0   

   votes  
0  3.200  
1  2.200  
2  3.100  
3  1.500  
4  0.972  


In [None]:
!pip install playwright
!playwright install-deps
!playwright install

from playwright.sync_api import sync_playwright
import asyncio
import nest_asyncio
from playwright.async_api import async_playwright

#soup = BeautifulSoup(html_content, "html.parser")

nest_asyncio.apply() # Apply nest_asyncio to allow asyncio to be nested

async def scrape_imdb_with_playwright():
    async with async_playwright() as p:
        # 1. Iniciar navegador
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        url = "https://www.imdb.com/chart/top/"
        print(f"Accediendo a: {url}")
        await page.goto(url)

        # 2. Lógica de Scroll para cargar los 250
        # Hacemos scroll varias veces hasta que la lista esté completa
        for i in range(5):
            await page.mouse.wheel(0, 5000)
            await asyncio.sleep(1) # Esperar a que carguen los nuevos elementos

        # 3. Obtener el contenido cargado
        html_content = await page.content()
        await browser.close()
        return html_content

# Run the async function
html_content = await scrape_imdb_with_playwright()

Accediendo a: https://www.imdb.com/chart/top/


In [22]:
from re import template
import re
# 4. Get data from

movies = soup.find_all("li", class_="ipc-metadata-list-summary-item")
movies_top250 = []

print (len(movies))
for movie in movies:
    ranking = movie.find("div", class_="ipc-signpost__text").text.lstrip('#')
    title = movie.find("h3", class_="ipc-title__text").text.strip()
    title_metadata = movie.find_all("span", class_="cli-title-metadata-item")
    year = title_metadata[0].text.strip()
    # Title duration
    duration = title_metadata[1].text.strip()
    hours = re.search(r'(\d+)h', duration)
    minutes = re.search(r'(\d+)m', duration)
    total_minutes = 0
    if hours: total_minutes += int(hours.group(1)) * 60
    if minutes: total_minutes += int(minutes.group(1))
    classification = title_metadata[2].text.strip()
    #year = movie.find("span", class_="cli-title-metadata-item").text.strip()
    rating = movie.find("span", class_="ipc-rating-star--rating").text.strip()
    votes = movie.find("span", class_="ipc-rating-star--voteCount").text.strip().strip("()")
    votes_millions = float(votes[:-1]) if votes[-1] == "M" else float(votes[:-1]) / 1000
    print(f"{ranking} | {title} | {year} | {total_minutes} | {classification} | {rating} | {votes_millions}")
    movies_top250.append({
        "ranking": int(ranking),
        "title": title,
        "year": int(year),
        "duration": total_minutes,
        "classification": classification,
        "rating": float(rating),
        "votes": votes_millions
    })

df = pd.DataFrame(movies_top250)

print(df.head())

25
1 | The Shawshank Redemption | 1994 | 142 | R | 9.3 | 3.2
2 | The Godfather | 1972 | 175 | R | 9.2 | 2.2
3 | The Dark Knight | 2008 | 152 | PG-13 | 9.1 | 3.1
4 | The Godfather Part II | 1974 | 202 | R | 9.0 | 1.5
5 | 12 Angry Men | 1957 | 96 | Approved | 9.0 | 0.972
6 | The Lord of the Rings: The Return of the King | 2003 | 201 | PG-13 | 9.0 | 2.1
7 | Schindler's List | 1993 | 195 | R | 9.0 | 1.6
8 | The Lord of the Rings: The Fellowship of the Ring | 2001 | 178 | PG-13 | 8.9 | 2.2
9 | Pulp Fiction | 1994 | 154 | R | 8.8 | 2.4
10 | The Good, the Bad and the Ugly | 1966 | 178 | R | 8.8 | 0.883
11 | The Lord of the Rings: The Two Towers | 2002 | 179 | PG-13 | 8.8 | 1.9
12 | Forrest Gump | 1994 | 142 | PG-13 | 8.8 | 2.5
13 | Fight Club | 1999 | 139 | R | 8.8 | 2.6
14 | Inception | 2010 | 148 | PG-13 | 8.8 | 2.8
15 | Star Wars: Episode V - The Empire Strikes Back | 1980 | 124 | PG | 8.7 | 1.5
16 | The Matrix | 1999 | 136 | R | 8.7 | 2.2
17 | Goodfellas | 1990 | 145 | R | 8.7 | 1.4
18 | 

In [2]:
from curl_cffi import requests
import pandas as pd
import json

url = "https://www.imdb.com/chart/top/"

# Headers robustos para evitar el bloqueo 403/202
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
    "Accept-Language": "en-US,en;q=0.5",
    "Accept-Encoding": "gzip, deflate, br",
    "Referer": "https://www.google.com/",
    "Connection": "keep-alive",
}

# Parámetros adicionales que IMDb espera para mostrar la lista extendida
# A veces, pasar parámetros de paginación en la URL ayuda a que el HTML inicial sea más grande
params = {
    "sort": "rk,asc",     # Ranking ascendente
    "mode": "detail",     # Modo detallado (suele traer más datos)
    "count": "250"        # Intentamos forzar la cuenta a 250
}

try:
    response = requests.get(
        url,
        headers=headers,
        params=params,
        impersonate="chrome110"
    )

    if "json" in response.headers.get("Content-Type", "").lower():
        # Si la respuesta fuera JSON (API directa)
        data = response.json()
    else:
        # Si es HTML, buscamos el bloque de datos JSON que IMDb inyecta en el DOM
        from bs4 import BeautifulSoup
        soup = BeautifulSoup(response.text, "html.parser")

        movies = soup.find_all("li", class_="ipc-metadata-list-summary-item")
        movies_top250 = []

        print (len(movies))
        for movie in movies:
            ranking = movie.find("div", class_="ipc-signpost__text").text
            title = movie.find("h3", class_="ipc-title__text").text.strip()
            title_metadata = movie.find_all("span", class_="cli-title-metadata-item")
            year = title_metadata[0].text.strip()
            duration = title_metadata[1].text.strip()
            classification = title_metadata[2].text.strip()
            #year = movie.find("span", class_="cli-title-metadata-item").text.strip()
            rating = movie.find("span", class_="ipc-rating-star--rating").text.strip()
            votes = movie.find("span", class_="ipc-rating-star--voteCount").text.strip()
            print(f"{ranking} | {title} | {year} | {duration} | {classification} | {rating} | {votes}")
            movies_top250.append({
                "Ranking": ranking,
                "Title": title,
                "Year": year,
                "Duration": duration,
                "Classification": classification,
                "Rating": rating,
                "Votes": votes
            })


            df = pd.DataFrame(movies_top250)
            print(f"¡Éxito! Se recuperaron {len(df)} películas.")
            print(df.head())
        else:
            print("No se encontró el bloque de datos JSON. El sitio podría estar usando carga por fragmentos.")

except Exception as e:
    print(f"Error en la extracción: {e}")

25
#1 | The Shawshank Redemption | 1994 | 2h 22m | R | 9.3 | (3.2M)
¡Éxito! Se recuperaron 1 películas.
  Ranking                     Title  Year Duration Classification Rating  \
0      #1  The Shawshank Redemption  1994   2h 22m              R    9.3   

    Votes  
0  (3.2M)  
#2 | The Godfather | 1972 | 2h 55m | R | 9.2 | (2.2M)
¡Éxito! Se recuperaron 2 películas.
  Ranking                     Title  Year Duration Classification Rating  \
0      #1  The Shawshank Redemption  1994   2h 22m              R    9.3   
1      #2             The Godfather  1972   2h 55m              R    9.2   

    Votes  
0  (3.2M)  
1  (2.2M)  
#3 | The Dark Knight | 2008 | 2h 32m | PG-13 | 9.1 | (3.1M)
¡Éxito! Se recuperaron 3 películas.
  Ranking                     Title  Year Duration Classification Rating  \
0      #1  The Shawshank Redemption  1994   2h 22m              R    9.3   
1      #2             The Godfather  1972   2h 55m              R    9.2   
2      #3           The Dark Knight  200

### Parte 5: APIs (4 puntos)

En esta actividad se utilizará la API del BCRP para construir un DataFrame a partir de diversas series de datos.
En ese sentido, debe completar la función `obtener_datos_bcrp`. Como apoyo, se proporciona un ejemplo del comportamiento esperado del resultado, así como la URL base que se emplea para realizar las consultas en cada caso.




In [None]:
import requests
import pandas as pd

def obtener_datos_bcrp(codigos_series, fecha_inicio=None, fecha_fin=None):
    """
    Obtiene datos de la API del BCRP y los convierte a DataFrame

    Parámetros:
    -----------
    codigos_series : str o list
        Código(s) de las series a consultar (ej: 'PN01207PM' o ['PD04637PD', 'PD04638PD'])
    fecha_inicio : str, opcional
        Fecha de inicio en formato 'YYYY-M' para series mensuales o 'YYYY-M-D' para series diarias
    fecha_fin : str, opcional
        Fecha de fin en formato 'YYYY-M' para series mensuales o 'YYYY-M-D' para series diarias

    Retorna:
    --------
    DataFrame con los datos obtenidos y los códigos de series como nombres de columnas
    """
    pass


In [None]:
## NO MODIFICAR - EJEMPLOS DE USO ##
## Debe funcionar correctamente una vez que la función esté implementada ##

## Ejemplo 1: Consulta simple - Una serie
# Tipo de cambio interbancario promedio mensual
df1 = obtener_datos_bcrp('PN01207PM')
print("Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PN01207PM/json")
print(df1.head())

## Ejemplo 2: Múltiples series con rango de fechas
#Tipo de cambio interbancario diario - Compra y Venta
series = ['PD04637PD', 'PD04638PD']
df2 = obtener_datos_bcrp(series, fecha_inicio='2024-11-1', fecha_fin='2024-12-31')
print("Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PD04637PD-PD04638PD/json/2024-11-1/2024-12-31")
print(df2.head())

Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PN01207PM/json
    periodo  PN01207PM
0  Dic.2023   3.733942
1  Ene.2024   3.740743
2  Feb.2024   3.827938
3  Mar.2024   3.708989
4  Abr.2024   3.715032
Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PD04637PD-PD04638PD/json/2024-11-1/2024-12-31
     periodo  PD04637PD  PD04638PD
0  04.Nov.24   3.766333   3.768667
1  05.Nov.24   3.772500   3.774833
2  06.Nov.24   3.781500   3.784833
3  07.Nov.24   3.752167   3.755833
4  08.Nov.24   3.767167   3.769500


***SOLUCION***

In [41]:
# Importar módulos requeridos
import requests
import pandas as pd

def obtener_datos_bcrp(codigos_series, fecha_inicio=None, fecha_fin=None):
    """
    Obtiene datos del URL del BCRP
    Argumentos:
      codigos_serie: codigo(s) de serie a consultar. Si son varios se ingresa como lista
      fecha_inicio: fecha de inicio de la consulta
      fecha_fin: fecha de fin de la consulta
    Retorna:
      df: DataFrame con los datos obtenidos
    """

    # 1. Validar datos de entrada
    if not isinstance(codigos_series, list):
        codigos_series = [codigos_series]

    # 2. Definir URL a consultar
    BCRP_URL = "https://estadisticas.bcrp.gob.pe/estadisticas/series/api/"
    if len(codigos_series) == 1:
        url = f"{BCRP_URL}{codigos_series[0]}/json"
    else:
        url = f"{BCRP_URL}{'-'.join(codigos_series)}/json"
    if fecha_inicio and fecha_fin:
        url += f"/{fecha_inicio}/{fecha_fin}"

    # 3. Realizar solicitud GET a la API de BCRP con el URL definido
    try:
        print(f'"Consultando: {url}"')
        response = requests.get(url)
        if response.status_code == 200:
            data = response.json()
            data_list = []
            for period in data['periods']:
                data_dict = {}
                data_dict['periodo'] = period['name']
                for serie, value in zip(codigos_series,period['values']):
                    # Leer el valor y redondearlo a 6 digitos decimales
                    data_dict[serie] = round(float(value),6)
                data_list.append(data_dict)
            df = pd.DataFrame(data_list)
            return df
        else:
            print(f"Error en la solicitud: {response.status_code}")
    except Exception as e:
        print(f"Error en la solicitud: {e}")


In [42]:
df1 = obtener_datos_bcrp('PN01207PM')
print(df1.head())

"Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PN01207PM/json"
    periodo  PN01207PM
0  Ene.2021   3.624950
1  Feb.2021   3.645690
2  Mar.2021   3.709178
3  Abr.2021   3.699525
4  May.2021   3.774757


In [43]:
series = ['PD04637PD', 'PD04638PD']
df2 = obtener_datos_bcrp(series, fecha_inicio='2024-11-1', fecha_fin='2024-12-31')
print(df2.head())

"Consultando: https://estadisticas.bcrp.gob.pe/estadisticas/series/api/PD04637PD-PD04638PD/json/2024-11-1/2024-12-31"
     periodo  PD04637PD  PD04638PD
0  04.Nov.24   3.766333   3.768667
1  05.Nov.24   3.772500   3.774833
2  06.Nov.24   3.781500   3.784833
3  07.Nov.24   3.752167   3.755833
4  08.Nov.24   3.767167   3.769500
