## XAL DIGITAL

### RETO DE PROGRAMACIÓN

El siguiente es un reto de programación realizado en Python, comentando el tipo de análisis y seguimiento en la resolución del reto, no sólo para presentar la solución si no el proceso de trabajo.

-Caleb Aguilar Camargo, 22 de junio del 2022

## Instrucciones

Se deberá desarrollar un proceso de análisis de datos utilizando el siguiente enlace: https://api.stackexchange.com/2.2/search?order=desc&sort=activity&intitle=perl&site=stackoverflow.

El proceso debe realizar las siguientes actividades:

    1. Conectarse al enlace
    2. Obtener el número de respuestas contestadas y no contestadas
    3. Obtener la respuesta con menor número de vistas
    4. Obtener la respuesta más vieja y más actual
    5. Obtener la respuesta del owner que tenga una mayor reputación
    6. Imprimir en consola del punto 2 al 5

## 1. Conectarse al enlace

Existen diversas formas de resolver este problema en particular, accediendo al enlace podemos observar que se trata de un archivo tipo JSON, y que para este caso en particular, es bastante pequeño, por lo que podríamos guardarlo en nuestro computador de trabajo como un archivo con esa extensión... (Durante el desarrollo del reto, observé que este enlace muestra en tiempo real las preguntas más recientes sobre el tópico "perl", por lo que ésta opción quedaría descartada)

Para efectos de esta práctica utilizaremos otro método que es conectandonos directamente al enlace.

In [8]:
#Importamos las librerias necesarias
import requests
import json

In [9]:
#Vamos a familiarizarnos con el JSON
r = requests.get('https://api.stackexchange.com/2.2/search?order=desc&sort=activity&intitle=perl&site=stackoverflow')
j = json.dumps(r.json(), indent=4)
print(j)

{
    "items": [
        {
            "tags": [
                "perl",
                "whitespace",
                "regex-lookarounds",
                "brackets"
            ],
            "owner": {
                "reputation": 1174,
                "user_id": 1461307,
                "user_type": "registered",
                "profile_image": "https://i.stack.imgur.com/zhYSU.png?s=256&g=1",
                "display_name": "Jacob Wegelin",
                "link": "https://stackoverflow.com/users/1461307/jacob-wegelin"
            },
            "is_answered": false,
            "view_count": 45,
            "answer_count": 0,
            "score": 0,
            "last_activity_date": 1655928853,
            "creation_date": 1655911307,
            "last_edit_date": 1655928853,
            "question_id": 72718127,
            "content_license": "CC BY-SA 4.0",
            "link": "https://stackoverflow.com/questions/72718127/how-can-i-prevent-matching-an-all-whitespace-line-inside

En términos Pythonicos, podemos ver que el JSON es un diccionario que tiene 4 elementos:

1. items
2. has_more
3. quota_max
4. quota_remaining

## 2. Obtener el número de respuestas contestadas y no contestadas

Para poder resolver esta pregunta debemos observar el JSON y notaremos que existen 2 elementos que nos sirven:
"is_answered" & "answer_count"

Cabe mencionar, que si uno analiza a detalle el JSON se encontrará que si bien algún elemento "is_answered" puede contener la llave "false", aun así puede contener un número de respuestas, por lo que se vuelve un poco inconsistente nuestro análisis, para simplicidad por este caso, supondremos que lo que se desea saber es cuántas veces aparece "answer_count": 0 en el JSON.

In [12]:
#Primero observamos que podamos ingresar al valor de "is_answered"
data = json.loads(j)
print(data['items'][0]['answer_count'])

0


El cuál coincide con el primer elemento de ITEMS del JSON.

In [13]:
#Ahora contaremos la cantidad de preguntas que no tuvieron respuesta
contador_no_respuestas=0
for i in data['items']:
    if i['answer_count'] == 0:
        contador_no_respuestas += 1
print(contador_no_respuestas)

7


Afortunadamente en este caso podemos corroborar si es correcto o no, con la Evidencia 1.png

Ahora contaremos la cantidad de respuestas que tuvieron cada pregunta.

In [19]:

contador=0
for i in data['items']:
    contador+=i['answer_count']
print("El total de respuestas es: " + str(contador))

El total de respuestas es: 58


Nuevamente, afortunadamente podemos corroborar que nuestra lógica de programación fue correcta, de diversas maneras, por ejemplo, imprimir los valores de "answer_count" y luego utilizar alguna herramienta como Excel para hacer la suma de forma sencilla. Evidencia 2.png

In [18]:
for i in data['items']:
    print(i['answer_count'])

0
1
0
7
2
12
0
1
2
0
3
1
2
1
3
4
4
0
1
0
1
2
1
1
1
0
1
2
2
3


## 3. Obtener la respuesta con menor número de vistas

Debido a que el JSON contiene información de PREGUNTAS y en los metadatos sólo contiene si tiene respuestas o no, creo que la pregunta 3 está mal formulada.

Debería ser: Obtener la pregunta con menor número de visitas.

In [33]:
#Vamos a buscar cual es la pregunta que tiene el "view_count" menor
min_view_count=100000
for i in data['items']:
    if i['view_count'] < min_view_count:
        min_view_count = i['view_count']
        min_view_count_question = i['title']
print("El título de la pregunta con menor cantidad de visitas es: " + min_view_count_question + "con un total de " + str(min_view_count) + " visitas")

El título de la pregunta con menor cantidad de visitas es: Perl form submit data to reactjscon un total de 22 visitas


## 4. Obtener la pregunta más vieja y más actual

Aquí podemos observar que el tipo de fecha está codificado de una forma extraña, que la verdad no sé cuál sea su codificación, al momento de cargar el JSON se debería revisar a detalle este tipo de dato que nos está causando conflicto para poder determinar de forma correcta cuál sería el tipo de dato de fecha que se está utilizando, de momento no logro saber cuál es, Evidencia 3.png. Por lo pronto, supondremos que las fechas están en enteros y mientras mayor sea el entero más reciente es la fecha.

In [36]:
#Vamos a obtener cuál es la pregunta con la fecha más reciente y más antigua
max_creation_date=0
for i in data['items']:
    if i['creation_date'] > max_creation_date:
        max_creation_date = i['creation_date']
        max_creation_date_question = i['title']
print("El título de la pregunta con la fecha más reciente es: " + max_creation_date_question + "con una fecha de creación de " + str(max_creation_date))

min_creation_date=165591130700
for i in data['items']:
    if i['creation_date'] < min_creation_date:
        min_creation_date = i['creation_date']
        min_creation_date_question = i['title']
print("El título de la pregunta con la fecha más antigua es: " + min_creation_date_question + "con una fecha de creación de " + str(min_creation_date))


El título de la pregunta con la fecha más reciente es: How to create HTML tables dynamically using Perl?con una fecha de creación de 1655925551
El título de la pregunta con la fecha más antigua es: How can I guess the encoding of a string in Perl?con una fecha de creación de 1262022733


## 5. Obtener la pregunta del owner que tenga una mayor reputación

In [34]:
#Vamos a buscar cuál es la respuesta del owner con mayor "reputation"
max_reputation=0
for i in data['items']:
    if i['owner']['reputation'] > max_reputation:
        max_reputation = i['owner']['reputation']
        max_reputation_owner = i['owner']['display_name']
print("El nombre del usuario con mayor reputación es: " + max_reputation_owner + "con un total de " + str(max_reputation) + " reputación")

El nombre del usuario con mayor reputación es: David Bcon un total de 28046 reputación


## 6. Imprimir en consola del punto 2 al 5

El cual claramente fue realizado