<div style="width: 100%; clear: both;">
<div style="float: left; width: 30%;">
<img src="https://www.utpl.edu.ec/sites/default/files/archivos/marca%20UTPL%202018-02.png", align="left" width="280" height="120">
</div>
</div>
<div style="float: right; width: 70%;">
<p style="margin: 0; padding-top: 32px; text-align:right; color:#003366; font-size:16px"><u>Análisis de datos y visualización</u></p>
<p style="margin: 0; text-align:right; color:#999999; font-size:17px">Maestría en Inteligencia Artificial Aplicada</p>
</div>
</div>
<div style="width: 100%; clear: both;">
<div style="width:100%;">&nbsp;</div>


# Laboratorio 1: Extracción de datos mediante APIs

La actividad práctico experimental tiene como objetivo validar su habilidad para usar APIs públicas para la extracción de datos.

Desarrolle los ejercicios relacionados con la extracción y procesamiento de datos planteados en el notebook.

Por cada ejercicio revise las indicaciones proporcionadas, para conseguir así el resultado que se espera.


<b>Entregable de la actividad:</b>

En la tarea habilitada, suba el notebook con la solución (en formato html o pdf). Antes de subir la solución verifique que consten todas las salidas que se esperan de cada ejercicio.


## Paso 1: Configuración de acceso a API de Kaggle

<b>Objetivo:</b> Conseguir un API token para comenzar a extraer los datos desde Kaggle.

<b>Pasos:</b>

1. Crear cuenta en Kaggle: https://www.kaggle.com/account/login
2. Revisar la documentación de la API: https://www.kaggle.com/docs/api y seguir los pasos que constan en la sección <b>Authentication</b> para conseguir un API token. Según la documentación:

&emsp;&emsp;&emsp;- <i>In order to use the Kaggle’s public API, you must first authenticate using an API token. Go to the 'Account' tab of your user profile and select 'Create New Token'. This will trigger the download of kaggle.json, a file containing your API credentials.</i>

&emsp;&emsp;&emsp;Como resultado de esta acción guardar el archivo <b>kaggle.json</b>.

4. Configurar credenciales de acceso: Dependiendo del entorno en el que trabaje hay dos opciones para hacer la configuración:

&emsp;&emsp;4.1. Si es un entorno local, la documentación indica que hay que copiar el archivo kaggle.json en un directorio específico, según la siguiente instrucción.

- <i>If you are using the Kaggle CLI tool, the tool will look for this token at ~/.kaggle/kaggle.json on Linux, OSX, and other UNIX-based operating systems, and at C:\Users\<Windows-username>\.kaggle\kaggle.json on Windows. If the token is not there, an error will be raised. Hence, once you’ve downloaded the token, you should move it from your Downloads folder to this folder.</i>


&emsp;&emsp;4.2. Si es en Google Colab: ejecutar los siguientes pasos cada vez que ingrese a Google Colab.
   

In [101]:
# Carga de librerías
import kaggle
import numpy as np
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import itertools
import time
from PIL import Image
from IPython.core import display as ICD
%matplotlib inline

## Paso 2: Carga de palabras clave para realizar la búsqueda

Objetivo: Cargar archivo de palabras clave y crear lista que sea procesable por la API

In [102]:
#Cargar lista de palabras clave:
kwDF = pd.read_csv('keywords.csv', header=None, names=['keyword']) # archivo sin encabezado

print("Cantidad de palabras clave: ", kwDF.shape[0])

kwDF

Cantidad de palabras clave:  8


Unnamed: 0,keyword
0,linear regression
1,binary classication
2,visualization
3,poverty
4,COVID 19
5,EDA
6,missing values
7,outliers


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio: (1 pto) </b>

<b>Objetivo:</b> Convertir los términos de varias palabras (separadas con espacio ' '), a términos cuyas palabras estén separadas con el signo '-'

<b>Requisito:</b> La lista deberá llamarse  <i>kw</i>.

<b>Salida esperada:</b> Objeto tipo lista que contenga los términos preprocesados.

Por ejemplo, para el primer caso, en lugar de "linear regression" se debe generar el término "linear_regression"

</div>



In [103]:
######################
# SOLUCIÓN
#####################

nfilas=len(kwDF)        #Numero de filas del dataframe con los Keywords.
rango=range(0,nfilas)   #Rango desde cero hasta el numero de filas (0 a 8).
kw=[]                   #Lista vacia para almacenar los palabras keywords con guiones.

for fila in rango:                                       #Ciclo for para recorrer todas las filas del dataframe kwDF.
    palabra=kwDF.loc[fila]["keyword"].replace(' ','_')   #Se reemplaza el espacio de cada keyword por un signo '_'.
    kw.append(palabra)                                   #Se añaden los keywords a la lista kw.
print(kw)                                                #Se imprime la lista kw para verificar los cambios.

['linear_regression', 'binary_classication', 'visualization', 'poverty', 'COVID_19', 'EDA', 'missing_values', 'outliers']


## Paso 2: Extracción de datos mediante API




### Paso 2.1. Extracción de datos desde Kaggle

Consultar Documentación de la API: https://github.com/Kaggle/kaggle-api

Luego de la revisión de la documentación, intentar comprender el procedimiento para obtener datasets y notebooks, con el objetivo de obtener las salidas que se esperan de cada ejercicio.


### Preparar el request (importar libraries y definir parámetros generales)

In [104]:
import requests, json, time, random
# importar libreria kaggle
from kaggle.api.kaggle_api_extended import KaggleApi



In [105]:
# Llamar a la api key de kaggle instalada en el entorno seleccionado.

api = KaggleApi()
api.authenticate()

Aunque la documentación de la API explica el proceso de consumo de datos, a continuación se presenta un ejemplo de extracción de metadatos de dataset. Observe los metadatos que devuelve la API y pruebe cómo obtendría los metadatos de notebooks.


A partir del ejemplo planteado, desarrolle los ejercicios que continuan.

In [106]:
# Ejemplo de uso de la API:

# Extracción de datasets:
tema = kw[0]  # toma el primer término o palabra que se cargó desde el csv
page = 1  # obtener los datos de la primera página, se puede cambiar iterativamente este valor para recuperar más resultados

#Llamada para obtener metadatos de datasets de un tema en particular y de una página específica.
lista = !kaggle datasets list -s $tema --csv -p $page  
results=[l for l in lista if len(l)]       #Se filtran los resultados para que no se incluyan en la lista elementos vacios.
results[:5]                                # Presentar los 5 primeros resutados en forma de lista

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766']

In [107]:
# Pasos adicionales del ejemplo para mostrar los 5 primeros resultados en un DataFrame
results2=[]             #Nueva lista vacía
d=len(results)          #Numero de elementos de la lista de resultados de datasets
r=range(0,d)            #Rango para la iteracion
for i in r:                                #Ciclo repetitivo para recorrer toda la lista results
    results_split=results[i].split(',')    #Se separan los elementos de cada posicion de la lista results
    results2.append(results_split)         #Se añaden cada lista de elementos separados en la lista results2
results_DF=pd.DataFrame(results2[1:d], columns=results2[0], index=r[1:d])   #Se transforma en dataframe la lista results2 (lista de listas)
results_DF[:5]                             #Se muestran los primeros 5 resultados                                       

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 2 (1.75 ptos): Obtención de metadatos de datasets.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>datasets</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>).

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los datasets que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> datasets </i>

<b>Salida esperada:</b> Presentar los 10 primeros datasets recuperados.

En el ejemplo, proporcionado arriba, puede ver una muestra de los resultados esperados.

</div>

In [166]:
######################
# SOLUCIÓN
######################

# Extracción de datasets:
datasets=[]                     #Lista vacía para guardar todos los datasets
rango2=range(1,4)               #Rango para el numero de paginas: 1,2 y 3.
for fila in rango:                                 #Ciclo repetitivo para recorrer todas las keywords de la lista kw
    for pagina in rango2:                          #Ciclo repetitivo para recorrer las paginas
        tema = kw[fila]                            #Se toma cada keyword y se le asigna a la variable tema
        page = pagina                              #Cada pagina se asigna a la variable page      
        #Llamada para obtener metadatos de datasets de un tema y de una página específica. Los resultados se guardan en una lista.
        lista = !kaggle datasets list -s $tema --csv -p $page 
        results=[l for l in lista if len(l) and l!='No datasets found']  #Se filtran los resultados para que no se incluyan elementos vacios.      
        datasets.extend(results)                   #Los resultados de cada iteración se acumulan en la lista llamada datasets
datasets[:20]                                      #Se presentan los primeros 10 resutados de la lista datasets

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706',
 'iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706',
 'viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706',
 'pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125',
 'nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706',
 'epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:4

In [173]:
datasets[16]

'ariyoomotade/netflix-data-cleaning-analysis-and-visualization,"Netflix Data: Cleaning, Analysis and Visualization",270KB,2022-08-26 09:25:43,24761,345,1.0'

In [174]:
datasets[16].replace(',"','"')

'ariyoomotade/netflix-data-cleaning-analysis-and-visualization"Netflix Data: Cleaning, Analysis and Visualization",270KB,2022-08-26 09:25:43,24761,345,1.0'

In [157]:
datasets[:20] 

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706',
 'iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706',
 'viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706',
 'pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125',
 'nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706',
 'epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:4

In [155]:
# Pasos para mostrar los 10 primeros resultados de la lista datasets en un DataFrame
datasets2=[]            #Nueva lista vacía
dim=len(datasets)       #Numero de elementos de la lista datasets
r3=range(0,dim-290)         #Rango para la iteracion
for j in r3:                                #Ciclo repetitivo para recorrer toda la lista datasets
    datasets_split=datasets[j].split(',')   #Se separan los elementos de cada posicion de la lista datasets
    datasets2.append(datasets_split)        #Se añade cada lista de elementos separados en la lista datasets2
datasets_DF=pd.DataFrame(datasets2)         #Se transforma en dataframe la lista datasets2 (lista de listas)
datasets_DF                            #Se muestran los primeros 10 resultados   

Unnamed: 0,0,1,2,3,4,5,6,7
0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating,
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412,
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706,
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375,
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766,
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706,
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706,
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706,
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125,
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706,


In [146]:
z=[]
for x in datasets:
    y=x.split(',')
    z.append(y)
datasets_DF2=pd.DataFrame(z)
datasets_DF2

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating,,
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412,,
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706,,
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375,,
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766,,
...,...,...,...,...,...,...,...,...,...
302,nihalbarua/dota2-competitive-picks,Dota 2 Competitive Picks,5KB,2024-02-28 08:34:11,617,41,1.0,,
303,krantiswalke/bankfullcsv,bank-full.csv (Ensemble Techniques),481KB,2020-04-23 08:21:57,7991,48,0.64705884,,
304,chandramoulinaidu/house-price-prediction-clean...,House Price Prediction Cleaned Dataset,1MB,2021-03-12 06:18:35,1009,11,0.9411765,,
305,tamatoa/myimg,outliers,84KB,2017-11-04 11:52:35,37,0,0.4375,,


In [139]:
z

[['ref',
  'title',
  'size',
  'lastUpdated',
  'downloadCount',
  'voteCount',
  'usabilityRating'],
 ['aml0ali2000/linear-regression',
  'Linear_regression',
  '1KB',
  '2023-12-04 14:34:14',
  '7',
  '2',
  '0.3529412']]

<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 3 (1.75 puntos): Limpieza de metadatos de datasets.</b>

<b>Objetivo:</b> Limpiar los metadatos de datasets de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos datasets pueden repetirse en diferentes llamada, esto puede ocurrir cuando un dataset está asociado a varias palabras clave que constan en el archivo de keywords. Por ejemplo, si un dataset tiene dos palabras clave como: linear regression y COVID-19, entonces, va a salir en ambos resultados.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> datasets </i> y dejar solo resultados únicos de datasets.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros datasets únicos que han sido procesados.


</div>

In [None]:
######################
# SOLUCIÓN
######################



<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 4 (1.75 puntos): Obtención de metadatos de notebooks.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>notebooks</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>). Este ejercicio es similar anterior, pero, la idea es centrarse en los notebooks.

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los notebooks que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> notebooks </i>

<b>Salida esperada:</b> Presentar los 10 primeros notebooks recuperados.

</div>

In [None]:
######################
# SOLUCIÓN
######################



<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 5 (1.75 puntos): Limpieza de metadatos de notebooks.</b>

<b>Objetivo:</b> Limpiar los metadatos de notebooks de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos notebooks también pueden repetirse como se ha explicado previamente.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> notebooks </i> y dejar solo resultados únicos de notebooks.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros notebooks únicos que han sido procesados.


</div>

In [None]:
######################
# SOLUCIÓN
######################




### Paso 2.2: Integración de resultados

<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 6 (2 ptos): Integración de datos obtenidos (tanto de datasets y notebooks) </b>

<b>Objetivo:</b> Crear un dataframe único donde consten los datos de los datasets como de los notebooks.

<b>Requisitos:</b>

- A partir de la estructuras de datos <i> datasets </i> y <i> notebooks </i>, determinar cuáles los atributos comunes y cuáles son diferentes para crear una sola estructura tipo dataframe que almacene todos los datos extraídos.

<b>Salida esperada:</b> Presentar un <i>sample</i> de 10 elementos que consten en el dataframe único


</div>

In [None]:
######################
# SOLUCIÓN
######################