<div style="width: 100%; clear: both;">
<div style="float: left; width: 30%;">
<img src="https://www.utpl.edu.ec/sites/default/files/archivos/marca%20UTPL%202018-02.png", align="left" width="280" height="120">
</div>
</div>
<div style="float: right; width: 70%;">
<p style="margin: 0; padding-top: 32px; text-align:right; color:#003366; font-size:16px"><u>Análisis de datos y visualización</u></p>
<p style="margin: 0; text-align:right; color:#999999; font-size:17px">Maestría en Inteligencia Artificial Aplicada</p>
</div>
</div>
<div style="width: 100%; clear: both;">
<div style="width:100%;">&nbsp;</div>


# Laboratorio 1: Extracción de datos mediante APIs

La actividad práctico experimental tiene como objetivo validar su habilidad para usar APIs públicas para la extracción de datos.

Desarrolle los ejercicios relacionados con la extracción y procesamiento de datos planteados en el notebook.

Por cada ejercicio revise las indicaciones proporcionadas, para conseguir así el resultado que se espera.


<b>Entregable de la actividad:</b>

En la tarea habilitada, suba el notebook con la solución (en formato html o pdf). Antes de subir la solución verifique que consten todas las salidas que se esperan de cada ejercicio.


## Paso 1: Configuración de acceso a API de Kaggle

<b>Objetivo:</b> Conseguir un API token para comenzar a extraer los datos desde Kaggle.

<b>Pasos:</b>

1. Crear cuenta en Kaggle: https://www.kaggle.com/account/login
2. Revisar la documentación de la API: https://www.kaggle.com/docs/api y seguir los pasos que constan en la sección <b>Authentication</b> para conseguir un API token. Según la documentación:

&emsp;&emsp;&emsp;- <i>In order to use the Kaggle’s public API, you must first authenticate using an API token. Go to the 'Account' tab of your user profile and select 'Create New Token'. This will trigger the download of kaggle.json, a file containing your API credentials.</i>

&emsp;&emsp;&emsp;Como resultado de esta acción guardar el archivo <b>kaggle.json</b>.

4. Configurar credenciales de acceso: Dependiendo del entorno en el que trabaje hay dos opciones para hacer la configuración:

&emsp;&emsp;4.1. Si es un entorno local, la documentación indica que hay que copiar el archivo kaggle.json en un directorio específico, según la siguiente instrucción.

- <i>If you are using the Kaggle CLI tool, the tool will look for this token at ~/.kaggle/kaggle.json on Linux, OSX, and other UNIX-based operating systems, and at C:\Users\<Windows-username>\.kaggle\kaggle.json on Windows. If the token is not there, an error will be raised. Hence, once you’ve downloaded the token, you should move it from your Downloads folder to this folder.</i>


&emsp;&emsp;4.2. Si es en Google Colab: ejecutar los siguientes pasos cada vez que ingrese a Google Colab.
   

In [246]:
# Carga de librerías
import kaggle
import numpy as np
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import itertools
import time
from PIL import Image
from IPython.core import display as ICD
%matplotlib inline

## Paso 2: Carga de palabras clave para realizar la búsqueda

Objetivo: Cargar archivo de palabras clave y crear lista que sea procesable por la API

In [247]:
#Cargar lista de palabras clave:
kwDF = pd.read_csv('keywords.csv', header=None, names=['keyword']) # archivo sin encabezado

print("Cantidad de palabras clave: ", kwDF.shape[0])

kwDF

Cantidad de palabras clave:  8


Unnamed: 0,keyword
0,linear regression
1,binary classication
2,visualization
3,poverty
4,COVID 19
5,EDA
6,missing values
7,outliers


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio: (1 pto) </b>

<b>Objetivo:</b> Convertir los términos de varias palabras (separadas con espacio ' '), a términos cuyas palabras estén separadas con el signo '-'

<b>Requisito:</b> La lista deberá llamarse  <i>kw</i>.

<b>Salida esperada:</b> Objeto tipo lista que contenga los términos preprocesados.

Por ejemplo, para el primer caso, en lugar de "linear regression" se debe generar el término "linear_regression"

</div>



In [248]:
######################
# SOLUCIÓN
#####################

nfilas=len(kwDF)        #Numero de filas del dataframe con los Keywords.
rango=range(0,nfilas)   #Rango desde cero hasta el numero de filas (0 a 8).
kw=[]                   #Lista vacia para almacenar los palabras keywords con guiones.

for fila in rango:                                       #Ciclo for para recorrer todas las filas del dataframe kwDF.
    palabra=kwDF.loc[fila]["keyword"].replace(' ','_')   #Se reemplaza el espacio de cada keyword por un signo '_'.
    kw.append(palabra)                                   #Se añaden los keywords a la lista kw.
print(kw)                                                #Se imprime la lista kw para verificar los cambios.

['linear_regression', 'binary_classication', 'visualization', 'poverty', 'COVID_19', 'EDA', 'missing_values', 'outliers']


## Paso 2: Extracción de datos mediante API




### Paso 2.1. Extracción de datos desde Kaggle

Consultar Documentación de la API: https://github.com/Kaggle/kaggle-api

Luego de la revisión de la documentación, intentar comprender el procedimiento para obtener datasets y notebooks, con el objetivo de obtener las salidas que se esperan de cada ejercicio.


### Preparar el request (importar libraries y definir parámetros generales)

In [249]:
import requests, json, time, random
# importar libreria kaggle
from kaggle.api.kaggle_api_extended import KaggleApi



In [250]:
# Llamar a la api key de kaggle instalada en el entorno seleccionado.

api = KaggleApi()
api.authenticate()

Aunque la documentación de la API explica el proceso de consumo de datos, a continuación se presenta un ejemplo de extracción de metadatos de dataset. Observe los metadatos que devuelve la API y pruebe cómo obtendría los metadatos de notebooks.


A partir del ejemplo planteado, desarrolle los ejercicios que continuan.

In [251]:
# Ejemplo de uso de la API:

# Extracción de datasets:
tema = kw[0]  # toma el primer término o palabra que se cargó desde el csv
page = 1  # obtener los datos de la primera página, se puede cambiar iterativamente este valor para recuperar más resultados

#Llamada para obtener metadatos de datasets de un tema en particular y de una página específica.
lista = !kaggle datasets list -s $tema --csv -p $page  
results=[l for l in lista if len(l)]       #Se filtran los resultados para que no se incluyan en la lista elementos vacios.
results[:6]                                # Presentar los 5 primeros resutados en forma de lista, incluyendo el resultado para las columnas

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706']

In [252]:
# Pasos adicionales del ejemplo para mostrar los 5 primeros resultados en un DataFrame
results2=[]             #Nueva lista vacía
d=len(results)          #Numero de elementos de la lista de resultados de datasets
r=range(0,d)            #Rango para la iteracion
for i in r:                                #Ciclo repetitivo para recorrer toda la lista results
    results_split=results[i].split(',')    #Se separan los elementos de cada posicion de la lista results
    results2.append(results_split)         #Se añaden cada lista de elementos separados en la lista results2
results_DF=pd.DataFrame(results2, columns=results2[0])     #Se transforma en dataframe la lista results2 (lista de listas)
results_DF[1:6]                            #Se muestran los primeros 5 resultados, sin contar el resultado para las columnas                                       

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 2 (1.75 ptos): Obtención de metadatos de datasets.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>datasets</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>).

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los datasets que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> datasets </i>

<b>Salida esperada:</b> Presentar los 10 primeros datasets recuperados.

En el ejemplo, proporcionado arriba, puede ver una muestra de los resultados esperados.

</div>

In [253]:
######################
# SOLUCIÓN
######################

# Extracción de datasets:
datasets=[]                     #Lista vacía para guardar todos los datasets
rango2=range(1,4)               #Rango para el numero de paginas: 1,2 y 3.
for fila in rango:                                 #Ciclo repetitivo para recorrer todas las keywords de la lista kw
    for pagina in rango2:                          #Ciclo repetitivo para recorrer las paginas
        tema = kw[fila]                            #Se toma cada keyword y se le asigna a la variable tema
        page = pagina                              #Cada pagina se asigna a la variable page      
        #Llamada para obtener metadatos de datasets de un tema y de una página específica. Los resultados se guardan en una lista.
        lista = !kaggle datasets list -s $tema --csv -p $page 
        results=[l for l in lista if len(l) and l!='No datasets found']  #Se filtran los resultados para que no se incluyan elementos vacios.      
        datasets.extend(results)                   #Los resultados de cada iteración se acumulan en la lista llamada datasets
datasets[:10]                                      #Se presentan los primeros 10 resutados de la lista datasets

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706',
 'iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706',
 'viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706',
 'pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125',
 'nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706']

In [254]:
# Pasos para mostrar los 10 primeros resultados de la lista datasets en un DataFrame
datasets2=[]            #Nueva lista vacía
d=len(datasets)       #Numero de elementos de la lista datasets
r=range(0,d)         #Rango para la iteracion
for i in r:                                  #Ciclo repetitivo para recorrer toda la lista datasets
    datasets_split=datasets[i].split(',',6)  #Se separan los elementos de cada posicion de la lista datasets
    datasets2.append(datasets_split)         #Se añade cada lista de elementos separados en la lista datasets2
datasets_DF=pd.DataFrame(datasets2, columns=datasets2[0])  #Se transforma en dataframe la lista datasets2 (lista de listas)
datasets_DF[1:11]                            #Se muestran los primeros 10 resultados de los datasets, sin incluir los resultados para las columnas 

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706
10,epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:47:13,6,1,0.0


In [255]:
datasets_DF.sample(10)                       #Se muestran 10 resultados al azar de los datasets  

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
157,ajiteshmahalingam/covid-19,Covid_19,3MB,2021-01-27 08:59:00,8,1,0.11764706
139,raviiloveyou/covid-19,covid_19,14MB,2023-10-12 07:11:08,4,3,0.23529412
90,sandeshbhat/satellite-images-to-predict-povert...,Satellite Images to predict poverty,5GB,2021-01-11 11:34:27,548,21,0.8125
243,meetnagadia/share-price-of-top-electric-car-co...,Share price of Top Electric Car Company,211KB,2021-08-24 09:23:30,942,30,0.9375
137,lingutlaaswini/covid-19-india-dataset,Covid_19_india dataset,1MB,2020-06-26 12:21:57,456,8,0.29411766
169,ananyagr/covid-19,covid_19,15MB,2022-01-24 15:09:01,8,1,0.0
11,azeez01/multilinear-regression,Multi-Linear_regression,599B,2022-09-06 18:39:58,27,1,0.11764706
93,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
220,ddosad/customer-behaviour-tourism-portal,Tourism Page Engagement,235KB,2023-11-13 15:17:08,1448,60,1.0
13,yashrana24/linear-regression,linear_regression,24KB,2023-01-29 13:09:37,5,0,0.0


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 3 (1.75 puntos): Limpieza de metadatos de datasets.</b>

<b>Objetivo:</b> Limpiar los metadatos de datasets de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos datasets pueden repetirse en diferentes llamada, esto puede ocurrir cuando un dataset está asociado a varias palabras clave que constan en el archivo de keywords. Por ejemplo, si un dataset tiene dos palabras clave como: linear regression y COVID-19, entonces, va a salir en ambos resultados.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> datasets </i> y dejar solo resultados únicos de datasets.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros datasets únicos que han sido procesados.


</div>

In [256]:
######################
# SOLUCIÓN
######################

#Para la solucion se decide trabajar con los resultados obtenidos de los datasets en formato DataFrame

#a.) Eliminación de los resultados duplicados del Dataframe
datasets_DF_p=datasets_DF.drop_duplicates()                      #Se utiliza drop_duplicates() para eliminar las filas duplicadas
datasets_DF_pp=datasets_DF_p.drop([0],axis=0)                    #Se elimina la primera fila que corresponde con los nombres de las columnas.
datasets_DF_pp.index=range(1,len(datasets_DF_pp)+1)              #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_inicial=len(datasets_DF)                               #Se utiliza len para medir el tamaño del dataset sin procesar
dimension_sin_duplicados=len(datasets_DF_pp)                     #Se utiliza len para medir el tamaño del dataset preprocesado
cantidad_duplicados=dimension_inicial-dimension_sin_duplicados   #Se calcula la cantidad de elementos duplicados

#b.) Verificar si hay valores inesperados
valores_null_columnas=datasets_DF_pp.isnull().sum()              #Se guarda en un DataFrame el numero de valores nulos por columnas
valores_null_filas=(datasets_DF_pp.isnull().sum(axis=1))         #Se guarda en un DataFrame el numero de valores nulos por filas

filas_nulas=[]                                                   #Lista vacia para almacenar las filas nulas                   
for j in range(1,len(valores_null_filas)+1):                     #Ciclo repetitivo para recorrer el DataFrame con el numero de valores nulos por filas
    if valores_null_filas[j]!=0:                                 #Cuando el valor de la fila es distinto de cero se añade en la lista 
        filas_nulas.append(j)
valores_null_filas_filtradas=valores_null_filas[filas_nulas]     #Dataframe solamente con las filas nulas

print("DataFrame con valores nulos por columnas:")               #Se imprime el DataFrame con el numero de valores nulos por columnas
print(valores_null_columnas)
print("\nDataFrame con valores nulos por filas:")                #Se imprime el DataFrame con el numero de valores nulos por filas
print(valores_null_filas)
print("\nDataFrame solamente con las filas nulas:")              #Se imprimen el Dataframe anterior solamente con las filas nulas
print(valores_null_filas_filtradas)

DataFrame con valores nulos por columnas:
ref                0
title              3
size               3
lastUpdated        3
downloadCount      3
voteCount          3
usabilityRating    3
dtype: int64

DataFrame con valores nulos por filas:
1      0
2      0
3      0
4      0
5      0
      ..
283    0
284    0
285    0
286    0
287    6
Length: 287, dtype: int64

DataFrame solamente con las filas nulas:
48     6
114    6
287    6
dtype: int64


In [257]:
#De  acuerdo al analisis anterior existen 3 filas con valores nulos. Las cuales tienen vacias todas sus columnas a excepcion de la primera
#Se decide eliminar estas filas 

datasets_DF_prep=datasets_DF_pp.drop(filas_nulas,axis=0)         #Se eliminan las filas con valores nulos
datasets_DF_prep.index=range(1,len(datasets_DF_prep)+1)          #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_final=len(datasets_DF_prep)                            #Se utiliza len para medir el tamaño del dataset preprocesado final
filas_eliminadas_vacias=len(filas_nulas)                         #Se utiliza len para medir el tamaño de filas eliminadas
cantidad_filas_eliminadas=dimension_inicial-dimension_final      #Se calcula la cantidad de elementos eliminados

In [258]:
#c.) Impresion de resultados
print("Dimension inicial del Dataframe:",dimension_inicial)      #Se imprime el tamaño del dataset sin procesar
print("Dimension del Dataframe sin elementos duplicados:",dimension_sin_duplicados)   #Se imprime el tamaño del dataset preprocesado
print("Cantidad de filas duplicadas:",cantidad_duplicados)   #Se imprime la cantidad de elementos duplicados
print("Dimension del DataFrame con datos únicos preprocesados:",dimension_final)      #Se imprime la cantidad de elementos del DataFrame preprocesado
print("Cantidad de filas eliminadas vacias:",filas_eliminadas_vacias)   #Se imprime la cantidad de filas_eliminadas
print("Cantidad total de filas eliminadas:",cantidad_filas_eliminadas)  #Se imprime la cantidad de filas_eliminadas
print("\nDataframe con datos únicos preprocesados:")                           
datasets_DF_prep[:10]                                            #Se imprimen los 10 primeros resultados del DataFrame preprocesado

Dimension inicial del Dataframe: 307
Dimension del Dataframe sin elementos duplicados: 287
Cantidad de filas duplicadas: 20
Dimension del DataFrame con datos únicos preprocesados: 284
Cantidad de filas eliminadas vacias: 3
Cantidad total de filas eliminadas: 23

Dataframe con datos únicos preprocesados:


Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706
10,epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:47:13,6,1,0.0


In [259]:
datasets_DF_prep.sample(10)                                      #Se muestran 10 resultados al azar del dataset preprocesado

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
191,datatattle/guns-incident-data,Guns incident data,937KB,2020-09-07 15:05:09,681,19,1.0
38,codebreaker619/boston-hubway-data-visualizatio...,Boston Hubway Data Visualization Challenge Dat...,29MB,2021-01-10 19:00:04,639,23,0.9411765
224,mariotormo/complete-pokemon-dataset-updated-09...,Complete Pokemon Dataset (Updated 16.04.21),195KB,2021-04-16 06:32:50,9909,171,0.9705882
102,gokulrajkmv/indian-statewise-data-from-rbi,India's state-wise data,2KB,2020-07-14 07:27:42,3120,29,0.85294116
65,vishweshsalodkar/customer-feedback-dataset,Customer Feedback Dataset,4KB,2023-07-02 10:07:10,3060,53,1.0
106,statchaitya/a-few-poverty-indicators-for-phili...,A few poverty indicators for philippines by re...,12MB,2018-04-30 03:01:02,585,9,0.7058824
79,danofer/wb-poverty,World Bank Poverty Report,107KB,2018-02-28 10:59:53,1524,34,0.9117647
77,johnnyyiu/predicting-poverty,Poverty Probability Index & Economic Indicators,644KB,2019-07-22 06:44:34,2128,22,0.8235294
83,eishkaran/world-poverty-data,World Poverty Data,4MB,2023-10-14 21:22:53,371,22,0.7058824
97,asaniczka/us-cost-of-living-dataset-3171-counties,US Cost of Living Dataset (1877 Counties),1MB,2024-02-17 14:16:32,2271,104,1.0


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 4 (1.75 puntos): Obtención de metadatos de notebooks.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>notebooks</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>). Este ejercicio es similar anterior, pero, la idea es centrarse en los notebooks.

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los notebooks que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> notebooks </i>

<b>Salida esperada:</b> Presentar los 10 primeros notebooks recuperados.

</div>

In [312]:
######################
# SOLUCIÓN
######################

# Extracción de notebooks:
notebooks=[]                    #Lista vacía para guardar todos los notebooks
num_filas=len(kw)               #Numero de filas de kw
rango=range(0,num_filas)        #Rango para el numero de filas de lista kw
rango2=range(1,4)               #Rango para el numero de paginas: 1,2 y 3.
for fila in rango:                                 #Ciclo repetitivo para recorrer todas las keywords de la lista kw
    for pagina in rango2:                          #Ciclo repetitivo para recorrer las paginas
        tema = kw[fila]                            #Se toma cada keyword y se le asigna a la variable tema
        page = pagina                              #Cada pagina se asigna a la variable page      
        #Llamada para obtener metadatos de notebooks de un tema y de una página específica. Los resultados se guardan en una lista.
        lista = !kaggle kernels list -s $tema --csv -p $page 
        results=[l for l in lista if len(l) and l!='Not found']   #Se filtran los resultados para que no se incluyan elementos vacios.      
        notebooks.extend(results)                  #Los resultados de cada iteración se acumulan en la lista llamada notebooks
a=0                                                #Se declara la variable 'a' para el bucle while
while a==0 or a==1:                                #Bucle while para que se ejecute dos veces
    notebooks.remove(notebooks[0])                 #Se elimina el primer y segundo termino de la lista obtenida, dado que en la llamada...
    a+=1                                           #...corresponden con los titulos de las columnas (ref,title,author,lastRunTime,totalVotes)
notebooks[:10]                                     #Se presentan los primeros 10 resutados de la lista notebooks

['ref,title,author,lastRunTime,totalVotes',
 'hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2',
 'sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2',
 'nkitgupta/feature-engineering-and-feature-selection,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172',
 'baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6',
 'meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3',
 'abdul3344/linear-regression,Linear_Regression,Abdul3344,2022-11-07 17:17:21,3',
 'mustiztemiz/linear-regression-house-rice-prediction,Linear_Regression _House_rice_prediction,mustafa öztemiz,2021-11-12 17:16:49,5',
 'rashmiek99/head-size-vs-brain-weight,Head Size Vs Brain Weight,Rashmi,2019-08-01 01:03:35,24',
 'aiyoweidtt/linear-regression-decision-tree-random-forest,Linear_Regression/Decision_Tree/Random_Forest,Aiyowei,2019-08-22 08:

In [313]:
# Pasos para mostrar los 10 primeros resultados de la lista notebooks en un DataFrame
notebooks2=[]         #Nueva lista vacía
d=len(notebooks)      #Numero de elementos de la lista notebooks
r=range(0,d)          #Rango para la iteracion
for i in r:                                    #Ciclo repetitivo para recorrer toda la lista notebooks
    notebooks_split=notebooks[i].split(',',4)  #Se separan los elementos de cada posicion de la lista notebooks
    notebooks2.append(notebooks_split)         #Se añade cada lista de elementos separados en la lista notebooks2
notebooks_DF=pd.DataFrame(notebooks2, columns=notebooks2[0])  #Se transforma en dataframe la lista notebooks2 (lista de listas)
notebooks_DF[1:11]                             #Se muestran los primeros 10 resultados de los notebooks, sin incluir los resultados para las columnas 

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
1,hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2
2,sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2
3,nkitgupta/feature-engineering-and-feature-sele...,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172
4,baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6
5,meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3
6,abdul3344/linear-regression,Linear_Regression,Abdul3344,2022-11-07 17:17:21,3
7,mustiztemiz/linear-regression-house-rice-predi...,Linear_Regression _House_rice_prediction,mustafa öztemiz,2021-11-12 17:16:49,5
8,rashmiek99/head-size-vs-brain-weight,Head Size Vs Brain Weight,Rashmi,2019-08-01 01:03:35,24
9,aiyoweidtt/linear-regression-decision-tree-ran...,Linear_Regression/Decision_Tree/Random_Forest,Aiyowei,2019-08-22 08:50:50,3
10,ajcostarino/ingv-volcanic-eruption-prediction-...,INGV Volcanic Eruption Prediction - LGBM Base...,Adam James,2020-12-15 21:35:13,47


In [320]:
notebooks_DF.sample(10)                        #Se muestran 10 resultados al azar de los notebooks

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
121,andresionek/geospatial-analysis-of-brazilian-e...,Geospatial Analysis of Brazilian E-Commerce,Andre Sionek,2018-11-29 13:42:16,458
109,nicapotato/costa-rican-poverty-distributions-a...,Costa Rican Poverty - Distributions and Corr,nicapotato,2018-07-29 10:34:20,18
11,rahul1394/weight-height-prediction-linear-regr...,Weight-Height_Prediction(Linear_Regression),rahul,2019-08-27 15:55:56,4
2,sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2
65,joshuaswords/awesome-hr-data-visualization-pre...,Awesome HR Data Visualization & Prediction,Josh,2021-04-27 13:20:41,147
61,xvivancos/data-breaches-tableau-visualization,Data Breaches Tableau Visualization,Xavier,2023-01-25 13:38:49,112
165,dgawlik/house-prices-eda,House Prices EDA,Dominik Gawlik,2017-02-20 10:51:47,606
181,cdeotte/keras-unet-with-eda,Keras UNET with EDA,Chris Deotte,2019-08-10 10:55:52,283
139,rsesha/covid-19-image-classification-deep-auto...,COVID_19_Image_Classification_Deep_AutoViML,RSESHA,2021-08-08 22:46:10,6
203,aikhmelnytskyy/public-krni-pdi-with-two-additi...,public_krni_pdi_:( with two additional models,Andrij,2023-07-02 19:30:24,162


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 5 (1.75 puntos): Limpieza de metadatos de notebooks.</b>

<b>Objetivo:</b> Limpiar los metadatos de notebooks de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos notebooks también pueden repetirse como se ha explicado previamente.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> notebooks </i> y dejar solo resultados únicos de notebooks.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros notebooks únicos que han sido procesados.


</div>

In [321]:
######################
# SOLUCIÓN
######################

#Para la solucion se decide trabajar con los resultados obtenidos de los notebooks en formato DataFrame

#a.) Eliminación de los resultados duplicados del Dataframe
notebooks_DF_p=notebooks_DF.drop_duplicates()                    #Se utiliza drop_duplicates() para eliminar las filas duplicadas
notebooks_DF_pp=notebooks_DF_p.drop([0],axis=0)                  #Se elimina la primera fila que corresponde con los nombres de las columnas.
notebooks_DF_pp.index=range(1,len(notebooks_DF_pp)+1)            #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_inicial=len(notebooks_DF)                              #Se utiliza len para medir el tamaño del DataFrame sin procesar
dimension_sin_duplicados=len(notebooks_DF_pp)                    #Se utiliza len para medir el tamaño del DataFrame preprocesado
cantidad_duplicados=dimension_inicial-dimension_sin_duplicados   #Se calcula la cantidad de elementos duplicados

#b.) Verificar si hay valores inesperados
valores_null_columnas=notebooks_DF_pp.isnull().sum()             #Se guarda en un DataFrame el numero de valores nulos por columnas
valores_null_filas=(notebooks_DF_pp.isnull().sum(axis=1))        #Se guarda en un DataFrame el numero de valores nulos por filas

filas_nulas=[]                                                   #Lista vacia para almacenar las filas nulas                   
for j in range(1,len(valores_null_filas)+1):                     #Ciclo repetitivo para recorrer el DataFrame con el numero de valores nulos por filas
    if valores_null_filas[j]!=0:                                 #Cuando el valor de la fila es distinto de cero se añade en la lista 
        filas_nulas.append(j)
valores_null_filas_filtradas=valores_null_filas[filas_nulas]     #Dataframe solamente con las filas nulas

print("DataFrame con valores nulos por columnas:")               #Se imprime el DataFrame con el numero de valores nulos por columnas
print(valores_null_columnas)
print("\nDataFrame con valores nulos por filas:")                #Se imprime el DataFrame con el numero de valores nulos por filas
print(valores_null_filas)
print("\nDataFrame solamente con las filas nulas:")              #Se imprimen el Dataframe anterior solamente con las filas nulas
print(valores_null_filas_filtradas)

DataFrame con valores nulos por columnas:
ref             0
title          13
author         13
lastRunTime    13
totalVotes     13
dtype: int64

DataFrame con valores nulos por filas:
1      0
2      0
3      0
4      0
5      0
      ..
226    0
227    4
228    0
229    4
230    4
Length: 230, dtype: int64

DataFrame solamente con las filas nulas:
18     4
19     4
25     4
125    4
147    4
164    4
166    4
176    4
190    4
201    4
227    4
229    4
230    4
dtype: int64


In [322]:
#De  acuerdo al analisis anterior existen 13 filas con valores nulos. Las cuales tienen vacias todas sus columnas a excepcion de la primera
#Se decide eliminar estas filas 

notebooks_DF_prep=notebooks_DF_pp.drop(filas_nulas,axis=0)       #Se eliminan las filas con valores nulos
notebooks_DF_prep.index=range(1,len(notebooks_DF_prep)+1)        #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_final=len(notebooks_DF_prep)                           #Se utiliza len para medir el tamaño del DataFrame preprocesado final
filas_eliminadas_vacias=len(filas_nulas)                         #Se utiliza len para medir el tamaño de filas eliminadas
cantidad_filas_eliminadas=dimension_inicial-dimension_final      #Se calcula la cantidad de elementos eliminados

In [323]:
#c.) Impresion de resultados
print("Dimension inicial del Dataframe:",dimension_inicial)      #Se imprime el tamaño del DataFrame sin procesar
print("Dimension del Dataframe sin elementos duplicados:",dimension_sin_duplicados) #Se imprime el tamaño del DataFrame preprocesado
print("Cantidad de filas duplicadas:",cantidad_duplicados)       #Se imprime la cantidad de elementos duplicados
print("Dimension del DataFrame con datos únicos preprocesados:",dimension_final)    #Se imprime la cantidad de elementos del DataFrame preprocesado final
print("Cantidad de filas eliminadas vacias:",filas_eliminadas_vacias)   #Se imprime la cantidad de filas_eliminadas que estaban vacías
print("Cantidad total de filas eliminadas:",cantidad_filas_eliminadas)  #Se imprime la cantidad de filas_eliminadas
print("\nDataframe con datos únicos preprocesados:")                           
datasets_DF_prep[:10]                                            #Se imprimen los 10 primeros resultados del DataFrame preprocesado final

Dimension inicial del Dataframe: 251
Dimension del Dataframe sin elementos duplicados: 230
Cantidad de filas duplicadas: 21
Dimension del DataFrame con datos únicos preprocesados: 217
Cantidad de filas eliminadas vacias: 13
Cantidad total de filas eliminadas: 34

Dataframe con datos únicos preprocesados:


Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706
10,epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:47:13,6,1,0.0


In [325]:
notebooks_DF_prep.sample(10)                                      #Se muestran 10 resultados al azar del DataFrame preprocesado final

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
42,kralmachine/data-visualization-of-suicide-rates,Data Visualization of Suicide Rates,KraLMachine,2019-06-30 19:20:25,165
18,therealcyberlord/coronavirus-covid-19-visualiz...,Coronavirus (COVID-19) Visualization & Prediction,Xingyu Bian,2023-01-17 00:44:38,2228
216,miklgr500/ghost-drift-and-outliers,"""""""Ghost"""" drift and Outliers""",Welf Crozzo,2020-04-12 06:25:26,64
132,sgantayat9/covid-19-bcell-classification-86-ac...,Covid_19_BCell_Classification_86%_Accuracy,Shubham Gantayat,2020-09-15 06:37:04,5
50,pavansanagapati/pandas-bokeh-visualization-tut...,Pandas Bokeh Visualization Tutorial,Pavan Sanagapati,2020-07-05 01:20:21,144
135,larsupb/covid-19-forecast-germany-with-lgbm-an...,covid-19 forecast Germany with lgbm and keras,Lars Hackstein,2020-03-19 09:42:13,17
96,shivamb/0-cpe-getting-familier-with-problem-an...,0. CPE - Getting Familier with Problem and Dat...,Shivam Bansal,2018-12-04 15:20:50,131
194,rajatraj0502/most-streamed-spotify-songs-2023,Most Streamed Spotify Songs 2023,Rajat Raj,2023-08-27 19:23:46,38
201,evanmiller/pipelines-gridsearch-awesome-ml-pip...,Pipelines + GridSearch = Awesome ML pipelines,Evan Miller,2017-10-06 22:35:26,48
24,subinium/kaggle-2020-visualization-analysis,[Kaggle 2020] Visualization & Analysis,Subin An,2021-03-26 07:34:46,361


### Paso 2.2: Integración de resultados

<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 6 (2 ptos): Integración de datos obtenidos (tanto de datasets y notebooks) </b>

<b>Objetivo:</b> Crear un dataframe único donde consten los datos de los datasets como de los notebooks.

<b>Requisitos:</b>

- A partir de la estructuras de datos <i> datasets </i> y <i> notebooks </i>, determinar cuáles los atributos comunes y cuáles son diferentes para crear una sola estructura tipo dataframe que almacene todos los datos extraídos.

<b>Salida esperada:</b> Presentar un <i>sample</i> de 10 elementos que consten en el dataframe único


</div>

In [None]:
######################
# SOLUCIÓN
######################