<div style="width: 100%; clear: both;">
<div style="float: left; width: 30%;">
<img src="https://www.utpl.edu.ec/sites/default/files/archivos/marca%20UTPL%202018-02.png", align="left" width="280" height="120">
</div>
</div>
<div style="float: right; width: 70%;">
<p style="margin: 0; padding-top: 32px; text-align:right; color:#003366; font-size:16px"><u>Análisis de datos y visualización</u></p>
<p style="margin: 0; text-align:right; color:#999999; font-size:17px">Maestría en Inteligencia Artificial Aplicada</p>
</div>
</div>
<div style="width: 100%; clear: both;">
<div style="width:100%;">&nbsp;</div>


# Laboratorio 1: Extracción de datos mediante APIs

La actividad práctico experimental tiene como objetivo validar su habilidad para usar APIs públicas para la extracción de datos.

Desarrolle los ejercicios relacionados con la extracción y procesamiento de datos planteados en el notebook.

Por cada ejercicio revise las indicaciones proporcionadas, para conseguir así el resultado que se espera.


<b>Entregable de la actividad:</b>

En la tarea habilitada, suba el notebook con la solución (en formato html o pdf). Antes de subir la solución verifique que consten todas las salidas que se esperan de cada ejercicio.


## Paso 1: Configuración de acceso a API de Kaggle

<b>Objetivo:</b> Conseguir un API token para comenzar a extraer los datos desde Kaggle.

<b>Pasos:</b>

1. Crear cuenta en Kaggle: https://www.kaggle.com/account/login
2. Revisar la documentación de la API: https://www.kaggle.com/docs/api y seguir los pasos que constan en la sección <b>Authentication</b> para conseguir un API token. Según la documentación:

&emsp;&emsp;&emsp;- <i>In order to use the Kaggle’s public API, you must first authenticate using an API token. Go to the 'Account' tab of your user profile and select 'Create New Token'. This will trigger the download of kaggle.json, a file containing your API credentials.</i>

&emsp;&emsp;&emsp;Como resultado de esta acción guardar el archivo <b>kaggle.json</b>.

4. Configurar credenciales de acceso: Dependiendo del entorno en el que trabaje hay dos opciones para hacer la configuración:

&emsp;&emsp;4.1. Si es un entorno local, la documentación indica que hay que copiar el archivo kaggle.json en un directorio específico, según la siguiente instrucción.

- <i>If you are using the Kaggle CLI tool, the tool will look for this token at ~/.kaggle/kaggle.json on Linux, OSX, and other UNIX-based operating systems, and at C:\Users\<Windows-username>\.kaggle\kaggle.json on Windows. If the token is not there, an error will be raised. Hence, once you’ve downloaded the token, you should move it from your Downloads folder to this folder.</i>


&emsp;&emsp;4.2. Si es en Google Colab: ejecutar los siguientes pasos cada vez que ingrese a Google Colab.
   

In [1]:
# Carga de librerías
import kaggle
import numpy as np
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import itertools
import time
from PIL import Image
from IPython.core import display as ICD
%matplotlib inline

## Paso 2: Carga de palabras clave para realizar la búsqueda

Objetivo: Cargar archivo de palabras clave y crear lista que sea procesable por la API

In [2]:
#Cargar lista de palabras clave:
kwDF = pd.read_csv('keywords.csv', header=None, names=['keyword']) # archivo sin encabezado

print("Cantidad de palabras clave: ", kwDF.shape[0])

kwDF

Cantidad de palabras clave:  8


Unnamed: 0,keyword
0,linear regression
1,binary classication
2,visualization
3,poverty
4,COVID 19
5,EDA
6,missing values
7,outliers


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio: (1 pto) </b>

<b>Objetivo:</b> Convertir los términos de varias palabras (separadas con espacio ' '), a términos cuyas palabras estén separadas con el signo '-'

<b>Requisito:</b> La lista deberá llamarse  <i>kw</i>.

<b>Salida esperada:</b> Objeto tipo lista que contenga los términos preprocesados.

Por ejemplo, para el primer caso, en lugar de "linear regression" se debe generar el término "linear_regression"

</div>



In [3]:
######################
# SOLUCIÓN
#####################

nfilas=len(kwDF)        #Numero de filas del dataframe con los Keywords.
rango=range(0,nfilas)   #Rango desde cero hasta el numero de filas (0 a 8).
kw=[]                   #Lista vacia para almacenar los palabras keywords con guiones.

for fila in rango:                                       #Ciclo for para recorrer todas las filas del dataframe kwDF.
    palabra=kwDF.loc[fila]["keyword"].replace(' ','_')   #Se reemplaza el espacio de cada keyword por un signo '_'.
    kw.append(palabra)                                   #Se añaden los keywords a la lista kw.
print(kw)                                                #Se imprime la lista kw para verificar los cambios.

['linear_regression', 'binary_classication', 'visualization', 'poverty', 'COVID_19', 'EDA', 'missing_values', 'outliers']


## Paso 2: Extracción de datos mediante API




### Paso 2.1. Extracción de datos desde Kaggle

Consultar Documentación de la API: https://github.com/Kaggle/kaggle-api

Luego de la revisión de la documentación, intentar comprender el procedimiento para obtener datasets y notebooks, con el objetivo de obtener las salidas que se esperan de cada ejercicio.


### Preparar el request (importar libraries y definir parámetros generales)

In [4]:
import requests, json, time, random
# importar libreria kaggle
from kaggle.api.kaggle_api_extended import KaggleApi



In [5]:
# Llamar a la api key de kaggle instalada en el entorno seleccionado.

api = KaggleApi()
api.authenticate()

Aunque la documentación de la API explica el proceso de consumo de datos, a continuación se presenta un ejemplo de extracción de metadatos de dataset. Observe los metadatos que devuelve la API y pruebe cómo obtendría los metadatos de notebooks.


A partir del ejemplo planteado, desarrolle los ejercicios que continuan.

In [6]:
# Ejemplo de uso de la API:

# Extracción de datasets:
tema = kw[0]  # toma el primer término o palabra que se cargó desde el csv
page = 1  # obtener los datos de la primera página, se puede cambiar iterativamente este valor para recuperar más resultados

#Llamada para obtener metadatos de datasets de un tema en particular y de una página específica.
lista = !kaggle datasets list -s $tema --csv -p $page  
results=[l for l in lista if len(l)]       #Se filtran los resultados para que no se incluyan en la lista elementos vacios.
results[:6]                                # Presentar los 5 primeros resutados en forma de lista, incluyendo el resultado para las columnas

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706']

In [7]:
# Pasos adicionales del ejemplo para mostrar los 5 primeros resultados en un DataFrame
results2=[]             #Nueva lista vacía
d=len(results)          #Numero de elementos de la lista de resultados de datasets
r=range(0,d)            #Rango para la iteracion
for i in r:                                #Ciclo repetitivo para recorrer toda la lista results
    results_split=results[i].split(',')    #Se separan los elementos de cada posicion de la lista results
    results2.append(results_split)         #Se añaden cada lista de elementos separados en la lista results2
results_DF=pd.DataFrame(results2, columns=results2[0])     #Se transforma en dataframe la lista results2 (lista de listas)
results_DF[1:6]                            #Se muestran los primeros 5 resultados, sin contar el resultado para las columnas                                       

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 2 (1.75 ptos): Obtención de metadatos de datasets.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>datasets</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>).

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los datasets que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> datasets </i>

<b>Salida esperada:</b> Presentar los 10 primeros datasets recuperados.

En el ejemplo, proporcionado arriba, puede ver una muestra de los resultados esperados.

</div>

In [8]:
######################
# SOLUCIÓN
######################

# Extracción de datasets:
datasets=[]                     #Lista vacía para guardar todos los datasets
rango2=range(1,4)               #Rango para el numero de paginas: 1,2 y 3.
for fila in rango:                                 #Ciclo repetitivo para recorrer todas las keywords de la lista kw
    for pagina in rango2:                          #Ciclo repetitivo para recorrer las paginas
        tema = kw[fila]                            #Se toma cada keyword y se le asigna a la variable tema
        page = pagina                              #Cada pagina se asigna a la variable page      
        #Llamada para obtener metadatos de datasets de un tema y de una página específica. Los resultados se guardan en una lista.
        lista = !kaggle datasets list -s $tema --csv -p $page 
        results=[l for l in lista if len(l) and l!='No datasets found']  #Se filtran los resultados para que no se incluyan elementos vacios.      
        datasets.extend(results)                   #Los resultados de cada iteración se acumulan en la lista llamada datasets
datasets[:10]                                      #Se presentan los primeros 10 resutados de la lista datasets

['ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating',
 'aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412',
 'kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706',
 'drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375',
 'sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766',
 'krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706',
 'iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706',
 'viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706',
 'pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125',
 'nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706']

In [9]:
# Pasos para mostrar los 10 primeros resultados de la lista datasets en un DataFrame
datasets2=[]            #Nueva lista vacía
d=len(datasets)       #Numero de elementos de la lista datasets
r=range(0,d)         #Rango para la iteracion
for i in r:                                  #Ciclo repetitivo para recorrer toda la lista datasets
    datasets_split=datasets[i].split(',',6)  #Se separan los elementos de cada posicion de la lista datasets
    datasets2.append(datasets_split)         #Se añade cada lista de elementos separados en la lista datasets2
datasets_DF=pd.DataFrame(datasets2, columns=datasets2[0])  #Se transforma en dataframe la lista datasets2 (lista de listas)
datasets_DF[1:11]                            #Se muestran los primeros 10 resultados de los datasets, sin incluir los resultados para las columnas 

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706
10,epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:47:13,6,1,0.0


In [10]:
datasets_DF.sample(10)                       #Se muestran 10 resultados al azar de los datasets  

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
276,mryanm/luflow-network-intrusion-detection-data...,LUFlow Network Intrusion Detection Data Set,5GB,2024-04-27 08:57:48,2514,70,0.8125
229,swatikhedekar/eda-on-zomato-dataset,EDA on Zomato dataset,440KB,2022-06-05 11:20:03,582,5,0.7058824
28,kimjihoo/coronavirusdataset,[NeurIPS 2020] Data Science for COVID-19 (DS4C),7MB,2020-07-13 14:07:31,139620,1597,1.0
83,mitchellreynolds/multidimensional-poverty-meas...,Multidimensional Poverty Measures,49KB,2018-03-28 18:24:10,706,16,0.85294116
35,utkarshtomar736/odi-mens-cricket-match-data-20...,ODI Men's Cricket Match Data (2002-2023),7MB,2023-09-25 15:31:05,1620,35,1.0
242,helddata/yellow-taxi-trip-data-2017,Yellow Taxi Trip Data 2017,675KB,2023-12-09 18:13:20,62,8,1.0
191,moro146/supermarket-eda,supermarket EDA,480KB,2023-01-29 21:07:04,279,32,0.4117647
92,rohan0301/unsupervised-learning-on-country-data,Unsupervised Learning on Country Data,5KB,2020-06-17 07:45:45,22938,199,1.0
200,rohitsahoo/sales-forecasting,Superstore Sales Dataset,480KB,2020-09-11 15:40:14,63068,459,1.0
111,anshtanwar/monthly-food-price-estimates,Global Food Price Inflation,254KB,2023-10-21 15:33:25,10951,162,1.0


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 3 (1.75 puntos): Limpieza de metadatos de datasets.</b>

<b>Objetivo:</b> Limpiar los metadatos de datasets de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos datasets pueden repetirse en diferentes llamada, esto puede ocurrir cuando un dataset está asociado a varias palabras clave que constan en el archivo de keywords. Por ejemplo, si un dataset tiene dos palabras clave como: linear regression y COVID-19, entonces, va a salir en ambos resultados.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> datasets </i> y dejar solo resultados únicos de datasets.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros datasets únicos que han sido procesados.


</div>

In [11]:
######################
# SOLUCIÓN
######################

#Para la solucion se decide trabajar con los resultados obtenidos de los datasets en formato DataFrame

#a.) Eliminación de los resultados duplicados del Dataframe
datasets_DF_p=datasets_DF.drop_duplicates()                      #Se utiliza drop_duplicates() para eliminar las filas duplicadas
datasets_DF_pp=datasets_DF_p.drop([0],axis=0)                    #Se elimina la primera fila que corresponde con los nombres de las columnas.
datasets_DF_pp.index=range(1,len(datasets_DF_pp)+1)              #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_inicial=len(datasets_DF)                               #Se utiliza len para medir el tamaño del dataset sin procesar
dimension_sin_duplicados=len(datasets_DF_pp)                     #Se utiliza len para medir el tamaño del dataset preprocesado
cantidad_duplicados=dimension_inicial-dimension_sin_duplicados   #Se calcula la cantidad de elementos duplicados

#b.) Verificar si hay valores inesperados
valores_null_columnas=datasets_DF_pp.isnull().sum()              #Se guarda en un DataFrame el numero de valores nulos por columnas
valores_null_filas=(datasets_DF_pp.isnull().sum(axis=1))         #Se guarda en un DataFrame el numero de valores nulos por filas

filas_nulas=[]                                                   #Lista vacia para almacenar las filas nulas                   
for j in range(1,len(valores_null_filas)+1):                     #Ciclo repetitivo para recorrer el DataFrame con el numero de valores nulos por filas
    if valores_null_filas[j]!=0:                                 #Cuando el valor de la fila es distinto de cero se añade en la lista 
        filas_nulas.append(j)
valores_null_filas_filtradas=valores_null_filas[filas_nulas]     #Dataframe solamente con las filas nulas

print("DataFrame con valores nulos por columnas:")               #Se imprime el DataFrame con el numero de valores nulos por columnas
print(valores_null_columnas)
print("\nDataFrame con valores nulos por filas:")                #Se imprime el DataFrame con el numero de valores nulos por filas
print(valores_null_filas)
print("\nDataFrame solamente con las filas nulas:")              #Se imprimen el Dataframe anterior solamente con las filas nulas
print(valores_null_filas_filtradas)

DataFrame con valores nulos por columnas:
ref                0
title              3
size               3
lastUpdated        3
downloadCount      3
voteCount          3
usabilityRating    3
dtype: int64

DataFrame con valores nulos por filas:
1      0
2      0
3      0
4      0
5      0
      ..
283    0
284    0
285    0
286    0
287    6
Length: 287, dtype: int64

DataFrame solamente con las filas nulas:
48     6
114    6
287    6
dtype: int64


In [12]:
#De  acuerdo al analisis anterior existen 3 filas con valores nulos. Las cuales tienen vacias todas sus columnas a excepcion de la primera
#Se decide eliminar estas filas 

datasets_DF_prep=datasets_DF_pp.drop(filas_nulas,axis=0)         #Se eliminan las filas con valores nulos
datasets_DF_prep.index=range(1,len(datasets_DF_prep)+1)          #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_final=len(datasets_DF_prep)                            #Se utiliza len para medir el tamaño del dataset preprocesado final
filas_eliminadas_vacias=len(filas_nulas)                         #Se utiliza len para medir el tamaño de filas eliminadas
cantidad_filas_eliminadas=dimension_inicial-dimension_final      #Se calcula la cantidad de elementos eliminados

In [13]:
#c.) Impresion de resultados
print("Dimension inicial del Dataframe:",dimension_inicial)      #Se imprime el tamaño del dataset sin procesar
print("Dimension del Dataframe sin elementos duplicados:",dimension_sin_duplicados)   #Se imprime el tamaño del dataset preprocesado
print("Cantidad de filas duplicadas:",cantidad_duplicados)   #Se imprime la cantidad de elementos duplicados
print("Dimension del DataFrame con datos únicos preprocesados:",dimension_final)      #Se imprime la cantidad de elementos del DataFrame preprocesado
print("Cantidad de filas eliminadas vacias:",filas_eliminadas_vacias)   #Se imprime la cantidad de filas eliminadas vacias
print("Cantidad total de filas eliminadas:",cantidad_filas_eliminadas)  #Se imprime la cantidad total de filas_eliminadas
print("\nDataframe con datos únicos preprocesados:")                           
datasets_DF_prep[:10]                                            #Se imprimen los 10 primeros resultados del DataFrame preprocesado

Dimension inicial del Dataframe: 307
Dimension del Dataframe sin elementos duplicados: 287
Cantidad de filas duplicadas: 20
Dimension del DataFrame con datos únicos preprocesados: 284
Cantidad de filas eliminadas vacias: 3
Cantidad total de filas eliminadas: 23

Dataframe con datos únicos preprocesados:


Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706
6,iflahgulzar/linear-regression,linear_regression,8KB,2023-02-26 16:36:10,9,1,0.1764706
7,viveckrajasekar/linear-regression,Linear_Regression,13KB,2019-06-28 14:24:45,61,1,0.11764706
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
9,nurmannaz/linear-regression,linear_regression,220B,2022-03-01 21:17:06,14,0,0.1764706
10,epsitabose/linear-regression,linear_regression,2MB,2022-02-09 11:47:13,6,1,0.0


In [14]:
datasets_DF_prep.sample(10)                                      #Se muestran 10 resultados al azar del DataFrame preprocesado

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating
219,ramjasmaurya/mineral-ores-around-the-world,Mineral ores around the world,9MB,2022-04-27 04:59:35,2033,76,1.0
8,pankajsinghardh/linear-regression,linear_regression,213B,2023-08-27 05:40:10,6,0,0.3125
236,broach/button-tone-sz,EEG data from basic sensory task in Schizophrenia,8GB,2019-01-31 18:26:06,7173,215,0.88235295
217,vivmankar/physics-vs-chemistry-vs-biology,Physics vs Chemistry vs Biology,950KB,2021-11-01 08:15:16,2229,40,0.9705882
104,brandonconrady/living-wage-top-100-cities,Living Wage - Top 100 Cities,6KB,2021-12-18 03:42:47,1496,31,1.0
138,duyquhu/covid-19,Covid_19,13KB,2022-05-03 11:11:52,18,1,0.1764706
131,senapatirajesh/corona-virus-vaccination-jan2023,Latest worldwide Covid_19 vaccination data,18KB,2023-01-14 08:40:17,75,5,0.7647059
249,vijaykumar1799/face-mask-detection,Face Mask Detection,222MB,2021-05-19 15:24:14,6079,74,0.875
110,iamsouravbanerjee/human-development-index-dataset,Human Development World Index,626KB,2024-03-01 09:30:30,2743,107,1.0
280,l10677832/outliers,outliers,2MB,2023-11-13 12:11:04,1,1,0.25


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 4 (1.75 puntos): Obtención de metadatos de notebooks.</b>

<b>Objetivo:</b> Mediante un proceso repetitivo, recuperar los <b>notebooks</b> que estén relacionados con las palabras clave contenidas en la lista de keywords previamente creada (<i>kw</i>). Este ejercicio es similar anterior, pero, la idea es centrarse en los notebooks.

<b>Requisitos:</b>

- Recorrer toda la lista de palabras clave para obtener todos los notebooks que consten en las primeras 3 páginas (por cada palabra clave).
- Acumular los resultados en una lista que se denomine <i> notebooks </i>

<b>Salida esperada:</b> Presentar los 10 primeros notebooks recuperados.

</div>

In [15]:
######################
# SOLUCIÓN
######################

# Extracción de notebooks:
notebooks=[]                    #Lista vacía para guardar todos los notebooks
num_filas=len(kw)               #Numero de filas de kw
rango=range(0,num_filas)        #Rango para el numero de filas de lista kw
rango2=range(1,4)               #Rango para el numero de paginas: 1,2 y 3.
for fila in rango:                                 #Ciclo repetitivo para recorrer todas las keywords de la lista kw
    for pagina in rango2:                          #Ciclo repetitivo para recorrer las paginas
        tema = kw[fila]                            #Se toma cada keyword y se le asigna a la variable tema
        page = pagina                              #Cada pagina se asigna a la variable page      
        #Llamada para obtener metadatos de notebooks de un tema y de una página específica. Los resultados se guardan en una lista.
        lista = !kaggle kernels list -s $tema --csv -p $page 
        results=[l for l in lista if len(l) and l!='Not found']   #Se filtran los resultados para que no se incluyan elementos vacios.      
        notebooks.extend(results)                  #Los resultados de cada iteración se acumulan en la lista llamada notebooks
a=0                                                #Se declara la variable 'a' para el bucle while
while a==0 or a==1:                                #Bucle while para que se ejecute dos veces
    notebooks.remove(notebooks[0])                 #Se elimina el primer y segundo termino de la lista obtenida, dado que en la llamada...
    a+=1                                           #...corresponden con los titulos de las columnas (ref,title,author,lastRunTime,totalVotes)
notebooks[:10]                                     #Se presentan los primeros 10 resutados de la lista notebooks

['ref,title,author,lastRunTime,totalVotes',
 'hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2',
 'sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2',
 'nkitgupta/feature-engineering-and-feature-selection,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172',
 'baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6',
 'meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3',
 'abdul3344/linear-regression,Linear_Regression,Abdul3344,2022-11-07 17:17:21,3',
 'mustiztemiz/linear-regression-house-rice-prediction,Linear_Regression _House_rice_prediction,mustafa öztemiz,2021-11-12 17:16:49,5',
 'rashmiek99/head-size-vs-brain-weight,Head Size Vs Brain Weight,Rashmi,2019-08-01 01:03:35,24',
 'aiyoweidtt/linear-regression-decision-tree-random-forest,Linear_Regression/Decision_Tree/Random_Forest,Aiyowei,2019-08-22 08:

In [16]:
# Pasos para mostrar los 10 primeros resultados de la lista notebooks en un DataFrame
notebooks2=[]         #Nueva lista vacía
d=len(notebooks)      #Numero de elementos de la lista notebooks
r=range(0,d)          #Rango para la iteracion
for i in r:                                    #Ciclo repetitivo para recorrer toda la lista notebooks
    notebooks_split=notebooks[i].split(',',4)  #Se separan los elementos de cada posicion de la lista notebooks
    notebooks2.append(notebooks_split)         #Se añade cada lista de elementos separados en la lista notebooks2
notebooks_DF=pd.DataFrame(notebooks2, columns=notebooks2[0])  #Se transforma en dataframe la lista notebooks2 (lista de listas)
notebooks_DF[1:11]                             #Se muestran los primeros 10 resultados de los notebooks, sin incluir los resultados para las columnas 

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
1,hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2
2,sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2
3,nkitgupta/feature-engineering-and-feature-sele...,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172
4,baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6
5,meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3
6,abdul3344/linear-regression,Linear_Regression,Abdul3344,2022-11-07 17:17:21,3
7,mustiztemiz/linear-regression-house-rice-predi...,Linear_Regression _House_rice_prediction,mustafa öztemiz,2021-11-12 17:16:49,5
8,rashmiek99/head-size-vs-brain-weight,Head Size Vs Brain Weight,Rashmi,2019-08-01 01:03:35,24
9,aiyoweidtt/linear-regression-decision-tree-ran...,Linear_Regression/Decision_Tree/Random_Forest,Aiyowei,2019-08-22 08:50:50,3
10,ajcostarino/ingv-volcanic-eruption-prediction-...,INGV Volcanic Eruption Prediction - LGBM Base...,Adam James,2020-12-15 21:35:13,47


In [24]:
notebooks_DF.sample(10)                        #Se muestran 10 resultados al azar de los notebooks

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
101,algosforgood/kiva-understanding-poverty-levels...,Kiva - Understanding Poverty Levels of Borrowers,AlgosForGood,2018-03-06 22:17:55,14
90,marshuu/poverty-rate-in-the-us-animation,Poverty rate in the US (animation),Maryna Shut,2023-01-08 11:12:33,35
157,ayushimishra2809/covid-19-visualizations-and-p...,COVID 19- Visualizations and Predictions,Ayushi Mishra,2020-03-20 14:33:57,28
116,mhjudi/poverty-data,Poverty Data,Mohamed Judi,2018-04-07 04:03:48,2
215,pranav2109/featureengineering-ensemble-xgbpipe...,FeatureEngineering+Ensemble-XGBPipeline,Pranav Agarwal,2021-08-27 02:25:42,67
211,urbanmonk09/example-simple-imputer,example simple imputer,Urban Monk 09,2024-04-30 04:12:24,18
140,bryanteh/covid19-sigmoidmodel,Covid19_SigmoidModel,Bryan Teh Yu Qi,2020-04-12 05:10:36,7
210,ragnisah/eda-abalone-age-prediction,EDA- Abalone Age Prediction,Rageeni Sah,2019-08-28 05:49:01,65
53,shearerp/interactive-sales-visualization,Interactive Sales Visualization!,PaulShearer,2015-10-29 18:29:23,115
199,vadimkamaev/icr-identify-age,icr-identify-age,Vadim Kamaev,2023-06-11 06:17:12,140


<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 5 (1.75 puntos): Limpieza de metadatos de notebooks.</b>

<b>Objetivo:</b> Limpiar los metadatos de notebooks de tal manera que no hayan elementos duplicados, ni hayan datos con valores inesperados.

<b>Contexto:</b> Algunos notebooks también pueden repetirse como se ha explicado previamente.

<b>Requisitos:</b>

- Recorrer la lista de resultados <i> notebooks </i> y dejar solo resultados únicos de notebooks.
- Explorar los resultados obtenidos para verificar que los datos no contienen caracteres o elementos extraños.

<b>Salida esperada:</b> Presentar los 10 primeros notebooks únicos que han sido procesados.


</div>

In [25]:
######################
# SOLUCIÓN
######################

#Para la solucion se decide trabajar con los resultados obtenidos de los notebooks en formato DataFrame

#a.) Eliminación de los resultados duplicados del Dataframe
notebooks_DF_p=notebooks_DF.drop_duplicates()                    #Se utiliza drop_duplicates() para eliminar las filas duplicadas
notebooks_DF_pp=notebooks_DF_p.drop([0],axis=0)                  #Se elimina la primera fila que corresponde con los nombres de las columnas.
notebooks_DF_pp.index=range(1,len(notebooks_DF_pp)+1)            #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_inicial=len(notebooks_DF)                              #Se utiliza len para medir el tamaño del DataFrame sin procesar
dimension_sin_duplicados=len(notebooks_DF_pp)                    #Se utiliza len para medir el tamaño del DataFrame preprocesado
cantidad_duplicados=dimension_inicial-dimension_sin_duplicados   #Se calcula la cantidad de elementos duplicados

#b.) Verificar si hay valores inesperados
valores_null_columnas=notebooks_DF_pp.isnull().sum()             #Se guarda en un DataFrame el numero de valores nulos por columnas
valores_null_filas=(notebooks_DF_pp.isnull().sum(axis=1))        #Se guarda en un DataFrame el numero de valores nulos por filas

filas_nulas=[]                                                   #Lista vacia para almacenar las filas nulas                   
for j in range(1,len(valores_null_filas)+1):                     #Ciclo repetitivo para recorrer el DataFrame con el numero de valores nulos por filas
    if valores_null_filas[j]!=0:                                 #Cuando el valor de la fila es distinto de cero se añade en la lista 
        filas_nulas.append(j)
valores_null_filas_filtradas=valores_null_filas[filas_nulas]     #Dataframe solamente con las filas nulas

print("DataFrame con valores nulos por columnas:")               #Se imprime el DataFrame con el numero de valores nulos por columnas
print(valores_null_columnas)
print("\nDataFrame con valores nulos por filas:")                #Se imprime el DataFrame con el numero de valores nulos por filas
print(valores_null_filas)
print("\nDataFrame solamente con las filas nulas:")              #Se imprimen el Dataframe anterior solamente con las filas nulas
print(valores_null_filas_filtradas)

DataFrame con valores nulos por columnas:
ref             0
title          13
author         13
lastRunTime    13
totalVotes     13
dtype: int64

DataFrame con valores nulos por filas:
1      0
2      0
3      0
4      0
5      0
      ..
226    0
227    4
228    0
229    4
230    4
Length: 230, dtype: int64

DataFrame solamente con las filas nulas:
18     4
19     4
25     4
125    4
147    4
164    4
166    4
176    4
190    4
201    4
227    4
229    4
230    4
dtype: int64


In [26]:
#De  acuerdo al analisis anterior existen 13 filas con valores nulos. Las cuales tienen vacias todas sus columnas a excepcion de la primera
#Se decide eliminar estas filas 

notebooks_DF_prep=notebooks_DF_pp.drop(filas_nulas,axis=0)       #Se eliminan las filas con valores nulos
notebooks_DF_prep.index=range(1,len(notebooks_DF_prep)+1)        #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
dimension_final=len(notebooks_DF_prep)                           #Se utiliza len para medir el tamaño del DataFrame preprocesado final
filas_eliminadas_vacias=len(filas_nulas)                         #Se utiliza len para medir el tamaño de filas eliminadas
cantidad_filas_eliminadas=dimension_inicial-dimension_final      #Se calcula la cantidad de elementos eliminados

In [27]:
#c.) Impresion de resultados
print("Dimension inicial del Dataframe:",dimension_inicial)      #Se imprime el tamaño del DataFrame sin procesar
print("Dimension del Dataframe sin elementos duplicados:",dimension_sin_duplicados) #Se imprime el tamaño del DataFrame preprocesado
print("Cantidad de filas duplicadas:",cantidad_duplicados)       #Se imprime la cantidad de elementos duplicados
print("Dimension del DataFrame con datos únicos preprocesados:",dimension_final)    #Se imprime la cantidad de elementos del DataFrame preprocesado final
print("Cantidad de filas eliminadas vacias:",filas_eliminadas_vacias)   #Se imprime la cantidad de filas_eliminadas que estaban vacías
print("Cantidad total de filas eliminadas:",cantidad_filas_eliminadas)  #Se imprime la cantidad total de filas eliminadas
print("\nDataframe con datos únicos preprocesados:")                           
notebooks_DF_prep[:10]                                            #Se imprimen los 10 primeros resultados del DataFrame preprocesado final

Dimension inicial del Dataframe: 251
Dimension del Dataframe sin elementos duplicados: 230
Cantidad de filas duplicadas: 21
Dimension del DataFrame con datos únicos preprocesados: 217
Cantidad de filas eliminadas vacias: 13
Cantidad total de filas eliminadas: 34

Dataframe con datos únicos preprocesados:


Unnamed: 0,ref,title,author,lastRunTime,totalVotes
1,hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2
2,sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2
3,nkitgupta/feature-engineering-and-feature-sele...,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172
4,baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6
5,meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3
6,abdul3344/linear-regression,Linear_Regression,Abdul3344,2022-11-07 17:17:21,3
7,mustiztemiz/linear-regression-house-rice-predi...,Linear_Regression _House_rice_prediction,mustafa öztemiz,2021-11-12 17:16:49,5
8,rashmiek99/head-size-vs-brain-weight,Head Size Vs Brain Weight,Rashmi,2019-08-01 01:03:35,24
9,aiyoweidtt/linear-regression-decision-tree-ran...,Linear_Regression/Decision_Tree/Random_Forest,Aiyowei,2019-08-22 08:50:50,3
10,ajcostarino/ingv-volcanic-eruption-prediction-...,INGV Volcanic Eruption Prediction - LGBM Base...,Adam James,2020-12-15 21:35:13,47


In [28]:
notebooks_DF_prep.sample(10)                                      #Se muestran 10 resultados al azar del DataFrame preprocesado final

Unnamed: 0,ref,title,author,lastRunTime,totalVotes
196,siddheshpujari/eda-and-prediction-of-house-price,EDA and Prediction of House Price,Siddhesh Pujari,2020-06-06 08:58:05,71
164,namanmanchanda/heart-attack-eda-prediction-90-...,Heart Attack - EDA + Prediction (90% accuracy),Naman Manchanda,2021-05-22 11:44:42,435
43,yashvi/data-analyst-jobs-visualization,Data analyst jobs visualization,Yashvi Patel,2020-07-26 07:05:54,173
97,jroachel/how-poverty-and-trade-impact-carbon-f...,How Poverty and Trade Impact Carbon Footprint,Jianyin R.,2018-11-19 00:52:13,8
209,opamusora/optimized-0-06,Optimized 0.06,opamusora (Ivan Viakhirev),2023-07-09 13:45:03,39
16,niteshdandale/eda-and-linear-regression,EDA and Linear_Regression,Nitesh Dandale,2022-05-25 15:02:19,3
173,vaibhavjain2004/public-krni-pdi,public_krni_pdi_:(,Vaibhav Jain,2023-06-18 14:22:36,111
74,vprokopev/mean-likelihood-encodings-a-comprehe...,Mean (likelihood) encodings: a comprehensive s...,Viacheslav Prokopev,2018-10-07 19:38:25,291
116,chemaplana/some-poverty-charts,Some poverty charts,Chema Plana,2017-11-25 09:32:23,3
176,vadimkamaev/icr-identify-age,icr-identify-age,Vadim Kamaev,2023-06-11 06:17:12,140


### Paso 2.2: Integración de resultados

<div style="background-color: #FFFF99; border-color: #7C9DBF; border-left: 5px solid #7C9DBF; padding: 0.5em;">

<b> Ejercicio 6 (2 ptos): Integración de datos obtenidos (tanto de datasets y notebooks) </b>

<b>Objetivo:</b> Crear un dataframe único donde consten los datos de los datasets como de los notebooks.

<b>Requisitos:</b>

- A partir de la estructuras de datos <i> datasets </i> y <i> notebooks </i>, determinar cuáles los atributos comunes y cuáles son diferentes para crear una sola estructura tipo dataframe que almacene todos los datos extraídos.

<b>Salida esperada:</b> Presentar un <i>sample</i> de 10 elementos que consten en el dataframe único


</div>

In [29]:
######################
# SOLUCIÓN
######################

#Se decide añadir una columna de 'Tipo' o 'Type' para identificar a los Datasets y a los Notebooks.
def palabraDataset(arg1):         #Funcion para obtener la palabra 'Dataset'
    palabra="Dataset"
    return palabra

def palabraNotebook(arg2):        #Funcion para obtener la palabra 'Notebook'
    palabra="Notebook"
    return palabra

datasets_DF_prep['type'] = datasets_DF_prep['ref'].apply(palabraDataset)        #Se añade la columna 'type' en el DataFrame Datasets
notebooks_DF_prep['type'] = notebooks_DF_prep['ref'].apply(palabraNotebook)     #Se añade la columna 'type' en el DataFrame Notebooks

In [30]:
datasets_DF_prep                               #Se imprime el DataFrame Datasets para verificar el cambio

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating,type
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412,Dataset
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706,Dataset
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375,Dataset
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766,Dataset
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706,Dataset
...,...,...,...,...,...,...,...,...
280,l10677832/outliers,outliers,2MB,2023-11-13 12:11:04,1,1,0.25,Dataset
281,nihalbarua/dota2-competitive-picks,Dota 2 Competitive Picks,5KB,2024-02-28 08:34:11,623,41,1.0,Dataset
282,krantiswalke/bankfullcsv,bank-full.csv (Ensemble Techniques),481KB,2020-04-23 08:21:57,7999,48,0.64705884,Dataset
283,chandramoulinaidu/house-price-prediction-clean...,House Price Prediction Cleaned Dataset,1MB,2021-03-12 06:18:35,1011,11,0.9411765,Dataset


In [31]:
notebooks_DF_prep                              #Se imprime el DataFrame Notebooks para verificar el cambio

Unnamed: 0,ref,title,author,lastRunTime,totalVotes,type
1,hakmatkhan/linear-regression,Linear_regression,Hakmat khan,2023-01-05 15:30:05,2,Notebook
2,sanket82/linear-regression,Linear_Regression,Sanket Adamapure,2022-01-30 17:04:53,2,Notebook
3,nkitgupta/feature-engineering-and-feature-sele...,Feature Engineering and Feature Selection,Ankit Gupta,2022-04-28 13:34:32,172,Notebook
4,baljeeta/linear-regression-medical-insurance,Linear_regression(Medical_Insurance),Baljeeta,2024-03-22 10:51:07,6,Notebook
5,meltemsprtl/linear-regression,linear_regression,Meltem SUPURTULU,2022-02-09 07:51:36,3,Notebook
...,...,...,...,...,...,...
213,aharless/xgb-w-o-outliers-lgb-with-outliers-co...,XGB w/o outliers & LGB with outliers combined,Andy Harless,2017-07-18 02:21:21,95,Notebook
214,junjitakeshima/ubiquant-simple-lgbm-removing-o...,[Ubiquant] Simple LGBM removing Outliers (En/Jp),Junji Takeshima,2022-02-23 07:20:06,106,Notebook
215,sudalairajkumar/rainfall-test,Beware of Outliers !!,SRK,2015-09-18 01:38:17,45,Notebook
216,miklgr500/ghost-drift-and-outliers,"""""""Ghost"""" drift and Outliers""",Welf Crozzo,2020-04-12 06:25:26,64,Notebook


In [32]:
#De acuerdo a los DataFrames de Datasets y de Notebooks se puede afirmar lo siguiente:
####Columnas en común: 'ref' y 'title'
####Columnas distintas: Datasets (size, lastUpdated, downloadCount, voteCount, usabilityRating)
####Columnas distintas: Notebooks (author, lastRunTime, totalVotes)

#Se unen los DataFrames de los Datasets y de los Notebooks
#Se unen por medios de las filas
#Las columnas distintas de cada DataFrame llenan automáticamente como valores vacíos (NaN)
DataFrame_Unido=pd.concat([datasets_DF_prep, notebooks_DF_prep])  #Se utiliza el metodo concat para unir los DataFrames
DataFrame_Unido.index=range(1,len(DataFrame_Unido)+1)             #Se modifica el indice del dataframe para que coincida con la nueva cantidad de filas
DataFrame_Unido = DataFrame_Unido[[col for col in DataFrame_Unido.columns if col != 'type'] + ['type']]  #Se mueve la columna 'type' al final
DataFrame_Unido                                                   #Se imprime el DataFrame unido

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating,author,lastRunTime,totalVotes,type
1,aml0ali2000/linear-regression,Linear_regression,1KB,2023-12-04 14:34:14,7,2,0.3529412,,,,Dataset
2,kasiviswanath00/linear-regression,linear_regression,378B,2022-05-25 12:08:15,15,2,0.1764706,,,,Dataset
3,drakedyban/mediumlinear-regression,Medium-Linear_Regression,5KB,2021-02-28 22:37:25,19,1,0.4375,,,,Dataset
4,sangitamule/linear-regressionproject,/Linear_Regression-Project,40KB,2022-02-03 06:41:39,14,2,0.29411766,,,,Dataset
5,krishnamohanmaurya/linear-regression,Linear_Regression,5KB,2023-02-27 14:38:50,7,2,0.1764706,,,,Dataset
...,...,...,...,...,...,...,...,...,...,...,...
497,aharless/xgb-w-o-outliers-lgb-with-outliers-co...,XGB w/o outliers & LGB with outliers combined,,,,,,Andy Harless,2017-07-18 02:21:21,95,Notebook
498,junjitakeshima/ubiquant-simple-lgbm-removing-o...,[Ubiquant] Simple LGBM removing Outliers (En/Jp),,,,,,Junji Takeshima,2022-02-23 07:20:06,106,Notebook
499,sudalairajkumar/rainfall-test,Beware of Outliers !!,,,,,,SRK,2015-09-18 01:38:17,45,Notebook
500,miklgr500/ghost-drift-and-outliers,"""""""Ghost"""" drift and Outliers""",,,,,,Welf Crozzo,2020-04-12 06:25:26,64,Notebook


In [42]:
DataFrame_Unido.sample(10)                     #Se muestran 10 resultados al azar del DataFrame unido final

Unnamed: 0,ref,title,size,lastUpdated,downloadCount,voteCount,usabilityRating,author,lastRunTime,totalVotes,type
229,hemil26/nft-collections-dataset,NFT Collections,7KB,2022-10-02 08:36:49,2667.0,129.0,1.0,,,,Dataset
370,arjundas/simpleanalysis-for-kiva-its-time-for-...,SimpleAnalysis for KIVA (Its time for Africa!!!),,,,,,ADM,2018-05-12 05:57:27,170.0,Notebook
44,lakshyaag/india-trade-data,India - Trade Data,3MB,2022-11-02 07:31:00,25081.0,453.0,0.9705882,,,,Dataset
427,ash316/eda-to-prediction-dietanic,EDA To Prediction(DieTanic),,,,,,Ashwini Swain,2018-03-08 17:55:32,2952.0,Notebook
467,inversion/get-started-with-mean-imputation,Get Started with Mean Imputation,,,,,,inversion,2022-05-26 20:55:07,54.0,Notebook
332,grebublin/coronavirus-propagation-visualizatio...,Coronavirus propagation visualization & forecast.,,,,,,Mykola Maliarenko,2020-03-14 18:12:14,119.0,Notebook
34,utkarshtomar736/odi-mens-cricket-match-data-20...,ODI Men's Cricket Match Data (2002-2023),7MB,2023-09-25 15:31:05,1620.0,35.0,1.0,,,,Dataset
435,thykhuely/mercari-interactive-eda-topic-modelling,Mercari Interactive EDA + Topic Modelling,,,,,,ThyKhueLy,2018-04-22 08:23:34,921.0,Notebook
369,therval/poverty-rate-analysis-regression-and-pca,Poverty rate analysis / regression and PCA,,,,,,Valentin Joly,2020-04-01 18:09:17,12.0,Notebook
171,sara88alaa/covid-19,covid_19,133MB,2023-04-06 21:23:28,3.0,0.0,0.0625,,,,Dataset
