<a href="https://colab.research.google.com/github/Danangellotti/Ciencia_de_Datos_UGR_24/blob/main/Semana_03_Tema_03_kaggle_y_datasets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Que es un dataset?

Su traducción a nuestra lengua sería `conjunto de datos`.

Un dataset corresponde a los contenidos de una única matriz de datos de estadística, donde cada columna de la tabla representa una variable en particular, y cada fila representa a un miembro determinado del conjunto de datos que estamos tratando. En un dataset tenemos todos los valores que puede tener cada una de las variables, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno de estos valores se conoce con el nombre de dato.

El conjunto de datos puede incluir datos para uno o más miembros en función de su número de filas. Además, incluye también las relaciones entre las tablas que contienen los datos.

Si nos movemos en el contexto de Big Data, entendemos por dataset aquellos conjuntos de datos tan grandes que las aplicaciones de procesamiento de datos tradicionales no los pueden procesar debido a la gran cantidad de datos contenidos en la tabla o matriz.




# [Kaggle](https://www.kaggle.com/)

Vamos a describir como utilizar el api de kaggle para descargar y utilizar dataset.

## Instalación

In [1]:
!pip install kaggle



## Importación

Importamos el sistema de archivos de colab.

In [2]:
from csv import reader, writer

from google.colab import drive, files

## Pasos que se ejecutaran 1 sola vez

1. Nos registramos
2. Accedemos a nuestra configuración de cuentas (arriba a la derecha)
3. Buscamos la sección `API` y presionamos el botón de `crear nuevo api token`
4. Al presionar el botón se descarga un archivo
5. Subimos el archivo a drive

## Pasos que debemos ejecutar en cada colab
6. Montamos drive

In [3]:
drive.mount("/content/drive")

Mounted at /content/drive


7. Creamos un directorio en el home del usuario

In [4]:
!mkdir -p ~/.kaggle

8. Copiamos el archivo que subimos al directorio que creamos

In [6]:
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/

9. Cambiamos el permiso del archivo lectura y escritura para el usuario actual

In [7]:
!chmod 600 ~/.kaggle/kaggle.json

In [8]:
!ls -al ~/.kaggle

total 16
drwxr-xr-x 2 root root 4096 Sep 12 14:01 .
drwx------ 1 root root 4096 Sep 12 13:57 ..
-rw------- 1 root root   70 Sep 12 14:01 kaggle.json


10. Listamos los datasets

In [9]:
!kaggle datasets list

ref                                                              title                                                size  lastUpdated          downloadCount  voteCount  usabilityRating  
---------------------------------------------------------------  --------------------------------------------------  -----  -------------------  -------------  ---------  ---------------  
lainguyn123/student-performance-factors                          Student Performance Factors                          94KB  2024-09-02 10:53:57           4229         96  1.0              
haseebindata/student-performance-predictions                     Student Performance Predictions                       9KB  2024-08-17 06:57:57          10940        236  0.9411765        
hanaksoy/customer-purchasing-behaviors                           Customer Purchasing Behaviors                         1KB  2024-09-01 22:18:07           2900         40  1.0              
abdullah0a/retail-sales-data-with-seasonal-trends-and-m

11. Creamos un directorio de trabajo

In [10]:
!mkdir -p /content/drive/MyDrive/kaggle/datasets/netflix-movies-and-tv-shows

12. Descargamos un dataset
```bash
!kaggle datasets download --unzip -d {referencia_del_datase} --wp {directorio_donde_queda el dataset}
```

In [11]:
!kaggle datasets download --unzip -d dgoenrique/netflix-movies-and-tv-shows --p /content/drive/MyDrive/kaggle/datasets/netflix-movies-and-tv-shows

Dataset URL: https://www.kaggle.com/datasets/dgoenrique/netflix-movies-and-tv-shows
License(s): CC0-1.0
Downloading netflix-movies-and-tv-shows.zip to /content/drive/MyDrive/kaggle/datasets/netflix-movies-and-tv-shows
  0% 0.00/2.35M [00:00<?, ?B/s]
100% 2.35M/2.35M [00:00<00:00, 65.9MB/s]


13. Leemos el archivo descargado

In [12]:
with open("/content/drive/MyDrive/kaggle/datasets/netflix-movies-and-tv-shows/titles.csv") as r:
    read_csv = reader(r)
    for line in read_csv:
        print(line)

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m
['ts36983', 'Fuller House', 'SHOW', 'D.J. Tanner-Fuller is a widow and mother of three. Things become too much to handle, so she asks for help from her sister Stephanie and her best-friend Kimmy.', '2016', 'TV-Y7', '27', "['comedy', 'family']", "['US']", '5.0', 'tt3986586', '6.7', '28183.0', '32.668', '7.587']
['ts42137', 'Voltron: Legendary Defender', 'SHOW', 'Five unlikely teenage heroes and their flying robot lions unite to form the megapowerful Voltron and defend the universe from evil.', '2016', 'TV-Y7', '24', "['scifi', 'animation', 'action', 'comedy', 'family', 'drama', 'fantasy']", "['US']", '8.0', 'tt5580664', '8.1', '9168.0', '20.583', '7.367']
['ts41995', "Zumbo's Just Desserts", 'SHOW', 'Australia’s very own Willy Wonka Adriano Zumbo and acclaimed British chef Rachel Khoo go in search of Australia’s sweetest home cooks. Amateur dessert makers from around the country will put their sweet baking 