# Métodos para importar datasets con Pandas

Links que vamos a usar:

* [Blog Kaggle - International Hotel Booking Analytics](https://www.kaggle.com/code/sonawanelalitsunil/international-hotel-booking-analytics-ml-34-75/notebook)
* [Datasets Kaggle - International Hotel Booking Analytics](https://www.kaggle.com/datasets/alperenmyung/international-hotel-booking-analytics)
* [Dataset Github - LifeExpectancy ](https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv)
* [Dataset Kaggle - Netflix](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)

# 1. Descargar los datasets (archivos .csv) antes de comenzar

* Opción 1:
Decargarlos desde el Repositorio Oficial del Curso [Click Aquí](https://drive.google.com/drive/folders/1LI3HcSqcrSJ52YZAoQG0NNmdOnHVSJHG)
* Opción 2:
Decargarlos desde Kaggle [Click Aquí](https://www.kaggle.com/datasets/alperenmyung/international-hotel-booking-analytics) - Haciendo click en el botón Download/Descargar (Debe descomprimir el archivo "archive.zip")

# 2. Preparar los archivos en Google Drive

1. Crear en su unidad de Google Drive la carpeta "datasets"
2. Subir a esa carpeta los archivos:
* hotels.csv
* reviews.csv
* users.csv

# 3 Montar y liberar la unidad

Este código permite montar la unidad de su Drive en este ambiente virtual de Colab

In [6]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Al finalizar la actividad o en caso que lo requiera, puede desmontar la unidad con este código

In [None]:
# Liberar la unidad
drive.flush_and_unmount()

# 4. Importar datasets

A continuación veremos varias opciones para importar datasets a Google Colab usando Pandas, el método dependerá de la necesidad y de sus conocimientos, por ello se plantean varios escenarios para cada nivel.

## 4.1 Importar datasets desde Google Sheets  (Nivel Inicial)

In [None]:
# Importar la librería Pandas
import pandas as pd

In [7]:
# Acceso a Gsheets - Metodo con URL de conversion a CSV (lectura)
# El archivo debe tener permisos de lectura para TODOS
ID_planilla = '1LeWVQ0Pd9XlQ70oTWggueRGLBXISMTGDiLG7wZ6otSI'
URL = f'https://docs.google.com/spreadsheets/d/{ID_planilla}/gviz/tq?tqx=out:csv&sheet='
df_gs = pd.read_csv(URL + 'ventas')
df_gs.head()

NameError: name 'pd' is not defined

## 4.2 Importar datasets desde Google Drive  (Nivel Inicial)


En esta instancia, ya deberías tener creada la carpeta `datasets` en el raíz de tu Unidad de Google Drive, y ahi haber subido los archivos csv que vamos a usar

In [8]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/DATASETS")

['reviews.csv', 'hotels.csv', 'users.csv']

In [None]:
# Importar la librería Pandas
import pandas as pd

In [9]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df_users = pd.read_csv('/content/drive/MyDrive/DATASETS/users.csv')
df_users.head()

NameError: name 'pd' is not defined

## 4.3 Importar datasets desde Google Drive (Nivel Intermedio)

Si van a trabajar con datasets que se encuentran en diferentes carpetas, puden cambiar la ruta por defecto

1. Se sugiere usar el panel de navegación laterar para explorar las carpetas y sus archivos.
2. Cambiar la ruta original al directorio donde se encuentran los archivos .csv que se quieren importar

In [11]:
# Validar la ruta y la existencia del archivo csv a importar
import os
os.chdir("/content/drive/MyDrive/DATASETS")
os.listdir(".")

['reviews.csv', 'hotels.csv', 'users.csv']

In [21]:
# Importar la librería Pandas
import pandas as pd

In [22]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv('users.csv')
df.head()

Unnamed: 0,user_id,user_gender,country,age_group,traveller_type,join_date
0,1,Female,United Kingdom,35-44,Solo,2024-09-29
1,2,Male,United Kingdom,25-34,Solo,2023-11-29
2,3,Female,Mexico,25-34,Family,2022-04-03
3,4,Male,India,35-44,Family,2023-12-02
4,5,Other,Japan,25-34,Solo,2021-12-18


## 4.4 Importar datasets desde Github

In [18]:
# Cargar en una variable la URL del archivo csv de Github
url = "https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv"

In [19]:
# Importar la librería Pandas
import pandas as pd

In [20]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df_github = pd.read_csv(url)
df_github.head()

Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
0,Afghanistan,1952,8425333.0,Asia,28.801,779.445314
1,Afghanistan,1957,9240934.0,Asia,30.332,820.85303
2,Afghanistan,1962,10267083.0,Asia,31.997,853.10071
3,Afghanistan,1967,11537966.0,Asia,34.02,836.197138
4,Afghanistan,1972,13079460.0,Asia,36.088,739.981106


## 4.5 Importar Datasets públicos desde Kaggle (Nivel Avanzado)


> Para datasets públicos que no requieren autenticación



Cuando quieran descargar un dataset público desde Kaggle, hacer click en download y pegrn el código "Download Via kagglehub"
<BR>
En este caso vamos a descargar el dataset [Netflix Movies](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)

In [23]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("shivamb/netflix-shows")

print("Path to dataset files:", path)

Using Colab cache for faster access to the 'netflix-shows' dataset.
Path to dataset files: /kaggle/input/netflix-shows


Kagglehub descarga sus archivos en un cache, path informa la ruta.
<BR>
Lo que hacemos es copiarlo a la carpeta "datasets" de nuestro drive

In [26]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [27]:
import os, shutil
# Carpeta destino
dest_dir = "/content/drive/MyDrive/DATASETS/"

# Copiar todos los archivos del dataset al destino
for file in os.listdir(path):
    shutil.copy(os.path.join(path, file), dest_dir)

print("Archivos copiados a:", dest_dir)
print("Contenido:", os.listdir(dest_dir))

Archivos copiados a: /content/drive/MyDrive/DATASETS/
Contenido: ['reviews.csv', 'hotels.csv', 'users.csv', 'netflix_titles.csv']


In [28]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv(f"{path}/netflix_titles.csv")
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


## 4.6 Importar Datasets privados desde Kaggle (Nivel Avanzado)


> Para datasets privados que si requieren autenticación

Crear una carpeta en el raíz del Drive llamada `kaggle` y pegar el archivo `kaggle.json` (API Token) que generan desde su perfil de Kaggle

In [29]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [30]:
# Validar la existencia del JSON
import os
os.listdir("/content/drive/MyDrive/kaggle")

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/kaggle'

Este código crear una carpeta kaggle en el raíz y la segunda linea un copy/paste de `kaggle.json`

In [None]:
!mkdir -p ~/.kaggle
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

En este caso vamos a descargar el mismo dataset [Netflix Movies](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)
<BR>
Aunque al ser público esto no es necesario


In [None]:
# Este código descarga el dataset con las credenciales
!kaggle datasets download -d shivamb/netflix-shows -p /content/drive/MyDrive/datasets
!unzip /content/drive/MyDrive/datasets/netflix-shows.zip -d /content/drive/MyDrive/datasets

In [None]:
# Validar la existencia del archivo descargado
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
df = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")
print(df.shape)   # filas y columnas
df.head()         # primeras 5 filas