# Métodos para importar datasets con Pandas

Links que vamos a usar:

* [Blog Kaggle - International Hotel Booking Analytics](https://www.kaggle.com/code/sonawanelalitsunil/international-hotel-booking-analytics-ml-34-75/notebook)
* [Datasets Kaggle - International Hotel Booking Analytics](https://www.kaggle.com/datasets/alperenmyung/international-hotel-booking-analytics)
* [Dataset Github - LifeExpectancy ](https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv)
* [Dataset Kaggle - Netflix](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)

# 1. Descargar los datasets (archivos .csv) antes de comenzar

* Opción 1:
Decargarlos desde el Repositorio Oficial del Curso [Click Aquí](https://drive.google.com/drive/folders/1LI3HcSqcrSJ52YZAoQG0NNmdOnHVSJHG)
* Opción 2:
Decargarlos desde Kaggle [Click Aquí](https://www.kaggle.com/datasets/alperenmyung/international-hotel-booking-analytics) - Haciendo click en el botón Download/Descargar (Debe descomprimir el archivo "archive.zip")

# 2. Preparar los archivos en Google Drive

1. Crear en su unidad de Google Drive la carpeta "datasets"
2. Subir a esa carpeta los archivos:
* hotels.csv
* reviews.csv
* users.csv

# 3 Montar y liberar la unidad

Este código permite montar la unidad de su Drive en este ambiente virtual de Colab

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Al finalizar la actividad o en caso que lo requiera, puede desmontar la unidad con este código

In [None]:
# Liberar la unidad
drive.flush_and_unmount()

# 4. Importar datasets

A continuación veremos varias opciones para importar datasets a Google Colab usando Pandas, el método dependerá de la necesidad y de sus conocimientos, por ello se plantean varios escenarios para cada nivel.

## 4.1 Importar datasets desde Google Sheets  (Nivel Inicial)

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Acceso a Gsheets - Metodo con URL de conversion a CSV (lectura)
# El archivo debe tener permisos de lectura para TODOS
ID_planilla = '1LeWVQ0Pd9XlQ70oTWggueRGLBXISMTGDiLG7wZ6otSI'
URL = f'https://docs.google.com/spreadsheets/d/{ID_planilla}/gviz/tq?tqx=out:csv&sheet='
df_gs = pd.read_csv(URL + 'ventas')
df_gs.head()

## 4.2 Importar datasets desde Google Drive  (Nivel Inicial)


En esta instancia, ya deberías tener creada la carpeta `datasets` en el raíz de tu Unidad de Google Drive, y ahi haber subido los archivos csv que vamos a usar

In [None]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df_users = pd.read_csv('/content/drive/MyDrive/datasets/users.csv')
df_users.head()

## 4.3 Importar datasets desde Google Drive (Nivel Intermedio)

Si van a trabajar con datasets que se encuentran en diferentes carpetas, puden cambiar la ruta por defecto

1. Se sugiere usar el panel de navegación laterar para explorar las carpetas y sus archivos.
2. Cambiar la ruta original al directorio donde se encuentran los archivos .csv que se quieren importar

In [None]:
# Validar la ruta y la existencia del archivo csv a importar
import os
os.chdir("/content/drive/MyDrive/TT2C2025 - Data Analytics con Python/Repositorio Notebooks de clases/Clase 3/Datasets")
os.listdir(".")

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv('users.csv')
df.head()

## 4.4 Importar datasets desde Github

In [None]:
# Cargar en una variable la URL del archivo csv de Github
url = "https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv"

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df_github = pd.read_csv(url)
df_github.head()

## 4.5 Importar Datasets públicos desde Kaggle (Nivel Avanzado)


> Para datasets públicos que no requieren autenticación



Cuando quieran descargar un dataset público desde Kaggle, hacer click en download y pegrn el código "Download Via kagglehub"
<BR>
En este caso vamos a descargar el dataset [Netflix Movies](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("shivamb/netflix-shows")

print("Path to dataset files:", path)

Kagglehub descarga sus archivos en un cache, path informa la ruta.
<BR>
Lo que hacemos es copiarlo a la carpeta "datasets" de nuestro drive

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os, shutil
# Carpeta destino
dest_dir = "/content/drive/MyDrive/datasets/"

# Copiar todos los archivos del dataset al destino
for file in os.listdir(path):
    shutil.copy(os.path.join(path, file), dest_dir)

print("Archivos copiados a:", dest_dir)
print("Contenido:", os.listdir(dest_dir))

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv(f"{path}/netflix_titles.csv")
df.head()

## 4.6 Importar Datasets privados desde Kaggle (Nivel Avanzado)


> Para datasets privados que si requieren autenticación

Crear una carpeta en el raíz del Drive llamada `kaggle` y pegar el archivo `kaggle.json` (API Token) que generan desde su perfil de Kaggle

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Validar la existencia del JSON
import os
os.listdir("/content/drive/MyDrive/kaggle")

Este código crear una carpeta kaggle en el raíz y la segunda linea un copy/paste de `kaggle.json`

In [None]:
!mkdir -p ~/.kaggle
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

En este caso vamos a descargar el mismo dataset [Netflix Movies](https://www.kaggle.com/datasets/shivamb/netflix-shows/code)
<BR>
Aunque al ser público esto no es necesario


In [None]:
# Este código descarga el dataset con las credenciales
!kaggle datasets download -d shivamb/netflix-shows -p /content/drive/MyDrive/datasets
!unzip /content/drive/MyDrive/datasets/netflix-shows.zip -d /content/drive/MyDrive/datasets

In [None]:
# Validar la existencia del archivo descargado
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
df = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")
print(df.shape)   # filas y columnas
df.head()         # primeras 5 filas

## 4.7 Importar Datos desde una base de datos relacional ya subida a la carpeta datasets del raíz


En esta modalidad, deben descargar la carpeta zip desde desde este link
<BR>
[Descargar](https://www.kaggle.com/datasets/alperenmyung/international-hotel-booking-analytics)
<BR>
Descomprimir la carpeta y subir el archivo `booking_db.sqlite` a la carpeta `/datasets` de su Drive

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Validar la existencia de la DB
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Importamos las librerías
import sqlite3
import pandas as pd

In [None]:
# Establecemos la conexión a la db
conexion = sqlite3.connect('/content/drive/MyDrive/datasets/booking_db.sqlite')

In [None]:
df = pd.read_sql('''
    SELECT
        *
    FROM reviews
    ;
''', conexion, index_col='review_id', parse_dates=['review_date'])

In [None]:
df = pd.read_sql('''
    SELECT
    review_id, hotel_name, city, star_rating, score_overall, u.country
    FROM hotels h
    join reviews r on h.hotel_id = r.hotel_id
    join users u on r.user_id = u.user_id
    order by score_overall asc
    ;
''', conexion, index_col='review_id')

In [None]:
df = pd.read_sql('''
    SELECT
    review_id, hotel_name, city, avg(score_overall)
    FROM hotels h
    join reviews r on h.hotel_id = r.hotel_id
    group by hotel_name, city
    order by avg(score_overall) desc
    ;
''', conexion, index_col='review_id')

## 4.8 Importar Datos desde una base de datos relacional (usando credenciales de Kaggle - descarga directa)

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Validar la existencia del JSON
import os
os.listdir("/content/drive/MyDrive/kaggle")

In [None]:
# Creamos una carpeta temporal en el ambiente virtual
!mkdir -p ~/.kaggle
# ahí pegamos las credenciales
!cp /content/drive/MyDrive/kaggle/kaggle.json ~/.kaggle/
# cambiamos los permisos
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
# Este código descarga el dataset con las credenciales a la carpeta datasets
!kaggle datasets download -d alperenmyung/international-hotel-booking-analytics -p /content/drive/MyDrive/datasets
# y con esta línea hacemos el unzip
!unzip /content/drive/MyDrive/datasets/international-hotel-booking-analytics.zip -d /content/drive/MyDrive/datasets

In [None]:
# Importamos las librerías
import sqlite3
import pandas as pd

In [None]:
# Establecemos la conexión a la db
conexion = sqlite3.connect('/content/drive/MyDrive/datasets/booking_db.sqlite')

In [None]:
df = pd.read_sql('''
    SELECT
        *
    FROM reviews
    ;
''', conexion, index_col='review_id', parse_dates=['review_date'])

In [None]:
df = pd.read_sql('''
    SELECT
    review_id, hotel_name, city, star_rating, score_overall, u.country
    FROM hotels h
    join reviews r on h.hotel_id = r.hotel_id
    join users u on r.user_id = u.user_id
    order by score_overall asc
    ;
''', conn, index_col='review_id')

In [None]:
df = pd.read_sql('''
    SELECT
    review_id, hotel_name, city, avg(score_overall)
    FROM hotels h
    join reviews r on h.hotel_id = r.hotel_id
    group by hotel_name, city
    order by avg(score_overall) desc
    ;
''', conn, index_col='review_id')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.dtypes

In [None]:
df.describe()