<a href="https://colab.research.google.com/github/Javsk891/PySpark-Projects-Repository/blob/main/PySpark_%2B_Kaggle.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Usando PySpark para importar data desde Kaggle

En este proyecto, exploraremos cómo importar y manejar grandes volúmenes de datos utilizando `PySpark` en Google Colab. `PySpark`, la interfaz de Python para `Apache Spark`, es una herramienta potente para procesar y analizar grandes conjuntos de datos de manera distribuida y eficiente.

Para ilustrar este proceso, utilizaremos el dataset de detección de deforestación disponible en Kaggle. Este dataset contiene información valiosa sobre la deforestación a nivel global y puede ser extremadamente grande, lo que lo convierte en un excelente caso de estudio para aprender cómo manejar datos voluminosos.


Dataset: Deforestation Detection Dataset

En los siguientes pasos, mostraremos cómo:


1. Configurar el entorno de Google Colab para usar `PySpark`.
2. Descargar el dataset directamente desde Kaggle.
3. Leer el dataset en `PySpark` y realizar algunas operaciones básicas para comprobar su integridad.


El objetivo es demostrar la eficacia de `PySpark` para el manejo de grandes conjuntos de datos y cómo integrarlo con Google Colab para facilitar el análisis de datos a gran escala.

In [25]:
# Instalamos PySpark
!pip install pyspark



# Iniciando una sesión de PySpark para activar todas sus funcionalidades

Una vez que hemos instalado `PySpark` en nuestro entorno de Google Colab, el siguiente paso crucial es crear una sesión de `Spark`. La sesión de `Spark` es el punto de entrada principal para cualquier funcionalidad de `Spark` y es esencial para trabajar con datos en `PySpark`. A continuación, desglosamos las líneas de código necesarias para crear esta sesión y su propósito en el contexto de nuestro proyecto:

In [26]:
# Ahora que instalamos PySpark, debemos abrir una sesión (SparkSession) que es el punto de entrada para cualquier fincionalidad de Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("SparkML").getOrCreate()

# Importamos el dataset con el que queremos trabajar desde kaggle

Esta línea utiliza pip para instalar la biblioteca kaggle en tu entorno de Google Colab. La biblioteca kaggle permite interactuar con la API de Kaggle, facilitando la descarga de datasets y la participación en competiciones directamente desde el código. Este paso es necesario para trabajar con datasets alojados en Kaggle.

from google.colab import files: Importa el módulo files desde la biblioteca de Google Colab. Este módulo proporciona herramientas para manejar archivos en el entorno de Colab.
files.upload(): Abre un cuadro de diálogo que permite seleccionar y subir archivos desde tu sistema local al entorno de Google Colab. Esto es útil para cargar archivos necesarios para el proyecto, como archivos de configuración, credenciales o datasets.

In [27]:
!pip install kaggle
from google.colab import files
files.upload()



Saving kaggle.json to kaggle (2).json


{'kaggle (2).json': b'{"username":"javiergonzalez1","key":"a6861c714d09e77dfb86e2e54e202cb5"}'}

mkdir -p ~/.kaggle: Este comando crea un directorio llamado .kaggle en el directorio home del usuario (~). La opción -p asegura que se crea el directorio sin errores si ya existe. Este directorio es donde se almacenará el archivo de credenciales de Kaggle (kaggle.json).

cp kaggle.json ~/.kaggle/: Este comando copia el archivo kaggle.json, que contiene las credenciales de autenticación de la API de Kaggle, al directorio .kaggle que acabamos de crear. Este archivo es necesario para autenticar las solicitudes a la API de Kaggle.

chmod 600 ~/.kaggle/kaggle.json: Este comando cambia los permisos del archivo kaggle.json para que sólo el propietario (el usuario actual) tenga permiso de lectura y escritura. Esto es una medida de seguridad para proteger el archivo de credenciales, asegurando que sólo el usuario que lo subió pueda acceder a él.

In [28]:
# Creamos la ruta de acceso al dataset
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

!kaggle: El símbolo ! se usa en Google Colab para ejecutar comandos de la línea de comandos del sistema operativo desde una celda de código. En este caso, estamos ejecutando un comando relacionado con la herramienta de línea de comandos de Kaggle.

datasets download: Este es un subcomando de la herramienta de línea de comandos de Kaggle que indica que queremos descargar un dataset.

-d akhilchibber/deforestation-detection-dataset: La opción -d se utiliza para especificar el identificador del dataset en Kaggle. En este caso, akhilchibber/deforestation-detection-dataset es el identificador del dataset que queremos descargar. Este identificador se compone del nombre de usuario de Kaggle y el nombre del dataset.

In [29]:
!kaggle datasets download -d akhilchibber/deforestation-detection-dataset

Dataset URL: https://www.kaggle.com/datasets/akhilchibber/deforestation-detection-dataset
License(s): MIT
deforestation-detection-dataset.zip: Skipping, found more recently modified local copy (use --force to force download)


import zipfile: Importa el módulo zipfile, que proporciona herramientas para trabajar con archivos ZIP en Python.

from zipfile import ZipFile: Importa la clase ZipFile del módulo zipfile, que permite abrir y manipular archivos ZIP.

path = "/content/deforestation-detection-dataset.zip": Define la ruta al archivo ZIP descargado. En Google Colab, los archivos se descargan en el directorio /content/, por lo que path apunta a la ubicación del archivo ZIP en ese directorio.

zip_ref = zipfile.ZipFile(path): Crea una instancia de ZipFile para el archivo ZIP especificado en path. Esta instancia permite acceder y manipular el contenido del archivo ZIP.

zip_ref.extractall(): Extrae todos los archivos contenidos en el archivo ZIP al directorio actual (en este caso, al directorio /content/). Esto hace que los archivos estén disponibles para su uso en el entorno de Google Colab.

zip_ref.close(): Cierra el archivo ZIP una vez que la extracción ha terminado. Es una buena práctica cerrar archivos abiertos para liberar recursos del sistema.

In [30]:
# Ahora vamos a descomprimir la data

import zipfile
from zipfile import ZipFile
path = "/content/deforestation-detection-dataset.zip"
zip_ref = zipfile.ZipFile(path)
zip_ref.extractall()
zip_ref.close()