# Problema 3 - Análisis Datos Youtube - Archivo .py

1. Descargar un archivo .zip mediante código del siguiente url (https://netsg.cs.sfu.ca/youtubedata/) (recomiendo descargar el archivo 0333.zip que es menos pesado)
2. Descomprimir los datos en una carpeta que genere y leer mediante pandas alguno de los archivos en esta. (observar que no es necesario en un primer momento leer los datos con un nombre de columna especifico)

    - Los nombres de columna pueden ser puestos posteriormente
    - El separador de columna es <code>\t</code>
    - Se colocan los nombres de columnas y descripción asociada para su intermetación. Ejemplo columna1 sera VideoID ... 
    

3. Procesar los datos según: 
    - Nos quedaremos con las columnas: VideoID, edad, catgoria, views, rate.
    - Realizar un filtrado básico a los datos. Ejemplo solo seleccionar cierto grupo de categorias

4. Procesamiento en Mongo Db
    - Exportar los datos a mongo DB 
    - Crear 2 graficos con los datos 
    - Compartir link donde encontrar los datos 




| Nombre de la Columna | Descripción                                                                                                 |
|----------------------|-------------------------------------------------------------------------------------------------------------|
| `video ID`           | Una cadena de 11 dígitos, la cual es única                                                                |
| `uploader`           | Una cadena con el nombre de usuario del cargador del video                                                  |
| `age`                | Un número entero que representa los días transcurridos desde la fecha en que se subió el video hasta el 15 de febrero de 2007 (fecha de creación de YouTube) |
| `category`           | Una cadena que indica la categoría del video elegida por el cargador                                       |
| `length`             | Un número entero que representa la duración del video en minutos                                            |
| `views`              | Un número entero que representa el número de visualizaciones del video                                      |
| `rate`               | Un número flotante que indica la calificación del video                                                      |
| `ratings`            | Un número entero que representa el número de calificaciones recibidas por el video                          |
| `comments`           | Un número entero que indica el número de comentarios en el video                                            |
| `related IDs`        | Hasta 20 cadenas de texto con los IDs de videos relacionados                                                |


In [None]:
import requests
import zipfile
import os

# URL del archivo .zip
url = 'https://netsg.cs.sfu.ca/youtubedata/0222.zip'

# Descargar el archivo .zip
zip_file = '0222.zip'
with requests.get(url, stream=True) as r:
    with open(zip_file, 'wb') as f:
        for chunk in r.iter_content(chunk_size=8192):
            f.write(chunk)

# Crear una carpeta para los archivos descomprimidos
extract_folder = 'youtubedata'
os.makedirs(extract_folder, exist_ok=True)

# Descomprimir el archivo .zip
with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

print(f"Archivos descomprimidos en {extract_folder}")


In [None]:
import pandas as pd
import os

folder_path = 'youtubedata/0222'
file_path = os.path.join(folder_path, '0.txt')
df = pd.read_csv(file_path, sep='\t', header=None)
df.columns = ['VideoID', 'uploader', 'age', 'category', 'length', 'views', 'rate', 'ratings', 'comments', 'related_IDs','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29']
print(df.head())

In [None]:
df_filtered = df[['VideoID', 'age', 'category', 'views', 'rate']]

categorias_interes = ['Music', 'Comedy']
df_filtered = df_filtered[df_filtered['category'].isin(categorias_interes)]

print(df_filtered.head())

In [None]:
from pymongo import MongoClient

# Conectar a MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['youtube_database']
collection = db['youtube_videos']

# Convertir el DataFrame a diccionarios e insertarlos en MongoDB
data_dict = df_filtered.to_dict(orient='records')
collection.insert_many(data_dict)

print("Datos exportados a MongoDB correctamente.")