# Desafío Alkemy

## Challenge Data Analytics -Python

### Objetivo
Crear un proyecto que consuma datos desde 3 fuentes distintas para popular una base de datos SQL con información cultural sobre bibliotecas, museos y salas de cines argentinos.

#### 0. Importar librerías

In [1]:
from bs4 import BeautifulSoup
import requests
import os
from datetime import date
import pandas as pd

#### 1.a Conseguir URLs de los csv
Obtener los 3 archivos de fuente utilizando la librería requests y almacenarse en forma local<br> 
(Ten en cuenta que las urls pueden cambiar en un futuro):
- Datos Argentina - Museos
- Datos Argentina - Salas de Cine
- Datos Argentina - Bibliotecas Populares

In [2]:
url = 'https://datos.cultura.gob.ar/dataset/espacios-culturales-argentina-sinca'
r = requests.get(url)
contenido = r.text

In [3]:
soup = BeautifulSoup(r.text, 'lxml')

In [4]:
def get_urls(url):
    '''
    Devuelve un diccionario con las urls de los recursos del dataset
    Pasar como argumento la url del dataset
    '''
    diccionario = {}
    for i in soup.find_all('h3'):
        diccionario[i.text.strip()] = soup.find('h3', text=i.text)\
                             .find_previous('button', text='DESCARGAR')\
                             .find_previous('a')['href']
    return diccionario
dataset = get_urls(url)

#### 1.b Guardar archivos
Organizar los archivos en rutas siguiendo la siguiente estructura: <br> **“categoría\año-mes\categoria-dia-mes-año.csv”**
- Por ejemplo: “museos\2021-noviembre\museos-03-11-2021”
- Si el archivo existe debe reemplazarse. La fecha de la nomenclatura es la fecha de descarga.

In [5]:
# Definir strings de fechas
anio_mes = date.today().strftime('%Y-%B')
dia_mes_anio = date.today().strftime('%d-%m-%Y')

In [6]:
# Definir directorios
dir_actual = os.getcwd()
dir_bibliotecas = os.path.join(dir_actual+'/bibliotecas/'+anio_mes)
dir_museos = os.path.join(dir_actual+'/museos/'+anio_mes)
dir_cines = os.path.join(dir_actual+'/cines/'+anio_mes)

In [7]:
# Creando directorio
def crear_dir(dir_categoria):
    if not os.path.exists(dir_categoria):
            os.makedirs(dir_categoria)

In [8]:
crear_dir(dir_bibliotecas)
crear_dir(dir_cines)
crear_dir(dir_museos)

In [9]:
# Definir urls para cada base de datos
url_bibliotecas = dataset.get('Bibliotecas Populares')
url_museos = dataset.get('Museo')
url_cines = dataset.get('Cine')


In [10]:
# Definir path de archivos descargados
csv_bibliotecas = os.path.join(dir_bibliotecas+'/bibliotecas-'+dia_mes_anio+'.csv')
csv_museos = os.path.join(dir_museos+'/museos-'+dia_mes_anio+'.csv')
csv_cines = os.path.join(dir_cines+'/cines-'+dia_mes_anio+'.csv')

In [11]:
# Descargando urls
def descargar_csv(url_csv, dir_salida):
    response = requests.get(url_csv)
    with open(dir_salida, 'wb') as csv:
        csv.write(response.content)

In [12]:
descargar_csv(url_bibliotecas, csv_bibliotecas)
descargar_csv(url_museos, csv_museos)
descargar_csv(url_cines, csv_cines)