# TECH Challenge
# Enunciado
Imagine agora, que você vai atuar como Expert em Data Analytics em uma empresa que exporta vinhos do Brasil para o mundo todo.
Sua área é recém-criada dentro da empresa, e você será responsável pelos relatórios iniciais a serem apresentados em uma reunião de investidores e acionistas, explicando a quantidade de vinhos exportados e os fatores externos que podem vir a surgir e que interferem nas análises:
1. Dados climáticos.
2. Dados demográficos.
3. Dados econômicos.
4. Dados de avaliações de vinhos.

O Head de Dados pediu para que você construísse uma tabela contendo as seguintes informações:
1. País de origem (Brasil).
2. País de destino.
3. Quantidade em litros de vinho exportado (utilize: 1KG =1L).
4. Valor em US$.

Os dados que lhe forneceram são de uma vinícola parceira, e podem ser encontrados aqui: http://vitibrasil.cnpuv.embrapa.br/index.php?opcao=opt_01
Seu objetivo é dizer o **montante de venda de exportação nos últimos 15 anos**, separando a análise por país e trazendo quais as prospecções futuras e possíveis ações para uma melhoria nas exportações. 


Construa gráficos atraentes e que passem a ideia central para que os acionistas e investidores possam seguir em frente com suas ações.

# Importando bibliotecas

In [122]:
import requests
from bs4 import BeautifulSoup
from bs4 import Tag
import pandas as pd
import matplotlib as plt
import numpy as np

# Adquirindo os dados
Utilizaremos o Beautiful Soup para aquirir os dados.

In [123]:
def get_contents(elem : Tag) -> str:
    '''
        Returns the content of the bs4 element as a string.

        Parameters
        ----------
        elem : bs4.element.Tag        

    '''
    return str(elem.decode_contents()).strip()


In [124]:
def get_data_from_page(url: str = "", table_class : str = "", row_class : str = "", row_super_class : str="") -> pd.DataFrame:
    '''
    Returns the HTML table of the page as a pandas DataFrame.

    Parameters
    ----------
    url : str
        URL of the page
    table_class : str
        HTML class of the desired table, if applicable
    row_class : str
        HTML class of the rows
    row_super_class : str
        HTML class of row categories
    ignore_first_column
        Ignore first column of returned DataFrame

    '''
    req = requests.get(url)
    soup = BeautifulSoup(req.content, "html.parser")
    table = soup.find("table", {"class":table_class})

    columns = ['categoria']
    for head in table.find_all('thead'):
        for th in head.find_all('th'):
            columns += [str(th.decode_contents()).lower().strip()]

    category=None
    data=[]
    for elem in table.find_all('tbody'):
        for row in elem.find_all('tr'):
            row_counter=0
            row_data = []
            for item in row.find_all('td'):
                content=get_contents(item)
                try:
                    if row_super_class in item['class'] and row_counter==0:
                        category=content
                except Exception as e:
                    category=None
                row_data+=[content]
                row_counter+=1
            row_data = [category]+row_data
            data += [row_data]

    return pd.DataFrame(data,columns=columns)


In [125]:
req = requests.get(url)
soup = BeautifulSoup(req.content, "html.parser")
timespan = 15
last_year = 2024
class_table = "tb_dados"
class_item = "tb_item"
class_subitem = "tb_subitem"

In [126]:
def get_data_from_timespan(url_front : str="", url_back : str="", last_year : int = 0, years_back : int = 0, class_table : str = "", class_item : str="", class_subitem : str="", output_prefix : str="") -> pd.DataFrame:
    range_years = range(last_year-years_back,last_year+1)
    for year in range_years:
        url=f"{url_front}{year}{url_back}"
        get_data_from_page(url,class_table,class_subitem,class_item).to_csv(f'extraidos\{output_prefix}_{year}.csv')

  get_data_from_page(url,class_table,class_subitem,class_item).to_csv(f'extraidos\{output_prefix}_{year}.csv')


In [None]:
url_b = "&opcao=opt_06&subopcao=subopt_01"
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix="exportacao_vinhos_mesa")

In [None]:
url_b = "&opcao=opt_06&subopcao=subopt_03"
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix="exportacao_uvas_frescas")

In [None]:
url_b = "&opcao=opt_06&subopcao=subopt_04"
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix="exportacao_suco_de_uva")

In [None]:
url_b = "&opcao=opt_05&subopcao=subopt_01"
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix="importacao_vinhos_mesa")

In [None]:
url_b = "&opcao=opt_05&subopcao=subopt_02"
categoria='importacao'
subcategoria='espumantes'
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix=f"{categoria}_{subcategoria}")

In [134]:
url_b = "&opcao=opt_05&subopcao=subopt_03"
subcategoria='uvas_frescas'
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix=f"{categoria}_{subcategoria}")

In [135]:
url_b = "&opcao=opt_05&subopcao=subopt_04"
subcategoria='uvas_passas'
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix=f"{categoria}_{subcategoria}")

In [136]:
url_b = "&opcao=opt_05&subopcao=subopt_05"
subcategoria='suco_de_uva'
get_data_from_timespan(url_f, url_b, last_year, timespan, class_table, class_item, class_subitem, output_prefix=f"{categoria}_{subcategoria}")