# O problema

Gerar relatórios iniciais a serem apresentados em uma reunião de investidores e acionistas, explicando a quantidade de vinhos exportados e os fatores externos que podem vir a surgir e que interferem nas análises:

1. Dados climáticos.
2. Dados demográficos.
3. Dados econômicos.
4. Dados de avaliações de vinhos.

O head de dados pediram para que você construísse uma tabela contendo as seguintes informações:

1. País de origem (Brasil).
2. País de destino.
3. Quantidade em litros de vinho exportado (utilize: 1kg = 1l).
4. Valor em US$.

Seu objetivo é dizer o montante de venda de exportação nos últimos 15 anos, separando a análise por país e trazendo quais as propecções futuras e possíveis ações para uma melhoria nas exportações. Construa gráficos atraentes e que passem a ideia central para que os acionistas e investidores possam seguir em frente com suas ações.

fontes: 

http://vitibrasil.cnpuv.embrapa.br/index.php?opcao=opt_06

https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o

# Importando dados demográficos

In [25]:
import warnings 
warnings.filterwarnings(action = 'ignore')

In [26]:
import pandas as pd


dados_populacao = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o')

In [27]:
dados_populacao = dados_populacao[0]
dados_populacao.head()

Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Data,Estimativa Oficial
0,,1,Índia,1 429 921 746,2023,Estimativa oficial
1,,2,China,1 426 391 281,2023,Censo oficial
2,,3,Estados Unidos,339 987 103,2023,Censo oficial
3,,4,Indonésia,277 184 719,2023,Estimativa oficial
4,,5,Paquistão,240 215 932,2023,Estimativa oficial


## Tratando dados

In [28]:
dados_populacao.drop(['Unnamed: 0',	'Posição', 'Estimativa Oficial', 'Data'], axis = 1, inplace = True)

In [29]:
dados_populacao.head()

Unnamed: 0,País (ou território dependente),Estimativa da ONU
0,Índia,1 429 921 746
1,China,1 426 391 281
2,Estados Unidos,339 987 103
3,Indonésia,277 184 719
4,Paquistão,240 215 932


In [30]:
dados_populacao = dados_populacao.sort_values(by = 'País (ou território dependente)').reset_index(drop = True)

In [31]:
dados_populacao.columns = ['pais', 'populacao']
dados_populacao.head()

Unnamed: 0,pais,populacao
0,Abecásia (Geórgia),245 424
1,Afeganistão,38 928 346
2,Albânia,2 877 797
3,Alemanha,83 783 942
4,Andorra,77 265


In [32]:
dados_populacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pais       250 non-null    object
 1   populacao  250 non-null    object
dtypes: object(2)
memory usage: 4.0+ KB


In [33]:
dados_populacao['populacao'] = dados_populacao['populacao'].str.replace(' ', '').astype(int)
dados_populacao.head()

Unnamed: 0,pais,populacao
0,Abecásia (Geórgia),245424
1,Afeganistão,38928346
2,Albânia,2877797
3,Alemanha,83783942
4,Andorra,77265


In [34]:
from unidecode import unidecode


#função para remover acentos
def remover_acentos(texto):
    texto_sem_acentos = unidecode(texto)
    return texto_sem_acentos

#função para padronizar os nomes dos países

def padronizar_nome_pais(nome_pais):
    padroes = {
        'Alemanha, Republica Democratica': 'Alemanha',
        'Alemanha, Republica Democratica da': 'Alemanha',
        'Belice': 'Belize',
        'Belize': 'Belize',
        'Camaroes': 'Camaroes',
        'Camores': 'Camaroes',
        'Coreia do Sul, Republica da': 'Coreia do Sul',
        'Coreia do Sul, Republica': 'Coreia do Sul',
        'Coreia do Sul': 'Coreia do Sul',
        'Coreia, Republica Sul': 'Coreia do Sul',
        'Coreia, Republica Sul': 'Coreia do Sul',
        'Dominica': 'Dominica',
        'Dominica, Ilha de': 'Dominica',
        'Eslovaca, Republica': 'Eslovaquia',
        'Falkland (Ilhas Malvinas)': 'Ilhas Malvinas',
        'Falkland (Malvinas)': 'Ilhas Malvinas',
        'Filanldia': 'Finlandia',
        'Finlandia': 'Finlandia',
        'Guine Bissau': 'Guine-Bissau',
        'Guine Bissau': 'Guine-Bissau',
        'Cayman, Ilhas': 'Ilhas Cayman',
        'Marshall, Ilhas': 'Ilhas Marshall',
        'Paises Baixos': 'Holanda',
        'Paises Baixos (Holanda)': 'Holanda',
        'Russia': 'Rússia',
        'Russia, Federacao da': 'Rússia',
        'Republica Federativa da Russia': 'Rússia',
        'Taiwan (FORMOSA)': 'Taiwan',
        'Taiwan (Formosa)': 'Taiwan',
        'Trindade e Tobago': 'Trindade e Tobago',
        'Trinidade Tobago': 'Trindade e Tobago',
        'Trinidade e Tobago': 'Trindade e Tobago',
        'Tcheca, Republica': 'Republica Tcheca',
        'Georgia do Sul e Sandwich do Sul, Ilhas': 'Ilhas Georgia do Sul e Sandwich do Sul'
    }

    if nome_pais in padroes:
        return padroes[nome_pais]
    else:
        return nome_pais
        
dados_populacao['pais'] = dados_populacao['pais'].apply(remover_acentos)
dados_populacao['pais'] = dados_populacao['pais'].apply(padronizar_nome_pais)

In [35]:
dados_populacao.head()

Unnamed: 0,pais,populacao
0,Abecasia (Georgia),245424
1,Afeganistao,38928346
2,Albania,2877797
3,Alemanha,83783942
4,Andorra,77265


## Exportando dados

In [36]:
dados_populacao.to_csv('../dados/populacao_util.csv', index = False)