###  Desafio - Etapa1 üöÄ
---

Nessa etapa do desafio, ser√° realizada a leitura de um arquivo oriundo do portal de dados p√∫blicos do Governo Brasileiro, o csv "chegadas_2024.csv" em que re√∫ne dados relativos √†s estimativas do fluxo de chegadas de turistas internacionais (incluindo turistas estrangeiros e brasileiros que residem no exterior) ao Brasil, desagregadas por pa√≠s de resid√™ncia permanente, por m√™s e via de acesso (a√©rea, terrestre, mar√≠tima ou fluvial). Assim, ser√° feito um tratamento de dados inicial para posteriormente analisar as informa√ß√µes contidas no mesmo. Seguirei uma sequ√™ncia de a√ß√µes nas quais estarei detalhando um pouco mais sobre os c√≥digos que usei para execu√ß√£o dos passos.

An√°lise inicial
__________________________________________________________________________________________________
Inicialmente importei a biblioteca pandas para an√°lise e tratamento dos dados, durante a an√°lise inicial do conjunto de dados chegadas_2024.csv, ao tentar carreg√°-lo com pd.read_csv(), ocorreu um erro relacionado √† codifica√ß√£o do arquivo. Para identificar o encoding correto, utilizei a biblioteca chardet, que indicou a codifica√ß√£o 'ISO-8859-1'. Ap√≥s ajustar o par√¢metro de codifica√ß√£o, ainda enfrentei um erro de tokeniza√ß√£o devido ao separador de colunas, que n√£o era a v√≠rgula padr√£o. Especificando o separador como ';', foi poss√≠vel realizar a leitura correta do arquivo e visualizar suas primeiras entradas e informa√ß√µes gerais.

Al√©m disso, importei as bibliotecas boto3 e botocore.exceptions para realizar opera√ß√µes com o servi√ßo Amazon S3, como a cria√ß√£o do bucket e o envio de arquivos para a nuvem. Tamb√©m utilizei dotenv para carregar vari√°veis de ambiente armazenadas no arquivo .env, garantindo seguran√ßa e flexibilidade na autentica√ß√£o, a biblioteca os tamb√©m foi utilizada para acessar essas vari√°veis carregadas.

In [8]:
import pandas as pd
import chardet
import boto3
import os

from botocore.exceptions import ClientError
from dotenv import load_dotenv

In [2]:
with open('chegadas_2024.csv', 'rb') as f:
    result = chardet.detect(f.read(10000))
    print(result)

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [3]:
df = pd.read_csv('chegadas_2024.csv', encoding='ISO-8859-1', sep=';')


In [16]:
df.head()

Unnamed: 0,Continente,cod continente,Pa√≠s,cod pais,UF,cod uf,Via,cod via,ano,M√™s,cod mes,Chegadas
0,Europa,6,Alemanha,57,Outras Unidades da Federa√ß√£o,99,A√©rea,1,2024,Janeiro,1,10
1,Am√©rica do Sul,4,Argentina,26,Outras Unidades da Federa√ß√£o,99,A√©rea,1,2024,Janeiro,1,1197
2,Europa,6,B√©lgica,59,Outras Unidades da Federa√ß√£o,99,A√©rea,1,2024,Janeiro,1,3
3,Am√©rica do Norte,3,Canad√°,23,Outras Unidades da Federa√ß√£o,99,A√©rea,1,2024,Janeiro,1,2
4,Am√©rica do Sul,4,Chile,28,Outras Unidades da Federa√ß√£o,99,A√©rea,1,2024,Janeiro,1,1


- Conhecendo as dimens√µes do DataFrame:

In [17]:
df.shape

(22856, 12)

- Conhecendo os √∫ltimos registros do DataFrame:

In [18]:
df.tail()

Unnamed: 0,Continente,cod continente,Pa√≠s,cod pais,UF,cod uf,Via,cod via,ano,M√™s,cod mes,Chegadas
22851,Europa,6,Su√≠√ßa,86,Rio Grande do Sul,21,Fluvial,4,2024,Dezembro,12,3
22852,Am√©rica do Sul,4,Uruguai,36,Rio Grande do Sul,21,Fluvial,4,2024,Dezembro,12,6
22853,Am√©rica do Sul,4,Argentina,26,Santa Catarina,24,Fluvial,4,2024,Dezembro,12,120
22854,Am√©rica do Sul,4,Chile,28,Santa Catarina,24,Fluvial,4,2024,Dezembro,12,3
22855,Am√©rica do Sul,4,Uruguai,36,Santa Catarina,24,Fluvial,4,2024,Dezembro,12,1


- Informa√ß√µes da base (tipos de dados, linhas n√£o nulas, n√∫mero de entradas):

In [19]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22856 entries, 0 to 22855
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Continente      22856 non-null  object
 1   cod continente  22856 non-null  int64 
 2   Pa√≠s            22856 non-null  object
 3   cod pais        22856 non-null  int64 
 4   UF              22856 non-null  object
 5   cod uf          22856 non-null  int64 
 6   Via             22856 non-null  object
 7   cod via         22856 non-null  int64 
 8   ano             22856 non-null  int64 
 9   M√™s             22856 non-null  object
 10  cod mes         22856 non-null  int64 
 11  Chegadas        22856 non-null  int64 
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


- Verificando quantos valores √∫nicos existem em cada coluna:

In [20]:
df.nunique()

Continente           8
cod continente       8
Pa√≠s                93
cod pais            93
UF                  18
cod uf              18
Via                  4
cod via              4
ano                  1
M√™s                 12
cod mes             12
Chegadas          1702
dtype: int64

- Visualizando os valores vazios:

In [21]:
df.isnull().sum()

Continente        0
cod continente    0
Pa√≠s              0
cod pais          0
UF                0
cod uf            0
Via               0
cod via           0
ano               0
M√™s               0
cod mes           0
Chegadas          0
dtype: int64

###  Questionamentos 
---

Por meio da an√°lise inicial do arquivo, foi poss√≠vel identificar as principais informa√ß√µes para compreender o comportamento da chegada de turistas ao Brasil ao longo do ano. Com base nisso, selecionei tr√™s questionamentos principais que considero estrat√©gicos para gerar insights sobre o fluxo tur√≠stico no pa√≠s:

1. Classifica√ß√£o dos pa√≠ses por faixas de volume de turistas: a partir dessa an√°lise √© poss√≠vel identificar quais pa√≠ses enviaram mais turistas ao Brasil e quais apresentam menor representatividade;
2. Principais vias de entrada de turistas no Brasil: ajuda a entender por quais principais vias os turistas mais chegam ao pa√≠s;
3. Meses com maior n√∫mero de chegadas de turistas via a√©rea em 2024: mostra a sazonalidade do turismo ao longo do ano por meio das vias a√©reas.


###  Cria√ß√£o do bucket e upload do arquivo
---

Ap√≥s a an√°lise explorat√≥ria dos dados do arquivo chegadas_2024.csv, realizei o envio do mesmo para a nuvem utilizando o servi√ßo Amazon S3, garantindo que os dados estejam acess√≠veis para as pr√≥ximas etapas do projeto. Inicialmente, carreguei as vari√°veis de ambiente armazenadas no arquivo .env com a fun√ß√£o load_dotenv(), assegurando a seguran√ßa das credenciais de autentica√ß√£o (chave de acesso, segredo e token da sess√£o). Essas credenciais foram usadas para configurar o cliente do S3 via biblioteca boto3. Defini o nome do bucket como chegadas-turistas-2024-ana e, em seguida, executei sua cria√ß√£o por meio de um bloco try-except, tratando o cen√°rio em que o bucket j√° exista e seja de minha propriedade. Vale ressaltar que, como a regi√£o utilizada foi a us-east-1, a cria√ß√£o do bucket foi realizada sem o par√¢metro expl√≠cito de regi√£o, em conformidade com as regras da AWS para essa localidade. Com o bucket validado, o pr√≥ximo passo foi o upload do arquivo chegadas_2024.csv, tamb√©m encapsulado em um bloco de tratamento de exce√ß√µes para lidar com poss√≠veis falhas durante o envio.

In [None]:
load_dotenv()
env = os.environ

bucket_name = "chegadas-turistas-2024-ana"
arquivo_local = "chegadas_2024.csv"
arquivo_s3 = "chegadas_2024.csv"

region = env.get("AWS_REGION")

s3 = boto3.client(
    's3',
    aws_access_key_id=env.get("AWS_ACCESS_KEY_ID"),
    aws_secret_access_key=env.get("AWS_SECRET_ACCESS_KEY"),
    aws_session_token=env.get("AWS_SESSION_TOKEN"),
    region_name=region
)

try:
    s3.create_bucket(Bucket=bucket_name)
    print(f"Bucket '{bucket_name}' criado com sucesso!")
except ClientError as e:
    if e.response['Error']['Code'] == 'BucketAlreadyOwnedByYou':
        print(f"Bucket '{bucket_name}' j√° existe e pertence a voc√™.")
    else:
        raise

try:
    s3.upload_file(arquivo_local, bucket_name, arquivo_s3)
    print(f"Arquivo '{arquivo_local}' enviado com sucesso para o bucket '{bucket_name}'.")
except Exception as e:
    print("Erro ao fazer upload:", e)

Bucket 'chegadas-turistas-2024-ana' criado com sucesso!
Arquivo 'chegadas_2024.csv' enviado com sucesso para o bucket 'chegadas-turistas-2024-ana'.
