# Tarefa: Organizar Cidades por Estados

## Passo a passo:

- Criar dois dataframes de acordo com os arquivos "estados.csv" e "municipios.csv" com as informações de estados e municpios do Brasil;
- Criar uma pasta nomeada com a sigla da UF de cada estado;
- Organizar os municipios por estado em um arquivo CSV para cada estado respectivamente;
- Transformar os dados de CSV para JSON;
- Importar as pastas e arquivos para um bucket no MinIO;
- Exportar os dados JSON para o MongoDB e visualiza-los a partir do Studio 3T;

In [None]:
# Instalando as bibliotecas
!pip install pandas
!pip install pymongo
!pip install boto3


In [None]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
from io import BytesIO
from pymongo import MongoClient
import boto3
from io import StringIO 
import json

In [None]:
# Criando os dataframes
dfEst = pd.read_csv('municipios-estados/csv/estados.csv')
dfMun = pd.read_csv('municipios-estados/csv/municipios.csv')

In [None]:
dfEst

In [None]:
dfMun

In [None]:
# Criando um novo dataframe apenas com as informações importantes de "Estados"
estados = dfEst[['uf', 'codigo_uf']].copy()

estados

In [None]:
# Conferindo o "codigo_uf" de cada estado, pois será utilizado para separar os municípios
for row in estados.values:
    print(row[1])


In [None]:
# Conferindo se existem valores nulos
print(dfMun['codigo_uf'].isnull())


In [None]:
# Alterando o tipo da coluna "codigo_uf" de int para object, pois a coluna será utilizada para comparação 
print(estados.dtypes)
estados['codigo_uf'] = estados['codigo_uf'].astype(object)
print(estados.dtypes)

In [None]:
print(dfMun.dtypes)
dfMun['codigo_uf'] = dfMun['codigo_uf'].astype(object)
print(dfMun.dtypes)


In [None]:
# Criando a conexão com o s3 (MinIO)
client = boto3.client('s3', 
    endpoint_url='http://awari-minio-nginx:9000',
    aws_access_key_id='08MxF8f8hVGtRM8p',
    aws_secret_access_key='QxinI3DaUVmrFCMXRw6yDNqx0B6aEKm2',
    aws_session_token=None,
    config=boto3.session.Config(signature_version='s3v4'),
    verify=False,
    region_name='sa-east-1'
)

In [None]:
# Validação referente a iteração no dataframe "dfMun", para verificar se está retornando os valores desejados
for row in estados.values:
    municipio_por_estado = dfMun[dfMun['codigo_uf'] == row[1]]

    print(municipio_por_estado)

In [None]:
# Looping para percorrer todos os estados do dataframe "estados"
for row in estados.values:
    # Filtrar municípios por estado
    municipio_por_estado = dfMun[dfMun['codigo_uf'] == row[1]]
    
    # Armazena o nome do estado atual, será também o nome da pasta e dos arquivos
    folder_name = row[0]
    
    # Criar buffer CSV e salvar o DataFrame como CSV no buffer
    csv_buffer = StringIO()    
    csv = municipio_por_estado.to_csv(csv_buffer, index=False)
    
    # Carregar o arquivo CSV no S3 (MinIO)
    client.put_object(Body=csv_buffer.getvalue(), Bucket='aula-06', Key=f'datalake_estados/{folder_name}/{folder_name}.csv')
    
    # Converter o DataFrame para JSON
    json_content = municipio_por_estado.to_json(orient='records', force_ascii=False, indent=4)

    # Carregar o arquivo JSON no S3 (MinIO)
    client.put_object(Body=json_content, Bucket='aula-06', Key=f'datalake_estados/{folder_name}/{folder_name}.json')

    print(f"Arquivos CSV e JSON para o estado {folder_name} foram carregados com sucesso.")

    

In [None]:
# Lendo um arquivo CSV do s3

obj = client.get_object(
    Bucket='aula-06', 
    Key="datalake_estados/SP/SP.csv"
).get("Body")

dataSP = pd.read_csv(obj)

display(dataSP)


In [None]:
# Baixar o arquivo JSON do S3
response = client.get_object(Bucket='aula-06', Key="datalake_estados/AC/AC.json")
json_content = response['Body'].read().decode('utf-8')

# Carregar o conteúdo JSON em um DataFrame
data = json.loads(json_content)
df = pd.DataFrame(data)

# Exibir o DataFrame
print(df)


In [None]:
# Lendo o arquivo no formato JSON 
print(data)

In [None]:
# Conectando np MongoDB


client_mongodb =  MongoClient("mongodb://root:rootpassword@awari-mongodb:27017/?serverSelectionTimeoutMS=5000&connectTimeoutMS=10000&authSource=admin&authMechanism=SCRAM-SHA-256")
db = client_mongodb['estados']
collection = db['ac']
#data.reset_index(inplace=True)
#data_dict = data.to_dict("records")
# Insert collection
collection.insert_many(data)



In [None]:

# Enviando as informações de cada arquivo JSON para o MongoDB

for row in estados.values:
    # Filtrar municípios por estado
    municipio_por_estado = dfMun[dfMun['codigo_uf'] == row[1]]
    
    # Nome da pasta e dos arquivos
    folder_name = row[0]

    # Baixar o arquivo JSON do S3
    response = client.get_object(Bucket='aula-06', Key=f'datalake_estados/{folder_name}/{folder_name}.json')
    json_content = response['Body'].read().decode('utf-8')

    # Carregar o conteúdo JSON em um DataFrame
    data = json.loads(json_content)

    
    # Conectando no MongoDB
    client_mongodb =  MongoClient("mongodb://root:rootpassword@awari-mongodb:27017/?serverSelectionTimeoutMS=5000&connectTimeoutMS=10000&authSource=admin&authMechanism=SCRAM-SHA-256")
    
    #Seleção do banco de dados e da coleção
    db = client_mongodb['estados']
    collection = db[folder_name]
    
    # Inserção dos dados no MongoDB
    collection.insert_many(data)
    print(f"Documentos do arquivo {json_content} inseridos na coleção {folder_name} com sucesso.")

