In [None]:
import pandas as pd
import numpy as np
import requests

pd.options.display.max_columns=50

In [None]:
from google.colab import drive

# Monta o Google Drive
drive.mount('/content/drive')

In [None]:
# Define o diretório onde estão os arquivos (Google Drive)
base_rotas = '/content/drive/My Drive/Colab Notebooks/bases/Rotas.csv'
base_clientes = '/content/drive/My Drive/Colab Notebooks/bases/Clientes.csv'
base_fabricas = '/content/drive/My Drive/Colab Notebooks/bases/Fabricas.csv'

In [None]:
# dicionário de tipos
dict_type_rotas={'Dt.Emissao':str,
                 'Dt.Entrega':str,
                 'Mes.Base':str,
                 'Ano.Exec':str,
                 'CO.Fabrica':str,
                 'CO.Cliente':str,
                 'Incoterm':str,
                 'Veiculo':str,
                 'Qtd/pallets':int,
                 'Qtd.Transp':int,
                 'Moeda':str,
                 'Vlr.Frete':float,
                 'Dist':float  }

dict_type_fabricas={'CO.Fabrica':str,
                    'NO_MUN':str,
                    'NO_MUN_MIN':str,
                    'SG_UF':str,
                    'LAT':float,
                    'LONG':float }

dict_type_clientes={'CO.Cliente':str,
                    'MUN':str,
                    'LAT':float,
                    'LONG':float }

In [None]:
# lendo as bases csv
df_rotas=pd.read_csv(base_rotas, sep=",", dtype=dict_type_rotas)
df_fabricas=pd.read_csv(base_fabricas, sep=",", dtype=dict_type_fabricas, encoding = 'latin1')
df_clientes=pd.read_csv(base_clientes, sep=",", dtype=dict_type_clientes)

#### Tratamento das inconsistências da base Rotas

In [None]:
df_rotas.info()

In [None]:
df_rotas.head()

In [None]:
# mudando tipo data
df_rotas['Dt.Emissao']= pd.to_datetime(df_rotas['Dt.Emissao'], format='%d/%m/%y')
df_rotas['Dt.Entrega']= pd.to_datetime(df_rotas['Dt.Entrega'], format='%d/%m/%y')

##### Data Inconsistente

In [None]:
# regra de data de faturamento < data de entrega (se false, data inconsistente)
df_rotas['flag_dt_inconsist'] = df_rotas['Dt.Emissao'] > df_rotas['Dt.Entrega']

In [None]:
# contagem da flag de inconsistência de data 
df_rotas['flag_dt_inconsist'].value_counts()

In [None]:
# Condição para selecionar as linhas onde queremos trocar os valores
condicao_troca = df_rotas['flag_dt_inconsist'] == True

In [None]:
# Trocar os valores das colunas coluna_A e coluna_B apenas nas linhas selecionadas pela condição
df_rotas.loc[condicao_troca, ['Dt.Emissao', 'Dt.Entrega']] = df_rotas.loc[condicao_troca, ['Dt.Entrega', 'Dt.Emissao']].values

In [None]:
# Aplicar a condição e verificar se há valores True
data_inconsist = df_rotas['Dt.Emissao'] > df_rotas['Dt.Entrega']
data_inconsist.sum()

##### Incoterm Inconsistente

In [None]:
# regra de FOB != 0 (se false, FOB com valor > 0)
df_rotas['flag_incoterm_valor_inconsist'] = ((df_rotas['Incoterm'] == 'FOB') & (df_rotas['Vlr.Frete'] > 0)).astype(bool)

In [None]:
# contagem da flag de inconsistência FOB
df_rotas['flag_incoterm_valor_inconsist'].value_counts()

In [None]:
# Condição para selecionar as linhas onde queremos fazer a substituição
condicao_substituir = df_rotas['flag_incoterm_valor_inconsist'] == True

In [None]:
# Substituir a palavra 'FOB' por 'CIF' apenas nas linhas selecionadas pela condição
df_rotas.loc[condicao_substituir, 'Incoterm'] = df_rotas.loc[condicao_substituir, 'Incoterm'].replace('FOB', 'CIF', regex=True)

In [None]:
# Verificar se há valores 'FOB' inconsistentes após a substituição
FOB_inconsist = (df_rotas['Incoterm'] == 'FOB') & (df_rotas['Vlr.Frete'] > 0)
FOB_inconsist.sum()

In [None]:
df_rotas.drop(columns=['flag_dt_inconsist', 'flag_incoterm_valor_inconsist'], inplace=True)

### Enriquecendo a Base Rotas com Clientes e Fábricas

In [None]:
# enriquecimento da base rotas com a clientes e fabricas
df_merge=pd.merge(pd.merge(df_rotas, df_clientes, how="outer", on="CO.Cliente"), df_fabricas, how="outer", on="CO.Fabrica")

In [None]:
# realocação das colunas
df_merge.insert(14,'CO.Cliente', df_merge.pop('CO.Cliente'))
df_merge.insert(17,'CO.Fabrica', df_merge.pop('CO.Fabrica'))

In [None]:
df_merge = df_merge.rename(columns={'MUN': 'MUN.Cliente', 
                                    'LAT_x': 'LAT.Cliente', 
                                    'LONG_x': 'LONG.Cliente',
                                    'NO_MUN': 'MUN.Fabrica',
                                    'LAT_y': 'LAT.Fabrica',
                                    'LONG_y': 'LONG.Fabrica' })

In [None]:
df_merge.head(3)

In [None]:
# concatenando strings e criando cod-nome e rota (fabrica-cliente) 
df_merge['cod_mun_cliente']=df_merge['CO.Cliente']+' - '+df_merge['MUN.Cliente']
df_merge['cod_mun_fabrica']=df_merge['CO.Fabrica']+' - '+df_merge['MUN.Fabrica']
df_merge['rota']=df_merge['MUN.Fabrica']+' - '+df_merge['MUN.Cliente']

In [None]:
df_merge['LAT.Cliente'] = df_merge['LAT.Cliente'].astype(str)
df_merge['LONG.Cliente'] = df_merge['LONG.Cliente'].astype(str)
df_merge['LAT.Fabrica'] = df_merge['LAT.Fabrica'].astype(str)
df_merge['LONG.Fabrica'] = df_merge['LONG.Fabrica'].astype(str)

In [None]:
# concatenando strings e criando lat-long das fabricas e clientes
df_merge['loc_cliente']=df_merge['LAT.Cliente']+','+df_merge['LONG.Cliente']
df_merge['loc_fabrica']=df_merge['LAT.Fabrica']+','+df_merge['LONG.Fabrica']

In [None]:
# criação de um dataframe de rotas com lat-long da origem-destino
df_rota_lat_long=df_merge[['rota', 'loc_cliente', 'loc_fabrica']].drop_duplicates().reset_index(drop=True)

In [None]:
df_rota_lat_long

In [None]:
#chave API maps
google_maps_key = "AIzaSyCSfp-lJf1SC2X0X-L8AfjNAi4NLMoBXsg"

In [None]:
# consulta na API Google para calcular a distância e tempo das rotas

def get_route_info(origin, destination, google_maps_key):
    url = 'https://maps.googleapis.com/maps/api/directions/json'
    params = {
        'origin': origin,
        'destination': destination,
        'key': google_maps_key
    }
    response = requests.get(url, params=params)
    if response.status_code == 200:
        route = response.json()['routes'][0]['legs'][0]
        distance = route['distance']['value'] / 1000.0
        duration = route['duration']['value'] / 60.0
        return distance, duration
    else:
        return None, None

In [None]:
# criação de listas vazias de distancia e tempo para API preencher
distances = []
durations = []

In [None]:
%%time

# consulta linha a linha do dataframe de rotas
for index, row in df_rota_lat_long.iterrows():
    origin = row['loc_fabrica']
    destination = row['loc_cliente']
    distance, duration = get_route_info(origin, destination, google_maps_key)
    distances.append(distance)
    durations.append(duration)

In [None]:
# criação das colunas quilometragem e tempo de viagem
df_rota_lat_long['km_api'] = distances
df_rota_lat_long['tempo_min_api'] = durations

In [None]:
df_rota_lat_long.head()

In [None]:
# merge entre o dataframe com quilometragem e tempo de viagem com a base rotas enriquecida
df_rotas_enriq=pd.merge(df_merge, df_rota_lat_long, how="left", on=['rota','loc_cliente','loc_fabrica'])

In [None]:
df_rotas_enriq.head(3)

In [None]:
df_rotas_enriq.drop(columns=['Dist', 'LAT.Cliente', 'LONG.Cliente', 'NO_MUN_MIN', 'SG_UF', 'LAT.Fabrica', 'LONG.Fabrica', 'loc_cliente', 'loc_fabrica'], inplace=True)

In [None]:
# gravando .csv
df_rotas_enriq.to_csv('df_rotas_enriq.csv', index=False)

### Salvando o dataframe no MySQL 

In [None]:
from sqlalchemy import create_engine

In [None]:
# Configurar a conexão com o banco de dados MySQL
engine = create_engine('mysql://root:API3lux**@localhost/database_api3')

In [None]:
# Salvar o DataFrame no MySQL
df_rotas_enriq.to_sql('database_api3', con=engine, if_exists='replace', index=False)

print("DataFrame salvo no MySQL com sucesso!")

In [None]:
# Consulta SQL para selecionar todas as linhas da tabela desejada
query = "SELECT * FROM database_api3"

In [None]:
# Carregar os dados do MySQL em um DataFrame do pandas
df = pd.read_sql(query, con=engine)

In [None]:
# Exibir as primeiras linhas do DataFrame
df