<a href="https://colab.research.google.com/github/RealGiulia/automacao-semcomp/blob/main/Minicurso_serasa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Minicurso de automação

Esse minucurso busca ensinar em como utilizar python para automações de tarefas básicas envolvendo websites. Vamos estar desenvolvendo uma automação de interação com uma simulação de site de um banco e a extração de dados das transações feitas.



### Configurando o ambiente

#### Baixando as libs necessárias

In [None]:
! pip install pandas
! pip install selenium
! pip install SQLAlchemy

## Importando as Bibliotecas

In [None]:
import pandas as pd

## Ler as informações

In [None]:
df = pd.read_csv('transacoes.csv')

In [None]:
df

#Shape

In [None]:
df.shape

#Colunas

In [None]:
df.columns

#Info

In [None]:
df.info()

#Describe (include='all')

In [None]:
df.describe(include='all')

#Visualizar a Coluna Valor

In [None]:
df['Valor']

#Operador Loc e Iloc

In [None]:
df.loc[0:6, 'Descricao':'Data']

In [None]:
df.iloc[0:6, 0:2]

In [None]:
df

In [None]:
df.loc[1, 'Valor'] = -70.05
df

In [None]:
df.loc[1, 'Valor'] = -61.16
df

In [None]:
df.iloc[-10:, :]

#Transformação de Dados

#Manipulação de Data

In [None]:
df['Data'].iloc[0][:10]

In [None]:
def retorne_10_digitos(coluna):
  return coluna[:10]


In [None]:
df['Data'].apply(retorne_10_digitos)

In [None]:
df['Data_Formatada'] = df['Data'].apply(retorne_10_digitos)
df

In [None]:
type(df['Data_Formatada'].iloc[0])

str

In [None]:
pd.to_datetime(df['Data_Formatada']).dt.strftime('%d/%m/%Y')

In [None]:
df['Data_Formatada'] = pd.to_datetime(df['Data_Formatada']).dt.strftime('%d/%m/%Y')
df

In [None]:
df['Data_Formatada'].value_counts()

# Ordenar o DataFrame

In [None]:
df.sort_values(by="Valor")

In [None]:
df.sort_values(by="Valor", ascending=False)

# Checando a Quantidade de Descrições

In [None]:
df['Descricao'].value_counts()

In [None]:
df['Descricao'].value_counts(normalize=True)

In [None]:
df[df['Valor'] < 0]

In [None]:
df[df['Valor'] < 0]['Valor'].min()

-750.0

In [None]:
df[df['Descricao'] == 'Pandora']

In [None]:
df[df['Descricao'] == 'Lanchonete']['Valor']

In [None]:
df[df['Descricao'] == 'Lanchonete']['Valor'].mean()

In [None]:
df[(df['Descricao'] == 'Transferencia recebida') & (df['Valor'] > 100)]['Valor'].max()

nan

In [None]:
df[(df['Descricao'] == 'Gucci') | (df['Descricao'] == 'Pandora')]

In [None]:
df[df['Descricao'].isin(['Pandora', 'Gucci', 'Adidas'])]

In [None]:
df.isnull().sum()

In [None]:
df.nunique( )

In [None]:
df['Descricao'].unique()

In [None]:
dataframe_positivo = df[df['Valor'] >= 0]
dataframe_positivo

In [None]:
dataframe_positivo['Valor'].mean()

5000.0

In [None]:
dataframe_positivo.loc[:, 'Porcentagem_Valor'] = (dataframe_positivo['Valor']/dataframe_positivo['Valor'].sum())*100
dataframe_positivo['Porcentagem_Valor']

In [None]:
dataframe_positivo

In [None]:
dataframe_positivo['Porcentagem_Valor'].sum()

99.99999999999999

In [None]:
def operacao(coluna_valor):
  if coluna_valor < 0:
    return 'Despesa'
  else:
    return 'Ganho'

In [None]:
df['Valor'].apply(operacao)

In [None]:
df['Operacao'] = df['Valor'].apply(operacao)
df

In [None]:
df['Valor_Absoluto'] = abs(df['Valor'])
df

In [None]:
df.sort_values('Data_Formatada')

# Fazendo o De:Para das Descrições 

# Salvando as informações em um banco de dados

Usualmente, as informações coletadas e enriquecidas devem ser armazenados em algum ambiente seguro e que possa ser compartilhado para outras partes interessadas. Poderíamos utilizar um arquivo csv ou xlsx como destino, mas não há muito controle sobre acessos e também devemos nos preocupar com a veracidade e a disponibilidade dos dados. Para garantir que sempre tenhamos os dados mais atuais a melhor opção é armazenar os registros em um banco de dados.

In [None]:
categorias = pd.read_csv('categorias.csv')
categorias

In [None]:
df = df.merge(categorias, on='Descricao', how='left')
df

In [None]:
df['Categoria'].value_counts(dropna=False)

### ElephantSQL e SQLAlchemy

Vamos utilizar uma instância de PostgreSQL hospedado na cloud pela ElephantSQL para armazenar os dados. Para isso vamos criar uma conta gratuitamente no site disponível no link https://www.elephantsql.com/ . Tambem vamos utilizar a lib SQLAlchemy para realizar a conexão e queries no banco criado.

In [None]:
import sqlalchemy
# String de conexao disponibilizada pelo ElepthantSQL
# !!! IMPORTANTE: Substituir o inicio da string de postgres para postgresql
conn_string = 'postgresql://oafqnkde:sEJ3P6u8c1WdkHNnhoDVA_gWAt-qUQO8@babar.db.elephantsql.com/oafqnkde'

# Criando conexao com o banco de dados
engine = sqlalchemy.create_engine(conn_string)

### Escrevendo no banco com o método to_sql. Mais informações disponíveis na [documentação oficial.](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)

In [None]:
# Escrevendo no banco de dados

dtypes = {
    'Descricao':sqlalchemy.String(100),
    'Data':sqlalchemy.types.DateTime(),
    'Valor':sqlalchemy.types.Numeric(precision=10, scale=2, asdecimal=True),
    'Data_Formatada' :sqlalchemy.String(12),
    'Operacao' :sqlalchemy.String(100),
    'Valor_Absoluto' : sqlalchemy.types.Numeric(precision=10, scale=2, asdecimal=True),
    'Categoria': sqlalchemy.String(100)
}

df.to_sql(
    name='extrato', # Nome da tabela a ser criada ou inserida
    con=engine,  # Conexao com o banco
    if_exists='replace', # Se a tabela ja existir ela sera substituida
    dtype=dtypes,
    index=False
)

# Verificando se a tabela foi criada e populada
from sqlalchemy.sql import text

with engine.connect() as con:
    resultado = con.execute('SELECT * FROM extrato LIMIT 5')
    for linha in resultado:
      print(linha)


('ClickBus', datetime.datetime(2022, 9, 23, 13, 46, 29), Decimal('-16.88'), '23/09/2022', 'Despesa', Decimal('16.88'), 'Viagem', datetime.datetime(2022, 9, 23, 0, 0))
('Jau Serve', datetime.datetime(2022, 9, 23, 13, 6, 42), Decimal('-61.16'), '23/09/2022', 'Despesa', Decimal('61.16'), 'Mercado', datetime.datetime(2022, 9, 23, 0, 0))
('Lanchonete', datetime.datetime(2022, 9, 23, 12, 13, 11), Decimal('-18.66'), '23/09/2022', 'Despesa', Decimal('18.66'), 'Alimentação', datetime.datetime(2022, 9, 23, 0, 0))
('ClickBus', datetime.datetime(2022, 9, 23, 9, 7, 28), Decimal('-121.67'), '23/09/2022', 'Despesa', Decimal('121.67'), 'Viagem', datetime.datetime(2022, 9, 23, 0, 0))
('Restaurante', datetime.datetime(2022, 9, 23, 3, 22, 33), Decimal('-52.73'), '23/09/2022', 'Despesa', Decimal('52.73'), 'Alimentação', datetime.datetime(2022, 9, 23, 0, 0))


# Respostas Desafio

In [None]:
df

Unnamed: 0,Descricao,Data,Valor,Data_Formatada,Operacao,Valor_Absoluto,Categoria
0,ClickBus,2022-09-23 13:46:29,-16.88,23/09/2022,Despesa,16.88,Viagem
1,Jau Serve,2022-09-23 13:06:42,-61.16,23/09/2022,Despesa,61.16,Mercado
2,Lanchonete,2022-09-23 12:13:11,-18.66,23/09/2022,Despesa,18.66,Alimentação
3,ClickBus,2022-09-23 09:07:28,-121.67,23/09/2022,Despesa,121.67,Viagem
4,Restaurante,2022-09-23 03:22:33,-52.73,23/09/2022,Despesa,52.73,Alimentação
...,...,...,...,...,...,...,...
1441,Jau Serve,2020-09-26 00:19:52,-18.05,26/09/2020,Despesa,18.05,Mercado
1442,Aluguel,2020-09-26 00:05:28,-750.00,26/09/2020,Despesa,750.00,Contas
1443,Internet,2020-09-26 00:05:28,-100.00,26/09/2020,Despesa,100.00,Contas
1444,Salario,2020-09-26 00:05:28,5000.00,26/09/2020,Ganho,5000.00,Salario


In [None]:
df['Data_Formatada_Datetime'] = pd.to_datetime(df['Data_Formatada'])

In [None]:
df[df['Data_Formatada_Datetime'] <= pd.to_datetime('18/01/2021')]

Unnamed: 0,Descricao,Data,Valor,Data_Formatada,Operacao,Valor_Absoluto,Categoria,Data_Formatada_Datetime
1232,Gol,2021-01-18 11:43:02,-373.98,18/01/2021,Despesa,373.98,Viagem,2021-01-18
1233,IFood,2021-01-18 05:07:48,-10.52,18/01/2021,Despesa,10.52,Alimentação,2021-01-18
1234,Laticinios,2021-01-17 18:40:11,-18.10,17/01/2021,Despesa,18.10,Alimentação,2021-01-17
1235,Azul,2021-01-17 14:51:40,-346.75,17/01/2021,Despesa,346.75,Viagem,2021-01-17
1236,IFood,2021-01-16 13:14:49,-8.69,16/01/2021,Despesa,8.69,Alimentação,2021-01-16
...,...,...,...,...,...,...,...,...
1441,Gol,2020-09-26 16:28:07,-395.19,26/09/2020,Despesa,395.19,Viagem,2020-09-26
1442,Salario,2020-09-26 11:09:38,5000.00,26/09/2020,Ganho,5000.00,Salario,2020-09-26
1443,Internet,2020-09-26 11:09:38,-100.00,26/09/2020,Despesa,100.00,Contas,2020-09-26
1444,Academia,2020-09-26 11:09:38,-80.00,26/09/2020,Despesa,80.00,Saude,2020-09-26


In [None]:
df[(df['Data_Formatada_Datetime']  > pd.to_datetime('10/01/2020')) & (df['Data_Formatada_Datetime']  <= pd.to_datetime('18/01/2021'))]['Valor'].sum()

-217.97000000000116

In [None]:
month_list = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

for month in month_list:
  valor = df[(df['Data_Formatada_Datetime'].dt.month == month) & ((df['Data_Formatada_Datetime'].dt.year == 2020))]['Valor'].sum()
  print(f'Valor: {valor:.2f}, Mês: {month}')

Valor: 0.00, Mês: 1
Valor: 0.00, Mês: 2
Valor: 0.00, Mês: 3
Valor: 0.00, Mês: 4
Valor: 0.00, Mês: 5
Valor: 0.00, Mês: 6
Valor: 0.00, Mês: 7
Valor: 0.00, Mês: 8
Valor: 2980.29, Mês: 9
Valor: 1179.22, Mês: 10
Valor: 1407.24, Mês: 11
Valor: 626.37, Mês: 12


In [None]:
df[df['Operacao'] == 'Despesa'].groupby('Categoria').sum()

Unnamed: 0_level_0,Valor,Valor_Absoluto
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
Alimentação,-8787.68,8787.68
Contas,-20400.0,20400.0
Joias,-5485.91,5485.91
Lazer,-5060.32,5060.32
Mercado,-6814.53,6814.53
Pet,-1863.08,1863.08
Saude,-1920.0,1920.0
Saúde,-15351.09,15351.09
Transporte,-1597.83,1597.83
Vestuário,-4188.6,4188.6


In [None]:
valor_maximo = 0
categoria_maxima = 'Nenhuma'
for cat in df[df['Operacao'] == 'Despesa']['Categoria'].value_counts().index:
  valor = df[df['Categoria'] == cat]['Valor_Absoluto'].sum()
  if valor >= valor_maximo:
    valor_maximo = valor
    categoria_maxima = cat

print(f'A Categoria com maior gasto é {categoria_maxima} com o valor de {valor_maximo:.2f}')

A Categoria com maior gasto é Viagem com o valor de 47695.27
