# ETL B3

#### Importação de dependências python

In [1]:
from assets.bot import get_b3_data
import pandas as pd

#### Extrair ações da bolsa de valores B3
Extrair dados atualizados do site "fundamentus.com.br" em background fazendo uso da biblioteca Selenium e armazenar os dados extraídos em um Dataframe Pandas.

In [2]:
df = get_b3_data()

#### Tratar dados dados e convertê-los para numérico
Tratar os dados para tornar possível a conversão de string para float

In [3]:
columns_to_convert = df.columns[1:]
for c in columns_to_convert:
    df[c] = df[c].str.replace('.','')
    df[c] = df[c].str.replace(',','.')
    df[c] = df[c].str.replace('%','')
    df[c] = pd.to_numeric(df[c], 'coerce')

#### Filtrar dados extraídos por P/L inferiores a 10 e superiores a 3
Efetuar a filtragem dos dados por P/L (Preço sobre Lucro) menores que 10 e maiores que 3 para evitar distorções.

In [4]:
# Filtrar linhas por colunas com valores inferiores a 10 e superiores a 3
df = df[(df['PL'] < 10) & (df['PL'] > 3)]

#### Filtrar dados por P/VP inferiores a 2 e superiores a 0,5
Efetuar a filtragem dos dados com valores de P/VP (Preço sobre Valor Patrimonial) inferiores a 2 e superiores a 0,5 para evitar distorções.

In [5]:
# Filtrar linhas por colunas com valores inferiores a 2 e superiores a 0,5
df = df[(df['PVP'] < 2) & (df['PVP'] > 0.5)]

#### Filtrar Dividend Yield superiores a 7% e inferiores a 14%
Efetuar a filtragem dos dados com valores de Dividend Yield (Rendimento de Dividendos) superiores a 7% e inferiores a 14% para evitar distorções.

In [6]:
# Filtrar linhas por colunas com valores superiores a 7% e inferiores a 14%
df = df[(df['DIVYIELD'] > 7) & (df['DIVYIELD'] < 14)]

#### Ordenar dados por valores das ações

In [7]:
df = df.sort_values('COTAÇÃO')

#### Formatar valores para PT-BR (vírgulas como separadores de casas decimais)

In [8]:
df = df.map(lambda x: str(x).replace('.', ','))

#### Formatar colunas de valores percentuais para adicionar sinal de porcentagem

In [9]:
columns_to_format = ['DIVYIELD','MRG_EBIT','MRG_LÍQ','ROIC','ROE','CRESC_REC5A']
for c in columns_to_format:
    df[c] = df[c].apply(lambda x: str(x) + '%')

#### Mostrar 10 primeiras linhas

In [10]:
df.head(10)

Unnamed: 0,PAPEL,COTAÇÃO,PL,PVP,PSR,DIVYIELD,PATIVO,PCAPGIRO,PEBIT,PATIV_CIRCLIQ,...,EVEBITDA,MRG_EBIT,MRG_LÍQ,LIQ_CORR,ROIC,ROE,LIQ2MESES,PATRIM_LÍQ,DÍVBRUT_PATRIM,CRESC_REC5A
275,BMGB4,343,977,51,0,"10,95%",0,0,0,0,...,0,"0,0%","0,0%",0,"0,0%","5,21%",37134100,39251700000,0,"-6,07%"
231,JHSF3,427,81,58,1928,"8,64%",27,146,627,-126,...,1046,"30,73%","23,92%",285,"4,52%","7,1%",124376000,50405000000,61,"29,74%"
263,MELK3,47,933,8,819,"11,94%",4,74,1003,108,...,845,"8,17%","12,84%",29,"4,91%","8,62%",6611240,12052000000,24,"22,85%"
189,CIEL3,515,67,114,2163,"8,45%",122,215,100,442,...,413,"21,63%","32,26%",107,"19,34%","17,02%",1601130000,122588000000,63,"-8,03%"
270,PFRM3,541,952,54,77,"7,13%",136,61,273,477,...,319,"2,84%","0,9%",145,"8,55%","5,64%",11546500,12483500000,62,"16,59%"
217,BEES3,886,755,126,0,"7,43%",0,0,0,0,...,0,"0,0%","0,0%",0,"0,0%","16,72%",1140400,22163500000,0,"12,8%"
235,FESA4,887,819,98,1287,"7,72%",762,289,833,471,...,439,"15,45%","15,72%",317,"11,92%","11,99%",63169200,31901000000,9,"21,5%"
170,RANI3,911,57,171,137,"8,75%",63,263,488,-208,...,573,"28,07%","24,05%",375,"16,34%","29,96%",124130000,12797000000,127,"17,82%"
230,ITSA3,1056,81,131,14773,"8,78%",1035,1388,14484,-1932,...,5814,"10,2%","189,33%",264,"0,78%","16,23%",20468700,829520000000,13,"12,11%"
234,ITSA4,1058,811,132,14801,"8,77%",1037,1391,14512,-1936,...,5824,"10,2%","189,33%",264,"0,78%","16,23%",2074990000,829520000000,13,"12,11%"


#### Carregar dados para uma planilha excel

In [11]:
df.to_excel('data.xlsx',index=False)