<a href="https://colab.research.google.com/github/Psousace/Fundos_Imobiliarios/blob/main/Coletando_dados_de_FII_original.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import requests
import pandas as pd
import numpy as np

## 1. Definindo cabeçalho da requisição

In [None]:
url = 'https://www.fundsexplorer.com.br/ranking'
headers = {
    'User-Agent':
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36'
        ' (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}


In [None]:
response = requests.get(url, headers=headers)
if response.status_code == 200:
    df = pd.read_html(response.content, encoding='utf-8')[0]

In [None]:
df.sort_values('Códigodo fundo', inplace=True)

In [None]:
df

In [None]:
df.info()

In [None]:
df.describe(include='all')

In [None]:
df['Setor'].unique()

In [None]:
df.columns

## 2. Limpeza e Formatação de Dados

In [None]:
df.isna().sum()

### Dados categóricos

In [None]:
categorical_columns = ['Códigodo fundo','Setor']

In [None]:
idx = df[df['Setor'].isna()].index
df.drop(idx, inplace=True)

In [None]:
df[categorical_columns].isna().sum()

In [None]:
df[categorical_columns] = df[categorical_columns].astype('category')

In [None]:
df.info()

In [None]:
df.isna().sum()

### Dados Numéricos

In [None]:
col_floats = list(df.iloc[:,2:-1].columns)

In [None]:
## Dados nulos
df[col_floats] = df[col_floats].fillna(value=0)

In [None]:
df[col_floats]

In [None]:
df[col_floats].head()

In [None]:
df[col_floats] = df[col_floats].applymap(lambda x: str(x).replace('R$', '').replace('.0','').replace('.','').replace('%','').replace(',','.'))

In [None]:
df[col_floats] = df[col_floats].astype('float')

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.describe()

- Dados de P/VPA tem atributos infinitos e está em uma escala diferente

In [None]:
## Check infinity values pandas
df[np.isinf(df[col_floats]).any(1)]

In [None]:
idx = df[np.isinf(df[col_floats]).any(1)].index
df.drop(idx, inplace=True)

In [None]:
df['P/VPA'] = df['P/VPA']/100

In [None]:
df.describe()

### Analisando a média por setor

In [None]:
df.columns

In [None]:
indicadores = ['Códigodo fundo',
               'Setor',
               'DY (12M)Acumulado',
               'VacânciaFísica',
               'VacânciaFinanceira',
               'P/VPA',
               'QuantidadeAtivos',
               'Liquidez Diária']

In [None]:
df_aux = df[indicadores]

In [None]:
df_aux

In [None]:
media_setor = df_aux.groupby('Setor').agg(['mean','std'])

In [None]:
media_setor

In [None]:
media_setor.loc['Residencial', ('DY (12M)Acumulado', 'mean')]

### Criando uma função com uma estratégia para oportunidades do mercado

In [None]:
def oportunidade_media_setor(df, setor='Shoppings', label_setor='Setor'):

    media_setor = df_aux.groupby('Setor').agg(['mean','std'])

    df_setor = df[df[label_setor].isin([setor])]

    filter_ = \
            (df_setor['QuantidadeAtivos'] > 5) &\
            (df_setor['Liquidez Diária'] > 5000) &\
            (df_setor['P/VPA'] < 1.0) &\
            (df_setor['DY (12M)Acumulado'] > media_setor.loc[setor, ('DY (12M)Acumulado','mean')])

    print('média do setor Yield: {}'.format(media_setor.loc[setor, ('DY (12M)Acumulado','mean')]))
    print('média do setor p/VPA: {}'.format(media_setor.loc[setor, ('P/VPA','mean')]))
    print('média do setor Ativos: {}'.format(media_setor.loc[setor, ('QuantidadeAtivos','mean')]))

    return df_setor[filter_]

In [None]:
list(df['Setor'].unique())

In [None]:
oportunidade = oportunidade_media_setor(df_aux, setor='Logística')
oportunidade.sort_values('DY (12M)Acumulado', ascending=False, inplace=True)
oportunidade