## Carregando dados

In [1]:
import pandas as pd
df = pd.read_csv('../dados/dados.csv')

## Primeiras linhas

In [2]:
df.head()

Unnamed: 0,Ticker,DY,Nome,Categoria
0,AAGR11,-,ASSET BANK AGRONEGÓCIOS FIAGRO IMOBILIARIO,Fiagro:
1,AAZQ11,1645,,Fiagro: Fiagro
2,ABCP11,862,Grand Plaza Shopping,Tijolo: Shoppings
3,AFCR11,-,,Outros: Indefinido
4,AFHI11,1289,AF INVEST CRI,Papel: Papéis


---
## Campo - DY
**Transformar valores para float**
***

In [3]:
df.groupby('DY')['Ticker'].count()

DY
-        188
0,05       1
0,09       1
0,12       1
0,17       1
        ... 
9,80       1
9,82       1
9,86       1
9,88       1
96,95      1
Name: Ticker, Length: 349, dtype: int64

*Substituindo '-' por '0'*

In [4]:
df['DY'] = df['DY'].str.replace('-','0')

*Substituindo '.' por '' em possível formatação de milhar*

In [5]:
df['DY'] = df['DY'].str.replace('.','')

*Substituindo ',' por '.'*

In [6]:
df['DY'] = df['DY'].str.replace(',','.')

*Convertendo para float*

In [7]:
df['DY'] = df['DY'].astype(float)

*Primeiras linhas*

In [8]:
df.DY.head()

0     0.00
1    16.45
2     8.62
3     0.00
4    12.89
Name: DY, dtype: float64

*Resumo estatístico*

In [9]:
df.DY.describe()

count     581.000000
mean       12.117022
std        69.559046
min         0.000000
25%         0.000000
50%         7.360000
75%        11.740000
max      1233.330000
Name: DY, dtype: float64

***
## Campo - Nome
**Tratar valores ausentes**
***

*Dados faltantes*

In [10]:
df['Nome'].isna().sum()

137

*Substituindo dados faltantes*

In [11]:
df['Nome'].fillna('-', inplace=True)

*Conferindo alterações*

In [12]:
df['Nome'].isna().sum()

0

*Primeiras linhas*

In [13]:
df['Nome'].head(10)

0          ASSET BANK AGRONEGÓCIOS FIAGRO IMOBILIARIO
1                                                   -
2                                Grand Plaza Shopping
3                                                   -
4                                       AF INVEST CRI
5                                                   -
6                                                   -
7    AUTONOMY EDIFÍCIOS CORPORATIVOS FUND. INV. IMOB.
8                                                   -
9                                     Torre Almirante
Name: Nome, dtype: object

---
## Campo - Categoria
**Padronizar valores**
***

*Campos vazios*

In [14]:
df.Categoria.isna().sum()

0

*Categorias*

In [15]:
df.Categoria.unique()

array(['Fiagro: ', 'Fiagro: Fiagro', 'Tijolo: Shoppings',
       'Outros: Indefinido', 'Papel: Papéis',
       'Tijolo: Lajes Corporativas', 'Sem categoria: ',
       'Papel: Fundo de Fundos', 'Fundo Misto: Misto',
       'Tijolo: Imóveis Residenciais', 'Fundos Imobiliários: ',
       'Tijolo: Imóveis Industriais e Logísticos',
       'Fundo Misto: Indefinido', 'Tijolo: Imóveis Comerciais - Outros',
       'Tijolo: Agências de Bancos', 'Tijolo: Hotéis',
       'Fundo Misto: Fundo de Desenvolvimento', 'Papel: ',
       'Tijolo: Varejo', 'Tijolo: Fundo de Desenvolvimento',
       'Tijolo: Educacional', 'Tijolo: Hospitalar', 'Fundo Misto: ',
       'Tijolo: ', 'Outros: Fundo de Desenvolvimento',
       'Fundos Imobiliários: Fundos Imobiliários', 'Fundo Misto: Papéis'],
      dtype=object)

*Quantidade de categorias*

In [16]:
df.Categoria.unique().size

27

*Quantidade de fundos por categoria*

In [17]:
df.Categoria.value_counts()

Categoria
Fundo Misto: Indefinido                     86
Papel: Papéis                               80
Tijolo: Lajes Corporativas                  64
Tijolo: Imóveis Industriais e Logísticos    45
Fundo Misto: Fundo de Desenvolvimento       43
Papel: Fundo de Fundos                      36
Sem categoria:                              34
Outros: Indefinido                          33
Tijolo: Shoppings                           32
Fundos Imobiliários:                        25
Fiagro: Fiagro                              23
Fundo Misto: Misto                          20
Fiagro:                                     16
Tijolo: Hospitalar                           6
Tijolo: Varejo                               6
Tijolo: Educacional                          5
Tijolo: Imóveis Comerciais - Outros          5
Tijolo: Imóveis Residenciais                 5
Tijolo: Hotéis                               4
Tijolo: Agências de Bancos                   4
Tijolo: Fundo de Desenvolvimento             3
Pap

*Padronizando valores*

In [18]:
categorias = {
    'Fiagro: ':'Fiagro',
    'Fiagro: Fiagro':'Fiagro',
    'Tijolo: Shoppings':'Tijolo',
    'Outros: Indefinido':'Outros',
    'Papel: Papéis':'Papel',
    'Tijolo: Lajes Corporativas':'Tijolo',
    'Sem categoria: ':'Outros',
    'Papel: Fundo de Fundos':'Papel',
    'Fundo Misto: Misto':'Fundo Misto',
    'Tijolo: Imóveis Residenciais':'Tijolo',
    'Fundos Imobiliários: ':'Outros',
    'Tijolo: Imóveis Industriais e Logísticos':'Tijolo',
    'Fundo Misto: Indefinido':'Fundo Misto',
    'Tijolo: Imóveis Comerciais - Outros':'Tijolo',
    'Tijolo: Agências de Bancos':'Tijolo',
    'Tijolo: Hotéis':'Tijolo',
    'Fundo Misto: Fundo de Desenvolvimento':'Fundo Misto',
    'Papel: ':'Papel',
    'Tijolo: Varejo':'Tijolo',
    'Tijolo: Fundo de Desenvolvimento':'Tijolo',
    'Tijolo: Educacional':'Tijolo',
    'Tijolo: Hospitalar':'Tijolo',
    'Fundo Misto: ':'Fundo Misto',
    'Tijolo: ':'Tijolo',
    'Outros: Fundo de Desenvolvimento':'Outros',
    'Fundos Imobiliários: Fundos Imobiliários':'Outros',
    'Fundo Misto: Papéis':'Fundo Misto'
}
df.Categoria = df.Categoria.map(categorias)

*Primeiras linhas*

In [19]:
df.Categoria.head(10)

0    Fiagro
1    Fiagro
2    Tijolo
3    Outros
4     Papel
5    Outros
6    Fiagro
7    Tijolo
8    Outros
9    Tijolo
Name: Categoria, dtype: object

*Conferindo alterações*

In [20]:
df.Categoria.isna().sum()

0

In [21]:
df.Categoria.unique()

array(['Fiagro', 'Tijolo', 'Outros', 'Papel', 'Fundo Misto'], dtype=object)

In [22]:
df.Categoria.value_counts()

Categoria
Tijolo         180
Fundo Misto    151
Papel          117
Outros          94
Fiagro          39
Name: count, dtype: int64

---
## Conferindo alterações 
---

In [23]:
df.shape

(581, 4)

In [24]:
df.isna().sum()

Ticker       0
DY           0
Nome         0
Categoria    0
dtype: int64

In [25]:
df.head()

Unnamed: 0,Ticker,DY,Nome,Categoria
0,AAGR11,0.0,ASSET BANK AGRONEGÓCIOS FIAGRO IMOBILIARIO,Fiagro
1,AAZQ11,16.45,-,Fiagro
2,ABCP11,8.62,Grand Plaza Shopping,Tijolo
3,AFCR11,0.0,-,Outros
4,AFHI11,12.89,AF INVEST CRI,Papel


In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 581 entries, 0 to 580
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Ticker     581 non-null    object 
 1   DY         581 non-null    float64
 2   Nome       581 non-null    object 
 3   Categoria  581 non-null    object 
dtypes: float64(1), object(3)
memory usage: 18.3+ KB


---
## Persistindo dados
---

In [27]:
df.to_csv('../dados/dados_tratados.csv',index=False)
df.to_excel('../dados/dados_tratados.xlsx',index=False)
df.to_json('../dados/dados_tratados.json', orient='records', indent=2)