In [11]:
# Importando biblioteca
import pandas as pd

In [12]:
# Carregando tabela e apelidando de 'df'
df = pd.read_csv("VendasTesouroDireto.csv", sep=';')
df

Unnamed: 0,Tipo Titulo,Vencimento do Titulo,Data Venda,PU,Quantidade,Valor
0,Tesouro IPCA+,15/05/2045,19/07/2022,1041280575,582267,606303316
1,Tesouro Prefixado,01/01/2025,19/07/2022,736962419,2118139,1560988841
2,Tesouro IPCA+ com Juros Semestrais,15/05/2055,19/07/2022,3950332418,114067,450602567
3,Tesouro IPCA+,15/08/2026,05/09/2022,3192498819,429111,1369936360
4,Tesouro Selic,01/03/2027,05/09/2022,12027671690,460925,5543854573
...,...,...,...,...,...,...
72136,Tesouro IPCA+ com Juros Semestrais,15/05/2055,15/03/2023,3951899879,103525,409120434
72137,Tesouro Prefixado,01/01/2029,15/03/2023,492562862,3111021,1532373407
72138,Tesouro IPCA+ com Juros Semestrais,15/08/2032,15/03/2023,4046625863,117369,474948430
72139,Tesouro Prefixado com Juros Semestrais,01/01/2033,15/03/2023,859683333,535121,460034604


In [13]:
# Vizualizando as primeiras informações foi possível percerber que
# o principal erro está nos tipos de dados identificados
# os quais todos estão como string
# A provável causa desses erros esta na utilização de caracteres inválidos
# que o pandas entende que são textos e não valores numéricos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72141 entries, 0 to 72140
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Tipo Titulo           72141 non-null  object
 1   Vencimento do Titulo  72141 non-null  object
 2   Data Venda            72141 non-null  object
 3   PU                    72141 non-null  object
 4   Quantidade            72141 non-null  object
 5   Valor                 72141 non-null  object
dtypes: object(6)
memory usage: 3.3+ MB


In [14]:
# Começo o tratamento trocando a ',' das colunas por um '.' para
# conseguir transformar o tipo de dado
colunas = ['PU', 'Quantidade', 'Valor']
for coluna in colunas:
    df[coluna] = df[coluna].str.replace(',', '.')

In [15]:
# Vizualizando se está correto agora
df.head(3)

Unnamed: 0,Tipo Titulo,Vencimento do Titulo,Data Venda,PU,Quantidade,Valor
0,Tesouro IPCA+,15/05/2045,19/07/2022,1041.280575,5822.67,6063033.16
1,Tesouro Prefixado,01/01/2025,19/07/2022,736.962419,21181.39,15609888.41
2,Tesouro IPCA+ com Juros Semestrais,15/05/2055,19/07/2022,3950.332418,1140.67,4506025.67


In [16]:
# Alterando o tipo de dado da coluna
# string ==> float
colunas = ['PU', 'Quantidade', 'Valor']
for coluna in colunas:
    df[coluna] = pd.to_numeric(df[coluna], errors='coerce')

In [17]:
# Vizualizando a conversão
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72141 entries, 0 to 72140
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Tipo Titulo           72141 non-null  object 
 1   Vencimento do Titulo  72141 non-null  object 
 2   Data Venda            72141 non-null  object 
 3   PU                    72141 non-null  float64
 4   Quantidade            72141 non-null  float64
 5   Valor                 72141 non-null  float64
dtypes: float64(3), object(3)
memory usage: 3.3+ MB


In [18]:
# Agora vamos tratar as colunas de data, que por estarem utilizando a "/"
# o pandas interpreta como texto
# PS: note que eu utilizo laços for para esses tratamentos para evitar 
# repetição de código e atingir uma melhor performance
colunas = ['Vencimento do Titulo', 'Data Venda']
for coluna in colunas:
    df[coluna] = pd.to_datetime(df[coluna], format='%d/%m/%Y')    

In [19]:
# Vizualizando agora se está correto
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72141 entries, 0 to 72140
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Tipo Titulo           72141 non-null  object        
 1   Vencimento do Titulo  72141 non-null  datetime64[ns]
 2   Data Venda            72141 non-null  datetime64[ns]
 3   PU                    72141 non-null  float64       
 4   Quantidade            72141 non-null  float64       
 5   Valor                 72141 non-null  float64       
dtypes: datetime64[ns](2), float64(3), object(1)
memory usage: 3.3+ MB


In [20]:
df.head(3)

Unnamed: 0,Tipo Titulo,Vencimento do Titulo,Data Venda,PU,Quantidade,Valor
0,Tesouro IPCA+,2045-05-15,2022-07-19,1041.280575,5822.67,6063033.16
1,Tesouro Prefixado,2025-01-01,2022-07-19,736.962419,21181.39,15609888.41
2,Tesouro IPCA+ com Juros Semestrais,2055-05-15,2022-07-19,3950.332418,1140.67,4506025.67


In [21]:
# Eliminando todas as linhas que apresentam pelo menos 1 campo null ou NaN
# para uma melhor análise por parte da equipe de analise de dados
df.dropna(inplace=True)

In [22]:
# Não havia nenhuma linha com campo vazio!
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72141 entries, 0 to 72140
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Tipo Titulo           72141 non-null  object        
 1   Vencimento do Titulo  72141 non-null  datetime64[ns]
 2   Data Venda            72141 non-null  datetime64[ns]
 3   PU                    72141 non-null  float64       
 4   Quantidade            72141 non-null  float64       
 5   Valor                 72141 non-null  float64       
dtypes: datetime64[ns](2), float64(3), object(1)
memory usage: 3.3+ MB


In [27]:
# Carregando a tabela em um arquivo novo
df.to_csv('bolsa_processado.csv', sep=';', index=False)