<a href="https://colab.research.google.com/github/thaisbarras/notebooks_exercicios/blob/main/Semana07_Trabalhando.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Semana 06 - Trabalhando com Dados

Trabalhar com dados é uma arte e uma ciência. Temos falado principalmente sobre a parte científica, mas nesta aula veremos um pouco da arte.

##Manipulando Dados

Uma das habilidades mais importantes de um cientista de dados é a manipulação de dados. É mais uma abordagem geral do que uma técnica específica, então vamos trabalhar com alguns exemplos. Sempre haverá um desafio diferente. Assim, o ideal é que você aprenda as técnicas de forma geral para saber aplicar em cada circunstância. Vamos resgatar alguns exemplos vistos na aula anterior. Lá, vimos que alguns dados vem *sujos*, *bagunçados* ou com informações que são desnecessárias. Lembre-se que no mundo do *Big Data*, temos uma massa de dados gigantesca e que chega em uma velocidade muito rápida... Então, cada *espacinho* de memória que salvamos será importante na eficiência computacional de nossos algoritmos.

###Removendo dados faltantes

No exemplo dos filmes da *Pixar*, ainda não tínhamos informações quanto ao valor de bilheteria do filme *Soul*. Portanto, gostaríamos de, por hora, remover essa linha de nossas tabelas:

In [4]:
import pandas as pd

dados_pixar = pd.read_csv("dados_pixar.csv", sep = ";")
#display(dados_pixar)
dados_pixar.dropna()

FileNotFoundError: ignored

Podemos repetir o mesmo para o conjunto de informações das personagens de *Star Wars*. Note que neste conjunto, é ainda mais complicado pois há valores faltantes em diferentes colunas. Através deste método, ele elimina automaticamente todas as linhas que contém **ao menos** um valor faltante:

In [None]:
dados_starwars = pd.read_excel("dados_starwars.xlsx")
#dados_starwars
dados_starwars.dropna()

Unnamed: 0,nome,altura,massa,cor_do_cabelo,cor_da_pele,genero,planeta_natal,especie
0,Luke Skywalker,172.0,77.0,Loiro,Branca clara,Masculino,Tatooine,Humano
3,Darth Vader,202.0,136.0,Nenhum,Branca,Masculino,Tatooine,Humano
4,Leia Organa,150.0,49.0,Castanho,Clara,Feminino,Alderaan,Humano
5,Owen Lars,178.0,120.0,"Castanho, Cinza",Clara,Masculino,Tatooine,Humano
6,Beru Whitesun lars,165.0,75.0,Castanho,Clara,Feminino,Tatooine,Humano
8,Biggs Darklighter,183.0,84.0,Preto,Clara,Masculino,Tatooine,Humano
9,Obi-Wan Kenobi,182.0,77.0,"Ruivo, Branco",Branca clara,Masculino,Stewjon,Humano
10,Anakin Skywalker,188.0,84.0,Loiro,Branca clara,Masculino,Tatooine,Humano
12,Chewbacca,228.0,112.0,Castanho,Desconhecida,Masculino,Kashyyyk,Wookiee
13,Han Solo,180.0,80.0,Castanho,Branca clara,Masculino,Corellia,Humano


Note que o `Data Frame` original permanece o mesmo. Ele somente se altera quando o salvamos da seguinte forma:

In [None]:
# antes de salvar com alteracao
print(dados_starwars.shape)
print(dados_starwars.dropna().shape)

(87, 8)
(50, 8)


In [None]:
# apos salvar as alteracoes
dados_starwars = dados_starwars.dropna()
print(dados_starwars.shape)
print(dados_starwars.dropna().shape)

(50, 8)
(50, 8)


Ou seja, saímos de uma tabela com **87 linhas e 8 colunas** para uma com **50 linhas e as mesmas 8 colunas**. As 37 linhas que continham valores faltantes foram excluídas. 

###Selecionando linhas e colunas específicas

A manipulação de dados é essencial durante a raspagem de dados. Muitas vezes (se não todas), a tradução do *HTML* para uma tabela no Python não é perfeitamente realizada e assim, abre-se o espaço para usarmos nosso talento com as técnicas de organização e limpeza da base de dados. Retorne ao exemplo da raspagem de dados sobre o Rio de Janeiro. 

In [14]:
import requests
from bs4 import BeautifulSoup

# retirando o texto do HTML de uma pag na web
url = requests.get('https://pt.wikipedia.org/wiki/Rio_de_Janeiro_(estado)').text
busca = BeautifulSoup(url,'lxml')
tabela = busca.find_all('table')

# tab 1: crescimento populacional
cresc_pop = pd.read_html(str(tabela))[6]
cresc_pop

Unnamed: 0_level_0,Crescimento populacional,Crescimento populacional,Crescimento populacional,Crescimento populacional
Unnamed: 0_level_1,Censo,Pop.,Unnamed: 2_level_1,%±
0,1872,1 057 696,,
1,1890,1 399 535,,"32,3%"
2,1900,1 737 478,,"24,1%"
3,1920,2 717 244,,"56,4%"
4,1940,3 611 998,,"32,9%"
5,1950,4 674 645,,"29,4%"
6,1960,6 709 891,,"43,5%"
7,1970,9 110 324,,"35,8%"
8,1980,11 489 797,,"26,1%"
9,1991,12 783 761,,"11,3%"


**Temos 2 problemas:** Na linha 14, o conteúdo não condiz com o restante da tabela. E a coluna 3 é um *lixo* que está atrapalhando nossa análise. Vamos removê-las:

In [15]:
# selecionando linhas 1 ate 13 (indices 0 ate 12)
cresc_pop_nova = cresc_pop.iloc[0:13, :]

# selecionando colunas 1, 2 e 4 (indices 0, 1 e 3)
cresc_pop_nova = cresc_pop_nova.iloc[:, [0, 1, 3]]
cresc_pop_nova

Unnamed: 0_level_0,Crescimento populacional,Crescimento populacional,Crescimento populacional
Unnamed: 0_level_1,Censo,Pop.,%±
0,1872,1 057 696,
1,1890,1 399 535,"32,3%"
2,1900,1 737 478,"24,1%"
3,1920,2 717 244,"56,4%"
4,1940,3 611 998,"32,9%"
5,1950,4 674 645,"29,4%"
6,1960,6 709 891,"43,5%"
7,1970,9 110 324,"35,8%"
8,1980,11 489 797,"26,1%"
9,1991,12 783 761,"11,3%"


###Renomeando colunas (ou variáveis)

Durante as raspagem, os nomes acabaram se misturando e não ficando algo muito compreensível. Podemos alterá-los usando o seguinte comando:

In [16]:
# nomes anteriores
print(cresc_pop_nova.columns)

MultiIndex([('Crescimento populacional', 'Censo'),
            ('Crescimento populacional',  'Pop.'),
            ('Crescimento populacional',    '%±')],
           )


In [None]:
# novos nomes
cresc_pop_nova.columns = ['ano', 'populacao', 'crescimento_percentual']
print(cresc_pop_nova.columns)

Index(['ano', 'populacao', 'crescimento_percentual'], dtype='object')


In [None]:
cresc_pop_nova

Unnamed: 0,ano,populacao,crescimento_percentual
0,1872,1 057 696,
1,1890,1 399 535,"32,3%"
2,1900,1 737 478,"24,1%"
3,1920,2 717 244,"56,4%"
4,1940,3 611 998,"32,9%"
5,1950,4 674 645,"29,4%"
6,1960,6 709 891,"43,5%"
7,1970,9 110 324,"35,8%"
8,1980,11 489 797,"26,1%"
9,1991,12 783 761,"11,3%"


###Editando colunas (ou variáveis)

Para o ano de 2021, ainda possuímos apenas uma estimativa da contagem da população do Rio de Janeiro. Mas isso acaba *poluindo* nossa planilha. Vamos apenas trocar `Est. 2021` por `2021` (linha 13) da seguinte maneira:

In [None]:
# valor anterior
print(cresc_pop_nova["ano"].iloc[12])

# valor atualizado
cresc_pop_nova["ano"].iloc[12] = 2021
print(cresc_pop_nova["ano"].iloc[12])

Est. 2021
2021


###Verificando e alterando os tipos das variáveis

Analisar e verificar os tipos das variáveis é muito importante. Suponha que uma variável que naturalmente é numérica esteja classificada como texto e você necessite realizar um cálculo com ela. O Python ficará confuso e pode ser até que ele realize a tarefa mas entregará um resultado totalmente inesperado. Vamos verificar e modificar isso nesta tabela:

In [None]:
# antigo tipos
print(cresc_pop_nova.dtypes)

ano                       object
populacao                 object
crescimento_percentual    object
dtype: object


In [None]:
# novos tipos
cresc_pop_nova["ano"] = cresc_pop_nova["ano"].astype("int") # transforma para tipo 'int'

cresc_pop_nova["populacao"] = (cresc_pop_nova["populacao"]
                               .str.replace(u'\xa0', u'') # remove os espacos em branco
                               .astype("int")) # transforma para tipo 'int'

cresc_pop_nova["crescimento_percentual"] = (cresc_pop_nova["crescimento_percentual"]
                                            .str.replace('%', '') # remove %
                                            .str.replace(',', '.') # substitui ',' por '.'
                                            .astype("float"))
print(cresc_pop_nova.dtypes)


# Questão: Por que 'int' para ano e populacao e 'float' para crescimento populacional são as melhores escolhas? Justifique.

ano                         int64
populacao                   int64
crescimento_percentual    float64
dtype: object


Esclarecendo que o tipo `object` é algo que mistura texto com números. Isso pode confundir na hora de fazer um cálculo, por exemplo. Além disso, existem diversos tipos diferentes no Python. Vamos nos concentrar somente nos principais:

*   `integer`: Formato numérico sem casas decimais. Ex.: `3.14159265359...` é entendido pelo computador como `3`;
*   `float`: Formato numérico com casas decimais. Ex.: `1` é entendido pelo computador como `1.00000000...`;
*   `string`: Formato de texto. Ex.: Mesmo um número como `2023` é compreendido pelo computador como um texto similar a `texto`.

Agora podemos realizar diversos cálculos com as variáveis numéricas.

###Criando colunas (ou variáveis)

Removemos a informação de que para o ano de `2021`, a informação não passava de uma estimativa. Vamos criar uma coluna para inserir essa informação usando os seguintes comandos:

In [None]:
cresc_pop_nova["fonte"] = 'Censo'
cresc_pop_nova.loc[cresc_pop_nova['ano'] == 2021, 'fonte'] = 'Estimativa'

cresc_pop_nova

Unnamed: 0,ano,populacao,crescimento_percentual,fonte
0,1872,1057696,,Censo
1,1890,1399535,32.3,Censo
2,1900,1737478,24.1,Censo
3,1920,2717244,56.4,Censo
4,1940,3611998,32.9,Censo
5,1950,4674645,29.4,Censo
6,1960,6709891,43.5,Censo
7,1970,9110324,35.8,Censo
8,1980,11489797,26.1,Censo
9,1991,12783761,11.3,Censo


###Reordenando colunas (ou variáveis)

Gostaríamos de que a variável `fonte` fosse a primeira em nossa tabela. Podemos simplesmente ordenar nossa tabela usando algo que já apreendemos por aqui:

In [None]:
cresc_pop_nova = cresc_pop_nova.iloc[:, [3, 0, 1, 2]]

cresc_pop_nova

Unnamed: 0,crescimento_percentual,fonte,ano,populacao
0,,Censo,1872,1057696
1,32.3,Censo,1890,1399535
2,24.1,Censo,1900,1737478
3,56.4,Censo,1920,2717244
4,32.9,Censo,1940,3611998
5,29.4,Censo,1950,4674645
6,43.5,Censo,1960,6709891
7,35.8,Censo,1970,9110324
8,26.1,Censo,1980,11489797
9,11.3,Censo,1991,12783761


###Filtrando colunas (ou variáveis)

Por fim, muitas vezes temos interesse de parte dos nossos dados. Por exemplo, em uma base gigante de clientes, podemos ter interesse somente naqueles com idade maior ou igual a 40 anos. No nosso exemplo, vamos filtrar somente os dados a partir de 1950 da seguinte maneira:

In [None]:
cresc_pop_nova = cresc_pop_nova[cresc_pop_nova["ano"] >= 1950]

cresc_pop_nova

Unnamed: 0,crescimento_percentual,fonte,ano,populacao
5,29.4,Censo,1950,4674645
6,43.5,Censo,1960,6709891
7,35.8,Censo,1970,9110324
8,26.1,Censo,1980,11489797
9,11.3,Censo,1991,12783761
10,12.4,Censo,2000,14367083
11,11.3,Censo,2010,15989929
12,9.2,Estimativa,2021,17463349


> Ao longo do curso (e da vida), faremos esses tipos de manipulação de forma natural. Com o tempo, você será um(a) craque nesses procedimentos.

##Explorando Dados

Depois de identificar as perguntas que você está tentando responder e colocar as mãos em alguns dados, você pode ficar tentado mergulhar e começar imediatamente a construir modelos e obter respostas. Mas você deve resistir a esse desejo. Seu primeiro passo deve ser explorar seus dados.

###Explorando Dados Unidimensionais

O caso mais simples é quando você tem um conjunto de dados unidimensional, que é apenas uma coleção de números. Por exemplo, pode ser o número médio diário de minutos que cada usuário gasta em seu site, o número de vezes que cada vídeo de uma coleção de tutoriais foi assistido ou o número de páginas de cada livro de uma biblioteca. Um primeiro passo óbvio é calcular algumas estatísticas resumidas. Você gostaria de saber quantos pontos de dados você tem, o menor, o maior, a média e o desvio padrão. Ainda assim, não lhe dá uma grande compreensão sobre os dados. Um bom próximo passo é criar visualizações como um histograma ou um gráfico de barras. Vamos recuperar os dados sobre Estados utilizando a API do IBGE como vimos anteriormente. Lembrando que precisamos instalar essa biblioteca virtualmente:

In [6]:
pip install ibge

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Feito isso, encontramos os dados sobre os Estados brasileiros da seguinte forma:

In [7]:
import pandas as pd

from ibge.localidades import *

estados = Estados()
df_estados = pd.json_normalize(estados.json())
df_estados

Unnamed: 0,id,sigla,nome,regiao.id,regiao.sigla,regiao.nome
0,11,RO,Rondônia,1,N,Norte
1,12,AC,Acre,1,N,Norte
2,13,AM,Amazonas,1,N,Norte
3,14,RR,Roraima,1,N,Norte
4,15,PA,Pará,1,N,Norte
5,16,AP,Amapá,1,N,Norte
6,17,TO,Tocantins,1,N,Norte
7,21,MA,Maranhão,2,NE,Nordeste
8,22,PI,Piauí,2,NE,Nordeste
9,23,CE,Ceará,2,NE,Nordeste


Vamos obter a quantidade de Estados em cada região do país:

In [8]:
# quantidade de regioes
print(df_estados["regiao.sigla"].nunique())

# nome de cada regiao
print(df_estados["regiao.nome"].unique())

# numero de vezes que cada regiao aparece
# ou seja, o numero de Estados em cada regiao
print(df_estados["regiao.nome"].value_counts())

5
['Norte' 'Nordeste' 'Sudeste' 'Sul' 'Centro-Oeste']
Nordeste        9
Norte           7
Sudeste         4
Centro-Oeste    4
Sul             3
Name: regiao.nome, dtype: int64


###Duas Dimensões

Agora imagine que você tem um conjunto de dados com duas dimensões. Claro que você gostaria de entender cada dimensão individualmente. Mas você pode analisar ambos de forma conjunta. Isso será bem importante nos próximos Capítulos.

Por exemplo, considere um clássico conjunto de dados descrevendo o peso (em libras) e altura (em polegadas) de adultos saudáveis:

In [None]:
import requests
from bs4 import BeautifulSoup

# retirando o texto do HTML de uma pag na web
url = requests.get('http://socr.ucla.edu/docs/resources/SOCR_Data/SOCR_Data_Dinov_020108_HeightsWeights.html').text
busca = BeautifulSoup(url,'lxml')
tabela = busca.find_all('table')

# tabela com as medidas antropometricas
# Height(inches) = Altura(polegadas)
# Weight(pounds) = Peso(libras)
medidas_antro = pd.read_html(str(tabela), header = 0)[0]

# removendo a primeira coluna
medidas_antro = medidas_antro.iloc[:, 1:3]

# alterando os nomes para portugues
medidas_antro.columns = ['altura', 'peso']

# transformando altura de polegadas para cm
medidas_antro["altura"] = medidas_antro["altura"] * 2.54 

# transformando peso de libras para kg
medidas_antro["peso"] = medidas_antro["peso"] / 2.205

medidas_antro

Unnamed: 0,altura,peso
0,167.089607,51.243764
1,181.648633,61.899002
2,176.272800,69.399955
3,173.270164,64.551202
4,172.181037,65.440862
...,...,...
24995,176.535461,53.528889
24996,163.952580,54.509388
24997,164.334317,53.635147
24998,171.524117,59.985578


###Muitas Dimensões

Com muitas dimensões, você tem interesse em saber como todas se relacionam entre si. Porém, não é nada trivial realizar essa tarefa, uma vez que, como humanos, já temos muita dificuldades em entender figuras tridimensionais. Além disso, nesta realidade, não conseguimos ilustrar imagem com 4 ou mais dimensões. E no mundo real, seu problema terá muitas dimensões. Mas não se preocupe, vamos por partes.

Vamos utilizar como exemplo um banco de dados clássico que é bem útil para o treinamento de modelos de aprendizado de máquina. Veremos isso nos próximos Capítulos. Especificamente, este banco de dados trata de informações coletadas sobre diferentes flores de Íris.

Por ser muito utilizado, a biblioteca `scikit-learn` disponibiliza esse banco de forma direta através dos seguintes comandos:

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df["especie"] = iris.target

iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),especie
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [None]:
# renomeando variaveis
# compr_sep: comprimento da sepala
# larg_sep: largura da sepala
# compr_pet: comprimento da petala
# larg_pet: largura da petala
iris_df.columns = ['compr_sep', 'larg_sep', 'compr_pet', 'larg_pet', 'especie']

iris_df

Unnamed: 0,compr_sep,larg_sep,compr_pet,larg_pet,especie
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [None]:
# reordenando
iris_df = iris_df.iloc[:, [4, 0, 1, 2, 3]]

# reclassificando
iris_df.loc[iris_df["especie"] == 0, "especie"] = "Setosa"
iris_df.loc[iris_df["especie"] == 1, "especie"] = "Versicolor"
iris_df.loc[iris_df["especie"] == 2, "especie"] = "Virginica" 

iris_df

Unnamed: 0,especie,compr_sep,larg_sep,compr_pet,larg_pet
0,Setosa,5.1,3.5,1.4,0.2
1,Setosa,4.9,3.0,1.4,0.2
2,Setosa,4.7,3.2,1.3,0.2
3,Setosa,4.6,3.1,1.5,0.2
4,Setosa,5.0,3.6,1.4,0.2
...,...,...,...,...,...
145,Virginica,6.7,3.0,5.2,2.3
146,Virginica,6.3,2.5,5.0,1.9
147,Virginica,6.5,3.0,5.2,2.0
148,Virginica,6.2,3.4,5.4,2.3


Vamos ver um exemplo prático com dados reais do mercado financeiro. O *Yahoo! Finanças* disponibiliza diversos dados sobre mercado financeiro como a evolução de investimentos, ações na Bolsas de valores e criptomoedas.

In [9]:
pip install yfinance

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


De forma arbitrária, selecionamos 5 grandes ações brasileiras negociáveis na Bolsa de valores:


*   **B3SA3.SA**: B3 S.A. - Brasil, Bolsa, Balcão
*   **BBAS3.SA**: Banco do Brasil S.A.
*   **ELET3.SA**: Centrais Elétricas Brasileiras S.A. - Eletrobras
*   **EMBR3.SA**: Embraer S.A.
*   **PETR4.SA**: Petróleo Brasileiro S.A. - Petrobras

In [10]:
import yfinance as yf
import pandas as pd

# B3SA3.SA: B3 S.A. - Brasil, Bolsa, Balcão
# BBAS3.SA: Banco do Brasil S.A.
# EMBR3.SA: Centrais Elétricas Brasileiras S.A. - Eletrobrás
# EMBR3.SA: Embraer S.A.
# PETR4.SA: Petróleo Brasileiro S.A. - Petrobras
acoes_br = yf.download("B3SA3.SA BBAS3.SA ELET3.SA EMBR3.SA PETR4.SA", 
                       start = "2022-01-01", 
                       end = "2022-12-31")

acoes_br

[*********************100%***********************]  5 of 5 completed


Unnamed: 0_level_0,Adj Close,Adj Close,Adj Close,Adj Close,Adj Close,Close,Close,Close,Close,Close,...,Open,Open,Open,Open,Open,Volume,Volume,Volume,Volume,Volume
Unnamed: 0_level_1,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA,...,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2022-01-03,10.237950,26.147636,32.000744,25.240000,17.000307,10.72,28.820000,32.630001,25.240000,29.090000,...,11.19,29.129999,33.439999,24.820000,28.540001,31212300,16169300,3669800,15115200,52704700
2022-01-04,10.457608,26.174860,31.314243,25.219999,17.064590,10.95,28.850000,31.930000,25.219999,29.200001,...,10.76,29.120001,32.619999,25.400000,29.160000,42526400,11714800,3821000,10270000,51739200
2022-01-05,10.237950,25.739367,31.186749,23.719999,16.404215,10.72,28.370001,31.799999,23.719999,28.070000,...,10.87,28.820000,31.790001,24.950001,29.190001,29393700,13162800,6998900,12826700,78459800
2022-01-06,10.486259,25.948038,31.137714,23.870001,16.392527,10.98,28.600000,31.750000,23.870001,28.049999,...,10.60,28.420000,31.969999,23.760000,28.290001,55641200,10135500,4234800,13751000,61163100
2022-01-07,10.734568,25.975258,29.774521,24.070000,16.468498,11.24,28.629999,30.360001,24.070000,28.180000,...,10.91,28.610001,31.500000,23.709999,28.110001,40712800,8188700,8964000,8922100,47507600
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2022-12-23,13.165410,34.267910,43.189999,14.110000,25.120001,13.35,35.279999,43.189999,14.110000,25.120001,...,12.34,34.529999,42.830002,14.110000,24.129999,55312400,8744400,8749600,4744900,68387900
2022-12-26,13.234442,34.219345,42.860001,14.020000,24.940001,13.42,35.230000,42.860001,14.020000,24.940001,...,13.36,35.570000,43.000000,14.160000,25.120001,26468100,4552700,2088300,1853900,28765200
2022-12-27,12.770941,33.082912,41.730000,13.960000,25.110001,12.95,34.060001,41.730000,13.960000,25.110001,...,13.46,35.450001,42.930000,14.060000,25.250000,51364200,8865800,8171600,5498000,50803200
2022-12-28,13.214718,33.675407,42.509998,14.200000,24.799999,13.40,34.669998,42.509998,14.200000,24.799999,...,13.03,34.099998,42.080002,14.010000,25.100000,46427100,10725200,7246500,5391600,57293500


In [11]:
# separando somente os valores de fechamento
acoes_br = acoes_br.iloc[:, 5:10]

acoes_br

Unnamed: 0_level_0,Close,Close,Close,Close,Close
Unnamed: 0_level_1,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-01-03,10.72,28.820000,32.630001,25.240000,29.090000
2022-01-04,10.95,28.850000,31.930000,25.219999,29.200001
2022-01-05,10.72,28.370001,31.799999,23.719999,28.070000
2022-01-06,10.98,28.600000,31.750000,23.870001,28.049999
2022-01-07,11.24,28.629999,30.360001,24.070000,28.180000
...,...,...,...,...,...
2022-12-23,13.35,35.279999,43.189999,14.110000,25.120001
2022-12-26,13.42,35.230000,42.860001,14.020000,24.940001
2022-12-27,12.95,34.060001,41.730000,13.960000,25.110001
2022-12-28,13.40,34.669998,42.509998,14.200000,24.799999


In [12]:
# renomeando
acoes_br.columns = ['B3SA3.SA',	'BBAS3.SA',	'ELET3.SA',	'EMBR3.SA',	'PETR4.SA']
acoes_br.index.name = 'data'
acoes_br

Unnamed: 0_level_0,B3SA3.SA,BBAS3.SA,ELET3.SA,EMBR3.SA,PETR4.SA
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-01-03,10.72,28.820000,32.630001,25.240000,29.090000
2022-01-04,10.95,28.850000,31.930000,25.219999,29.200001
2022-01-05,10.72,28.370001,31.799999,23.719999,28.070000
2022-01-06,10.98,28.600000,31.750000,23.870001,28.049999
2022-01-07,11.24,28.629999,30.360001,24.070000,28.180000
...,...,...,...,...,...
2022-12-23,13.35,35.279999,43.189999,14.110000,25.120001
2022-12-26,13.42,35.230000,42.860001,14.020000,24.940001
2022-12-27,12.95,34.060001,41.730000,13.960000,25.110001
2022-12-28,13.40,34.669998,42.509998,14.200000,24.799999
