# Modificando dados com Pandas - parte 1
Frequentemente os dados que queremos analizar não estão armazenados de uma maneira conveniente para a análise desejada. Algumas operações comuns são a modificação de valores em colunas específicas, criação de novas colunas e a ateração dos íncices do DataFrame.

## Alterando os índices do DataFrame

In [8]:
import pandas as pd
dados_ibov = pd.read_csv('^BVSP.csv')
dados_ibov.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-08-03,120859.0,122619.0,120365.0,120586.0,120586.0,13027300
1,2023-08-04,120586.0,121442.0,119215.0,119508.0,119508.0,15065200
2,2023-08-07,119509.0,120104.0,118894.0,119380.0,119380.0,8726500
3,2023-08-08,119378.0,119553.0,117492.0,119090.0,119090.0,10246000
4,2023-08-09,119090.0,119090.0,117901.0,118409.0,118409.0,11245600


Como podemos ver, o Pandas adicionou índices inteiros, começando em zero, a cada uma das linhas dos dados. No entanto, a coluna 'Date' deveria servir como índice dos dados, uma vez que estes estão organizados por dia.

In [9]:
dados_ibov.set_index('Date', inplace=True)
dados_ibov.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-03,120859.0,122619.0,120365.0,120586.0,120586.0,13027300
2023-08-04,120586.0,121442.0,119215.0,119508.0,119508.0,15065200
2023-08-07,119509.0,120104.0,118894.0,119380.0,119380.0,8726500
2023-08-08,119378.0,119553.0,117492.0,119090.0,119090.0,10246000
2023-08-09,119090.0,119090.0,117901.0,118409.0,118409.0,11245600


<div class="alert alert-block alert-info">
<b>OBS:</b> Note o parâmetro <tt>inplace</tt>. Ele indica ao Pandas que queremos a modificação feita no DataFrame carregado na memódia do computador. O comportamento padrão para muitos métodos da classe DataFrame é a criação de um novo objeto no qual a modificação estará feita.
</div>

## Mudando os nomes das colunas
Outra modificação muito comum é a mudança ou padronização dos nomes das colunas. Em especial, nomes de colunas com espaços são problemáticos:

In [10]:
dados_ibov.Close.head()

Date
2023-08-03    120586.0
2023-08-04    119508.0
2023-08-07    119380.0
2023-08-08    119090.0
2023-08-09    118409.0
Name: Close, dtype: float64

Note que no exemplo acima utilizamos o nome da coluna `Close` como uma propriedade do objeto `dados_ibov`. Isso não seria possível para a coluna `Ajd Close` por conta do espaço no nome. Teríamos um erro de sintaxe se tentássemos.

Dessa forma, seria ideal substituir o espaço do nome da coluna por um "_" (_underline_).

In [11]:
dados_ibov.columns = dados_ibov.columns.str.replace(' ', '_')
dados_ibov.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj_Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-03,120859.0,122619.0,120365.0,120586.0,120586.0,13027300
2023-08-04,120586.0,121442.0,119215.0,119508.0,119508.0,15065200
2023-08-07,119509.0,120104.0,118894.0,119380.0,119380.0,8726500
2023-08-08,119378.0,119553.0,117492.0,119090.0,119090.0,10246000
2023-08-09,119090.0,119090.0,117901.0,118409.0,118409.0,11245600


Nesse exemplo utilizamos o método `str.replace()` para mudar todos os caracteres " " (espaço) para "_" (underline) nas colunas do DataFrame.

Uma outra padronização comum é a remoção de letras maiúsculas, para facilitar a digitação de código e evitar erros. Para isso podemos utilizar compreenção de listas do python.

In [12]:
dados_ibov.columns = [nome.lower() for nome in dados_ibov.columns]
dados_ibov.head()

Unnamed: 0_level_0,open,high,low,close,adj_close,volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-03,120859.0,122619.0,120365.0,120586.0,120586.0,13027300
2023-08-04,120586.0,121442.0,119215.0,119508.0,119508.0,15065200
2023-08-07,119509.0,120104.0,118894.0,119380.0,119380.0,8726500
2023-08-08,119378.0,119553.0,117492.0,119090.0,119090.0,10246000
2023-08-09,119090.0,119090.0,117901.0,118409.0,118409.0,11245600


Nesse exemplo tilizamos o método `lower()` da classe String do python, que converte todas as letras para minúsculas. Essa operação é feita em cada um dos nomes das colunas e os resultados serão armazenados como elementos de uma nova lista. Essa nova lista é então utilizada para alterar os nomes das colunas originais do DataFrame. Alternativamente, podemos utilizar também a função `str.lower()` do Pandas que tem a mesma finalidade. Apenas com o objetivo de observarmos a mudança, no exemplo vamos mudar as colunas para maiúsculas (com a função `str.upper()`).

In [13]:
dados_ibov.columns = dados_ibov.columns.str.upper()
dados_ibov.head()

Unnamed: 0_level_0,OPEN,HIGH,LOW,CLOSE,ADJ_CLOSE,VOLUME
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-03,120859.0,122619.0,120365.0,120586.0,120586.0,13027300
2023-08-04,120586.0,121442.0,119215.0,119508.0,119508.0,15065200
2023-08-07,119509.0,120104.0,118894.0,119380.0,119380.0,8726500
2023-08-08,119378.0,119553.0,117492.0,119090.0,119090.0,10246000
2023-08-09,119090.0,119090.0,117901.0,118409.0,118409.0,11245600
