In [1]:
import pandas as pd
import numpy as np

# Mudanças nos Dados

Muitas vezes os dados obtidos podem apresentar não ser os dados que buscamos. Para solucionar alguns dos problemas que podemos encontrar, mostraremos algumas mudanças que podemos aplicar nos dados. Para isso, foi criado um dataset de alunos do ensino infantil, sobre qual sala eles estudam, qual a média de notas deles (de 0 a 5), a idade e o doce favorito.

- [Documentação do método apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [2]:
matriz=[["AgUA",  4.8, 5, "Pudim"],
        ["AR",    2.8, 5, "Chocolate"],
        ["TErrA", 4.3, 6, "Maria Mole"],
        ["TeRRa", 4,   5, "Maria mole"],
        ["Ar",    3.5, 4, "pudim"]]
data = pd.DataFrame(matriz, columns=["Sala", "Média", "Idade", "Doce favorito"])

In [3]:
data.head()

Unnamed: 0,Sala,Média,Idade,Doce favorito
0,AgUA,4.8,5,Pudim
1,AR,2.8,5,Chocolate
2,TErrA,4.3,6,Maria Mole
3,TeRRa,4.0,5,Maria mole
4,Ar,3.5,4,pudim


## .apply()

Verificamos que os dados sobre as salas e o doce favorito dos alunos apresentam alguns erros de digitação. Na coluna sala, há uma mescla entre minúsculas e maiúsculas nas palavras. Já na coluna Doce favorito podemos verificar que tem palavras que começam com com maiúsculas e outras com minusculas.

Para consertar isso, podemos utilizar a função `.apply()` para converter as strings para letras minúsculas. A função `.apply()` recebe uma função e aplica essa função em cada valor da coluna.

In [4]:
data1=data.copy()

def minuscula(x):
    return x.lower()

data1.Sala = data.Sala.apply(minuscula)
data1["Doce favorito"] = data1["Doce favorito"].apply(minuscula)

In [5]:
data1

Unnamed: 0,Sala,Média,Idade,Doce favorito
0,agua,4.8,5,pudim
1,ar,2.8,5,chocolate
2,terra,4.3,6,maria mole
3,terra,4.0,5,maria mole
4,ar,3.5,4,pudim


## Extra: outros métodos de alteração
Podemos realizar outras mudanças nas colunas do dataset sem precisar utilizar `.apply()`. Estas mudanças podem ser realizadas quando as operações são mais simples, podendo ser aplicadas tanto em colunas de string, quanto em colunas numéricas.

Para exemplificar algumas operações possíveis, iremos realizar:

1. Trocar a base de média de notas de 0 a 5 para 0 a 10. Para isto, iremos multiplicar todas as notas por 2.

2. Adicionar o andar da sala da turma de alunos. Como todos os alunos da educação infantil ficam no primeiro andar, iremos adicionar " 1" junto ao nome da sala.

In [6]:
data1["Média"] = data1["Média"] * 2

In [7]:
data1

Unnamed: 0,Sala,Média,Idade,Doce favorito
0,agua,9.6,5,pudim
1,ar,5.6,5,chocolate
2,terra,8.6,6,maria mole
3,terra,8.0,5,maria mole
4,ar,7.0,4,pudim


In [8]:
data1.Sala = data1.Sala + " 1"

In [9]:
data1

Unnamed: 0,Sala,Média,Idade,Doce favorito
0,agua 1,9.6,5,pudim
1,ar 1,5.6,5,chocolate
2,terra 1,8.6,6,maria mole
3,terra 1,8.0,5,maria mole
4,ar 1,7.0,4,pudim
