### Tratando Dados


Tratar dados é o processo de limpar, transformar e preparar dados para análise. Aqui estão os principais aspectos do tratamento de dados:

1. **Limpeza de Dados**: Isso envolve identificar e lidar com valores ausentes, duplicados ou inconsistentes nos dados. Isso é importante para garantir que os dados sejam precisos e confiáveis.
2. **Transformação de Dados**: Isso inclui converter os dados em um formato adequado para análise, como alterar tipos de dados, renomear colunas, criar novas variáveis ou aplicar funções para extrair informações úteis dos dados existentes.
3. **Padronização de Dados**: Isso envolve garantir que os dados estejam em um formato consistente e compatível. Isso pode incluir padronizar unidades de medida, datas ou categorias.
4. **Normalização de Dados**: Isso é especialmente importante quando os dados têm escalas diferentes, o que pode distorcer análises. Normalizar os dados significa ajustá-los para uma escala padrão, como valores entre 0 e 1.
5. **Manipulação de Valores Ausentes**: Existem várias abordagens para lidar com valores ausentes, como removê-los, preenchê-los com valores médios ou interpolá-los com base em valores existentes.
6. **Detecção e Tratamento de Outliers**: Outliers são valores extremos que podem distorcer análises estatísticas. Identificar e lidar com outliers é importante para garantir que as análises sejam robustas e precisas.

Em resumo, tratar dados é um passo fundamental no processo de análise de dados. Garante que os dados sejam limpos, consistentes e prontos para análise, permitindo que os analistas extraiam insights valiosos e tomem decisões informadas.

In [4]:
!pip3 install openpyxl



In [1]:
import pandas as pd

In [None]:
df = pd.read_excel('Sao_paulo.xlsx')

In [None]:
auxiliar = df.loc[10031]

auxiliar

In [5]:
def limpa_preco(linha):
    linha['price'] = linha['price'].replace('R$ ', '')
    linha['price'] = linha['price'].replace('\n ', '')
    linha['price'] = linha['price'].replace('/Mês', '')
    linha['price'] = linha['price'].replace('                            ', '')
    return linha

In [None]:
df.apply(lambda x: limpa_preco(x), axis=1)

In [None]:
def ajusta_alugueis(linha):
    linha['price'] = linha['price'].replace('.', '')
    preco = int(linha['price'])
    if(preco < 10000):
        preco = preco * 200
    linha['price'] = preco

    return linha

In [None]:
ajusta_alugueis(auxiliar)

In [None]:
df.apply(lambda x: ajusta_alugueis(x), axis=1)

#### Exercício de fixação


**Questão 1**

Carla, em análise de dados para seu mestrado, recebeu um dataset já tratado de uma pesquisa socioeconômica de bairros nos arredores de sua universidade.
Porém, ao abrir o arquivo, percebeu que a média de geladeiras, necessária para seu estudo, não foi calculada, tendo NaN em seu lugar. Então, Carla precisa preencher esses dados faltantes.
Como Carla pode preencher os dados faltantes com as respectivas médias?

R: **bairros['geladeiras'].fillna(value=mean_value, inplace=True)**

In [None]:
mean_value = bairros['geladeiras'].mean()
bairros['geladeiras'].fillna(value=mean_value, inplace=True)


**Questão 2**

Ao abrir um dataset para tratar dados, você percebeu que algumas colunas não apresentam o texto formatado como desejado.
Qual o melhor procedimento a tomar para corrigir o texto dos dados não tratados para o padrão desejado?

R: **Definir uma função de correção e usar o pandas.apply**

In [None]:
import pandas as pd

# Suponha que você tenha um DataFrame 'df' com uma coluna 'texto'

# Função de correção de texto
def corrigir_texto(texto):
    # Exemplo de correções: remover espaços extras e transformar em minúsculas
    return texto.strip().lower()

# Aplicar a função de correção na coluna 'texto'
df['texto'] = df['texto'].apply(corrigir_texto)

print(df)


A melhor abordagem para corrigir o texto dos dados não tratados para o padrão desejado é definir uma função de correção e usar o método `apply` do Pandas. Isso permite aplicar a função de correção a cada elemento da coluna de maneira flexível e eficiente.

Portanto, a opção correta seria:

```
Definir uma função de correção e usar o pandas.apply
```

Aqui está um exemplo de como isso pode ser feito:

```python
import pandas as pd

# Suponha que você tenha um DataFrame 'df' com uma coluna 'texto'

# Função de correção de texto
def corrigir_texto(texto):
    # Exemplo de correções: remover espaços extras e transformar em minúsculas
    return texto.strip().lower()

# Aplicar a função de correção na coluna 'texto'
df['texto'] = df['texto'].apply(corrigir_texto)

print(df)
```

# Neste exemplo, a função `corrigir_texto` remove espaços extras e transforma o texto em minúsculas. O método `apply` é então usado para aplicar esta função a cada elemento da coluna 'texto'.

