### Módulo 3: Manipulação de Dados:


Neste módulo, abordaremos diferentes técnicas de manipulação de dados usando a biblioteca Pandas. Vamos focar em três áreas principais:

## Tópicos deste Módulo:

- Tratamento de Dados
- Manipulação de Colunas
- Aplicação de Funções em Colunas


## Tratamento de Dados

O tratamento de dados é uma etapa fundamental na preparação de um dataset, garantindo que os dados estejam limpos e prontos para a análise. Duas das principais tarefas nessa etapa são lidar com valores nulos e remover registros duplicados.

- **Valores Nulos**: Dados ausentes são comuns em datasets e podem comprometer a precisão das análises. Vamos demonstrar como identificar e tratar esses valores para minimizar o impacto nos resultados.
- **Valores Duplicados**: Registros duplicados podem distorcer as análises e gerar conclusões incorretas. É essencial saber como detectá-los e removê-los para garantir a integridade do dataset.

### Exemplo Prático
1. **Tratamento de Valores Nulos**: Mostraremos como preencher valores ausentes com técnicas apropriadas, como substituição pela média ou mediana, ou até mesmo a remoção de linhas com muitos dados faltantes.
2. **Remoção de Duplicatas**: Explicaremos como identificar e excluir registros duplicados, evitando que esses dados repetidos prejudiquem a análise.



In [8]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
data = {'Nome': ['Ana', 'Bruno', 'Carlos', np.nan, 'Miriam', 'Carlos', 'Miriam'],
        'Idade': [60, 35, 45, np.nan, 29, 45,29],
        'Salário': [5000, 7000, 10000, 8500, np.nan,10000, np.nan],
        'Departamento': ['RH', 'Financeiro', 'TI', 'Financeiro', 'TI','TI','RH']}

df = pd.DataFrame(data)

# Visualizando o DataFrame

print("DataFrame Original:")
print(df)

# --- Tratamento de Dados ---

# 1. Tratamento de Valores Nulos
# Verificando os valores nulos
print("\nValores Nulos por Coluna:\n")
print(df.isnull().sum())

# Preenchendo valores nulos na coluna 'Nome' com 'Desconhecido'
df['Nome'] = df['Nome'].fillna('Desconhecido')

# Preenchendo valores nulos na coluna 'Idade' e 'Salário' com a média das colunas
df['Idade'].fillna(df['Idade'].mean(), inplace=True)
df['Salário'].fillna(df['Salário'].mean(), inplace=True)

print("\nDataFrame após o tratamento de valores nulos:\n")
print(df)

# 2. Remoção de Duplicatas
# Adicionando uma linha duplicada para o exemplo
#df_dup = df.append(df.iloc[1], ignore_index=True)

print("\nDataFrame com duplicatas:\n")
print(df)

# Removendo as duplicatas
df= df.drop_duplicates()

print("\nDataFrame após a remoção de duplicatas:\n")
print(df)


DataFrame Original:
     Nome  Idade  Salário Departamento
0     Ana   60.0   5000.0           RH
1   Bruno   35.0   7000.0   Financeiro
2  Carlos   45.0  10000.0           TI
3     NaN    NaN   8500.0   Financeiro
4  Miriam   29.0      NaN           TI
5  Carlos   45.0  10000.0           TI
6  Miriam   29.0      NaN           RH

Valores Nulos por Coluna:

Nome            1
Idade           1
Salário         2
Departamento    0
dtype: int64

DataFrame após o tratamento de valores nulos:

           Nome  Idade  Salário Departamento
0           Ana   60.0   5000.0           RH
1         Bruno   35.0   7000.0   Financeiro
2        Carlos   45.0  10000.0           TI
3  Desconhecido   40.5   8500.0   Financeiro
4        Miriam   29.0   8100.0           TI
5        Carlos   45.0  10000.0           TI
6        Miriam   29.0   8100.0           RH

DataFrame com duplicatas:

           Nome  Idade  Salário Departamento
0           Ana   60.0   5000.0           RH
1         Bruno   35.0   7000

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Idade'].fillna(df['Idade'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salário'].fillna(df['Salário'].mean(), inplace=True)


## Manipulação de Colunas

A manipulação de colunas no Pandas é essencial para preparar e organizar os dados, facilitando a análise. As operações comuns incluem a criação de novas colunas, exclusão de colunas desnecessárias e renomeação de colunas para melhorar a clareza.

- **Criação de novas colunas**: Adiciona colunas com base em cálculos ou transformações dos dados existentes.
- **Exclusão de colunas**: Remove colunas que não são mais relevantes para a análise.
- **Renomeação de colunas**: Altera o nome de colunas para torná-los mais descritivos e intuitivos.

### Exemplo Prático
1. **Criação de uma nova coluna**: Uma coluna chamada `Bonificação` é adicionada, calculando 10% do valor do salário.
2. **Exclusão de uma coluna**: A coluna `Departamento` é removida, pois não é necessária para a análise atual.
3. **Renomeação de uma coluna**: A coluna `Salário` é renomeada para `Salário Bruto` para indicar que os valores representam o total antes de descontos.


In [9]:
# --- Manipulação de Colunas ---
# Criando um DataFrame de exemplo
data = {'Nome': ['Ana', 'Bruno', 'Carlos', np.nan, 'Miriam', 'Carlos', 'Miriam'],
        'Idade': [60, 35, 45, np.nan, 29, 45,29],
        'Salário': [5000, 7000, 10000, 8500, np.nan,10000, np.nan],
        'Departamento': ['RH', 'Financeiro', 'TI', 'Financeiro', 'TI','TI','TI']}

df = pd.DataFrame(data)

# 1. Criação de nova coluna (Exemplo: Bonificação de 10% sobre o salário)
df['Bonificação'] = df['Salário'] * 0.10
print("\nDataFrame após criação da coluna 'Bonificação':")
print(df)

# 2. Exclusão de uma coluna (Exemplo: Remover a coluna 'Departamento')
df = df.drop(columns=['Departamento'])
print("\nDataFrame após exclusão da coluna 'Departamento':")
print(df)

# 3. Renomeação de uma coluna (Exemplo: Renomeando 'Salário' para 'Salário Bruto')
df.rename(columns={'Salário': 'Salário Bruto'}, inplace=True)
print("\nDataFrame após a renomeação da coluna 'Salário' para 'Salário Bruto':")
print(df)



DataFrame após criação da coluna 'Bonificação':
     Nome  Idade  Salário Departamento  Bonificação
0     Ana   60.0   5000.0           RH        500.0
1   Bruno   35.0   7000.0   Financeiro        700.0
2  Carlos   45.0  10000.0           TI       1000.0
3     NaN    NaN   8500.0   Financeiro        850.0
4  Miriam   29.0      NaN           TI          NaN
5  Carlos   45.0  10000.0           TI       1000.0
6  Miriam   29.0      NaN           TI          NaN

DataFrame após exclusão da coluna 'Departamento':
     Nome  Idade  Salário  Bonificação
0     Ana   60.0   5000.0        500.0
1   Bruno   35.0   7000.0        700.0
2  Carlos   45.0  10000.0       1000.0
3     NaN    NaN   8500.0        850.0
4  Miriam   29.0      NaN          NaN
5  Carlos   45.0  10000.0       1000.0
6  Miriam   29.0      NaN          NaN

DataFrame após a renomeação da coluna 'Salário' para 'Salário Bruto':
     Nome  Idade  Salário Bruto  Bonificação
0     Ana   60.0         5000.0        500.0
1   Bruno  

## Métodos `apply` e `map` no Pandas

Os métodos `apply` e `map` no Pandas são usados para transformar os dados em um DataFrame ou Série, aplicando funções de forma eficiente.

### `apply`
- Permite aplicar uma função em cada elemento de uma coluna (ou linha) de um DataFrame ou Série.
- É útil para operações mais complexas ou personalizadas, que envolvem condições ou cálculos.
- A função passada para `apply` pode retornar qualquer coisa, desde um valor único até um objeto mais complexo.

**Exemplo**: Classificar a idade em faixas etárias (`Jovem`, `Adulto`, `Sênior`).

### `map`
- É usado principalmente em Séries para substituir valores com base em um mapeamento (dicionário) ou função.
- Ideal para operações simples de substituição ou transformação de valores em uma coluna.
- Retorna uma nova Série com os valores modificados.

**Exemplo**: Mapear valores de salário para categorias (`Baixa`, `Média`, `Alta`).


In [10]:
# --- Aplicação de Funções em Colunas ---

# 1. Usando apply (Exemplo: Classificação de faixas etárias)
def classificar_idade(idade):
    if idade < 30:
        return 'Jovem'
    elif 30 <= idade < 50:
        return 'Adulto'
    else:
        return 'Sênior'

# Aplicando a função para classificar a faixa etária
df['Faixa Etária'] = df['Idade'].apply(classificar_idade)
print("\nDataFrame após aplicação de função com apply:\n")
print(df)

# 2. Usando map (Exemplo: Mapear faixas salariais)
faixa_salarial = {5000: 'Baixa', 7000: 'Média', 8500: 'Média-Alta', 10000: 'Alta'}

# Aplicando o mapeamento para categorizar os salários
df['Faixa Salarial'] = df['Salário Bruto'].map(faixa_salarial)

print("\nDataFrame após aplicação de função com map:\n")
print(df)



DataFrame após aplicação de função com apply:

     Nome  Idade  Salário Bruto  Bonificação Faixa Etária
0     Ana   60.0         5000.0        500.0       Sênior
1   Bruno   35.0         7000.0        700.0       Adulto
2  Carlos   45.0        10000.0       1000.0       Adulto
3     NaN    NaN         8500.0        850.0       Sênior
4  Miriam   29.0            NaN          NaN        Jovem
5  Carlos   45.0        10000.0       1000.0       Adulto
6  Miriam   29.0            NaN          NaN        Jovem

DataFrame após aplicação de função com map:

     Nome  Idade  Salário Bruto  Bonificação Faixa Etária Faixa Salarial
0     Ana   60.0         5000.0        500.0       Sênior          Baixa
1   Bruno   35.0         7000.0        700.0       Adulto          Média
2  Carlos   45.0        10000.0       1000.0       Adulto           Alta
3     NaN    NaN         8500.0        850.0       Sênior     Média-Alta
4  Miriam   29.0            NaN          NaN        Jovem            NaN
5  C

### Exercício Prático

Você foi contratado para realizar uma análise de uma loja de roupas, focando nos clientes. As informações disponíveis incluem: itens comprados (calça, camisa, bermuda, blusa, blusa), quantidade comprada, valor unitário, quantidade de clientes satisfeitos e quantidade de clientes insatisfeitos.

A base de dados está disponível em um arquivo chamado `loja_roupasv1.csv`. Realize as seguintes etapas:

1. **Tratar valores nulos e negativos.**
2. **Remover duplicatas.**
3. **Criar uma coluna que informe o valor total de cada item (preço coletivo).**
4. **Utilizar a função `apply` para criar uma nova coluna que classifique a satisfação geral:**
   - Abaixo de 25%: Ruim
   - Entre 25% e 50%: Regular
   - Entre 50% e 75%: Bom
   - Acima de 75%: Muito Bom



In [12]:
import pandas as pd

# Leitura do arquivo CSV
dfn = pd.read_csv('loja_roupas_expanded.csv')

# Passo 1: Tratamento de valores nulos e negativos
dfn.fillna(0, inplace=True)
dfn = dfn[(dfn['quantidade_comprada'] >= 0) & (dfn['valor_unitario'] >= 0) &
        (dfn['clientes_satisfeitos'] >= 0) & (dfn['clientes_insatisfeitos'] >= 0)]

# Passo 2: Remoção de duplicatas
dfn.drop_duplicates(inplace=True)

# Passo 3: Criação da coluna com o preço coletivo
dfn['preco_coletivo'] = dfn['quantidade_comprada'] * dfn['valor_unitario']

# Passo 4: Classificação da satisfação geral
def classifica_satisfacao(row):
    total_clientes = row['clientes_satisfeitos'] + row['clientes_insatisfeitos']
    if total_clientes == 0:
        return "Sem Dados"
    percentual_satisfacao = (row['clientes_satisfeitos'] / total_clientes) * 100

    if percentual_satisfacao < 25:
        return "Ruim"
    elif percentual_satisfacao < 50:
        return "Regular"
    elif percentual_satisfacao < 75:
        return "Bom"
    else:
        return "Muito Bom"

dfn['satisfacao_geral'] = dfn.apply(classifica_satisfacao, axis=1)

# Exibindo o DataFrame final
print(dfn)


FileNotFoundError: [Errno 2] No such file or directory: 'loja_roupas_expanded.csv'