# Introdução ao Pandas: Limpeza e Transformação de Dados



*   Identificar e remover valores ausentes
*   Alterar colunas e filtrar informações


In [5]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo com valores ausentes
df = pd.DataFrame({
    'Nome': ['João', 'Maria', 'Pedro', np.nan, 'Ana'],
    'Idade': [25, np.nan, 30, 22, np.nan],
    'Salário': [3000, 4000, np.nan, np.nan, 5000]
})

display( df.info() )

# 1. Verificar valores ausentes em todo o DataFrame
valores_ausentes = df.isnull()
print(f'Valores ausentes :\n {valores_ausentes}')
display(df)
print('---------------------------------------\n\n')

# 2. Contar quantidade de valores ausentes por coluna
contagem_ausentes = df.isnull().sum()
print(f'Quantidade de valores ausentes por coluna :\n {contagem_ausentes}')
print('---------------------------------------\n\n')

# 3. Porcentagem de valores ausentes por coluna
porcentagem_ausentes = (df.isnull().sum() / len(df)) * 100
print(f'Porcentagem de valores ausentes por coluna :\n {porcentagem_ausentes}')
print('---------------------------------------\n\n')

# 4. Verificar linhas que contêm pelo menos um valor ausente
linhas_com_na = df[df.isnull().any(axis=1)]
print(f'Linhas com pelo menos um valor ausente :\n {linhas_com_na}')
print('---------------------------------------\n\n')
'''
- axis=0 refere-se às operações nas linhas (verticalmente):

Representa o índice (index)
Operações são aplicadas para baixo nas colunas

- axis=1 refere-se às operações nas colunas (horizontalmente):

Representa as colunas
Operações são aplicadas da esquerda para direita nas linhas
'''

# 5. Verificar quantidade total de valores ausentes no DataFrame
total_ausentes = df.isnull().sum().sum()
print(f'Quantidade total de valores ausentes no DataFrame :\n {total_ausentes}')
print('---------------------------------------\n\n')
# 6. Filtrar colunas com mais de 50% de valores ausentes
colunas_muitos_na = df.columns[df.isnull().mean() > 0.5]
print(f'Colunas com mais de 50% de valores ausentes :\n {colunas_muitos_na}')
print('---------------------------------------\n\n')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Nome     4 non-null      object 
 1   Idade    3 non-null      float64
 2   Salário  3 non-null      float64
dtypes: float64(2), object(1)
memory usage: 252.0+ bytes


None

Valores ausentes :
     Nome  Idade  Salário
0  False  False    False
1  False   True    False
2  False  False     True
3   True  False     True
4  False   True    False


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
2,Pedro,30.0,
3,,22.0,
4,Ana,,5000.0


---------------------------------------


Quantidade de valores ausentes por coluna :
 Nome       1
Idade      2
Salário    2
dtype: int64
---------------------------------------


Porcentagem de valores ausentes por coluna :
 Nome       20.0
Idade      40.0
Salário    40.0
dtype: float64
---------------------------------------


Linhas com pelo menos um valor ausente :
     Nome  Idade  Salário
1  Maria    NaN   4000.0
2  Pedro   30.0      NaN
3    NaN   22.0      NaN
4    Ana    NaN   5000.0
---------------------------------------


Quantidade total de valores ausentes no DataFrame :
 5
---------------------------------------


Colunas com mais de 50% de valores ausentes :
 Index([], dtype='object')
---------------------------------------




# abordagens para tratar valores ausentes ( as mais simples )

* descartar linhas com valores ausentes
* Preenchimento com valor específico
* Preenchimento com valores estatísticos ( media, moda, mediana)
* Preenchimento com método forward fill ( valor anterior)
* Preenchimento com método backward fill (proximo valor)


In [9]:
import pandas as pd
import numpy as np

# Criando DataFrame de exemplo
df = pd.DataFrame({
    'Nome': ['João', 'Maria', np.nan, 'Pedro', 'Ana'],
    'Idade': [25, np.nan, 30, np.nan, 45],
    'Salário': [3000, 4000, np.nan, 3500, 5000]
})

display(df)

# 1. Remoção de linhas com valores ausentes
df_sem_na = df.dropna()  # Remove todas as linhas com qualquer valor ausente
display(df_sem_na)
df_sem_na_parcial = df.dropna(thresh=2)
# Remove linhas com menos de 2 valores válidos
# thresh ...threshold = tolerancia
display(df_sem_na_parcial)



Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
2,,30.0,
3,Pedro,,3500.0
4,Ana,45.0,5000.0


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
4,Ana,45.0,5000.0


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
3,Pedro,,3500.0
4,Ana,45.0,5000.0


In [10]:
# 2. Preenchimento com valor específico
df_preenchido = df.fillna(0)  # Preenche todos NA com 0
display(df_preenchido)

df_preenchido_dict = df.fillna({
    'Idade': 20,
    'Salário': 1000
})  # Preenche diferentes colunas com valores específicos
display(df_preenchido_dict)

Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,0.0,4000.0
2,0,30.0,0.0
3,Pedro,0.0,3500.0
4,Ana,45.0,5000.0


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,20.0,4000.0
2,,30.0,1000.0
3,Pedro,20.0,3500.0
4,Ana,45.0,5000.0


In [11]:
# 3. Preenchimento com estatísticas
display(df)
df1 = df['Idade'].fillna(df['Idade'].mean())  # Média
df2 = df['Idade'].fillna(df['Idade'].median())  # Mediana
df3 = df['Idade'].fillna(df['Idade'].mode()[0])  # Moda

'''
MEDIANA

A mediana é o ponto do meio de um conjunto de dados.
Ela indica qual é o valor que está exatamente no meio
de um conjunto de dados, quando eles estão ordenados.
Se o número de elementos for ímpar, a mediana é o ponto
do meio dessa lista. A mediana nos diz que metade (50%)
dos valores do conjunto de dados está abaixo dela e a
outra metade está acima dela. A mediana é uma medida de
tendência central, assim como a moda.

Quando usar ??
- Melhor que a média para dados com outliers
- Útil para dados assimétricos
- Boa para análise de renda, preços de imóveis, etc.

MODA

Moda é a medida de tendência central que consiste no valor observado
com mais frequência em um conjunto de dados. Se um determinado time
fez, em dez partidas, a seguinte quantidade de
gols: 3, 2, 0, 3, 0, 4, 3, 2, 1, 3, 1;
a moda desse conjunto é de 3 gols.

Usos comuns:

Análise de preferências
Dados categóricos
Comportamento do consumidor
Pesquisas de opinião

'''

print('media')
display(df1)
print('mediana')
display(df2)
print('moda')
display(df3)

Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
2,,30.0,
3,Pedro,,3500.0
4,Ana,45.0,5000.0


media


Unnamed: 0,Idade
0,25.0
1,33.333333
2,30.0
3,33.333333
4,45.0


mediana


Unnamed: 0,Idade
0,25.0
1,30.0
2,30.0
3,30.0
4,45.0


moda


Unnamed: 0,Idade
0,25.0
1,25.0
2,30.0
3,25.0
4,45.0


In [12]:
# 4. Preenchimento com método forward fill
df_ffill = df.fillna(method='ffill')
# Preenche com o valor anterior
display(df)
display(df_ffill)

  df_ffill = df.fillna(method='ffill')


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
2,,30.0,
3,Pedro,,3500.0
4,Ana,45.0,5000.0


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,25.0,4000.0
2,Maria,30.0,4000.0
3,Pedro,30.0,3500.0
4,Ana,45.0,5000.0


In [13]:
# 5. Preenchimento com método backward fill
df_bfill = df.fillna(method='bfill')  # Preenche com o próximo valor
display(df)
display(df_bfill)

  df_bfill = df.fillna(method='bfill')  # Preenche com o próximo valor


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,,4000.0
2,,30.0,
3,Pedro,,3500.0
4,Ana,45.0,5000.0


Unnamed: 0,Nome,Idade,Salário
0,João,25.0,3000.0
1,Maria,30.0,4000.0
2,Pedro,30.0,3500.0
3,Pedro,45.0,3500.0
4,Ana,45.0,5000.0


#Principais considerações para cada método:

##Remoção (dropna)
* Vantagem: Mantém apenas dados completos
* Desvantagem: Pode perder informações importantes

##Preenchimento com valor fixo
* Vantagem: Simples de implementar
* Desvantagem: Pode distorcer

## Análises estatísticas
Preenchimento com estatísticas
* Vantagem: Mantém a distribuição dos dados
* Desvantagem: Pode reduzir a variância

## Forward/Backward Fill
* Vantagem: Útil para dados temporais
* Desvantagem: Pode não ser apropriado para dados não sequenciais

## A escolha do método depende de:

* Tipo de dados
* Quantidade de valores ausentes
* Mecanismo de ausência dos dados
* Objetivo da análise

----------------
# Principais métodos para manipular colunas e filtrar dados usando pandas:#

In [14]:
import pandas as pd
import numpy as np

# Criando DataFrame de exemplo
df = pd.DataFrame({
    'Nome': ['João', 'Maria', 'Pedro', 'Ana', 'Carlos'],
    'Idade': [25, 30, 35, 28, 40],
    'Salário': [3000, 4000, 5000, 3500, 6000],
    'Departamento': ['TI', 'RH', 'TI', 'Marketing', 'RH']
})

print(f'-- Frame original-- \n\n')
display(df)

# 1. SELEÇÃO DE COLUNAS
colunas_especificas = df[['Nome', 'Salário']]  # Selecionar múltiplas colunas
uma_coluna = df['Nome']  # Selecionar uma coluna

print(f'\n\n -- Seleção de colunas -- \n\n')
display(colunas_especificas)
display(uma_coluna)
print('---------------------------------------\n\n')

# 2. RENOMEAR COLUNAS
df_renomeado = df.rename(columns={
    'Nome': 'nome_completo',
    'Salário': 'salario_mensal'
})
print(f'\n\n -- Renomear Colunas -- \n\n')
display(df_renomeado)
print('---------------------------------------\n\n')

# 3. CRIAR NOVAS COLUNAS
df['Salário_Anual'] = df['Salário'] * 13  # Operação simples
df['Faixa_Etaria'] = np.where(df['Idade'] >= 30, 'Senior', 'Junior')  # Condição

print(f'\n\n -- Criar novas Colunas -- \n\n')
display(df)
print('---------------------------------------\n\n')

# 4. FILTROS BÁSICOS
funcionarios_ti = df[df['Departamento'] == 'TI']
salarios_altos = df[df['Salário'] > 4000]
jovens_ti = df[(df['Idade'] < 30) & (df['Departamento'] == 'TI')]

print(f'\n\n -- Filtros Basicos -- \n\n')
display(funcionarios_ti)
display(salarios_altos)
display(jovens_ti)


-- Frame original-- 




Unnamed: 0,Nome,Idade,Salário,Departamento
0,João,25,3000,TI
1,Maria,30,4000,RH
2,Pedro,35,5000,TI
3,Ana,28,3500,Marketing
4,Carlos,40,6000,RH




 -- Seleção de colunas -- 




Unnamed: 0,Nome,Salário
0,João,3000
1,Maria,4000
2,Pedro,5000
3,Ana,3500
4,Carlos,6000


Unnamed: 0,Nome
0,João
1,Maria
2,Pedro
3,Ana
4,Carlos


---------------------------------------




 -- Renomear Colunas -- 




Unnamed: 0,nome_completo,Idade,salario_mensal,Departamento
0,João,25,3000,TI
1,Maria,30,4000,RH
2,Pedro,35,5000,TI
3,Ana,28,3500,Marketing
4,Carlos,40,6000,RH


---------------------------------------




 -- Criar novas Colunas -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior
1,Maria,30,4000,RH,52000,Senior
2,Pedro,35,5000,TI,65000,Senior
3,Ana,28,3500,Marketing,45500,Junior
4,Carlos,40,6000,RH,78000,Senior


---------------------------------------




 -- Filtros Basicos -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior
2,Pedro,35,5000,TI,65000,Senior


Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
2,Pedro,35,5000,TI,65000,Senior
4,Carlos,40,6000,RH,78000,Senior


Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior


In [16]:
# 5. ORDENAÇÃO
df_ordenado_salario = df.sort_values('Salário', ascending=False)
df_ordenado_multiplo = df.sort_values(['Departamento', 'Salário'])

print(f'\n\n -- Ordenação -- \n\n')
display(df_ordenado_salario)
display(df_ordenado_multiplo)

# 6. AGRUPAMENTO
media_salario_dept = df.groupby('Departamento')['Salário'].mean()
resumo_dept = df.groupby('Departamento').agg({
    'Salário': ['mean', 'min', 'max'],
    'Idade': 'mean'
})
print(f'\n\n -- Agrupamento -- \n\n')
display(media_salario_dept)
display(resumo_dept)



# 7. APLICAR FUNÇÕES
df['Salário'] = df['Salário'].apply(lambda x: round(x, 2))

print(f'\n\n -- Aplicar Funções -- \n\n')
display(df)

# 8. FILTROS COM STRINGS
contem_a = df[df['Nome'].str.contains('a')]
comeca_com = df[df['Nome'].str.startswith('J')]
print(f'\n\n -- filtros com Strings -- \n\n')
display(contem_a)
display(comeca_com)




 -- Ordenação -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
4,Carlos,40,6000,RH,78000,Senior
2,Pedro,35,5000,TI,65000,Senior
1,Maria,30,4000,RH,52000,Senior
3,Ana,28,3500,Marketing,45500,Junior
0,João,25,3000,TI,39000,Junior


Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
3,Ana,28,3500,Marketing,45500,Junior
1,Maria,30,4000,RH,52000,Senior
4,Carlos,40,6000,RH,78000,Senior
0,João,25,3000,TI,39000,Junior
2,Pedro,35,5000,TI,65000,Senior




 -- Agrupamento -- 




Unnamed: 0_level_0,Salário
Departamento,Unnamed: 1_level_1
Marketing,3500.0
RH,5000.0
TI,4000.0


Unnamed: 0_level_0,Salário,Salário,Salário,Idade
Unnamed: 0_level_1,mean,min,max,mean
Departamento,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Marketing,3500.0,3500,3500,28.0
RH,5000.0,4000,6000,35.0
TI,4000.0,3000,5000,30.0




 -- Aplicar Funções -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior
1,Maria,30,4000,RH,52000,Senior
2,Pedro,35,5000,TI,65000,Senior
3,Ana,28,3500,Marketing,45500,Junior
4,Carlos,40,6000,RH,78000,Senior




 -- filtros com Strings -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
1,Maria,30,4000,RH,52000,Senior
3,Ana,28,3500,Marketing,45500,Junior
4,Carlos,40,6000,RH,78000,Senior


Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior


In [17]:

# 9. REMOVER COLUNAS
df_sem_idade = df.drop('Idade', axis=1)
df_sem_multiplas = df.drop(['Idade', 'Salário'], axis=1)
print(f'\n\n -- Remover colunas -- \n\n')
display(df_sem_idade)
display(df_sem_multiplas)


# 10. FILTROS COM ISIN
dept_especificos = df[df['Departamento'].isin(['TI', 'RH'])]

print(f'\n\n -- Filtros com isin -- \n\n')
display(dept_especificos)

# 11. QUERY - Sintaxe mais legível
ti_salario_alto = df.query("Departamento == 'TI' and Salário > 4000")
print(f'\n\n -- Query -- \n\n')
display(dept_especificos)





 -- Remover colunas -- 




Unnamed: 0,Nome,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,3000,TI,39000,Junior
1,Maria,4000,RH,52000,Senior
2,Pedro,5000,TI,65000,Senior
3,Ana,3500,Marketing,45500,Junior
4,Carlos,6000,RH,78000,Senior


Unnamed: 0,Nome,Departamento,Salário_Anual,Faixa_Etaria
0,João,TI,39000,Junior
1,Maria,RH,52000,Senior
2,Pedro,TI,65000,Senior
3,Ana,Marketing,45500,Junior
4,Carlos,RH,78000,Senior




 -- Filtros com isin -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior
1,Maria,30,4000,RH,52000,Senior
2,Pedro,35,5000,TI,65000,Senior
4,Carlos,40,6000,RH,78000,Senior




 -- Query -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria
0,João,25,3000,TI,39000,Junior
1,Maria,30,4000,RH,52000,Senior
2,Pedro,35,5000,TI,65000,Senior
4,Carlos,40,6000,RH,78000,Senior


In [19]:
# 12. RESET INDEX
df_resetado = df.reset_index(drop=True)
print(f'\n\n -- Reset Index -- \n\n')
display(df_resetado)

# 13. ALTERAÇÃO CONDICIONAL
df.loc[df['Salário'] > 5000, 'Faixa_Salarial'] = 'Alto'
df.loc[df['Salário'] <= 5000, 'Faixa_Salarial'] = 'Normal'
print(f'\n\n -- Alteração condicional -- \n\n')
display(df)

# 14. SUBSTITUIÇÃO DE VALORES
df['Departamento'] = df['Departamento'].replace('TI', 'Tecnologia')
print(f'\n\n -- Substituição de valores -- \n\n')
display(df)

# 15. FILTROS COM NOTNA/ISNA
dados_completos = df[df['Salário'].notna()]

print(f'\n\n -- Filtros com notna/isna -- \n\n')
display(dados_completos)



 -- Reset Index -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria,Faixa_Salarial
0,João,25,3000,Tecnologia,39000,Junior,Normal
1,Maria,30,4000,RH,52000,Senior,Normal
2,Pedro,35,5000,Tecnologia,65000,Senior,Normal
3,Ana,28,3500,Marketing,45500,Junior,Normal
4,Carlos,40,6000,RH,78000,Senior,Alto




 -- Alteração condicional -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria,Faixa_Salarial
0,João,25,3000,Tecnologia,39000,Junior,Normal
1,Maria,30,4000,RH,52000,Senior,Normal
2,Pedro,35,5000,Tecnologia,65000,Senior,Normal
3,Ana,28,3500,Marketing,45500,Junior,Normal
4,Carlos,40,6000,RH,78000,Senior,Alto




 -- Substituição de valores -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria,Faixa_Salarial
0,João,25,3000,Tecnologia,39000,Junior,Normal
1,Maria,30,4000,RH,52000,Senior,Normal
2,Pedro,35,5000,Tecnologia,65000,Senior,Normal
3,Ana,28,3500,Marketing,45500,Junior,Normal
4,Carlos,40,6000,RH,78000,Senior,Alto




 -- Filtros com notna/isna -- 




Unnamed: 0,Nome,Idade,Salário,Departamento,Salário_Anual,Faixa_Etaria,Faixa_Salarial
0,João,25,3000,Tecnologia,39000,Junior,Normal
1,Maria,30,4000,RH,52000,Senior,Normal
2,Pedro,35,5000,Tecnologia,65000,Senior,Normal
3,Ana,28,3500,Marketing,45500,Junior,Normal
4,Carlos,40,6000,RH,78000,Senior,Alto


# principais operações por categoria

## Seleção e Filtros:
* df[['coluna1', 'coluna2']] - Selecionar colunas
* df.loc[] - Seleção baseada em rótulos
* df.iloc[] - Seleção baseada em índices
* df.query() - Filtros com sintaxe mais legível

## Modificação:
* df.rename() - Renomear colunas
* df['nova_coluna'] - Criar colunas
* df.drop() - Remover colunas
* df.replace() - Substituir valores

## Agregação:

* df.groupby() - Agrupar dados
* df.agg() - Agregar múltiplas funções
* df.apply() - Aplicar funções personalizadas

## Ordenação:

* df.sort_values() - Ordenar dados
* df.reset_index() - Resetar índice
