In [None]:
Passo 1: Carregar o arquivo CSV
Primeiro, importe o Pandas e carregue o arquivo CSV. Caso o arquivo tenha codificação diferente ou delimitadores específicos, ajuste os parâmetros conforme necessário.

In [None]:
import pandas as pd

# Carregar o arquivo CSV
df = pd.read_csv('seu_arquivo.csv', encoding='utf-8', sep=',')

In [None]:
Passo 2: Explorar os dados
Antes de iniciar a limpeza, é importante entender a estrutura dos dados.

In [None]:
# Primeiras 5 linhas
df.head()

# Informações gerais sobre o DataFrame
df.info()

# Estatísticas descritivas
df.describe()

In [None]:
Passo 3: Identificar e tratar valores ausentes
Valores ausentes podem ser identificados e tratados de diferentes maneiras:

In [None]:
# Identificar valores ausentes
df.isnull().sum())

# Remover linhas com valores ausentes
df.dropna(inplace=True)

# Preencher valores ausentes com a média (para colunas numéricas)
df['coluna_numerica'].fillna(df['coluna_numerica'].mean(), inplace=True)

# Preencher valores ausentes com a moda (para colunas categóricas)
df['coluna_categorica'].fillna(df['coluna_categorica'].mode()[0], inplace=True)

In [None]:
Passo 4: Remover dados duplicados
Dados duplicados podem distorcer análises e modelos

In [None]:
# Identificar duplicatas
df.duplicated().sum()

# Remover duplicatas
df_cleaned = df.drop_duplicates()

In [None]:
Passo 5: Corrigir tipos de dados
Certifique-se de que cada coluna tenha o tipo de dado adequado.

In [None]:
#Converter para string
df['col'] = df['col'].astype(str)

# Converter para tipo numérico
df['coluna_numerica'] = pd.to_numeric(df['coluna_numerica'], errors='coerce')

# Converter para tipo de data
df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')

In [None]:
Passo 6: Padronizar e formatar dados
Padronizar valores e formatos é essencial para consistência.

In [None]:
# Converter texto para minúsculas
df['coluna_texto'] = df['coluna_texto'].str.lower()

# Remover espaços em branco
df['coluna_texto'] = df['coluna_texto'].str.strip()

# Substituir valores específicos
df['coluna_texto'].replace({'valor_antigo': 'valor_novo'}, inplace=True)

In [None]:
Passo 7: Filtrar e transformar dados
Aplique filtros e transformações conforme necessário.

In [None]:
# Filtrar dados com base em uma condição
df_filtrado = df[df['coluna_numerica'] > 50]

# Criar novas colunas com base em condições
df['nova_coluna'] = df['coluna_numerica'].apply(lambda x: 'Alta' if x > 100 else 'Baixa')

#Renomear colunas
df.rename(columns={'old': 'new'}, inplace = True)

#Agrupar
df.groupby('column')

#Organizar dataframe por ordem de itens em uma coluna
df.sort_values(by='column', ascending=False)

#Adicionar nova coluna
df['new_column'] = df['col1'] + df['col2']

#Retirar coluna
df.drop('col_name', axis=1, inplace=True)

#Retorna valores unicos da coluna
df['col'].unique()

#Contagem de valores unicos
df['col'].value_counts()

#Função personalizada
df['col'] = df['col'].apply(lambda x: x * 2)

#Juntar colunas por index
pd.merge(df1, df2, on='id')

#Combinar Dataframes
pd.concat([df1, df2])

#Adicionar coluna de index
df.set_index('id', inplace=True)

#Resetar index
df.reset_index(drop=True, inplace=True)

In [None]:
Passo 8: Salvar os dados tratados
Após o tratamento, salve os dados em um novo arquivo CSV.

In [None]:
# Salvar em um novo arquivo CSV
df_cleaned.to_csv('dados_tratados.csv', index=False)