# Prática de limpeza
Vamos começar praticando como lidar com valores ausentes ou dados duplicados com `cancer_data_means.csv`.

In [1]:
# importe pandas e carregue dados sobre cancer
import pandas as pd
df_cancer = pd.read_csv("cancer_data_means.csv")

# verifique que colunas têm valores ausentes com info()
df_cancer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 11 columns):
id                     569 non-null int64
diagnosis              569 non-null object
radius_mean            569 non-null float64
texture_mean           548 non-null float64
perimeter_mean         569 non-null float64
area_mean              569 non-null float64
smoothness_mean        521 non-null float64
compactness_mean       569 non-null float64
concavity_mean         569 non-null float64
concave_points_mean    569 non-null float64
symmetry_mean          504 non-null float64
dtypes: float64(9), int64(1), object(1)
memory usage: 49.0+ KB


In [4]:
# use médias para preencher valores ausentes
df_cancer['texture_mean'].fillna(df_cancer['texture_mean'].mean(), inplace=True)
df_cancer['smoothness_mean'].fillna(df_cancer['smoothness_mean'].mean(), inplace=True)
df_cancer['symmetry_mean'].fillna(df_cancer['symmetry_mean'].mean(), inplace=True)
# confirme sua correção com info()
df_cancer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 11 columns):
id                     569 non-null int64
diagnosis              569 non-null object
radius_mean            569 non-null float64
texture_mean           569 non-null float64
perimeter_mean         569 non-null float64
area_mean              569 non-null float64
smoothness_mean        569 non-null float64
compactness_mean       569 non-null float64
concavity_mean         569 non-null float64
concave_points_mean    569 non-null float64
symmetry_mean          569 non-null float64
dtypes: float64(9), int64(1), object(1)
memory usage: 49.0+ KB


In [23]:
# verifique se há dados duplicado
# como reutilizaremos a verificação, vamos criar uma função para treinar
def has_duplicate(df):
    if df_cancer.duplicated().any():
        print("Possui {0} valores duplicados".format(df.duplicated().sum()))
    else:
        print("Não possui valores duplicados")
        
has_duplicate(df_cancer)

Possui 5 valores duplicados


In [26]:
# elimine dados duplicados
df_cancer.drop_duplicates(inplace=True)
# confirme correção verificando novamente se há dados duplicados
has_duplicate(df_cancer)

Não possui valores duplicados


## Renomeando colunas
Já que também alteramos nosso conjunto de dados anteriormente para incluir apenas médias de características de tumores, o sufixo "_mean" ao final do nome de cada característica parece desnecessário. Isso só faz com que mais tempo seja gasto mais tarde, na digitação da nossa análise. Vamos criar uma lista de novos rótulos para atribuir às nossas colunas.

In [28]:
# remova "_mean" dos nomes das colunas
new_labels = []
for col in df_cancer.columns:
    if '_mean' in col:
        new_labels.append(col[:-5])  # exclua os últimos 6 caracteres
    else:
        new_labels.append(col)

# novos rótulos para nossas colunas
new_labels

['id',
 'diagnosis',
 'radius',
 'texture',
 'perimeter',
 'area',
 'smoothness',
 'compactness',
 'concavity',
 'concave_points',
 'symmetry']

In [30]:
# atribua novos rótulos às colunas do dataframe
df_cancer.columns = new_labels

# exiba as primeiras linhas do dataframe para confirmar as alterações
df_cancer.head()

Unnamed: 0,id,diagnosis,radius,texture,perimeter,area,smoothness,compactness,concavity,concave_points,symmetry
0,842302,M,17.99,19.293431,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069
3,84348301,M,11.42,20.38,77.58,386.1,0.096087,0.2839,0.2414,0.1052,0.2597
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809


In [32]:
# salve as alterações para mais tarde
df_cancer.to_csv('cancer_data_edited.csv', index=False)