In [4]:
import pandas as pd

In [5]:
url = 'https://raw.githubusercontent.com/alinehesley/trilha-ciencia-de-dados/e2b25055b466d028bfd334d85ab988c96f094392/quinto_desafio/Planilha%20do%20desafio%205%20-%20Ci%C3%AAncia%20de%20dados%20-%20Relat%C3%B3rio%20do%20Banco%20x.csv'

dados = pd.read_csv(url)

**1. Substituir o cabeçalho por palavras em letras maiúsculas:**

In [6]:
dados.rename(columns={'Id':'ID','Pontos':'PONTOS', 'Estado':'ESTADO', 'Genero':'GENERO', 'Idade':'IDADE', 'Bens':'BENS', 'Saldo na Conta':'SALDO NA CONTA', 'Produto':'PRODUTO', 'Possui cartao':'POSSUI CARTAO', 'Ativo': 'ATIVO', 'Salario':'SALARIO', 'Saiu':'SAIU' }, inplace=True)

In [7]:
dados.head()

Unnamed: 0,ID,PONTOS,ESTADO,GENERO,IDADE,BENS,SALDO NA CONTA,PRODUTO,POSSUI CARTAO,ATIVO,SALARIO,SAIU
0,1,619,BA,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,CE,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,BA,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,BA,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,CE,Feminino,43,2,12551082,1,1,1,790841.0,0


**2. Corrigir os dados faltantes e preencher as lacunas com valores adequados:**

In [8]:
#quantidade de dados nulos por coluna:
dados.isnull().sum()

ID                0
PONTOS            0
ESTADO            0
GENERO            8
IDADE             0
BENS              0
SALDO NA CONTA    0
PRODUTO           0
POSSUI CARTAO     0
ATIVO             0
SALARIO           7
SAIU              0
dtype: int64

In [9]:
#Vamos tratar os dados nulos, temos nas colunas
#Gênero e Salário. Em Gênero vamos preencher com
#"Não informado" e Salário decidi por fazer uma interpolação dos valores.

dados['GENERO'] = dados['GENERO'].fillna('Não informado.')
dados['SALARIO'] = dados['SALARIO'].interpolate()

In [10]:
#Verificando novamente a quantidade de dados nulos
dados.isnull().sum()

ID                0
PONTOS            0
ESTADO            0
GENERO            0
IDADE             0
BENS              0
SALDO NA CONTA    0
PRODUTO           0
POSSUI CARTAO     0
ATIVO             0
SALARIO           0
SAIU              0
dtype: int64

**3. Eliminar os outliers, atribuindo no lugar deles os valores adequados:**

In [11]:
for column in ['PONTOS', 'IDADE', 'BENS', 'SALDO NA CONTA', 'SALARIO']:
    mean = dados[column].mean()
    std_dev = dados[column].std()
    threshold = 3  # Threshold para definir outliers (por exemplo, 3 desvios padrão)
    outliers = (dados[column] > mean + threshold * std_dev) | (dados[column] < mean - threshold * std_dev)
    dados.loc[outliers, column] = mean  # Substituindo outliers pela média

**4. Eliminar os duplicados, para garantir a unicidade das informações;**

In [12]:
duplicados = dados[dados.duplicated()]
print(duplicados)

    ID  PONTOS ESTADO    GENERO  IDADE  BENS  SALDO NA CONTA  PRODUTO  \
81  81   665.0     MA  Feminino   34.0   1.0       9664554.0        2   

    POSSUI CARTAO  ATIVO     SALARIO  SAIU  
81              0      0  17141366.0     0  


In [13]:
dados.drop_duplicates(inplace=True)

**5. Substituir os NANs por valores adequados;**

In [14]:
#Já fiz a substituição no item 2.

**6. Corrigir os dados categóricos, por exemplo, "Mas" para "Masculino" e "Fem" para "Feminino" para adequá-los ao padrão dos demais;**

In [15]:
dados.GENERO.unique()

array(['Feminino', 'Masculino', 'M', 'Não informado.', 'F', 'Fem'],
      dtype=object)

In [16]:
#Aplicando as subtituições
dados['GENERO'].replace({'F': 'Feminino', 'Fem': 'Feminino', 'M': 'Masculino'}, inplace=True)

In [17]:
dados.GENERO.unique()

array(['Feminino', 'Masculino', 'Não informado.'], dtype=object)