# Células Nulas

## Introdução

Neste notebook vamos nos ater ao problema de células não preenchidas. Para isso, vamos usar o arquivo ```Churn.csv``` como base. Obs: as colunas estão com um nome "estranho", e por isso vamos trocá-la logo no início.

## Dados Iniciais

In [10]:
from pandas import read_csv

colunas = ["Id","Score","Estado","Genero","Idade","Patrimonio","Saldo","Produtos","TemCartCredito",
                    "Ativo","Salario","Saiu"]

df = read_csv('Churn.csv',
              sep = ';',
              names = colunas, 
              header = 0)

df

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,RS,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,SC,Feminino,43,2,12551082,1,1,1,790841.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
994,996,838,SC,Masculino,43,9,12310588,2,1,0,14576583.0,0
995,997,610,SC,Masculino,29,9,0,3,0,1,8391224.0,0
996,998,811,SC,Masculino,44,3,0,2,0,1,7843973.0,0
997,999,587,SC,Masculino,62,7,12128627,1,0,1,677692.0,0


Obs: Eu coloquei ```header=0``` para sobrescrever o nome das colunas iniciais, que estava como [X0, X1, ...].

## Identificando células não preenchidas

Para identificarmos as células nulas, usamos o método ```isnull```, que retorna o DataFrame com valores boleanos indicando quais células estão vazias.

In [5]:
df['Genero'].isnull()

0      False
1      False
2      False
3      False
4      False
       ...  
994    False
995    False
996    False
997    False
998    False
Name: Genero, Length: 999, dtype: bool

Se quiséssemos saber **quais** linhas possuem células nulas, devemos digitar a mesma linha anterior, mas dentro do próprio DataFrame, pois assim ele usará isso como uma condição, isto é, mostrará as linhas cuja coluna 'Genero' está vazia.

In [11]:
df[ df['Genero'].isnull() ]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
64,65,603,PR,,26,4,10916637,1,1,1,9284067.0,0
84,86,493,RS,,46,4,0,2,1,0,190766.0,0
213,215,676,RS,,34,1,6309501,1,1,1,4064581.0,0
296,298,714,RS,,31,4,12516926,1,1,1,10663689.0,0
370,372,801,SC,,42,4,14194767,1,1,1,1059829.0,0
501,503,692,RS,,54,5,0,2,1,1,8872184.0,0
963,965,529,SC,,63,4,9613411,3,1,0,10873296.0,1
969,971,649,PR,,70,9,11685471,2,0,1,10712579.0,0


Para sabermos **quantas** células não foram preenchidas, acoplamos o método ```sum``` ao método anterior.

In [6]:
df['Genero'].isnull().sum()

8

## Preenchendo células nulas

Para preenhcer as células nulas, usamos o método ```fillna```. Dentre os parâmetros que existem nesse método, destacamos os seguintes:

* ```value```: valor a ocupar nas células vazias;

* ```inplace```: variável boleana, onde ```True``` é para substituir na célula do DataFrame, enquanto que ```False``` substitui numa cópia do DataFrame.

Se estivéssemos lidando com variáveis numéricas, podemos preencher as lacunas com o valor médio. Como neste caso estamos lidando com uma coluna de strings, é melhor substituir pela moda, que pode ser obtida tanto pela biblioteca statistics quanto pelo próprio pandas. 

Dado que estamos na pasta da biblioteca pandas, vamos usar o método ```mode```, que retorna a moda de um DataFrame.

In [5]:
df['Genero'].mode()

0    Masculino
dtype: object

Já que a moda é ```'Masculino'```, então vamos usar essa string para fazer a substituição.

In [8]:
df['Genero'].fillna(value = 'Masculino',
                    inplace = True)

Por fim, vamos verificar se de fato as lacunas não existem mais.

In [9]:
df['Genero'].isnull().sum()

0

Como podemos ver, de fato o método ```fillna``` resolve esse problema.