# Dados Ausentes e Limpeza de Dados

Nesta seção, aprenderemos como limpar os dados, incluindo valores ausentes, valores inválidos e conversão de tipos de dados. Vamos começar lidando com os valores ausentes.

## Encontrando Valores Ausentes

Vamos carregar o conjunto de dados da última seção em que terminamos.

In [2]:
import pandas as pd

url = r"https://github.com/thomasnield/anaconda_python_eda/raw/public/birdstrike_section1.csv"

df = pd.read_csv(url)

with pd.option_context('display.max_columns', None):
  display(df)

  df = pd.read_csv(url)


Unnamed: 0,INDEX_NR,OPID,OPERATOR,AIRCRAFT,AC_CLASS,AC_MASS,NUM_ENGS,TYPE_ENG,INCIDENT_DATE,INCIDENT_YEAR,INCIDENT_MONTH,TIME_OF_DAY,TIME,AIRPORT_ID,AIRPORT,STATE,RUNWAY,LOCATION,LATITUDE,LONGITUDE,HEIGHT,SPEED,DISTANCE,PHASE_OF_FLIGHT,DAMAGE_LEVEL,STR_RAD,DAM_RAD,STR_WINDSHLD,DAM_WINDSHLD,STR_NOSE,STR_PROP,DAM_PROP,STR_WING_ROT,DAM_WING_ROT,STR_FUSE,DAM_FUSE,STR_LG,DAM_LG,STR_TAIL,DAM_TAIL,STR_LGHTS,DAM_LGHTS,STR_OTHER,EFFECT,SKY,PRECIPITATION,SPECIES_ID,SPECIES,SIZE,WARNED,COST_REPAIRS,COST_OTHER,COST_REPAIRS_INFL_ADJ,COST_OTHER_INFL_ADJ,NR_INJURIES,NR_FATALITIES,INDICATED_DAMAGE
0,708307,BUS,BUSINESS,PA-28,A,1.0,1.0,A,2015-05-22,2015,5,,,KVRB,VERO BEACH MUNICIPAL,FL,4,,27.65556,-80.41794,,,,Approach,M,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,,,,UNKB,Unknown bird,,Unknown,,,,,,,1
1,708308,BUS,BUSINESS,BE-1900,A,3.0,2.0,C,2015-06-18,2015,6,,,PAEN,KENAI MUNICIPAL ARPT,AK,,,60.572,-151.24753,,,,Approach,M,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,,,,UNKB,Unknown bird,,Unknown,,,,,,,1
2,708309,BUS,BUSINESS,PA-46 MALIBU,A,1.0,1.0,A,2015-09-20,2015,9,,,KDWH,DAVID WAYNE HOOKS MEMORIAL ARPT,TX,,,30.06186,-95.55278,,,,,M,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,,,,UNKB,Unknown bird,,Unknown,,,,,,,1
3,708310,DAL,DELTA AIR LINES,B-717-200,A,4.0,2.0,D,2015-11-07,2015,11,,,KSTL,LAMBERT-ST LOUIS INTL,MO,30R,,38.74769,-90.35999,,,2.0,Approach,M,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,1,0,,,,UNKB,Unknown bird,,Unknown,,,,,,,1
4,708311,BUS,BUSINESS,BE-90 KING,A,2.0,2.0,C,2015-12-17,2015,12,,,KPMP,POMPANO BEACH AIRPARK,FL,15,,26.24714,-80.11106,0.0,,0.0,Landing Roll,M,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,,,,UNKB,Unknown bird,,Unknown,,,,,,,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
141064,1516465,UNK,UNKNOWN,UNKNOWN,,,,,2024-03-17,2024,3,,07:15,KSEA,SEATTLE-TACOMA INTL,WA,16L,,47.44898,-122.30931,,,0.0,,,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,,,,Z6007,American robin,Small,Unknown,,,,,,,0
141065,1516467,EJA,NETJETS,CL-601/604,A,3.0,2.0,D,2024-03-17,2024,3,,19:15,KHYI,SAN MARCOS MUNICIPAL ARPT,TX,8,,29.89361,-97.86469,2000.0,160.0,5.0,Approach,N,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,,Some Cloud,,ZT000,Meadowlarks,Small,No,,,,,,,0
141066,1516468,ASA,ALASKA AIRLINES,B-737-800,A,4.0,2.0,D,2024-03-17,2024,3,Day,16:39,KSBA,SANTA BARBARA MUNICIPAL,CA,,,34.42621,-119.84037,30.0,,0.0,Approach,N,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,,No Cloud,,ZT002,Western meadowlark,Small,Unknown,,,,,,,0
141067,1516469,FDX,FEDEX EXPRESS,B-767-300,A,4.0,2.0,D,2024-03-17,2024,3,Night,21:45,ZGGG,BAIYUN AIRPORT,FN,20L,,23.392436,113.298786,3000.0,180.0,10.0,Approach,N,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,,No Cloud,,UNKB,Unknown bird,,Unknown,,,,,,,0


As colunas `LATITUDE` e `LONGITUDE` causaram alguns avisos: `DtypeWarning: Columns (18,19) have mixed types.`. Vamos resolver isso mais tarde.


Observe como há valores `NaN` e `None` no DataFrame. Esses são valores ausentes, e essas lacunas nos dados ocorrem por diversos motivos, muitas vezes específicos do domínio. Às vezes, esses valores ausentes representam um problema sério, como sensores de clima quebrados que precisam ser corrigidos. Para outros projetos, podemos simplesmente remover ou estimar seus valores usando imputação, sem causar muitos problemas.

Mas primeiro, precisamos ver quais partes dos dados estão faltando e quão grandes são essas lacunas. Fazemos isso quantificando os valores ausentes. Valores ausentes podem aparecer como `NaN` ou `None`, dependendo de serem numéricos ou não. A função `isnull()` identificará ambos.

Vamos primeiro nos lembrar do número de linhas e colunas que temos.

In [None]:
df.shape

Em seguida, vamos chamar `isnull()`, que gerará valores `True` e `False` dependendo de o valor estar ausente ou não. Depois, chamamos `sum()` para contar o número de valores `True` (já que `True` será tratado como `1` e `False` será tratado como `0`).

In [None]:
df.isnull().sum()

Parece que muitos desses campos estão com valores ausentes. Vamos calcular a porcentagem de valores ausentes para cada campo.

In [None]:
missing_pct = pd.DataFrame({'Missing Values': df.isnull().sum(),
                              'Percentage': df.isnull().sum() / df.shape[0]})

missing_pct.sort_values(by='Percentage', ascending = False, inplace=True)

missing_pct

E o que fazemos aqui? Devemos simplesmente descartar certas colunas porque elas têm uma alta proporção de valores ausentes? Depende. `NR_INJURIES` e `NR_FATALITIES` têm a maior quantidade de valores ausentes, mas talvez eles simplesmente estejam em branco porque não houve lesões ou fatalidades nas colisões com aves. Definitivamente, não queremos excluir essas colunas. Alguns campos são um pouco mais suspeitos em relação aos valores ausentes, como `PHASE_OF_FLIGHT`. Não vamos remover nada por enquanto, pois muito de como lidamos com valores ausentes vai depender da tarefa. Vamos olhar os valores a seguir e descobrir seus níveis de medição.

## Variáveis Categóricas e Numéricas

Como interpretamos as variáveis depende de serem nominais, ordinais, intervalares ou de razão.


| Nível de Medição     | Descrição                                                                                   |
|----------------------|---------------------------------------------------------------------------------------------|
| Nominal              | Categorias sem qualquer ordem (exemplo: cachorro, gato, pássaro)                            |
| Ordinal              | Possui uma ordem ou classificação flexível com intervalos desiguais (exemplo: pontuação de um jogo) |
| Intervalo            | Possui uma ordem significativa com intervalos consistentes, mas sem ponto zero (exemplo: data/hora) |
| Razão                | Possui uma ordem significativa, intervalos consistentes e um ponto zero (exemplo: peso corporal, altura) |

Vamos contar o número de valores únicos em cada coluna. Usaremos `nunique()`, mas não excluiremos os valores nulos especificando `dropna=False`.

In [None]:
df.nunique(dropna=False).sort_values()

Todo número de 2 dígitos provavelmente é categórico. Se houver 2 valores únicos, é provável que sejam valores booleanos Verdadeiro/Falso. 3 valores únicos podem ser booleanos, mas com um valor nulo também.

Vamos concatenar esses valores únicos para cada coluna, para que possamos ter uma visão rápida de como os valores únicos se parecem.

In [None]:
unique_val_ct = df.nunique(dropna=False).sort_values()

unique_vals = dict()
for col in unique_val_ct.index:
    unique_vals[col] = pd.Series(df[col].unique()).astype(str).str.cat(sep=',')

unique_val_show = pd.DataFrame({
    "COUNT" : unique_val_ct,
    "VALUES" : unique_vals
})

with pd.option_context('display.max_rows', None, 'display.max_colwidth', 60):
    display(unique_val_show)

### Convertendo Colunas Booleanas

Certo... tem muita coisa para analisar aqui. Aqueles valores que contêm apenas 0 ou 1 são definitivamente booleanos. Vamos convertê-los agora mesmo.

In [None]:
binary_cols = ['DAM_WINDSHLD', 'STR_WINDSHLD', 'STR_NOSE', 'STR_PROP', 'DAM_PROP',
       'STR_WING_ROT', 'DAM_WING_ROT', 'STR_FUSE', 'DAM_FUSE', 'STR_LG',
       'DAM_LG', 'STR_TAIL', 'DAM_TAIL', 'STR_LGHTS', 'DAM_LGHTS',
       'STR_OTHER', 'DAM_RAD', 'STR_RAD', 'INDICATED_DAMAGE']

for col in binary_cols: 
    df[col] = df[col].astype('bool')

with pd.option_context('display.max_columns', None):
  display(df)

Agora as colunas binárias foram convertidas. A coluna `WARNED` é interessante porque também é binária, com `Yes` e `No`, mas também pode ser `Unknown`. De acordo com a documentação, isso indica se o piloto foi avisado ou não sobre os pássaros à frente antes do impacto. Vamos contar esses valores.

In [None]:
df["WARNED"].value_counts()

Então, há muitos "Unknowns". Nossa, se tivéssemos dados sobre os impactos de aves evitados devido ao aviso, essa coluna poderia ser muito mais útil para ver se os avisos tiveram algum efeito. Infelizmente, só estamos recebendo relatórios quando o impacto com pássaros ocorreu, então há um viés de sobrevivência aqui para fazer tal pergunta.

Vamos simplesmente transformar a coluna `WARNED` em um tipo `boolean` (que permite valores `None`, ao contrário do tipo `bool`, que os trataria como `False`).

In [None]:
df["WARNED"] = df["WARNED"].map({"Yes": True, "No": False, "Unknown": pd.NA}).astype('boolean')

df["WARNED"].value_counts(dropna=False)

## Convertendo Datas e Horários

A coluna `INCIDENT_DATE` é a data (no horário local) em que o incidente ocorreu. Podemos facilmente converter uma coluna de strings de data que segue um formato típico usando a função `to_datetime()` do Pandas.

In [None]:
pd.to_datetime(df['INCIDENT_DATE'])

Agora, antes de atribuirmos isso de volta ao dataframe, vamos notar que a coluna `TIME` também existe. Essa coluna representa o horário em que o incidente ocorreu no horário local. É tentador concatenar as duas colunas, `INCIDENT_DATE` e `TIME`, e transformá-las em um único `datetime`, mas há valores `nan`, o que é uma pena. Não podemos mesclar as duas colunas de strings quando uma delas contém nulos. 

O que faremos é converter a coluna `TIME` para o tipo `timedelta` em vez de uma string. No entanto, para tornar nossa limpeza de dados um pouco mais irritante, eu estava enfrentando erros. Aparentemente, há valores que são apenas espaços em branco vazios e não nulos. 😡


Como eu descobri isso? Bem, primeiro precisei usar uma expressão regular na função `contains()` ([que o Anaconda também aborda em um curso](https://learning.anaconda.cloud/regular-expressions-in-python)) para filtrar as strings que não correspondem ao formato hora\:minuto. Depois, fiz uma contagem dos valores desses itens desviantes com `value_count()`.

In [None]:
not_time_format= ~df["TIME"].fillna(value="", inplace=False).str.contains(r"[0-9]{1,2}[:][0-9]{2}")

df["TIME"][not_time_format].value_counts(dropna=False)

Agora que sei o que estou lidando, posso usar outra expressão regular na função `replace()` para transformar os espaços em branco em valores `nan`. Depois, posso adicionar um `:00` para os segundos e, finalmente, converter a coluna `TIME` para um `timedelta`. Note que os `nan`s serão convertidos em `NaT`s, que são os valores em branco do `timedelta`.

In [None]:
import numpy as np 

# remove os espaços em branco e altera para NaN
df["TIME"] = df["TIME"].replace(r'^\s*$', np.nan, regex=True)

# adiciona segundos
df["TIME"] += ':00'

# converte para timedelta 
df["TIME"] = pd.to_timedelta(df["TIME"])
df["TIME"]

Anaconda also has a course [Data Cleaning with Pandas](https://learning.anaconda.cloud/data-cleaning-with-pandas) that has a dedicated module on date and time conversion. 

## Convertendo Dados Numéricos

Quando tentei converter as colunas `LATITUDE` e `LONGITUDE` para valores de ponto flutuante em vez de strings, algo estranho estava acontecendo. Eu estava recebendo erros. Vou usar outra expressão regular para encontrar coisas que não correspondem ao padrão numérico esperado nas strings.

In [None]:
bad_latitudes = ~df["LATITUDE"].fillna(value="", inplace=False).str.contains(r"^-?[0-9]+\.[0-9]+$").astype(bool)

df[bad_latitudes]["LATITUDE"].value_counts(dropna=False)

Há muitos valores ausentes, tudo bem. Mas existem quatro valores estranhamente formatados ou quebrados que não podem ser convertidos em valores de ponto flutuante. Vamos ver a longitude a seguir.

In [None]:
bad_longitudes = ~df["LONGITUDE"].fillna(value="", inplace=False).str.contains(r"^-?[0-9]+\.[0-9]+$").astype(bool)

df[bad_longitudes]["LONGITUDE"].value_counts(dropna=False)

Situação semelhante. Muitos valores ausentes, mas um valor de longitude com formato estranho. Vamos apenas transformá-los em valores em branco.

In [None]:
df.loc[bad_longitudes, "LONGITUDE"] = np.nan 
df.loc[bad_latitudes, "LATITUDE"] = np.nan 

Finalmente, agora que removemos esses valores estranhos, podemos convertê-los em valores de ponto flutuante sem erros.

In [None]:
df["LATITUDE"] = df["LATITUDE"].astype(float)
df["LONGITUDE"] = df["LONGITUDE"].astype(float)

## Convertendo Dados Categóricos

Às vezes, haverá colunas em um dataframe que permitem apenas alguns valores. Quando esses valores são strings, torna-se ainda mais importante considerar convertê-los em um tipo de categoria. Nos bastidores, isso melhorará o desempenho do dataframe e eliminará redundância devido a strings duplicadas.

Há muitas colunas neste conjunto de dados que parecem ser categóricas. Vamos nos concentrar em `PHASE_OF_FLIGHT` por enquanto. Esta é a parte do voo em que ocorreu o impacto com o pássaro. Vamos ver esses valores possíveis.

In [None]:
df["PHASE_OF_FLIGHT"].unique()

Ok, existem 12 fases de voo mais os valores ausentes `NaN`. Mas há algo estranho aqui sobre a categoria `Unknown`, pois precisamos nos perguntar o que diferencia `Unknown` de uma `NaN`? Devemos transformar `Unknown` em `NaN`? Vamos dar uma olhada nas contagens de valores.

In [None]:
df["PHASE_OF_FLIGHT"].value_counts(dropna=False)

Ok, então existem apenas dois registros onde `PHASE_OF_FLIGHT` é `Unknown` e 63.261 são `NaN`. Como há tão poucos registros, não é tão urgente abordá-los. Eles certamente são valores discrepantes.

Vamos dar uma olhada nesses dois registros só por curiosidade.

In [None]:
df[df["PHASE_OF_FLIGHT"] == "Unknown"]

Humm, estranho. Temos uma colisão com gaivotas naquele primeiro registro, então essa é uma informação útil se estivermos interessados ​​em `SPECIES`. A aeronave experimental de propriedade privada com uma ave desconhecida é um mistério. Vamos manter os dois registros, mas podemos removê-los para certas tarefas. No entanto, vamos transformar esses dois valores em `NaN`.

In [None]:
df.loc[df["PHASE_OF_FLIGHT"] == "Unknown", "PHASE_OF_FLIGHT"] = np.nan 

Agora, aqui está algo útil que podemos fazer. Podemos criar um tipo de categoria personalizado que transformará essas strings em um conjunto de categorias de forma eficiente. Basta declarar um `CategoricalDType` e especificar as categorias como uma lista de strings. Em seguida, convertemos essa coluna para esse tipo de categoria personalizado por meio de `astype()`.

In [None]:
phase_of_flt = pd.CategoricalDtype(categories=['Parked', 'Taxi','Take-off Run', 'Approach', 'Departure', 'Climb', 'En Route',
                                               'Descent', 'Landing Roll', 'Arrival', 'Local'])

df["PHASE_OF_FLIGHT"] = df["PHASE_OF_FLIGHT"].astype(phase_of_flt)

Agora podemos confirmar que o tipo de dado é de fato esta categoria que criamos.

In [None]:
df["PHASE_OF_FLIGHT"].dtype

O que também pode ser útil é que essas categorias podem ser classificadas com base na ordem que você definiu. As categorias foram especificadas em uma ordem que segue a sequência de estágios de um voo (por exemplo, `Parked` ocorre antes de `Taxi`, e `Taxi` ocorre antes de `Take-off Run`, etc.). Quando classificarmos esses valores, veremos isso refletido.

In [None]:
df["PHASE_OF_FLIGHT"].unique().sort_values()

Vamos salvar nosso trabalho em um CSV para a próxima seção. Observe que as categorias serão salvas como strings para simplificar. Mas sempre podemos convertê-las em categorias novamente após a ingestão para manter o `DataFrame` mais eficiente.

In [None]:
df.to_csv('birdstrike_section2.csv')

## Exercício

Obtenha as contagens de valores para `AIRPORT_ID` que não começam com a letra `K`. O array booleano condicional já foi preenchido para você. Basta fornecer o código entre o ponto de interrogação `?`.

In [None]:
condition = ~df["AIRPORT_ID"].fillna(value="", inplace=False).str.contains(r"^K")

not_k_airports = ?

with pd.option_context('display.max_rows', None):
    display(not_k_airports)

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
condition = ~df["AIRPORT_ID"].fillna(value="", inplace=False).str.contains(r"^K")

not_k_airports = df[condition]["AIRPORT_ID"].value_counts()

with pd.option_context('display.max_rows', None):
    display(not_k_airports)