#SCRIPT LIMPEZA DOS DADOS

Prepararemos os dados para que possamos descobrir valores através deles. Durante as fases anteriores, desenvolvemos ideias. Lembrando que observamos que existe um tipo de OVNI ("Shape") mais popular, chamado de "Light". Podemos definir se essa categoria é interessante para o projeto. Será que não se trata apenas de um erro de visualização ou impressão errônea por parte do expectador? Esse tipo de insight será muito útil no momento de desenvolver a predição.

Sequência de tarefas

1. Carregar o seu arquivo OVNIS.csv em um dataframe;
   
2. Remover registros que tenham valores vazios (None, Unknown, ...) para City, State e Shape;

3. Manter somente os registros referentes aos 51 estados dos Estados Unidos;

4. Remover variáveis irrelevantes para a análise (Duration, Summary e Posted);

5. Manter somente os registros de Shapes mais populares (com mais de 1000 ocorrências);

6. Salvar o dataframe final em um arquivo CSV com o nome "df_OVNI_limpo".

### Etapa inicial

P1: Carregar o seu arquivo OVNIS.csv em um dataframe;

In [99]:
#Realizar os Imports e instalações das bibliotecas
import pandas as pd
import numpy as np



In [100]:
# Abra o arquivo CSV e mostre algumas linhas
df_ovnis = pd.read_csv('ovnis_tabela.csv')
df_ovnis.head()

Unnamed: 0.1,Unnamed: 0,DATE/TIME,CITY,STATE,SHAPE,DURATION,SUMMARY,POSTED
0,0,8/31/97 05:15,Lost Lake,OR,Egg,3 min,Two blue egg shaped objects floated past our c...,1/10/09
1,1,8/30/97 21:00,Ocracoke,NC,Other,5 minutes,Several stationary white lights in a curved sh...,7/14/13
2,2,8/30/97 19:00,Fort Fairfield,ME,Changing,10 minutes,Huge bright white round orange and red pulsati...,3/18/16
3,3,8/29/97 22:00,Tucson,AZ,Chevron,20+ secs.,As we traveled the 10e freeway to Tucson the c...,10/30/06
4,4,8/25/97 22:00,Fontana,CA,Triangle,15 sec.,My brother and I saw 3 lights forming a shape ...,10/30/06


## Análise 

Iremos agora com a utilização de informações visuais realizar os items elaborados anteriormente.

### P2: Remover registros que tenham valores vazios (None, Unknown, ...) para City, State e Shape;

In [101]:
# verifica as colunas que possuem valores vazios
df_ovnis.isnull().sum()

Unnamed: 0       0
DATE/TIME        0
CITY           144
STATE         4361
SHAPE         1408
DURATION      1975
SUMMARY          7
POSTED           0
dtype: int64

In [102]:
# elimina os valores vazios das colunas 'CITY', 'STATE' e 'SHAPE'.
df_ovnis.dropna(subset=['CITY','STATE','SHAPE'], inplace=True)

In [103]:
# verifica se os valores vazios foram deletados do DataFrame
df_ovnis.isnull().sum()

Unnamed: 0       0
DATE/TIME        0
CITY             0
STATE            0
SHAPE            0
DURATION      1477
SUMMARY          6
POSTED           0
dtype: int64

### P3:  Manter somente os registros referentes aos 51 estados dos Estados Unidos;

In [104]:
df_ovnis.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 67235 entries, 0 to 72864
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  67235 non-null  int64 
 1   DATE/TIME   67235 non-null  object
 2   CITY        67235 non-null  object
 3   STATE       67235 non-null  object
 4   SHAPE       67235 non-null  object
 5   DURATION    65758 non-null  object
 6   SUMMARY     67229 non-null  object
 7   POSTED      67235 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.6+ MB


In [105]:
# verifica quantos valores existem para a coluna 'STATE'
df_ovnis['STATE'].unique()

array(['OR', 'NC', 'ME', 'AZ', 'CA', 'MI', 'PA', 'KY', 'MO', 'AL', 'FL',
       'MD', 'CO', 'NS', 'TX', 'NM', 'WA', 'IN', 'LA', 'UT', 'MA', 'NJ',
       'CT', 'NY', 'GA', 'SC', 'WI', 'NE', 'MS', 'OH', 'IL', 'WV', 'QC',
       'ON', 'OK', 'MN', 'RI', 'NV', 'IA', 'BC', 'MT', 'VA', 'SD', 'KS',
       'ND', 'NH', 'TN', 'ID', 'AK', 'AR', 'AB', 'WY', 'DE', 'NT', 'NB',
       'PE', 'SK', 'HI', 'VT', 'SA', 'DC', 'MB', 'NF', 'YT'], dtype=object)

In [106]:
# seleciona os estados que não são dos Estados Unidos
df_remove = df_ovnis.loc[(df_ovnis['STATE'] == 'NS') | (df_ovnis['STATE'] == 'QC') | (df_ovnis['STATE'] == 'ON') | (df_ovnis['STATE'] == 'BC') | (df_ovnis['STATE'] == 'AB') | (df_ovnis['STATE'] == 'NT') | (df_ovnis['STATE'] == 'NB') | (df_ovnis['STATE'] == 'PE') | (df_ovnis['STATE'] == 'SK') | (df_ovnis['STATE'] == 'SA') | (df_ovnis['STATE'] == 'MB') | (df_ovnis['STATE'] == 'NF') | (df_ovnis['STATE'] == 'YT')]
df_remove.head()
ultimo_df = df_ovnis.drop(df_remove.index)

In [107]:
# verifica se conseguiu realizar a limpeza
ultimo_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64665 entries, 0 to 72864
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  64665 non-null  int64 
 1   DATE/TIME   64665 non-null  object
 2   CITY        64665 non-null  object
 3   STATE       64665 non-null  object
 4   SHAPE       64665 non-null  object
 5   DURATION    63251 non-null  object
 6   SUMMARY     64659 non-null  object
 7   POSTED      64665 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.4+ MB


In [108]:
# segunda verificação
ultimo_df['STATE'].unique()

array(['OR', 'NC', 'ME', 'AZ', 'CA', 'MI', 'PA', 'KY', 'MO', 'AL', 'FL',
       'MD', 'CO', 'TX', 'NM', 'WA', 'IN', 'LA', 'UT', 'MA', 'NJ', 'CT',
       'NY', 'GA', 'SC', 'WI', 'NE', 'MS', 'OH', 'IL', 'WV', 'OK', 'MN',
       'RI', 'NV', 'IA', 'MT', 'VA', 'SD', 'KS', 'ND', 'NH', 'TN', 'ID',
       'AK', 'AR', 'WY', 'DE', 'HI', 'VT', 'DC'], dtype=object)

In [109]:
# salva os novos conjuntos de dados para a próxima seção
ultimo_df.to_csv('ovnis_clean.csv', index=False)

### P4: Remover variáveis irrelevantes para a análise (Duration, Summary e Posted);

In [110]:
# Abra o arquivo CSV e mostre algumas linhas
df_ovnis = pd.read_csv('ovnis_clean.csv')
df_ovnis.head()

Unnamed: 0.1,Unnamed: 0,DATE/TIME,CITY,STATE,SHAPE,DURATION,SUMMARY,POSTED
0,0,8/31/97 05:15,Lost Lake,OR,Egg,3 min,Two blue egg shaped objects floated past our c...,1/10/09
1,1,8/30/97 21:00,Ocracoke,NC,Other,5 minutes,Several stationary white lights in a curved sh...,7/14/13
2,2,8/30/97 19:00,Fort Fairfield,ME,Changing,10 minutes,Huge bright white round orange and red pulsati...,3/18/16
3,3,8/29/97 22:00,Tucson,AZ,Chevron,20+ secs.,As we traveled the 10e freeway to Tucson the c...,10/30/06
4,4,8/25/97 22:00,Fontana,CA,Triangle,15 sec.,My brother and I saw 3 lights forming a shape ...,10/30/06


In [111]:
# Realizamos a limpeza dos dados aqui
# descartamos colunas do conjunto de dados de 'ovnis.clean.csv'
df_ovnis.drop(['DURATION', 'SUMMARY', 'POSTED'], axis=1, inplace=True)
 
# visualizamos as mudanças, para confirmarmos as alterações.
df_ovnis.head(1)

Unnamed: 0.1,Unnamed: 0,DATE/TIME,CITY,STATE,SHAPE
0,0,8/31/97 05:15,Lost Lake,OR,Egg


### P5: Manter somente os registros de Shapes mais populares (com mais de 1000 ocorrências);

In [112]:
# verifica quantos valores existem para a coluna 'SHAPE'
df_ovnis['SHAPE'].unique()

array(['Egg', 'Other', 'Changing', 'Chevron', 'Triangle', 'Disk',
       'Unknown', 'Oval', 'Light', 'Circle', 'Rectangle', 'Sphere',
       'Cigar', 'Cylinder', 'Fireball', 'Diamond', 'Formation', 'Flash',
       'Cone', 'Teardrop', 'Cross'], dtype=object)

In [113]:
# verifica quantos valores da coluna 'SHAPE' possuem uma ocorrência superior a 1000.
df_ovnis['SHAPE'].value_counts() > 1000

Light         True
Circle        True
Triangle      True
Fireball      True
Unknown       True
Sphere        True
Other         True
Oval          True
Disk          True
Formation     True
Changing      True
Cigar         True
Flash         True
Rectangle     True
Cylinder     False
Diamond      False
Chevron      False
Teardrop     False
Egg          False
Cone         False
Cross        False
Name: SHAPE, dtype: bool

In [114]:
# seleciona os formatos que possuem ocorrências inferiores ou iguais a 1000.
df_remove = df_ovnis.loc[df_ovnis['SHAPE'].str.contains('Cross') | df_ovnis['SHAPE'].str.contains('Cone') | df_ovnis['SHAPE'].str.contains('Egg') | df_ovnis['SHAPE'].str.contains('Teardrop') | df_ovnis['SHAPE'].str.contains('Chevron') | df_ovnis['SHAPE'].str.contains('Diamond') | df_ovnis['SHAPE'].str.contains('Cylinder')]
df_remove
# aqui eliminamos as ocorrências inferiores ou iguais a 1000 do DataFrame.
# desta forma, só sobram as ocorrências superiores a 1000.
ultimo_df = df_ovnis.drop(df_remove.index)

In [115]:
# aqui verificamos se os valores inferiores foram mesmo eliminados
ultimo_df['SHAPE'].value_counts() > 1000

Light        True
Circle       True
Triangle     True
Fireball     True
Unknown      True
Sphere       True
Other        True
Oval         True
Disk         True
Formation    True
Changing     True
Cigar        True
Flash        True
Rectangle    True
Name: SHAPE, dtype: bool


### P6: Salvar o dataframe final em um arquivo CSV com o nome "df_OVNI_limpo".

In [116]:
# salva os novos conjuntos de dados para a próxima seção
ultimo_df.to_csv('df_OVNI_limpo.csv', index=False)