#SCRIPT EXPLORAÇÃO

Lista de itens obrigatórios para essa exploração

1. Saber a quantidade de linhas, observações ou variáveis que foram coletadas.
2. Quantos relatos ocorreram por estado em ordem decrescente?
3. Remover possíveis campos vazios (sem estado).
4. Limitar a análise aos estados dos Estados Unidos.
5. Consulta por cidades, com o objetivo de saber quais contêm o maior número de relatos (cidades que apresentem ao menos 10 relatos).
6. Com o dado anterior, responder a seguinte pergunta: por que será que essa é a cidade que possui mais relatos?
7. Fazer uma query exclusiva para o estado com maior número de relatos, buscando cidades que possuam um número superior a 10 relatórios. Enfatizar a cidade, a quantidade de relatos e formato do objeto não identificado.


### Etapa inicial

In [1]:
# Os imports, que vamos usar para realizarmos as análises 
# também pode-se usar outras bibliotecas se desejar.
import pandas as pd
import numpy as np

In [2]:
# Abra o arquivo CSV e mostre algumas linhas
df_ovnis = pd.read_csv('ovnis_tabela.csv')
df_ovnis.head()

Unnamed: 0.1,Unnamed: 0,DATE/TIME,CITY,STATE,SHAPE,DURATION,SUMMARY,POSTED
0,0,8/31/97 05:15,Lost Lake,OR,Egg,3 min,Two blue egg shaped objects floated past our c...,1/10/09
1,1,8/30/97 21:00,Ocracoke,NC,Other,5 minutes,Several stationary white lights in a curved sh...,7/14/13
2,2,8/30/97 19:00,Fort Fairfield,ME,Changing,10 minutes,Huge bright white round orange and red pulsati...,3/18/16
3,3,8/29/97 22:00,Tucson,AZ,Chevron,20+ secs.,As we traveled the 10e freeway to Tucson the c...,10/30/06
4,4,8/25/97 22:00,Fontana,CA,Triangle,15 sec.,My brother and I saw 3 lights forming a shape ...,10/30/06


## Análise 

Iremos agora com a utilização de informações visuais responder as perguntas elaboradas anteriormente.





### P1: Saber a quantidade de linhas, observações ou variáveis que foram coletadas.

Vamos realizar uma exploração nos dados.

In [3]:
df_ovnis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72865 entries, 0 to 72864
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  72865 non-null  int64 
 1   DATE/TIME   72865 non-null  object
 2   CITY        72721 non-null  object
 3   STATE       68504 non-null  object
 4   SHAPE       71457 non-null  object
 5   DURATION    70890 non-null  object
 6   SUMMARY     72858 non-null  object
 7   POSTED      72865 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.4+ MB


Podemos ver a quantidade de linhas, observações e variáveis que foram coletadas, e constatamos que existem dados faltantes nesse dataframe. Porém, iremos trabalhas com os dados incompletos mesmo. 


### P2: Quantos relatos ocorreram por estado em ordem decrescente?


In [4]:
df_ovnis['STATE']
#descobre todos os estados possiveis
df_ovnis['STATE'].unique()

array(['OR', 'NC', 'ME', 'AZ', 'CA', 'MI', 'PA', 'KY', nan, 'MO', 'AL',
       'FL', 'MD', 'CO', 'NS', 'TX', 'NM', 'WA', 'IN', 'LA', 'UT', 'MA',
       'NJ', 'CT', 'NY', 'GA', 'SC', 'WI', 'NE', 'MS', 'OH', 'IL', 'WV',
       'QC', 'ON', 'OK', 'MN', 'RI', 'NV', 'IA', 'BC', 'MT', 'VA', 'SD',
       'KS', 'ND', 'NH', 'TN', 'ID', 'AK', 'AR', 'AB', 'WY', 'DE', 'NT',
       'NB', 'PE', 'SK', 'HI', 'VT', 'SA', 'DC', 'MB', 'NF', 'YT'],
      dtype=object)

In [5]:
df_ovnis['STATE'].value_counts()

CA    8019
FL    4405
WA    3266
TX    2897
NY    2861
      ... 
NF      22
YT      14
PE       9
NT       7
SA       4
Name: STATE, Length: 64, dtype: int64

###P3: Remover possíveis campos vazios (sem estado).

In [6]:
# exiba a contagem de valores faltantes para cada atributo em OVNIS
df_ovnis.isnull().sum()

Unnamed: 0       0
DATE/TIME        0
CITY           144
STATE         4361
SHAPE         1408
DURATION      1975
SUMMARY          7
POSTED           0
dtype: int64

Existem 4361 estados com valores nulos, nós vamos remover esses dados.


In [7]:
#Remove os campos vazios que não possuem estado
df_ovnis.dropna(subset=['STATE'], inplace=True)

In [8]:
df_ovnis.isnull().sum()

Unnamed: 0       0
DATE/TIME        0
CITY            74
STATE            0
SHAPE         1202
DURATION      1733
SUMMARY          7
POSTED           0
dtype: int64

Agora vamos salvar o progresso para a próxima etapa, o que nos fará poupar tempo e trabalho, em vez de toda vez termos de realizar a limpeza ao abrir o notebook.

In [9]:
# salva os novos conjuntos de dados para a próxima seção
df_ovnis.to_csv('ovnis_clean.csv', index=False)

###P4: Limitar a análise aos estados dos Estados Unidos.

In [10]:
# abre o novo conjunto de dados que foi criado após realizarmos a limpeza dos dados
df_ovnis = pd.read_csv('ovnis_clean.csv')

In [11]:
df_ovnis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68504 entries, 0 to 68503
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  68504 non-null  int64 
 1   DATE/TIME   68504 non-null  object
 2   CITY        68430 non-null  object
 3   STATE       68504 non-null  object
 4   SHAPE       67302 non-null  object
 5   DURATION    66771 non-null  object
 6   SUMMARY     68497 non-null  object
 7   POSTED      68504 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.2+ MB


In [12]:
df_ovnis['STATE'].unique()

array(['OR', 'NC', 'ME', 'AZ', 'CA', 'MI', 'PA', 'KY', 'MO', 'AL', 'FL',
       'MD', 'CO', 'NS', 'TX', 'NM', 'WA', 'IN', 'LA', 'UT', 'MA', 'NJ',
       'CT', 'NY', 'GA', 'SC', 'WI', 'NE', 'MS', 'OH', 'IL', 'WV', 'QC',
       'ON', 'OK', 'MN', 'RI', 'NV', 'IA', 'BC', 'MT', 'VA', 'SD', 'KS',
       'ND', 'NH', 'TN', 'ID', 'AK', 'AR', 'AB', 'WY', 'DE', 'NT', 'NB',
       'PE', 'SK', 'HI', 'VT', 'SA', 'DC', 'MB', 'NF', 'YT'], dtype=object)

In [13]:
# seleciona os estados que não são dos Estados Unidos
df_remove = df_ovnis.loc[(df_ovnis['STATE'] == 'NS') | (df_ovnis['STATE'] == 'QC') | (df_ovnis['STATE'] == 'ON') | (df_ovnis['STATE'] == 'BC') | (df_ovnis['STATE'] == 'AB') | (df_ovnis['STATE'] == 'NT') | (df_ovnis['STATE'] == 'NB') | (df_ovnis['STATE'] == 'PE') | (df_ovnis['STATE'] == 'SK') | (df_ovnis['STATE'] == 'SA') | (df_ovnis['STATE'] == 'MB') | (df_ovnis['STATE'] == 'NF') | (df_ovnis['STATE'] == 'YT')]
df_remove.head()
ultimo_df = df_ovnis.drop(df_remove.index)

In [14]:
# verifica se conseguiu realizar a limpeza
ultimo_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 65869 entries, 0 to 68503
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  65869 non-null  int64 
 1   DATE/TIME   65869 non-null  object
 2   CITY        65795 non-null  object
 3   STATE       65869 non-null  object
 4   SHAPE       64732 non-null  object
 5   DURATION    64208 non-null  object
 6   SUMMARY     65862 non-null  object
 7   POSTED      65869 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.5+ MB


In [15]:
# segunda verificação
ultimo_df['STATE'].unique()

array(['OR', 'NC', 'ME', 'AZ', 'CA', 'MI', 'PA', 'KY', 'MO', 'AL', 'FL',
       'MD', 'CO', 'TX', 'NM', 'WA', 'IN', 'LA', 'UT', 'MA', 'NJ', 'CT',
       'NY', 'GA', 'SC', 'WI', 'NE', 'MS', 'OH', 'IL', 'WV', 'OK', 'MN',
       'RI', 'NV', 'IA', 'MT', 'VA', 'SD', 'KS', 'ND', 'NH', 'TN', 'ID',
       'AK', 'AR', 'WY', 'DE', 'HI', 'VT', 'DC'], dtype=object)

In [16]:
# salva os novos conjuntos de dados para a próxima seção
ultimo_df.to_csv('ovnis_clean.csv', index=False)

###P5: Consulta por cidades, com o objetivo de saber quais contêm o maior número de relatos (cidades que apresentem ao menos 10 relatos).

In [17]:
# abre o novo conjunto de dados que foi criado após realizarmos a limpeza dos dados
df_ovnis = pd.read_csv('ovnis_clean.csv')

In [18]:
df_ovnis['CITY'].value_counts()

Phoenix                         368
Las Vegas                       341
Seattle                         330
Portland                        322
San Diego                       280
                               ... 
Islamorada (Keys)                 1
Rugby                             1
Esko                              1
Allendorf                         1
Kansas City/Norton (between)      1
Name: CITY, Length: 13192, dtype: int64

In [19]:
df_ovnis['CITY'].value_counts() >= 10

Phoenix                          True
Las Vegas                        True
Seattle                          True
Portland                         True
San Diego                        True
                                ...  
Islamorada (Keys)               False
Rugby                           False
Esko                            False
Allendorf                       False
Kansas City/Norton (between)    False
Name: CITY, Length: 13192, dtype: bool

In [20]:
# seleciona as cidades que possuem o maior número de relatos.
df_cidades_mr = df_ovnis['CITY'].value_counts() >= 10
df_cidades_mr = df_ovnis.groupby('CITY').count()
df_cidades_mr = df_cidades_mr.sort_values(ascending=False, by="POSTED")
df_cidades_mr = df_cidades_mr.query('POSTED >= 10')['POSTED']

df_cidades_mr

#for i in df_cidades_mr:
#    print(i) 
#if df_cidades_mr. == True:
  #print(df_cidades_mr.attrs)

CITY
Phoenix        368
Las Vegas      341
Seattle        330
Portland       322
San Diego      280
              ... 
Lenexa          10
Brockton        10
West Covina     10
Antelope        10
Houma           10
Name: POSTED, Length: 1433, dtype: int64

###P6: Com o dado anterior, responder a seguinte pergunta: por que será que essa é a cidade que possui mais relatos?

Phoenix é a cidade que possui mais relatos. Porque é uma cidade com muitas bases aéreas, as pessoas achavam que viam ovnis quando na realidade estavam vendo aeronaves.

### P7: Fazer uma query exclusiva para o estado com maior número de relatos, buscando cidades que possuam um número superior a 10 relatórios. Enfatizar a cidade, a quantidade de relatos e formato do objeto não identificado.

In [21]:
# Nós vimos na pergunta 2 que o estado com mais casos era a "CA", califórnia.
state_california = df_ovnis[df_ovnis['STATE']=='CA']

COLUNAS = [
    'CIDADE',
    'QUANTIDADE',
    'FORMATO'
]

df_final = pd.DataFrame(columns=COLUNAS)
df_final['CIDADE'] = state_california['CITY']
df_final['QUANTIDADE'] = state_california.groupby('CITY')['CITY'].transform('count')
df_final['FORMATO'] = state_california['SHAPE']

#gera arquivo .csv
df_final.to_csv("ovnis_maiores_relatos.csv")

df_final

Unnamed: 0,CIDADE,QUANTIDADE,FORMATO
4,Fontana,24.0,Triangle
15,Santa Monica & Brentwood,1.0,Light
17,Garden Grove,30.0,Rectangle
26,Carlsbad,39.0,Light
28,Milford,2.0,Disk
...,...,...,...
65806,Santa Clarita,18.0,Light
65840,San Jose,160.0,Oval
65849,Rancho Palos Verdes,8.0,Triangle
65852,Sacramento,177.0,Unknown
