## Lidando com Dados Ausentes

Como resolver problemas com os NA's

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd

In [None]:
data = pd.DataFrame([[1, 6.5, 3], [1, NA, NA], [NA, NA, NA], [NA, 6.5, 3]])

In [None]:
data

In [None]:
data.dropna() # dropa todas as linhas nas quais possuem valores de NA

In [None]:
data.dropna(how="all") # faça os drops nas linhas nas quais TODOS os valores forem NA's

#### Fazendo drop nas colunas

In [None]:
data[3] = NA # adicionando coluna nova só de na's
data

In [None]:
data.dropna(axis=1, how="all") # remove a coluna em que TODOS os dados são NA's

#### Utilizando um threshhold - número de dados faltando que seja aceitável

In [None]:
df = pd.DataFrame(np.random.randn(7,3))

In [None]:
df

#### Introduzir NA's

In [None]:
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA

In [None]:
df

In [None]:
# quero dizer que é aceitável que a gente possua alguns NA's no nosso dataset
df.dropna(thresh=2) # remover as linhas em que tenho 2 ou mais ocorrencias de NA

## Preenchimento de valores faltantes

In [None]:
df.fillna(0) # onde tem valor faltando, virou 0

In [None]:
df.fillna({1: 0.5, 2:0}) # especifica coluna e o valor que quero substituir

#### Substituir pela média


In [None]:
df.fillna(df.mean()) # substituem pela média dos valores da coluna. Posso colocar pelo eixo também

## Lidando com valores duplicados

In [None]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + [ 'two'],
                    'k2': [1,1,2,3,3,4,4]})

In [None]:
data

In [None]:
data.duplicated() # retorna uma serie do pandas onde tenho um booleano para cada um dos indices informando se ele é duplicado

In [None]:
data.drop_duplicates() # remove a sexta linha

In [None]:
data.drop_duplicates(['k1']) # especificando qual coluna. Remove os duplicados, mantendo a primeira ocorrência

In [None]:
data.drop_duplicates(['k1'], keep='last') # mantenha a ultima ocorrencia do duplicado

## Troca de valores

In [None]:
data = pd.Series([1, -999, 2, -999, 1000, 3])

In [None]:
data

In [None]:
data.replace(-999, NA) # substituir o -999 por NA

In [None]:
# Múltiplas substituições ao mesmo tempo:
data.replace({-999: NA, 1000: 0})

## Aplicando Funções
https://www.kaggle.com/stefanoleone992/imdb-extensive-dataset

In [None]:
imdb_dataset = pd.read_csv('/tmp/imdb.scv', index_col='title') # mudar diretorio depois

In [None]:
imdb_dataset.info() # mostra colunas

In [None]:
imdb_dataset['avg_vote'] # notas que vão de 0 a 10

In [None]:
def classificar_filme(nota_filme): # receber um valor e retornar uma string dizendo se é bom ou ruim
    if nota_filme['n1'] >= 8.0 and nota_filme['n2'] >= 8.0:
        return "bom"
    else:
        return "ruim"

In [None]:
# aplicar essa função na nossa coluna do avarage vote
imdb_dataset["avg_vote"].apply(classificar_filme)

#posso aplicar a minha função por eixo

In [None]:
data = pd.DataFrame({"filme": ["Miss Jerry", "The story of the Kelly Gang", "Cleopatra"],
                    "n1": [2, 5, 10],
                    "n2": [10, 5, 8]})

In [None]:
data

In [None]:
data.loc[:, 'n1':] # selecionar todas as linhas na coluna N1 até o final

In [None]:
data.loc[:, 'n1':].apply(classificar_filme, axis=1)

## Discretização/binning
- agrupar valores de x que são contínuos em categorias


In [None]:
idades = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [None]:
bins = [18, 25, 35, 60, 100]

In [None]:
pd.cut(idades, bins) # numero 20, esta entre 18 e 25 / numero 22 também, etc/ Esta retornando as categorias

In [None]:
cats = pd.cut(idades, bins)

In [None]:
cats.codes # os tres primeiros correspondem a categoria 0, depois a categoria 1, etc...

In [None]:
cats.categories # quais categorias foram geradas
# fechado a direita = valor a direita incluso. Aberto a esquerda = valor a esquerda nao incluso

In [None]:
pd.value_counts(cats) # mostra os valores agrupados. Quantas ocorrencias em cada categoria

In [None]:
grupos = ['Jovem', 'Adulto', 'Meia-Idade', 'Senior']

In [None]:
pd.cut(idades, bins, labels = grupos)

## Detecção de Outliers


In [None]:
data = pd.DataFrame(np.random.randn(1000,4))

In [None]:
data.describe()

- procurando valores (em módulo) maiores do que 3, na coluina de índice 2

In [None]:
col = data[2]

In [None]:
col

In [None]:
col[np.abs(col) > 3] # valores onde possuem valores maiores que 3 naquela coluna

- Generalizando para o dataset inteiro

In [None]:
data[(np.abs(data)>3).any(axis=1)] # as linhas que possuem dados com valor maior que 3

In [None]:
data[(np.abs(data)>3).any(axis=1)] = np.sign(data) * 3 # substituir tudo que está maior que 3 e menores que -3 com o limte de 3 e -3

In [None]:
data.describe() # valor máximo está com 3, e mínimo com -3

## Amostragem

In [None]:
df = pd.DataFrame(np.arange(5*4).reshape(5,4))

In [None]:
df

In [None]:
df.sample(n=3) # não terei valores repetidos. Sempre que sorteio uma linha, ela nao será sorteada denovo

In [None]:
df.sample(n=6, replace=True) # aqui tem repetição

## Consumo de dados via API REST

- Nasa API's (api.nasa.gov)
    - Consulta de dados
    - Vamos utilizar NeoWs - Near Earth Objects
    - Conjunto de dados que dizem o nome dos asteróides e as menores distancias que ele já esteve da Terra
    - Example query - depois de Neo - Browse
    - Authentication: 1000 requisições por hora
    - Gerar uma chave de API para identificar quem está fazendo a consulta

- Dados Json:
```Json
["valor1", "valor2"] - somente strings com aspas duplas
{"k1": 1,}
1
2
3
"valor 1"
"valor 1"
``` 

In [51]:
url="https://api.nasa.gov/neo/rest/v1/neo/browse?api_key=rsTSh621hbpy9PYSGpOdfvQIsobKdfja2EtMB2HW"

In [52]:
import requests

In [53]:
resp = requests.get(url)

In [54]:
data = resp.json() # retornar o formato da resposta como um json
# ja faz onversão para um dicionario do python

In [55]:
data.keys() # vai retornar as chaves


dict_keys(['links', 'page', 'near_earth_objects'])

In [56]:
data['page']

{'size': 20, 'total_elements': 25979, 'total_pages': 1299, 'number': 0}

In [57]:
data['near_earth_objects'] # virá o conjunto de todos os asteroides

approach_date': '2127-05-24',
    'close_approach_date_full': '2127-May-24 21:52',
    'epoch_date_close_approach': 4966869120000,
    'relative_velocity': {'kilometers_per_second': '5.7506342234',
     'kilometers_per_hour': '20702.2832040983',
     'miles_per_hour': '12863.5936942354'},
    'miss_distance': {'astronomical': '0.0650667019',
     'lunar': '25.3109470391',
     'kilometers': '9733840.012164953',
     'miles': '6048327.7188762314'},
    'orbiting_body': 'Earth'},
   {'close_approach_date': '2139-05-20',
    'close_approach_date_full': '2139-May-20 15:24',
    'epoch_date_close_approach': 5345191440000,
    'relative_velocity': {'kilometers_per_second': '5.4042162537',
     'kilometers_per_hour': '19455.178513355',
     'miles_per_hour': '12088.6913379233'},
    'miss_distance': {'astronomical': '0.0683516664',
     'lunar': '26.5887982296',
     'kilometers': '10225263.704390568',
     'miles': '6353684.2416551184'},
    'orbiting_body': 'Earth'},
   {'close_approach_dat

In [58]:
data['near_earth_objects'][0]['name'] # para saber o nome do asteroide no indice

'433 Eros (A898 PA)'

In [59]:
asteroids = {"id": [], "nome": [], "perigoso": [], "diametro_min": [], "diametro_max": [], "primeira_obs": [], "ultima_obs": []} 
# dict para criar dataset no pandas

In [60]:
for asteroid in data['near_earth_objects']:
    asteroids['id'].append(asteroid['id'])
    asteroids['nome'].append(asteroid['name'])
    asteroids['perigoso'].append(asteroid['is_potentially_hazardous_asteroid'])
    asteroids['diametro_min'].append(asteroid['estimated_diameter']['kilometers']['estimated_diameter_min'])
    asteroids['diametro_max'].append(asteroid['estimated_diameter']['kilometers']['estimated_diameter_max'])
    asteroids['primeira_obs'].append(asteroid['orbital_data']['first_observation_date'])
    asteroids['ultima_obs'].append(asteroid['orbital_data']['last_observation_date'])

In [61]:
asteroids # retornará os dados 

{'id': ['2000433',
  '2000719',
  '2000887',
  '2001036',
  '2001221',
  '2001566',
  '2001580',
  '2001620',
  '2001627',
  '2001685',
  '2001862',
  '2001863',
  '2001864',
  '2001865',
  '2001866',
  '2001915',
  '2001916',
  '2001917',
  '2001943',
  '2001980'],
 'nome': ['433 Eros (A898 PA)',
  '719 Albert (A911 TB)',
  '887 Alinda (A918 AA)',
  '1036 Ganymed (A924 UB)',
  '1221 Amor (1932 EA1)',
  '1566 Icarus (1949 MA)',
  '1580 Betulia (1950 KA)',
  '1620 Geographos (1951 RA)',
  '1627 Ivar (1929 SH)',
  '1685 Toro (1948 OA)',
  '1862 Apollo (1932 HA)',
  '1863 Antinous (1948 EA)',
  '1864 Daedalus (1971 FA)',
  '1865 Cerberus (1971 UA)',
  '1866 Sisyphus (1972 XA)',
  '1915 Quetzalcoatl (1953 EA)',
  '1916 Boreas (1953 RA)',
  '1917 Cuyo (1968 AA)',
  '1943 Anteros (1973 EC)',
  '1980 Tezcatlipoca (1950 LA)'],
 'perigoso': [False,
  False,
  False,
  False,
  False,
  True,
  False,
  True,
  False,
  False,
  True,
  False,
  False,
  False,
  False,
  False,
  False,
  False

In [62]:
asteroids_data = pd.DataFrame(asteroids, index=asteroids["id"], columns=['nome', 'primeira_obs', 'ultima_obs', 'diametro_min', 'diametro_max', 'perigoso'])

#pode dar erro de tamanho, verificar duas sessos acima se rodou mais de 1 vez

In [63]:
asteroids_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 2000433 to 2001980
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nome          20 non-null     object 
 1   primeira_obs  20 non-null     object 
 2   ultima_obs    20 non-null     object 
 3   diametro_min  20 non-null     float64
 4   diametro_max  20 non-null     float64
 5   perigoso      20 non-null     bool   
dtypes: bool(1), float64(2), object(3)
memory usage: 980.0+ bytes


In [64]:
asteroids_data['perigoso'].describe()

count        20
unique        2
top       False
freq         17
Name: perigoso, dtype: object