<h1>
<font color="#9de482"> Desafios </font>
</h1>

In [1]:
import pandas as pd
import numpy as np
import json

Base do desafio: https://cdn3.gnarususercontent.com.br/2929-pandas/informacoes.json

```bash
! curl https://cdn3.gnarususercontent.com.br/2929-pandas/informacoes.json > ./data/informacoes.json
```

In [2]:
data_path: str = "./data/informacoes.json"

__Teoria__:  

O método `json_normalize()` é usado para normalizar dados JSON em um formato tabular (como um DataFrame do Pandas) para facilitar a análise e manipulação. Os parâmetros mais importantes do método json_normalize() são:

- data: o objeto JSON a ser normalizado.  
- record_path: um caminho para acessar o array de registros dentro do objeto JSON.  
- meta: uma lista de colunas adicionais a serem incluídas no DataFrame, além das colunas normalizadas.  
- errors: como lidar com erros de normalização. Os valores possíveis são "raise" (lançar um erro), "ignore" (ignorar o erro).  
- sep: separador de colunas usado para concatenar as chaves do objeto JSON aninhado. O padrão é ".".  

In [3]:
df = pd.read_json(data_path)
df

Unnamed: 0,nome,idade,enderecos
0,João,28,"{'tipo': 'casa', 'rua': 'Rua A', 'numero': 123..."
1,João,28,"{'tipo': 'trabalho', 'rua': 'Rua B', 'numero':..."


In [4]:
with open(data_path) as file:
    raw_json = json.load(file)
raw_json

{'nome': 'João',
 'idade': 28,
 'enderecos': [{'tipo': 'casa',
   'rua': 'Rua A',
   'numero': 123,
   'cidade': 'São Paulo'},
  {'tipo': 'trabalho',
   'rua': 'Rua B',
   'numero': 456,
   'cidade': 'Rio de Janeiro'}]}

Trata-se de informações de endereço de João, dividindo-os em endereço do tipo trabalho e casa.

In [5]:
df = pd.json_normalize(
    data=raw_json, 
    meta=['nome','idade'],
    record_path='enderecos'
)
df

Unnamed: 0,tipo,rua,numero,cidade,nome,idade
0,casa,Rua A,123,São Paulo,João,28
1,trabalho,Rua B,456,Rio de Janeiro,João,28


 <font color=#96d97c size=5>Desafio 2 </font>  
 
 https://cdn3.gnarususercontent.com.br/2929-pandas/dados.json





In [6]:
! curl https://cdn3.gnarususercontent.com.br/2929-pandas/dados.json > "./data/dados.json"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100   562  100   562    0     0   1488      0 --:--:-- --:--:-- --:--:--  1514


In [7]:
desafio2_path = "./data/dados.json"

In [8]:
desafio2 = pd.read_json(desafio2_path, )
desafio2

Unnamed: 0,pessoas
0,"{'nome': 'João', 'idade': '25', 'endereco': {'..."
1,"{'nome': 'Maria', 'idade': 30, 'endereco': {'r..."


In [9]:
df_pessoas = pd.json_normalize(desafio2['pessoas'])
df_pessoas

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo
1,Maria,30,[21 3333-3333],,456,Rio de Janeiro


In [10]:
df_pessoas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             2 non-null      object
 1   idade            2 non-null      object
 2   telefones        2 non-null      object
 3   endereco.rua     2 non-null      object
 4   endereco.numero  2 non-null      int64 
 5   endereco.cidade  2 non-null      object
dtypes: int64(1), object(5)
memory usage: 228.0+ bytes


In [11]:
df_pessoas.query("`endereco.rua` !=''")

# `endereco.rua` na Quert indica uma coluna nomeado com '.'

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo


Desafio aula 03: https://cdn3.gnarususercontent.com.br/2929-pandas/cursos_cadastrados.json

In [12]:
! curl https://cdn3.gnarususercontent.com.br/2929-pandas/cursos_cadastrados.json > ./data/cursos_cadastrados.json

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100  2898  100  2898    0     0   8973      0 --:--:-- --:--:-- --:--:--  9113


In [13]:
cursos_cadastrados = pd.read_json('./data/cursos_cadastrados.json')

In [14]:
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
1,Excel para iniciantes,Produtividade,,,,,,,"{'nome': 'Maria Oliveira', 'email': 'maria.oli..."
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."


In [15]:
instrutores = pd.json_normalize(cursos_cadastrados['instrutor']) # DataFrame

cursos_cadastrados = pd.concat([cursos_cadastrados, instrutores], axis=1)

In [16]:
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em...",João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,"{'nome': 'Maria Oliveira', 'email': 'maria.oli...",Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em...",Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio....",,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'...",John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em...",João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


In [17]:
cursos_cadastrados = cursos_cadastrados.drop(columns=['instrutor'])
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


In [18]:
cursos_cadastrados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   curso           6 non-null      object 
 1   categoria       6 non-null      object 
 2   carga_horaria   5 non-null      object 
 3   concluintes     5 non-null      object 
 4   data_inicio     5 non-null      object 
 5   data_conclusao  5 non-null      object 
 6   descricao       5 non-null      object 
 7   preco           5 non-null      float64
 8   nome            6 non-null      object 
 9   email           6 non-null      object 
 10  telefone        6 non-null      object 
dtypes: float64(1), object(10)
memory usage: 660.0+ bytes


In [19]:
cursos_cadastrados.isnull().sum()

curso             0
categoria         0
carga_horaria     1
concluintes       1
data_inicio       1
data_conclusao    1
descricao         1
preco             1
nome              0
email             0
telefone          0
dtype: int64

In [20]:
cursos_cadastrados[
    cursos_cadastrados.isna().any(axis=1)
]

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888


In [21]:
cursos_cadastrados.dropna(inplace=True)

In [22]:
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


In [23]:
cursos_cadastrados.reset_index(drop=True, inplace=True)

In [24]:
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
2,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
3,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
4,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


In [25]:
cursos_cadastrados.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [26]:
cursos_cadastrados.drop_duplicates(inplace=True)

In [27]:
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
2,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
3,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,


In [28]:
cursos_cadastrados.replace("", pd.NA, inplace=True)
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
2,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
3,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,


In [29]:
cursos_cadastrados.dropna(inplace=True)
cursos_cadastrados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,nome,email,telefone
0,Introdução à programação,Programação,20 horas,100,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Marketing digital para negócios,Marketing,30 horas,75,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777


In [30]:
cursos_cadastrados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 0 to 1
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   curso           2 non-null      object 
 1   categoria       2 non-null      object 
 2   carga_horaria   2 non-null      object 
 3   concluintes     2 non-null      object 
 4   data_inicio     2 non-null      object 
 5   data_conclusao  2 non-null      object 
 6   descricao       2 non-null      object 
 7   preco           2 non-null      float64
 8   nome            2 non-null      object 
 9   email           2 non-null      object 
 10  telefone        2 non-null      object 
dtypes: float64(1), object(10)
memory usage: 192.0+ bytes


In [31]:
type(
    pd.to_datetime(cursos_cadastrados['data_inicio'])
    )

pandas.core.series.Series

In [32]:
# Converte a concluintes para o tipo inteiro
cursos_cadastrados['concluintes'] = cursos_cadastrados['concluintes'].astype(int)

# Converte a coluna data_inicio e data_conclusao para o tipo datetime
cursos_cadastrados['data_inicio'] = pd.to_datetime(cursos_cadastrados['data_inicio'])
cursos_cadastrados['data_conclusao'] = pd.to_datetime(cursos_cadastrados['data_conclusao'])

# Convertendo a coluna preço para o tipo float
cursos_cadastrados['preco'] = cursos_cadastrados['preco'].astype(float)

---

__Desafio__  

> Sua missão é construir uma função que recebe dois parâmetros, a coluna que você quer analisar se tem outlier e o DataFrame em questão. A intenção de fazer isso é aproveitar novamente essa função tanto para outras colunas quanto para outros DataFrames futuramente em outras análises. O método que deve ser implementado para identificação do outlier é do intervalo interquartil

In [71]:
def identifica_outliers(col_name: str, data: pd.DataFrame) -> pd.Series:
    """Mostra quais dados são outliers, em uma coluna em um dataframe especificado"""

    Q1 = data[col_name].quantile(q=.25)
    Q3 = data[col_name].quantile(q=.75)
    IQR = Q3 - Q1
    upper_bound = Q3 + 1.5 * IQR
    lower_bound = Q1 - 1.5 * IQR

    outliers_mask: pd.Series = (data[col_name] > upper_bound) | (data[col_name] < lower_bound)
    outliers = data.loc[outliers_mask, col_name]

    return outliers

In [34]:
dados_banco ={
    'ID da transação': range(1, 31),
    'Valor da transação': [100, 200, 150, 500, 300, 913, 250, 400, 200, 150, 
                           200, 200, 400, 300, 150, 301, 805, 300, 400, 250, 
                           150, 100, 500, 600, 200, 350, 100, 250, 800, 250],
    'Data da transação': pd.date_range(start='2022-01-01', end='2022-01-30', freq='D'),
    'Local da transação': ['São Paulo, Brasil', 'Rio de Janeiro, Brasil', 'Belo Horizonte, Brasil', 'São Paulo, Brasil', 
                           'São Paulo, Brasil', 'Nova Iorque, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'Rio de Janeiro, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Los Angeles, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Miami, EUA', 'São Paulo, Brasil']
}

In [41]:

df = pd.DataFrame(dados_banco)
df

Unnamed: 0,ID da transação,Valor da transação,Data da transação,Local da transação
0,1,100,2022-01-01,"São Paulo, Brasil"
1,2,200,2022-01-02,"Rio de Janeiro, Brasil"
2,3,150,2022-01-03,"Belo Horizonte, Brasil"
3,4,500,2022-01-04,"São Paulo, Brasil"
4,5,300,2022-01-05,"São Paulo, Brasil"
5,6,913,2022-01-06,"Nova Iorque, EUA"
6,7,250,2022-01-07,"São Paulo, Brasil"
7,8,400,2022-01-08,"São Paulo, Brasil"
8,9,200,2022-01-09,"São Paulo, Brasil"
9,10,150,2022-01-10,"Rio de Janeiro, Brasil"


In [73]:
identifica_outliers(col_name='Valor da transação', data=df)

5     913
16    805
28    800
Name: Valor da transação, dtype: int64