<a href="https://colab.research.google.com/github/JvNeo/Estudo_Pandas/blob/main/Para_saber_mais_Pandas_limpeza_e_tratamento_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01. Para saber mais: o que são modelos de machine learning?

**Modelos de machine learning** são um tipo de tecnologia que permite que computadores aprendam a realizar tarefas específicas sem serem explicitamente programados para isso. Esses modelos são criados por meio de algoritmos que analisam dados e identificam padrões para criar uma representação matemática da relação entre os dados de entrada e de saída.

Para entender melhor, imagine que você quer criar um modelo para prever se uma pessoa vai gostar ou não de um filme baseado em características, como: gênero, elenco, sinopse, diretor(a), etc. Você começa alimentando o modelo com um conjunto de dados que contém informações sobre os filmes e as avaliações das pessoas. O modelo usa esses dados para encontrar padrões e criar uma equação matemática que pode ser usada para prever se uma pessoa vai gostar ou não de um determinado filme.

Outro exemplo de modelo de machine learning é a recomendação de produtos em sites de compras online como a Amazon. O modelo recebe dados de compra e histórico de navegação da pessoa usuária e usa esses dados para recomendar produtos que a pessoa pode gostar.

Os modelos de Machine Learning são amplamente utilizados em diversas áreas, como: detecção de fraudes em transações financeiras, reconhecimento de voz e imagem, diagnóstico médico, entre outros. Eles são capazes de realizar tarefas complexas de forma muito mais rápida e eficiente e têm a capacidade de aprender e melhorar continuamente com o tempo, tornando-se cada vez mais precisos e confiáveis

# 01. Para saber mais: o que é Churn?

**Churn** é um termo utilizado para se referir à taxa de cancelamento de clientes em um determinado período de tempo. Em outras palavras, é a porcentagem de clientes que deixam de usar um produto ou serviço em um determinado período.

O Churn é importante por ser um indicador da saúde financeira e do desempenho de uma empresa. Uma taxa alta de Churn pode significar que a empresa está perdendo clientes mais rapidamente do que está adquirindo novos, o que pode ser um sinal de problemas com o produto ou serviço oferecido, com a experiência do(a) cliente ou com a concorrência.

Por outro lado, uma taxa baixa de Churn pode indicar que a empresa está retendo clientes e oferecendo um bom serviço ou produto. É importante monitorar a taxa de Churn e trabalhar para mantê-la o mais baixa possível, a fim de garantir a satisfação e fidelidade dos(as) clientes.

A importância de desenvolver um modelo de machine learning capaz de prever o Churn é que isso pode ajudar as empresas a identificar clientes que estão em risco de cancelar o serviço ou produto. Através de um modelo de machine learning, a empresa pode analisar dados históricos de clientes, compreendendo melhor as causas do Churn e, com base nessas informações, tomar medidas proativas para reter essas pessoas, como: oferecer descontos, melhorar o serviço ou enviar ofertas personalizadas.

# 01. Normalizando o JSON

O método `json_normalize()` é uma função da biblioteca Pandas utilizada para transformar dados em formato JSON em um DataFrame. Ela é muito útil quando se trabalha com dados em JSON, pois muitas vezes eles estão em formato aninhado e precisam ser normalizados para que possam ser trabalhados facilmente.

Supondo que temos um arquivo JSON chamado **dados.json**, com o seguinte conteúdo:



```
{
    "id": 1,
    "nome": "João",
    "endereco": {
        "rua": "Rua Principal, 123",
        "cidade": "Qualquer Cidade",
        "estado": "SP",
        "cep": "12345-678"
    }
}
```

Qual é a forma de normalizar esse arquivo para obtermos o DataFrame?

```
import pandas as pd
import json

with open('dados.json', 'r') as f:
    dados = json.load(f)

df = pd.json_normalize(dados)
```

O `with` é utilizado para abrir o arquivo JSON e carregar o conteúdo de forma segura e eficiente, garantindo que o arquivo será fechado após o uso. Abrimos o arquivo “dados.json” e usamos o método `json.load()`. O método `json.load()` é uma função Python que permite carregar um arquivo JSON em memória e convertê-lo em um objeto Python que pode ser usado no programa. Logo após, inserimos o arquivo carregado no método `json_normalize` que converte o arquivo JSON em uma tabela relacional, em que as chaves do objeto JSON são transformadas em colunas e seus valores são adicionados nas linhas correspondentes.


# 01. Para saber mais: parâmetros do json_normalize

O método `json_normalize()` é usado para normalizar dados JSON em um formato tabular (como um DataFrame do Pandas) para facilitar a análise e manipulação. Os parâmetros mais importantes do método `json_normalize()` são:

* `data`: o objeto JSON a ser normalizado.
* `record_path`: um caminho para acessar o array de registros dentro do objeto JSON.
* `meta`: uma lista de colunas adicionais a serem incluídas no DataFrame, além das colunas normalizadas.
* `errors`: como lidar com erros de normalização. Os valores possíveis são "raise" (lançar um erro), "ignore" (ignorar o erro).
* `sep`: separador de colunas usado para concatenar as chaves do objeto JSON aninhado. O padrão é ".".

Aqui está um exemplo de como usar o método `json_normalize()` com alguns dos parâmetros mencionados acima:



In [2]:
# parâmetros do json_normalize

import pandas as pd

data = {
    "empresa": "alura",
    "funcionarios": [
        {"nome": "Alice", "endereço": {"cidade": "São Paulo", "estado": "SP"}},
        {"nome": "Bob", "endereço": {"cidade": "Rio de Janeiro", "estado": "RJ"}}
    ]
}

df = pd.json_normalize(data, record_path='funcionarios', meta = "empresa", errors='ignore')
df

Unnamed: 0,nome,endereço.cidade,endereço.estado,empresa
0,Alice,São Paulo,SP,alura
1,Bob,Rio de Janeiro,RJ,alura


Este código em Python faz uso das bibliotecas pandas para criar um DataFrame que contém informações sobre pessoas associadas a uma empresa.

O objeto `data` contém uma chave `"empresa"` com o valor `"alura"`, bem como uma chave `"funcionarios"` cujo valor é uma lista contendo dois dicionários. Cada dicionário na lista representa uma pessoa, com informações sobre o nome e o endereço. O endereço é um dicionário aninhado com as chaves `"cidade"` e `"estado"`.

A função `pd.json_normalize()` é usada para normalizar os dados em uma tabela. Nesse caso, `data` é passado como o objeto JSON a ser normalizado. O parâmetro `record_path` é definido como `'funcionarios'` para indicar que os dados das pessoas devem ser normalizados. O parâmetro `meta` é definido como `"empresa"` para incluir a informação da empresa em cada linha da tabela. Finalmente, o parâmetro `errors` é definido como `'ignore'` para ignorar quaisquer erros que possam ocorrer durante a normalização.

A saída do código é um objeto DataFrame que contém informações sobre as pessoas associadas à empresa, com cada pessoa representada em uma linha e as informações de nome, cidade e estado em colunas separadas.

# 01. Desafio: utilizando parâmetros do json_normalize

Ao normalizar o objeto JSON durante a aula passamos simplesmente pd.`json_normalize(<dados>)` mas o método json_normalize possui diversos parâmetros para trabalhar com estruturas de dados mais complexas.

Você recebeu a tarefa de normalizar o seguinte arquivo JSON chamado [“informacoes.json”](https://cdn3.gnarususercontent.com.br/2929-pandas/informacoes.json) referente a algumas informações de identificação de um cliente. O arquivo possui o seguinte conteúdo:

In [28]:
# importamos a biblioteca JSON
import json

# com o caminho aberto nós lemos ele como f
# atribuimos a variavel dados e carregamos ele como um objeto json no python
with open('/content/drive/MyDrive/ALURA/Pandas: limpeza e tratamento de dados/Desafios/informacoes.json') as f:
    dados = json.load(f)

In [31]:
# importamos a biblioteca pandas
import pandas as pd

# normalizamos com pandas usando alguns parametros
# dados para indicar o objeto JSON que será normalizado
# record_path é definido como 'enderecos' para indicar que os dados dos endereços devem ser normalizados
# meta é definido como 'nome' e 'idade' para incluir as informações em cada linha da tabela
informacoes = pd.json_normalize(dados, record_path='enderecos', meta=['nome', 'idade'])
informacoes

Unnamed: 0,tipo,rua,numero,cidade,nome,idade
0,casa,Rua A,123,São Paulo,João,28
1,trabalho,Rua B,456,Rio de Janeiro,João,28
