# Para saber mais

## 1 - O que são modelos de machine learning?

Modelos de machine learning são um tipo de tecnologia que permite que computadores aprendam a realizar tarefas específicas sem serem explicitamente programados para isso. Esses modelos são criados por meio de algoritmos que analisam dados e identificam padrões para criar uma representação matemática da relação entre os dados de entrada e de saída.

Para entender melhor, imagine que você quer criar um modelo para prever se uma pessoa vai gostar ou não de um filme baseado em características, como: gênero, elenco, sinopse, diretor(a), etc. Você começa alimentando o modelo com um conjunto de dados que contém informações sobre os filmes e as avaliações das pessoas. O modelo usa esses dados para encontrar padrões e criar uma equação matemática que pode ser usada para prever se uma pessoa vai gostar ou não de um determinado filme.

Outro exemplo de modelo de machine learning é a recomendação de produtos em sites de compras online como a Amazon. O modelo recebe dados de compra e histórico de navegação da pessoa usuária e usa esses dados para recomendar produtos que a pessoa pode gostar.

Os modelos de Machine Learning são amplamente utilizados em diversas áreas, como: detecção de fraudes em transações financeiras, reconhecimento de voz e imagem, diagnóstico médico, entre outros. Eles são capazes de realizar tarefas complexas de forma muito mais rápida e eficiente e têm a capacidade de aprender e melhorar continuamente com o tempo, tornando-se cada vez mais precisos e confiáveis

## 2 - O que é Churn?

Churn é um termo utilizado para se referir à taxa de cancelamento de clientes em um determinado período de tempo. Em outras palavras, é a porcentagem de clientes que deixam de usar um produto ou serviço em um determinado período.

O Churn é importante por ser um indicador da saúde financeira e do desempenho de uma empresa. Uma taxa alta de Churn pode significar que a empresa está perdendo clientes mais rapidamente do que está adquirindo novos, o que pode ser um sinal de problemas com o produto ou serviço oferecido, com a experiência do(a) cliente ou com a concorrência.

Por outro lado, uma taxa baixa de Churn pode indicar que a empresa está retendo clientes e oferecendo um bom serviço ou produto. É importante monitorar a taxa de Churn e trabalhar para mantê-la o mais baixa possível, a fim de garantir a satisfação e fidelidade dos(as) clientes.

A importância de desenvolver um modelo de machine learning capaz de prever o Churn é que isso pode ajudar as empresas a identificar clientes que estão em risco de cancelar o serviço ou produto. Através de um modelo de machine learning, a empresa pode analisar dados históricos de clientes, compreendendo melhor as causas do Churn e, com base nessas informações, tomar medidas proativas para reter essas pessoas, como: oferecer descontos, melhorar o serviço ou enviar ofertas personalizadas.

## Parâmetros do ```json_normalize()```

O método ```json_normalize()``` é usado para normalizar dados JSON em um formato tabular (como um DataFrame do Pandas) para facilitar a análise e manipulação. Os parâmetros mais importantes do método ```json_normalize()``` são:

- ```data```: o objeto JSON a ser normalizado.
- ```record_path```: um caminho para acessar o array de registros dentro do objeto JSON.
- ```meta```: uma lista de colunas adicionais a serem incluídas no DataFrame, além das colunas normalizadas.
- ```errors```: como lidar com erros de normalização. Os valores possíveis são "raise" (lançar um erro), "ignore" (ignorar o erro).
- ```sep```: separador de colunas usado para concatenar as chaves do objeto JSON aninhado. O padrão é ".".
Aqui está um exemplo de como usar o método ```json_normalize()``` com alguns dos parâmetros mencionados acima:

In [2]:
import pandas as pd

data = {
    "empresa": "alura",
    "funcionarios": [
        {"nome": "Alice", "endereço": {"cidade": "São Paulo", "estado": "SP"}},
        {"nome": "Bob", "endereço": {"cidade": "Rio de Janeiro", "estado": "RJ"}}
    ]
}

df = pd.json_normalize(data, record_path='funcionarios', meta = "empresa", errors='ignore')
df

Unnamed: 0,nome,endereço.cidade,endereço.estado,empresa
0,Alice,São Paulo,SP,alura
1,Bob,Rio de Janeiro,RJ,alura


Este código em Python faz uso das bibliotecas pandas para criar um DataFrame que contém informações sobre pessoas associadas a uma empresa.

O objeto data contém uma chave ```"empresa"``` com o valor ```"alura"```, bem como uma chave ```"funcionarios"``` cujo valor é uma lista contendo dois dicionários. Cada dicionário na lista representa uma pessoa, com informações sobre o nome e o endereço. O endereço é um dicionário aninhado com as chaves ```"cidade"``` e ```"estado"```.

A função pd.```json_normalize()``` é usada para normalizar os dados em uma tabela. Nesse caso, ```data``` é passado como o objeto JSON a ser normalizado. O parâmetro ```record_path``` é definido como ```'funcionarios'``` para indicar que os dados das pessoas devem ser normalizados. O parâmetro ```meta``` é definido como ```"empresa"``` para incluir a informação da empresa em cada linha da tabela. Finalmente, o parâmetro ```errors``` é definido como ```'ignore'``` para ignorar quaisquer erros que possam ocorrer durante a normalização.

A saída do código é um objeto DataFrame que contém informações sobre as pessoas associadas à empresa, com cada pessoa representada em uma linha e as informações de nome, cidade e estado em colunas separadas.

## 3 - Por que alterar o tipo da coluna?

Fazer o *cast* das colunas para as tipagens corretas é importante antes de inserir em um modelo de machine learning por diversos motivos:

1. **Precisão dos resultados** Ao fazer o cast das colunas para suas tipagens corretas, garantimos que os dados estejam representados de forma precisa e sem perda de informações. Por exemplo, se uma coluna contém números decimais e for representada como um tipo de dado inteiro, a precisão será perdida, o que pode levar a resultados incorretos no modelo de machine learning.

2. **Velocidade de processamento** Quando os dados são armazenados em seu tipo de dado correto, o processamento dos dados é mais rápido. Por exemplo, o uso de floats de menor precisão como float32 em vez de float64 pode reduzir a carga computacional em operações de ponto flutuante já que exigem menos cálculos e até mesmo reduz o armazenamento.

3. **Compatibilidade do modelo** Modelos de machine learning podem ter requisitos específicos em relação aos tipos de dados que podem ser usados como entrada. Portanto, fazer o cast das colunas para as tipagens corretas garante a compatibilidade do modelo.

4. **Evita erros** Quando as colunas são convertidas para seus tipos corretos, erros de dados são menos propensos a ocorrer, porque, em machine learning, o modelo é treinado com base em padrões e relações identificadas nos dados de treinamento. Se os dados contêm erros, isso pode afetar a precisão do modelo e fazer com que ele produza resultados imprecisos.

Em resumo, fazer o cast das colunas para suas tipagens corretas é uma etapa importante na preparação dos dados para serem processados por um modelo de machine learning e pode ajudar a garantir que o modelo seja preciso e eficiente.