# Data Science - avaliação


## Importa bibliotecas

In [1]:
import pandas as pd
import numpy as np

%matplotlib inline 
import matplotlib.pyplot as plt
import seaborn as sns


________
## Base de cliente
Esta é uma base de clientes gerada para efeitos didáticos, e não reflete dados reais.

| Nome da Variável | Descrição |
| :-- | :-- |
| **id_usuario** | **Chave de identificação do cliente** |
| DATA | Mês da assinatura |
| TEMPO_CASA | Tempo de casa  (em meses) desde a assinatura até jan/2023|
| IDADE ATUAL | Idade do cliente em 13/5/2021 |
| QTD_PRODUTOS_CLIENTE | Quantidade de produtos que o cliente possui |
| VALOR_TOTAL_MENSAL | Valor total dos produtos  |
| FORMA_ULTIMO_PAGAMENTO | Forma do último pagamento do cliente |
| CANAL_VENDA | Canal de venda do último produto adquirido | 

_____

## Carrega dados

In [None]:
df_base = pd.read_csv("teste_data_science_3.csv")
df_base

## PERGUNTA 1

### O tipo de cada variável está adequado, ou é preciso alterar alguma? Verifique e, se for o caso, altere.

In [None]:
# escreva seu código abaixo
df_base["tempo_casa"] = df_base["tempo_casa"].astype(int)

# Verifique os tipos de dados após a alteração
print(df_base.dtypes)

## PERGUNTA 2
### Quantos são os usuários únicos e os quantos são usuários duplicados na base?
### Qual a proporção (percentual) de usuários que estão duplicados na base?

In [None]:
# escreva seu código abaixo
# Use o método `duplicated()` para identificar linhas duplicadas com base em colunas-chave, como 'id_usuario'
duplicados = df_base[df_base.duplicated(subset='id_usuario', keep='first')]

# Use o método `drop_duplicates()` para manter apenas as linhas únicas
unicos = df_base.drop_duplicates(subset='id_usuario', keep='first')

# Calcule o número de usuários únicos e duplicados
num_usuarios_unicos = len(unicos)
num_usuarios_duplicados = len(duplicados)

# Calcule a proporção de usuários duplicados em relação ao total de usuários
proporcao_duplicados = (num_usuarios_duplicados / (num_usuarios_unicos + num_usuarios_duplicados)) * 100

# Exiba os resultados
print("Número de usuários únicos:", num_usuarios_unicos)
print("Número de usuários duplicados:", num_usuarios_duplicados)
print("Proporção de usuários duplicados:", proporcao_duplicados, "%")

## PERGUNTA 3
### Qual a média de produtos contratados por cliente E quanto um cliente paga em média por mês?

In [None]:
# escreva seu código abaixo
# Calcule a média de produtos contratados por cliente
media_produtos_contratados = df_base['qtd_produtos_cliente'].mean()

# Calcule o valor médio pago por mês por um cliente
media_valor_mensal = df_base['valor_total_mensal'].mean()

# Exiba os resultados
print("Média de produtos contratados por cliente:", media_produtos_contratados)
print("Valor médio pago por mês por um cliente:", media_valor_mensal)

## PERGUNTA 4

### Qual o percentual de clientes com assintaturas de no máximo 5 anos?

In [None]:
# escreva seu código abaixo
# Use a função 'value_counts()' para contar o número de clientes em cada grupo de tempo de assinatura
contagem_tempo_casa = df_base['tempo_casa'].value_counts()

# Somar o número de clientes com assinaturas de no máximo 5 anos (0 a 5 anos)
clientes_ate_5_anos = contagem_tempo_casa.loc[0:5].sum()

# Calcule o percentual de clientes com assinaturas de no máximo 5 anos
percentual_ate_5_anos = (clientes_ate_5_anos / len(df_base)) * 100

# Exiba o resultado
print("Percentual de clientes com assinaturas de no máximo 5 anos:", percentual_ate_5_anos, "%")

## PERGUNTA 5

Você vê algum tipo de inconsistência na base? Se sim, descreva quais.

> Escreva sua resposta aqui

Resposta: Para detectar discrepâncias em uma base de dados, é fundamental realizar uma análise minuciosa dos registros. No entanto, até o momento, com base nas informações disponíveis e na análise conduzida, não é possível apontar irregularidades específicas. Discrepâncias podem se manifestar de diversas maneiras, incluindo a ausência de dados, valores que estão fora dos limites esperados, duplicações de registros e inconsistências na formatação, entre outros possíveis problemas.

1) Valores Ausentes: Verifique se há valores ausentes em colunas importantes. Valores ausentes podem ser representados como "NaN" em um DataFrame do pandas.

2) Valores Extremos: Verifique se há valores em colunas que estão fora do intervalo esperado. Por exemplo, idade negativa ou valores extremamente altos que não fazem sentido.

3) Dados Duplicados: Já discutimos como identificar e contar clientes duplicados, mas verifique se há duplicações em outras colunas ou combinações de colunas que não deveriam existir.

4) Formatação Consistente: Verifique se a formatação dos dados está consistente em todas as colunas. Por exemplo, datas em formatos diferentes, texto em maiúsculas e minúsculas, etc.

5) Valores Categóricos: Verifique se os valores nas colunas categóricas (como "canal_venda" e "forma_ultimo_pagamento") são consistentes e fazem sentido.

6) Erros de Lógica: Verifique se há erros lógicos nos dados. Por exemplo, um cliente com "tempo_casa" maior do que a idade, o que não é possível.

7) Outliers: Identifique outliers nos dados, que são valores que se desviam significativamente da maioria dos dados e podem afetar análises estatísticas.

In [None]:
# se achar necessário, escreva seu código abaixo

# 1) Verificando valores ausentes
valores_ausentes = df_base.isnull().sum()

# 2) Verificando valores extremos
valores_extremos = df_base.describe()

# 3) Verificando duplicatas
duplicatas = df_base[df_base.duplicated()]

# 4) Verificando formatação consistente (por exemplo, para coluna "canal_venda")
formatacao_inconsistente = df_base['canal_venda'].str.lower().unique()

# Exibindo os resultados
print("1. Valores Ausentes:")
print(valores_ausentes)
print()
print("\n2. Valores Extremos:")
print(valores_extremos)
print()
print("\n3. Duplicatas:")
print(duplicatas)
print()
print("\n4. Formatação Inconsistente para 'canal_venda':")
print(formatacao_inconsistente)

## PERGUNTA 6

Escreva UM PARÁGRAFO sobre que tipo de problema de negócio esta base poderia ajudar a resolver, com quais metodologias e tipos de aprendizagem de máquina?


> Escreva sua resposta aqui

**Resposta:** A base de dados em questão parece conter informações sobre clientes, incluindo dados demográficos, histórico de compra e informações de assinatura. Essa base de dados poderia ser valiosa para resolver problemas de negócios, como a previsão de churn de clientes, ou seja, identificar quais clientes estão mais propensos a cancelar seus serviços. 

Isso poderia ser abordado usando métodos de aprendizado de máquina, como classificação binária, onde o objetivo é classificar os clientes em duas categorias: aqueles que provavelmente cancelarão e aqueles que provavelmente permanecerão. 

Além disso, essa base de dados poderia ser usada para segmentação de clientes, permitindo que as empresas entendam melhor o comportamento e as necessidades de diferentes grupos de clientes, o que é útil para estratégias de marketing direcionadas e personalização de serviços. Para isso, técnicas de agrupamento, como K-Means, podem ser aplicadas. 

Em resumo, essa base de dados oferece oportunidades para abordar problemas de negócios relacionados à retenção de clientes, segmentação e personalização, utilizando técnicas de aprendizado de máquina.

## PERGUNTA 7

Utilizando os comentários abaixo como exemplo, como você criaria um prompt para uma IA generativa de chat/texto aprender a classificar o sentimento de outros novos comentários como "positivo" ou "negativo"?

 

- Por causa do conteúdo de qualidade com a credibilidade da empresa.
- Bom dia! Na realidade eu já pedir várias vezes para cancelar estes produtos pois não utilizo.
- Não posso mais ler o conteúdo.
- Diversidade e conteúdo e meus interesses.
- Algumas coisas repetitivas e muito superficiais.
- Atendimento sempre gentil e educados.
- Tudo rápido e funcional.
- Desde abril venho tentando reinstalar esse aplicativo, mas nem com ajuda de dois suportes eu consegui.
- Adoro o produto, nele conheci pessoas novas que hoje fazem parte da minha vida.
- O webmail é lento.

> Escreva sua resposta aqui

**Resposta:** Para treinar uma IA generativa de chat/texto a classificar o sentimento de comentários como "positivo" ou "negativo", você pode criar um prompt de treinamento que inclua uma descrição do que você deseja que o modelo faça e forneça exemplos de comentários positivos e negativos para o modelo aprender a distinguir os sentimentos. Aqui está um exemplo de como você pode criar o prompt:

Prompt:

"Treine um modelo de IA para classificar o sentimento de comentários como 'positivo' ou 'negativo'. Use os exemplos a seguir como guia:

Comentários positivos:

'Por causa do conteúdo de qualidade com a credibilidade da empresa.'
'Atendimento sempre gentil e educados.'
'Tudo rápido e funcional.'
'Adoro o produto, nele conheci pessoas novas que hoje fazem parte da minha vida.'

Comentários negativos:
'Bom dia! Na realidade eu já pedir várias vezes para cancelar estes produtos pois não utilizo.'
'Não posso mais ler o conteúdo.'
'Algumas coisas repetitivas e muito superficiais.'
'Desde abril venho tentando reinstalar esse aplicativo, mas nem com ajuda de dois suportes eu consegui.'
'O webmail é lento.'

Agora, treine o modelo para identificar e classificar o sentimento dos comentários em 'positivo' ou 'negativo' com base nos exemplos fornecidos.

2) Questão banco de dados

Monte uma query com MySQL que retorne para cada pais a quantidade de estados e o número total de habitantes. 

Considere as seguintes tabelas: tabele name: cidades estado_id 1  cidade São Paulo habitantes 12.800.000 1 santos 433.966 2 Rio de Janeiro 6.320.000 3 Las Vegas 644.644 4 Dallas 1.345.000 5 Montreal 1.780.00 segunda tabela Name: estados estado_id 1 estado Sao Paulo pais Brasil 2 Rio de janeiro Brasil 3 Nevada Estados Unidos 4 Texas Estados Unidos 5 Quebec Canada 

In [None]:
CREATE TABLE estados (
    estado_id INT PRIMARY KEY,
    estado VARCHAR(255),
    pais VARCHAR(255)
);

CREATE TABLE cidades (
    cidade_id INT PRIMARY KEY,
    cidade VARCHAR(255),
    estado_id INT,
    habitantes INT
);

INSERT INTO estados (estado_id, estado, pais) VALUES
    (1, 'Sao Paulo', 'Brasil'),
    (2, 'Rio de Janeiro', 'Brasil'),
    (3, 'Nevada', 'Estados Unidos'),
    (4, 'Texas', 'Estados Unidos'),
    (5, 'Quebec', 'Canadá');

INSERT INTO cidades (cidade_id, cidade, estado_id, habitantes) VALUES
    (1, 'São Paulo', 1, 12800000),
    (2, 'Santos', 1, 433966),
    (3, 'Rio de Janeiro', 2, 6320000),
    (4, 'Las Vegas', 3, 644644),
    (5, 'Dallas', 4, 1345000),
    (6, 'Montreal', 5, 1780000);

SELECT estados.pais AS País, 
       COUNT(*) AS Quantidade_de_Estados, 
       SUM(cidades.habitantes) AS Total_de_Habitantes
FROM estados
LEFT JOIN cidades ON estados.estado_id = cidades.estado_id
GROUP BY estados.pais;