<a href="https://colab.research.google.com/github/marcusnmiranda/EAD/blob/main/CRIPSDM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Metodologia CRISP-DM (Cross Industry Standard Process for Data Mining)

A metodologia CRISP-DM é um padrão amplamente utilizado para projetos de mineração de dados, oferecendo uma abordagem estruturada para planejar e executar projetos de análise de dados. Ela é composta por seis etapas principais:

1. Compreensão do Negócio
2. Compreensão dos Dados
3. Preparação dos Dados
4. Modelagem
5. Avaliação
6. Implantação

# 1. Compreensão do Negócio
**Objetivo**
Entender os objetivos e requisitos do negócio. No nosso caso, o objetivo é criar um dataset de projetos fictícios e treinar um modelo preditivo para prever o Tempo de Projeto com base nas outras variáveis.

**Importância**
Compreender o negócio é crucial para garantir que o projeto de mineração de dados esteja alinhado com as necessidades e objetivos organizacionais. Sem essa compreensão, os esforços podem ser mal direcionados, resultando em análises que não agregam valor.

# 2. Compreensão dos Dados
**Objetivo**
Identificar as fontes de dados e compreender os dados disponíveis. Vamos definir as variáveis que comporão o dataset.

**Definição das Variáveis**
* Tempo de Projeto: Número de dias para completar o projeto.
* Quantidade de Atividades: Número de atividades ou tarefas no projeto.
* Quantidade de Pessoas: Número de pessoas envolvidas no projeto.
* Orçamento: Orçamento do projeto em dólares.
* Riscos: Classificação dos riscos em três categorias: Baixo, Médio, Alto.
* Segmento do Cliente: Segmento do cliente em cinco categorias: Tecnologia, Saúde, Financeiro, Educação, Varejo.
* Cliente Internacional: Se o cliente é internacional ou não (Sim/Não).
* Tecnologia Envolvida: Tipo de tecnologia envolvida em cinco categorias: IA, Big Data, Cloud, IoT, Blockchain.
* Quantidade de Mudanças: Número de mudanças ocorridas durante o projeto.
* Satisfação do Cliente: Índice de satisfação do cliente em uma escala de 1 a 10.

**Importância**
Compreender os dados ajuda a identificar problemas de qualidade, entender a estrutura e verificar se os dados disponíveis são suficientes para atender aos objetivos do negócio.

# 3. Preparação dos Dados
**Objetivo**
Preparar os dados para a análise ou modelagem. Isso envolve limpeza, transformação e, no nosso caso, geração de dados sintéticos.

**Geração do Dataset**
Vamos gerar um dataset fictício com 1000 registros.

In [1]:
import pandas as pd
import numpy as np

# Definindo o número de registros
num_records = 1000

# Gerando dados fictícios
np.random.seed(42)  # Para reprodutibilidade

tempo_projeto = np.random.randint(30, 365, num_records)
quantidade_atividades = np.random.randint(5, 50, num_records)
quantidade_pessoas = np.random.randint(3, 20, num_records)
orcamento = np.random.randint(10000, 1000000, num_records)
riscos = np.random.choice(['Baixo', 'Médio', 'Alto'], num_records)
segmento_cliente = np.random.choice(['Tecnologia', 'Saúde', 'Financeiro', 'Educação', 'Varejo'], num_records)
cliente_internacional = np.random.choice(['Sim', 'Não'], num_records)
tecnologia_envolvida = np.random.choice(['IA', 'Big Data', 'Cloud', 'IoT', 'Blockchain'], num_records)
quantidade_mudancas = np.random.randint(0, 15, num_records)
satisfacao_cliente = np.random.randint(1, 11, num_records)

# Criando o DataFrame
df = pd.DataFrame({
    'Tempo de Projeto': tempo_projeto,
    'Quantidade de Atividades': quantidade_atividades,
    'Quantidade de Pessoas': quantidade_pessoas,
    'Orçamento': orcamento,
    'Riscos': riscos,
    'Segmento do Cliente': segmento_cliente,
    'Cliente Internacional': cliente_internacional,
    'Tecnologia Envolvida': tecnologia_envolvida,
    'Quantidade de Mudanças': quantidade_mudancas,
    'Satisfação do Cliente': satisfacao_cliente
})

# Visualizando as primeiras linhas do dataset
df.head()


Unnamed: 0,Tempo de Projeto,Quantidade de Atividades,Quantidade de Pessoas,Orçamento,Riscos,Segmento do Cliente,Cliente Internacional,Tecnologia Envolvida,Quantidade de Mudanças,Satisfação do Cliente
0,132,6,15,742722,Baixo,Financeiro,Não,IoT,6,7
1,300,14,11,691777,Alto,Saúde,Sim,Big Data,0,2
2,136,9,15,946197,Baixo,Financeiro,Não,Cloud,9,10
3,101,14,13,482890,Alto,Financeiro,Não,IoT,0,3
4,218,37,3,393100,Baixo,Educação,Sim,Cloud,4,10


**Importância**
A preparação dos dados é fundamental para garantir que os dados sejam de alta qualidade e estejam prontos para análises ou modelagem. Dados mal preparados podem levar a resultados enganosos ou modelos de baixa performance.

# 4. Modelagem
**Objetivo**
Treinar um modelo preditivo para prever o Tempo de Projeto.

**Treinamento do Modelo**
Vamos usar a biblioteca scikit-learn para treinar um modelo de regressão linear.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import joblib

# Separando as variáveis independentes (features) e a variável dependente (target)
X = df.drop('Tempo de Projeto', axis=1)
y = df['Tempo de Projeto']

# Convertendo variáveis categóricas em variáveis dummy
X = pd.get_dummies(X, drop_first=True)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando o modelo de regressão linear
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Avaliando o modelo
score = modelo.score(X_test, y_test)
print(f"R^2 score do modelo: {score}")

# Salvando o modelo treinado
joblib.dump(modelo, 'modelo_tempo_projeto.pkl')


R^2 score do modelo: -0.027983850992817638


['modelo_tempo_projeto.pkl']

**Importância**
Treinar o modelo permite transformar dados em previsões acionáveis, ajudando a entender e antecipar o tempo necessário para completar projetos com base nas características do projeto

# 5. Avaliação
**Objetivo**
Avaliar a qualidade do modelo treinado para garantir que ele atenda aos requisitos do negócio.

**Avaliação do Modelo**
Vamos avaliar o modelo usando o R^2 score, que indica a proporção da variância da variável dependente que é previsível a partir das variáveis independentes.

In [3]:
# Avaliando o modelo
score = modelo.score(X_test, y_test)
print(f"R^2 score do modelo: {score}")


R^2 score do modelo: -0.027983850992817638


**Importância**
A avaliação garante que os resultados são válidos, confiáveis e úteis para o negócio. Ajuda a identificar quaisquer problemas ou ajustes necessários antes da implementação final.

# 6. Implantação
**Objetivo**
Implantar o modelo e criar uma função para realizar predições com novos dados.

**Função de Predição**
Vamos criar uma função que carrega o modelo treinado e realiza predições com novos dados.

In [4]:
import joblib

# Função para carregar o modelo e realizar predições
def prever_tempo_projeto(novos_dados):
    # Carregando o modelo
    modelo = joblib.load('modelo_tempo_projeto.pkl')

    # Convertendo os novos dados para DataFrame e gerando variáveis dummy
    novos_dados_df = pd.DataFrame([novos_dados])
    novos_dados_df = pd.get_dummies(novos_dados_df, drop_first=True)

    # Garantindo que o DataFrame tenha as mesmas colunas que o conjunto de treino
    for col in X.columns:
        if col not in novos_dados_df.columns:
            novos_dados_df[col] = 0

    # Ordenando as colunas para corresponder ao modelo
    novos_dados_df = novos_dados_df[X.columns]

    # Realizando a predição
    predicao = modelo.predict(novos_dados_df)
    return predicao[0]

# Exemplo de uso da função de predição
novo_projeto = {
    'Quantidade de Atividades': 20,
    'Quantidade de Pessoas': 10,
    'Orçamento': 500000,
    'Riscos': 'Médio',
    'Segmento do Cliente': 'Tecnologia',
    'Cliente Internacional': 'Sim',
    'Tecnologia Envolvida': 'IA',
    'Quantidade de Mudanças': 3,
    'Satisfação do Cliente': 8
}

tempo_previsto = prever_tempo_projeto(novo_projeto)
print(f"Tempo previsto para o novo projeto: {tempo_previsto} dias")


Tempo previsto para o novo projeto: 210.9106169623858 dias


**Importância**
A implantação do modelo permite utilizar os resultados da análise de dados em cenários reais, possibilitando predições que podem auxiliar na tomada de decisões.

# Conclusão
Seguindo a metodologia CRISP-DM, geramos um dataset de projetos fictícios, treinamos um modelo preditivo para prever o Tempo de Projeto e criamos uma função para realizar predições com novos dados. Esta abordagem estruturada garante que todas as etapas, desde a compreensão do negócio até a implantação, sejam realizadas de forma sistemática e eficaz.