# IA & CHATBOT - CP6
[RM552671] - Willian Daniel Oliveira Dantas

Disponível em: https://github.com/WillDant/IA_cp6


In [None]:
"""
Exemplo 1: Titanic Dataset

Descrição do Conjunto de Dados
Origem: Kaggle
Nome: Titanic: Machine Learning from Disaster
Tamanho: 60 KB
Quantidade de Registros: 891 registros
Linhas x Colunas: 418 linhas x 11 colunas
Dados Faltantes: Algumas colunas possuem dados faltantes, como 'Age', 'Cabin' e 'Embarked'.

Objetivo do Modelo
Prever a tarifa (Fare) paga pelos passageiros com base em variáveis como idade, gênero, classe de cabine, etc.
"""

# Justificativa
Primeiramente pensei em realizar uma analise preditiva com o objetivo de identificar a probabilidade de sobrevivência dos indivíduos, mas devido a falta de dados no datasets, o que acabou dificultando a analise, eu acabei escolhendo faze predição da "Fare" que é a tarifa paga pelo embarque, baseada nos dados fornecidos a partir do dataset no Kaggle.

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

In [None]:
# Carregando dados do dataset
data = pd.read_csv('test_titanic.csv')

In [None]:
# Verificando as primeiras linhas do DataFrame
print(data.head())

# Verificando se a coluna 'Fare' contém valores ausentes
print(data['Fare'].isnull().sum())

In [None]:
from sklearn.preprocessing import StandardScaler

# Carregando dados do topo do Dataset
data = pd.read_csv('test_titanic.csv')

In [None]:
# Tratando valores faltantes (nulos)
data['Age'].fillna(data['Age'].median(), inplace=True)
data['Fare'].fillna(data['Fare'].median(), inplace=True)  # Tratar valores faltantes em 'Fare'
data.drop('Cabin', axis=1, inplace=True)  # Muitas informações faltantes

In [None]:
# Criando variáveis dummy
data = pd.get_dummies(data, columns=['Sex', 'Embarked', 'Pclass'], drop_first=True)

In [None]:
# Excluindo colunas desnecessárias para o treinamento do modelo
data.drop(['Name', 'Ticket', 'PassengerId'], axis=1, inplace=True)

In [None]:
# Normalizando variáveis contínuas
scaler = StandardScaler()
data[['Age']] = scaler.fit_transform(data[['Age']])

In [None]:
# Verificando os primeiros registros do dataset processado
print(data.head())

        Age  SibSp  Parch     Fare  Sex_male  Embarked_Q  Embarked_S  \
0  0.386231      0      0   7.8292      True        True       False   
1  1.371370      1      0   7.0000     False       False        True   
2  2.553537      0      0   9.6875      True        True       False   
3 -0.204852      0      0   8.6625      True       False        True   
4 -0.598908      1      1  12.2875     False       False        True   

   Pclass_2  Pclass_3  
0     False      True  
1     False      True  
2      True     False  
3     False      True  
4     False      True  


In [None]:
# Treinamento do modelo
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Dividindo dados em treino e teste
X = data.drop('Fare', axis=1)
y = data['Fare']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Treinando modelo
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Fazendo as Predições
y_pred = model.predict(X_test)

In [None]:
# Avaliando o modelo
print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
print("Mean Squared Error:", mean_squared_error(y_test, y_pred))

Mean Absolute Error: 17.95496551246691
Mean Squared Error: 1322.2294013340634


In [None]:
# Salvando modelo treinado
import pickle
with open('titanic_fare_model.pkl', 'wb') as f:
    pickle.dump(model, f)

# Exemplo 2: Prevendo a Qualidade do Vinho
O Wine Quality Dataset contém informações sobre diferentes vinhos e suas respectivas avaliações. Inclui variáveis como o nome da vinícola, tipo de vinho, ano, região, país, preço, tipo de vinho, corpo e acidez, entre outras. O objetivo é prever a classificação do vinho (rating) com base nas outras variáveis do dataset.


In [None]:
"""
Descrição do Conjunto de Dados
Origem: Kaggle
Nome: Spanish Wine Quality Dataset
Tamanho: 84 KB
Quantidade de Registros: 2588 registros
Linhas x Colunas: 2588 linhas x 11 colunas
Dados Faltantes: Algumas colunas possuem dados faltantes, como 'price' e 'num_reviews'.

Objetivo do Modelo
Prever a classificação (rating) dos vinhos com base em variáveis como nome da vinícola, ano, número de avaliações, país, região, preço, tipo de vinho, corpo e acidez.
"""

In [None]:
import pandas as pd

# Carregando o conjunto de dados
data = pd.read_csv('wine_quality_dataset.csv')

# Verificando as primeiras linhas do conjunto de dados
print(data.head())


          winery           wine  year  rating  num_reviews country  \
0  Teso La Monja          Tinto  2013     4.9           58  Espana   
1         Artadi  Vina El Pison  2018     4.9           31  Espana   
2   Vega Sicilia          Unico  2009     4.8         1793  Espana   
3   Vega Sicilia          Unico  1999     4.8         1705  Espana   
4   Vega Sicilia          Unico  1996     4.8         1309  Espana   

             region   price                  type  body  acidity  
0              Toro  995.00              Toro Red   5.0      3.0  
1    Vino de Espana  313.50           Tempranillo   4.0      2.0  
2  Ribera del Duero  324.95  Ribera Del Duero Red   5.0      3.0  
3  Ribera del Duero  692.96  Ribera Del Duero Red   5.0      3.0  
4  Ribera del Duero  778.06  Ribera Del Duero Red   5.0      3.0  


In [None]:
# Tratando valores faltantes apenas nas variáveis numéricas
numeric_cols = data.select_dtypes(include=['int64', 'float64']).columns
data[numeric_cols] = data[numeric_cols].fillna(data[numeric_cols].median())


In [None]:
# Convertendo variáveis categóricas em variáveis dummy (One-Hot Encoding)
data = pd.get_dummies(data)

# Verificar as primeiras linhas do conjunto de dados após o pré-processamento
print(data.head())

In [None]:
from sklearn.model_selection import train_test_split

# Dividindo os dados em features (X) e target (y)
X = data.drop('rating', axis=1)
y = data['rating']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Inicializando e treinar o modelo
model = RandomForestRegressor()
model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Fazendo previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliando o modelo
print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
print("Mean Squared Error:", mean_squared_error(y_test, y_pred))

Mean Absolute Error: 0.02204400000008004
Mean Squared Error: 0.002691078666666536


In [None]:
# Salvando o modelo treinado
joblib.dump(model, 'wine_quality_model.pkl')

['wine_quality_model.pkl']

# Exemplo 3 - Telecom Customer Churn Prediction

In [None]:
"""
Escolha do Dataset: Telecom Customer Churn Prediction

Descrição do Conjunto de Dados
Origem: Kaggle
Nome: Telecom Customer Churn Prediction
Tamanho: 1.4 MB
Quantidade de Registros: Não consegui achar a quantidade exata de registros
Linhas x Colunas: 7043 linhas x 38 colunas, porém eu não utilizei todas as colunas para fazer a predição
Dados Faltantes: em nosso dataset é possivel ver alguns dados que não estão preenchidos, mas vamos tratar esses dados para que isso não afete a nossa predição

Objetivo do Modelo
Prever se um cliente irá cancelar seu serviço de telecomunicações com base em várias características relacionadas ao cliente e ao serviço prestado.
"""

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Carregando o conjunto de dados
df = pd.read_csv('telecom_customer_churn.csv')

In [10]:
# Exibindo as primeiras linhas do DataFrame
print(df.head())

  Customer ID  Gender  Age Married  Number of Dependents          City  \
0  0002-ORFBO  Female   37     Yes                     0  Frazier Park   
1  0003-MKNFE    Male   46      No                     0      Glendale   
2  0004-TLHLJ    Male   50      No                     0    Costa Mesa   
3  0011-IGKFF    Male   78     Yes                     0      Martinez   
4  0013-EXCHZ  Female   75     Yes                     0     Camarillo   

   Zip Code   Latitude   Longitude  Number of Referrals  ...   Payment Method  \
0     93225  34.827662 -118.999073                    2  ...      Credit Card   
1     91206  34.162515 -118.203869                    0  ...      Credit Card   
2     92627  33.645672 -117.922613                    0  ...  Bank Withdrawal   
3     94553  38.014457 -122.115432                    1  ...  Bank Withdrawal   
4     93010  34.227846 -119.079903                    3  ...      Credit Card   

  Monthly Charge Total Charges  Total Refunds Total Extra Data Charg

In [11]:
# Verificando as informações do DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 38 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Customer ID                        7043 non-null   object 
 1   Gender                             7043 non-null   object 
 2   Age                                7043 non-null   int64  
 3   Married                            7043 non-null   object 
 4   Number of Dependents               7043 non-null   int64  
 5   City                               7043 non-null   object 
 6   Zip Code                           7043 non-null   int64  
 7   Latitude                           7043 non-null   float64
 8   Longitude                          7043 non-null   float64
 9   Number of Referrals                7043 non-null   int64  
 10  Tenure in Months                   7043 non-null   int64  
 11  Offer                              3166 non-null   objec

In [None]:
# Verificando a distribuição da variável alvo 'Churn'
print(df['Churn Category'].value_counts())


In [None]:
# Verificando as estatísticas descritivas das variáveis numéricas
print(df.describe())

In [14]:
# Verificando as estatísticas descritivas das variáveis categóricas
print(df.describe(include=['object']))

       Customer ID Gender Married         City    Offer Phone Service  \
count         7043   7043    7043         7043     3166          7043   
unique        7043      2       2         1106        5             2   
top     0002-ORFBO   Male      No  Los Angeles  Offer B           Yes   
freq             1   3555    3641          293      824          6361   

       Multiple Lines Internet Service Internet Type Online Security  ...  \
count            6361             7043          5517            5517  ...   
unique              2                2             3               2  ...   
top                No              Yes   Fiber Optic              No  ...   
freq             3390             5517          3035            3498  ...   

       Streaming TV Streaming Movies Streaming Music Unlimited Data  \
count          5517             5517            5517           5517   
unique            2                2               2              2   
top              No               N

In [15]:
# Verificando valores ausentes
print(df.isnull().sum())

Customer ID                             0
Gender                                  0
Age                                     0
Married                                 0
Number of Dependents                    0
City                                    0
Zip Code                                0
Latitude                                0
Longitude                               0
Number of Referrals                     0
Tenure in Months                        0
Offer                                3877
Phone Service                           0
Avg Monthly Long Distance Charges     682
Multiple Lines                        682
Internet Service                        0
Internet Type                        1526
Avg Monthly GB Download              1526
Online Security                      1526
Online Backup                        1526
Device Protection Plan               1526
Premium Tech Support                 1526
Streaming TV                         1526
Streaming Movies                  

In [20]:
# Lidando com valores ausentes
data.fillna(method='ffill', inplace=True)  # Preencher valores ausentes com os valores anteriores

In [21]:
# Separando features e target
X = data.drop(columns=['Customer Status', 'Churn Reason'])  # Excluindo 'Customer Status' (target) e 'Churn Reason' (se houver)
y = data['Customer Status']

In [22]:
# Dividindo o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [23]:
# Identificando colunas categóricas e numéricas
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
numeric_cols = X.select_dtypes(include=['float64', 'int64']).columns.tolist()

In [24]:
# Pipeline para pré-processamento
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

In [25]:
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier()  # Exemplo com RandomForestClassifier

In [26]:
# Criando o pipeline completo
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', classifier)])

In [28]:
# Treinando o modelo
clf.fit(X_train, y_train)

# Avaliando o modelo
train_accuracy = clf.score(X_train, y_train)
test_accuracy = clf.score(X_test, y_test)

print(f'Acurácia no conjunto de treinamento: {train_accuracy}')
print(f'Acurácia no conjunto de teste: {test_accuracy}')
import pickle

import joblib

# Salvando o modelo treinado
joblib.dump(model, 'telecom_model.pkl')


Acurácia no conjunto de treinamento: 1.0
Acurácia no conjunto de teste: 0.8176011355571328


['telecom_model.pkl']

# Considerações Finais:
Tive alguns problemas durante o desenvolvimento, desde achar um bom dataset do meu interesse até o desenvolvimento de fato, depois de finalizado, eu tinha ido dar uma olhada nas aulas novamente, e acabei percebendo a semelhança em um dos exemplos com um utilizado em aula (provavelmente não participei dessa aula no dia) mas no final acho que ocorreu tudo certo.
