In [None]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score, mean_squared_error
from sklearn.ensemble import RandomForestRegressor

In [None]:
#exercicio de treino
create_data = {
    'TerrenoM2': [50, 100, 140, np.nan, 200, 250, 300],
    'quartos': [2, 3, 4, 2, np.nan, 5, 6],
    'localização': ['Suldeste', 'Norte', 'Norte', 'Noroeste', 'Sul', 'Suldeste', 'Sul'],
    'preço': [100.000, 140.000, 200.000, 175.000, 350.000, 400.000, 450.000]
}

df = pd.DataFrame(create_data)

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
df['TerrenoM2'] = imputer.fit_transform(df[['TerrenoM2']])
df['quartos'] = imputer.fit_transform(df[['quartos']])

column_transformer = ColumnTransformer(
    [('enconder', OneHotEncoder(), ['localização'])], # Changed from list to tuple here
    remainder='passthrough'
)

x = column_transformer.fit_transform(df.drop('preço', axis=1))


y = df['preço']

linear_regression = LinearRegression()
linear_regression.fit(x, y)

data_to_predict = pd.DataFrame({
    'TerrenoM2': [200, 150, 100, 150, 100, 150, 240],
    'quartos': [4, 3, 2, 3, 4, 2, 5],
    'localização': ['Sul', 'Noroeste', 'Norte', 'Noroeste', 'Sul', 'Norte', 'Sul']
})

transformed_data = column_transformer.transform(data_to_predict)
linear_predict = linear_regression.predict(transformed_data)

print(linear_predict)

In [None]:

#exercicio
data_set = {
    'remedio': ['A', 'AB' ,'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'JK','K', 'L', 'M'],
    'colateral': ['alto', 'baixo', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio','alto', 'baixo', 'medio'],
    'nivel_efetividade_porcentagem': [20, np.nan, 60, 60, 30, 65, 50, 90, 20, 15, 50, np.nan,75, 40, 40],
    'passa': ['não', 'sim' ,'sim', 'sim', 'não', 'sim', 'sim', 'sim', 'não', 'não', 'não', 'não', 'sim', 'sim', 'não']
}

df = pd.DataFrame(data_set)

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
df['nivel_efetividade_porcentagem'] = imputer.fit_transform(df[['nivel_efetividade_porcentagem']])

column_transformer = ColumnTransformer(
    [('enconder', OneHotEncoder(), ['remedio', 'colateral'])],
    remainder='passthrough'
)

x = column_transformer.fit_transform(df.drop('passa', axis=1))

label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['passa'])

logistic_regression =  LogisticRegression()
logistic_regression.fit(x, y)

#Dados para fazer a previsões

predictions_data_set = pd.DataFrame({
    'remedio': ['A', 'AB' ,'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'JK','K', 'L', 'M'],
    'colateral': ['baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio','alto', 'baixo', 'medio'],
    'nivel_efetividade_porcentagem': [30, 50, 60, 30, 40, 55, 60, 70, 30, 25, 30, 60, 30, 50, 60],
})

transform = column_transformer.transform(predictions_data_set)

predict = logistic_regression.predict(transform)
transform_predict = label_encoder.inverse_transform(predict)
print(transform_predict)

predictions_data_set['passa'] = transform_predict
print(predictions_data_set)


In [None]:

#Exercício: Análise de Desempenho de Veículos Elétricos
conjunto_de_dados = pd.DataFrame({
    'fabricante': ['Tesla', 'BYD', 'Tesla', 'GM', 'Ford', 'BYD', 'Volkswagen', 'Rivian', 'Nissan', 'Hyundai', 'GM', 'Ford', 'Tesla', 'Volkswagen', 'Rivian'],
    'tipo_bateria': ['LFP', 'NMC', 'NMC', 'Ultium', 'LFP', 'LFP', 'NMC', 'NMC', 'LFP', 'NMC', 'Ultium', 'LFP', 'NMC', 'LFP', 'NMC'],
    'categoria_veiculo': ['sedan', 'SUV', 'SUV', 'pickup', 'SUV', 'sedan', 'hatch', 'SUV', 'hatch', 'SUV', 'pickup', 'SUV', 'sedan', 'hatch', 'pickup'],
    'capacidade_bateria_kmh':  [75, 85.5, 100, 200, 98, 72.5, 58, 180, 62, 77.4, 210, 91, 82, 55, 135],
    'potencia_motor_cv': [350, 310, 450, 400, 290, 280, 204, 415, 214, 305, 380, 285, 420, 190, 408],
    'autonomia_km': [550, 520, 610, 640, 490, 480, 380, 505, 385, 460, 660, 475, 580, 350, 510]
})

df = conjunto_de_dados

column_transform = ColumnTransformer(
    transformers=[
        ('onehot', OneHotEncoder(), ['fabricante', 'tipo_bateria']),
        ('ordinal', OrdinalEncoder(categories=[['hatch', 'sedan', 'SUV', 'pickup']]), ['categoria_veiculo'])
        ],
        remainder='passthrough'
  )

x = column_transform.fit_transform(df.drop('autonomia_km', axis=1))
y = df['autonomia_km']

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

regressor = LinearRegression()
regressor.fit(X_train, y_train)

x_pred = regressor.predict(X_test)
print("Predictions for X_test:", x_pred)

#mean absolute error e r2 score

score = mean_absolute_error(y_test, x_pred)
print("Mean Absolute Error:", score)
r2_score_value = r2_score(y_test, x_pred)
print("R2 Score:", r2_score_value)

dados_para_previsao = pd.DataFrame({
    'fabricante': ['Tesla', 'BYD', 'Ford', 'Hyundai', 'Rivian'],
    'tipo_bateria': ['NMC', 'LFP', 'LFP', 'NMC', 'NMC'],
    'categoria_veiculo': ['SUV', 'sedan', 'SUV', 'hatch', 'pickup'],
    'capacidade_bateria_kmh': [95, 78, 88, 65, 160],
    'potencia_motor_cv': [420, 295, 300, 220, 395]
})

dado_transformado = column_transform.transform(dados_para_previsao)

previsao = regressor.predict(dado_transformado)

print("Previsões: ")
print(previsao)

dados_para_previsao['autonomia_km'] = previsao
print(dados_para_previsao)

In [None]:
#exercicio de treino
data_set = {
    'Nomes': ['João', 'Maria', 'Pedro', 'Ana', 'Carlos'],
    'Idade': [25, np.nan, 35, 40, np.nan],
    'Saúde': ['Saudavel', 'Doente', 'Intermediario', 'Saudavel', 'Doente'],
    'Risco': ['Baixo', 'Alto', 'Medio', 'Baixo', 'Alto']
}

df = pd.DataFrame(data_set)

preprocessador = ColumnTransformer(transformers=[
    ('num', Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='mean')),
        ('scaler', StandardScaler())
    ]),
      [ 'Idade']),
    ('cat', OneHotEncoder(handle_unknown='ignore'), ['Nomes', 'Saúde'])
])

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessador),
    ('classifier', LogisticRegression())
])

x = df.drop('Risco', axis=1)
y = df['Risco']

pipeline.fit(x, y)

conjunto_de_dados = {
    'Nomes': ['Marta', 'John', 'Fred', 'Ari', 'Justin'],
    'Idade': [30, 21, 35, 20, 31],
    'Saúde': ['Doente', 'Saudavel', 'Doente', 'Intermediario', 'Saudavel']
}

novo_conjunto = pd.DataFrame(conjunto_de_dados)
predictions = pipeline.predict(novo_conjunto)
novo_conjunto['passa'] = predictions
print(novo_conjunto)



In [None]:
#exercicio
conjunto_de_dados = {
    'remedio': ['A', 'AB' ,'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'JK','K', 'L', 'M'],
    'colateral': ['alto', 'baixo', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio','alto', 'baixo', 'medio'],
    'nivel_efetividade_porcentagem': [20, np.nan, 60, 60, 30, 65, 50, 90, 20, 15, 50, np.nan,75, 40, 40],
    'passa': ['não', 'sim' ,'sim', 'sim', 'não', 'sim', 'sim', 'sim', 'não', 'não', 'não', 'não', 'sim', 'sim', 'não']
}

df = pd.DataFrame(conjunto_de_dados)

preprocessamente = ColumnTransformer(transformers=[
    ('num', Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='mean')),
        ('scaler', StandardScaler())
    ]),
     ['nivel_efetividade_porcentagem']),
    ('cat', OneHotEncoder(), ['remedio', 'colateral'])
])

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessamente),
    ('classifier', LogisticRegression())
])

x = df.drop('passa', axis=1)
y =df['passa']

pipeline.fit(x, y)

previsoes_dados = pd.DataFrame({
    'remedio': ['A', 'AB' ,'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'JK','K', 'L', 'M'],
    'colateral': ['baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio', 'baixo', 'alto', 'medio','alto', 'baixo', 'medio'],
    'nivel_efetividade_porcentagem': [30, 50, 60, 30, 40, 55, 60, 70, 30, 25, 30, 60, 30, 50, 60],
})

predictions = pipeline.predict(previsoes_dados)
previsoes_dados['passa'] = predictions
print(previsoes_dados)


In [None]:
from datetime import datetime, date
#Exercício: Sistema de Recomendação de Filmes
"""
Desafio Opcional
1 - Modifique o ColumnTransformer para usar MinMaxScaler em vez de StandardScaler nas features numéricas.

2 - Adicione uma feature de "idade do filme" (ano atual - ano_lancamento) antes da transformação.

3 -Experimente usar um modelo de RandomForestRegressor e compare os resultados.

"""
data_set_filmes = pd.DataFrame({
    'titulo': ['O Poderoso Chefão', 'Interestelar', 'Parasita', 'Cidade de Deus', 'Matrix', 'Clube da Luta', 'A Origem', 'O Senhor dos Anéis', 'Pulp Fiction', 'Coringa', 'Forrest Gump', 'Gladiador', 'Os Infiltrados', 'Seven', 'De Volta para o Futuro'],
    'genero': ['Drama', 'Ficção Científica', 'Thriller', 'Drama', 'Ficção Científica', 'Drama', 'Ficção Científica', 'Fantasia', 'Crime', 'Drama', 'Drama', 'Ação', 'Crime', 'Thriller', 'Ficção Científica'],
    'classificacao_etaria': ['18+', '12+', '16+', '18+', '14+', '18+', '14+', '12+', '18+', '16+', '12+', '16+', '16+', '18+', 'Livre'],
    'diretor': ['Coppola', 'Nolan', 'Bong', 'Meirelles', 'Wachowski', 'Fincher', 'Nolan', 'Jackson', 'Tarantino', 'Phillips', 'Zemeckis', 'Scott', 'Scorsese', 'Fincher', 'Zemeckis'],
    'duracao_minutos': [175, 169, 132, 130, 136, 139, 148, 178, 154, 122, 142, 155, 151, 127, 116],
    'orcamento_milhoes': [6, 165, 11, 3, 63, 63, 160, 93, 8, 55, 55, 103, 90, 33, 19],
    'ano_lancamento': [1972, 2014, 2019, 2002, 1999, 1999, 2010, 2001, 1994, 2019, 1994, 2000, 2006, 1995, 1985],
    'avaliacao_media': [9.2, 8.6, 8.6, 8.6, 8.7, 8.8, 8.8, 8.9, 8.9, 8.4, 8.8, 8.5, 8.5, 8.6, 8.5]
})

df = data_set_filmes

dia_atual = date.today()
ano_atual = dia_atual.year

df['idade_do_filme'] = ano_atual - df['ano_lancamento']

preprocessamento = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('scaler', MinMaxScaler())
        ]), ['duracao_minutos', 'orcamento_milhoes', 'ano_lancamento', 'idade_do_filme']),
        ('onehot', OneHotEncoder(handle_unknown='ignore'), ['genero', 'diretor']),
        ('ordinal', OrdinalEncoder(categories=[['Livre', '12+', '14+', '16+', '18+']]), ['classificacao_etaria'] )
    ], remainder = 'passthrough'
)

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessamento),
    ('classifier', LinearRegression())
])

pipeline2 = Pipeline(steps=[
    ('preprocessor', preprocessamento),
    ('classifier', RandomForestRegressor(max_depth=2, random_state=0))
])


x = df.drop(['avaliacao_media', 'titulo'], axis=1)
y = df['avaliacao_media']


X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

pipeline.fit(X_train, y_train)

pipeline2.fit(X_train, y_train)

print("Pipeline com LinearRegression")

x_pred1 = pipeline.predict(X_test)
print("Predictions for X_test:", x_pred1)

print("Pipeline com RandomForestRegressor")

x_pred2 = pipeline2.predict(X_test)
print("Predictions for X_test:", x_pred2)

score = mean_squared_error(y_test, x_pred)
print("Mean Squared Error:", score)

r2_score_value = r2_score(y_test, x_pred)
print("R2 Score:", r2_score_value)




novos_filmes = pd.DataFrame({
    'titulo': ['Duna', '1917', 'O Irlandês'],
    'genero': ['Ficção Científica', 'Drama', 'Crime'],
    'classificacao_etaria': ['14+', '16+', '18+'],
    'diretor': ['Villeneuve', 'Mendes', 'Scorsese'],
    'duracao_minutos': [155, 119, 209],
    'orcamento_milhoes': [165, 95, 159],
    'ano_lancamento': [2021, 2019, 2019]
})

# Calculate 'idade_do_filme' for the new data as well
novos_filmes['idade_do_filme'] = ano_atual - novos_filmes['ano_lancamento']

predicoesPipeline = pipeline.predict(novos_filmes)
predicoesPipeline2 = pipeline2.predict(novos_filmes)

print("\nPipeline com LinearRegression")
print(predicoesPipeline, end='\n\n')

print("Pipeline com RandomForestRegressor")
print(predicoesPipeline2, end='\n\n')

#LR == Linear Regression RFR == Random Forest Regressor
novos_filmes['avaliacao_media_LR'] = predicoesPipeline
novos_filmes['avaliacao_media_RFR'] = predicoesPipeline2

print(novos_filmes)