# **Trabalho \#2**:  Aprendizado de Máquina e Reconhecimento de Padrões MC886/MO444
Instituto de Computação (IC/UNICAMP), 2ᵒ Semestre, 2024

Profa. Sandra Avila, 2024s2

Trabalho proposto por Caio Petrucci Rosa (PAD), Cesar Guedes Carneiro (PED) e Sandra Avila.



In [2]:
# TODO: RA & Nome
print('231081: ' + 'Pedro da Rosa Pinheiro')
print('225334: ' + 'Jonatas de Sousa Santos')

231081: Pedro da Rosa Pinheiro
225334: Jonatas de Sousa Santos


## Objetivo

Explore os modelos de **regressão linear** e **regressão logística** e apresente o melhor modelo que você encontrar para o problema, evitando o *overfitting*. Em particular, realize predições acerca do salário dos profissionais da área de dados no Brasil, com base nos dados da pesquisa State of Data Brazil 2023, levando em consideração variáveis como perfil demográfico, formação, experiência e atuação no setor.


---

## Base de Dados

A base de dados deste trabalho foi criado a partir de dados disponibilizados em [State of Data Brazil 2023](https://www.kaggle.com/datasets/datahackers/state-of-data-brazil-2023). Os dados refletem a pesquisa realizada com profissionais da área de Ciência de Dados no Brasil. As respostas foram coletadas em 2023 e a base de dados contém uma ampla variedade de perguntas sobre o perfil demográfico, situação profissional e conhecimentos técnicos dessas pessoas.

**Dicionário de dados:**

* **id**: Identificador único da pessoa participante;

* **idade**: Idade da pessoa participante;

* **genero**: Gênero da pessoa participante;

* **cor_raca**: Cor/raça/etnia da pessoa participante;

* **pcd**: Se a pessoa participante possui alguma deficiência (PCD);

* **estado_residencia**: Estado onde a pessoa participante mora;

* **mudou_estado**: Se a pessoa participante mudou de estado recentemente;

* **regiao_origem**: Região de origem da pessoa participante;

* **nivel_ensino**: Nível de ensino da pessoa participante;

* **area_formacao**: Área de formação acadêmica;

* **situacao_trabalho**: Situação atual de trabalho;

* **setor**: Setor em que a pessoa participante trabalha;

* **numero_funcionarios**: Número de funcionários na empresa onde a pessoa participante trabalha;

* **gestor**: Se a pessoa participante é gestor na empresa;

* **cargo**: Cargo da pessoa participante;

* **nivel_profissional**: Nível profissional da pessoa participante;

* **tempo_exp_dados**: Tempo de experiência na área de dados;

* **tempo_exp_ti**: Tempo de experiência prévia na área de TI ou Engenharia de Software antes de atuar com dados;

* **satisfacao_empresa**: Nível de satisfação da pessoa participante com sua empresa atual;

* **forma_trabalho_atual**: Forma de trabalho atual (presencial, remoto, híbrido);

* **atuacao_dia_a_dia**: Reflexão da atuação da pessoa participante no dia a dia em relação ao cargo formal;

* **fontes_dados_analise**: Fontes de dados já analisadas ou processadas pela pessoa participante no trabalho;

* **fontes_dados_uso**: Fontes de dados mais utilizadas pela pessoa participante no trabalho;

* **linguagens_trabalho**: Linguagens de programação utilizadas no trabalho;

* **linguagem_mais_usada**: Linguagem de programação mais utilizada no trabalho;

* **linguagem_preferida**: Linguagem de programação preferida da pessoa participante;

* **bancos_dados_trabalho**: Bancos de dados utilizados no trabalho;

* **cloud_preferida**: Cloud preferida da pessoa participante;

* **cloud_usada**: Cloud usada no trabalho;

* **ferramenta_bi_dia_a_dia**: Ferramenta de BI utilizada no dia a dia;

* **ferramenta_bi_preferida**: Ferramenta de BI preferida;

* **tipo_uso_ai**: Tipo de uso de AI Generativa e LLMs na empresa;

* **uso_chatgpt**: Se a pessoa participante utiliza ChatGPT ou LLMs no trabalho;

* **faixa_salarial**: Faixa salarial da pessoa participante;

* **salario**: Valor do salário da pessoa participante.


Você deve **respeitar a seguinte divisão de treino/teste**:

    train_data.csv
    test_data.csv

Lembre-se de criar **seu próprio conjunto de validação**, a partir um subconjunto do conjunto de treinamento, e utilize o conjunto de teste (a ser disponibilizado) apenas para inferência e relato do resultado final.

### Atividades

1. (0,4 pontos) Realize a limpeza e preparação dos dados de treinamento.

  > **Considere os seguintes fatores:**
  > - Existem outliers nos dados? Se sim, como você pretende tratá-los (removê-los, ajustá-los, ou usar uma abordagem alternativa)?
  > - Há valores ausentes? Se sim, como irá lidar com eles? (Ex.: exclusão de linhas, preenchimento por média/mediana/moda, ou outros métodos).
  > - Como você planeja tratar variáveis categóricas? (Ex.: one-hot encoding, label encoding, ou outra estratégia).

In [4]:
# TODO: Carregue e pré-processe (limpeza e preparação) os dados
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import MinMaxScaler

from sklearn.model_selection import train_test_split

pd.options.display.max_columns = None


In [34]:
# Carregando dados
df_raw = pd.read_csv("train_data.csv")

# removendo features não relevantes
df = df_raw
df.drop(["id", "mudou_estado", "regiao_origem", "numero_funcionarios", "satisfacao_empresa", "forma_trabalho_atual", "fontes_dados_analise", "fontes_dados_uso", "linguagens_trabalho", "linguagem_mais_usada", "linguagem_preferida", "bancos_dados_trabalho", "cloud_preferida", "cloud_usada", "ferramenta_bi_dia_a_dia", "ferramenta_bi_preferida", "tipo_uso_ai", "uso_chatgpt"], axis=1, inplace=True)

# preenchendo valores NaN
df["nivel_profissional"].fillna(df["nivel_profissional"].value_counts().index[0], inplace=True)

# realizando one hot encoding
encoder = OneHotEncoder(sparse_output=False)

categorical_cols = ["genero", "cor_raca", "estado_residencia", "nivel_ensino", "area_formacao", "situacao_trabalho", "setor", "atuacao_dia_a_dia", "cargo"]
encoded = encoder.fit_transform(df[categorical_cols])
df_encoded = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(categorical_cols))

df = pd.concat([df, df_encoded], axis=1)
df.drop(categorical_cols, axis=1, inplace=True)


# renomeando features com nomes longos/não formatados
df.rename(columns={"setor_Tecnologia/Fábrica de Software": "setor_Tech/Fábrica",
                        "setor_Área da Saúde": "setor_Saude",
                        "setor_Área de Consultoria": "setor_Consultoria",
                        "atuacao_dia_a_dia_*Análise de Dados/BI:* Extrai e cruza dados unindo diferentes fontes da informação; analisa dados visando identificar padrões, gerar insights e levantar perguntas; desenvolve dashboards, relatórios e visualizações de dados em ferramentas de BI.": "atuacao_dia_a_dia_AD/BI",
                        "atuacao_dia_a_dia_*Ciência de Dados/Machine Learning/AI: *Desenha e executa experimentos com o objetivo de responder perguntas do negócio; desenvolve modelos preditivos e algoritmos de Machine Learning com o objetivo de otimizar e automatizar a tomada de decisão.": "atuacao_dia_a_dia_DS/ML/AI",
                        "atuacao_dia_a_dia_*Engenharia de Dados:* Modela soluções de arquitetura de dados; define modelagens de repositórios de dados (Data Lake, Data Warehouse, Data Lakehouse); desenvolve estratégias de aquisição de dados, recuperação de informação e pipelines de dados.": "atuacao_dia_a_dia_Engenharia",
                        "atuacao_dia_a_dia_Não atuo em nenhuma das frentes citadas.": "atuacao_dia_a_dia_Unknown",
                        "cor_raca_Prefiro não informar": "cor_raca_Unknown",
                        "estado_residencia_Acre (AC)": "estado_residencia_AC",
                        "estado_residencia_Alagoas (AL)": "estado_residencia_AL",
                        "estado_residencia_Amapá (AP)": "estado_residencia_AP",
                        "estado_residencia_Amazonas (AM)": "estado_residencia_AM",
                        "estado_residencia_Bahia (BA)": "estado_residencia_BA",
                        "estado_residencia_Ceará (CE)": "estado_residencia_CE",
                        "estado_residencia_Distrito Federal (DF)": "estado_residencia_DF",
                        "estado_residencia_Espírito Santo (ES)": "estado_residencia_ES",
                        "estado_residencia_Goiás (GO)": "estado_residencia_GO",
                        "estado_residencia_Maranhão (MA)": "estado_residencia_MA",
                        "estado_residencia_Mato Grosso (MT)": "estado_residencia_MT",
                        "estado_residencia_Mato Grosso do Sul (MS)": "estado_residencia_MS",
                        "estado_residencia_Minas Gerais (MG)": "estado_residencia_MG",
                        "estado_residencia_Paraná (PR)": "estado_residencia_PR",
                        "estado_residencia_Paraíba (PB)": "estado_residencia_PB",
                        "estado_residencia_Pará (PA)": "estado_residencia_PA",
                        "estado_residencia_Pernambuco (PE)": "estado_residencia_PE",
                        "estado_residencia_Piauí (PI)": "estado_residencia_PI",
                        "estado_residencia_Rio Grande do Norte (RN)": "estado_residencia_RN",
                        "estado_residencia_Rio Grande do Sul (RS)": "estado_residencia_RS",
                        "estado_residencia_Rio de Janeiro (RJ)": "estado_residencia_RJ",
                        "estado_residencia_Rondônia (RO)": "estado_residencia_RO",
                        "estado_residencia_Santa Catarina (SC)": "estado_residencia_SC",
                        "estado_residencia_Sergipe (SE)": "estado_residencia_SE",
                        "estado_residencia_São Paulo (SP)": "estado_residencia_SP",
                        "estado_residencia_Tocantins (TO)": "estado_residencia_TO",
                        "nivel_ensino_Doutorado ou PHD": "nivel_ensino_Doutorado/PHD",
                        "nivel_ensino_Estudante de Graduação": "nivel_ensino_Estudante",
                        "nivel_ensino_Não tenho graduação formal": "nivel_ensino_SemGrad",
                        "nivel_ensino_Prefiro não informar": "nivel_ensino_Unknown"}, inplace=True)

# realizando label encoding
label_encoder = LabelEncoder()
df["pcd"] = label_encoder.fit_transform(df["pcd"])

# realizando ordinal encoding
ordinal_encoder = OrdinalEncoder(categories=[["Júnior", "Pleno", "Sênior"]])
df["nivel_profissional"] = ordinal_encoder.fit_transform(df[["nivel_profissional"]])

ordinal_encoder = OrdinalEncoder(categories=[['Não tenho experiência na área de dados', 'Menos de 1 ano', 'de 1 a 2 anos', 'de 3 a 4 anos', 'de 4 a 6 anos', 'de 5 a 6 anos', 'de 7 a 10 anos', 'Mais de 10 anos']])
df["tempo_exp_dados"] = ordinal_encoder.fit_transform(df[["tempo_exp_dados"]])

ordinal_encoder = OrdinalEncoder(categories=[['Não tive experiência na área de TI/Engenharia de Software antes de começar a trabalhar na área de dados', 'Menos de 1 ano', 'de 1 a 2 anos', 'de 3 a 4 anos', 'de 5 a 6 anos', 'de 7 a 10 anos', 'Mais de 10 anos']])
df["tempo_exp_ti"] = ordinal_encoder.fit_transform(df[["tempo_exp_ti"]])

ordinal_encoder = OrdinalEncoder(categories=[['de R$ 101/mês a R$ 2.000/mês', 'Menos de R$ 1.000/mês', 'de R$ 1.001/mês a R$ 2.000/mês', 'de R$ 2.001/mês a R$ 3.000/mês', 'de R$ 3.001/mês a R$ 4.000/mês', 'de R$ 4.001/mês a R$ 6.000/mês', 'de R$ 6.001/mês a R$ 8.000/mês', 'de R$ 8.001/mês a R$ 12.000/mês', 'de R$ 12.001/mês a R$ 16.000/mês', 'de R$ 16.001/mês a R$ 20.000/mês', 'de R$ 20.001/mês a R$ 25.000/mês', 'de R$ 25.001/mês a R$ 30.000/mês', 'de R$ 30.001/mês a R$ 40.000/mês', 'Acima de R$ 40.001/mês']])
df["faixa_salarial"] = ordinal_encoder.fit_transform(df[["faixa_salarial"]])

# normalizando dados
min_max_scaler = MinMaxScaler()
df_temp = df
df = pd.DataFrame(min_max_scaler.fit_transform(df.drop(["salario", "faixa_salarial"], axis=1)), index=df.index, columns=df.drop(["salario", "faixa_salarial"], axis=1).columns)
df["salario"] = df_temp["salario"]
df["faixa_salarial"] = df_temp["faixa_salarial"]

print(df.head(10))
print(df.shape)



      idade  pcd  gestor  nivel_profissional  tempo_exp_dados  tempo_exp_ti  \
0  0.211538  0.0     1.0                 1.0         0.857143      0.333333   
1  0.307692  0.0     1.0                 1.0         0.857143      1.000000   
2  0.192308  0.0     1.0                 1.0         0.571429      0.166667   
3  0.192308  0.0     0.0                 0.5         0.285714      0.166667   
4  0.192308  0.0     0.0                 0.5         0.285714      0.000000   
5  0.307692  0.0     1.0                 1.0         0.857143      0.333333   
6  0.423077  0.0     1.0                 1.0         1.000000      0.166667   
7  0.038462  0.0     0.0                 0.0         0.285714      0.166667   
8  0.173077  0.0     0.0                 0.5         0.428571      0.000000   
9  0.211538  0.0     0.0                 1.0         0.571429      0.833333   

   genero_Feminino  genero_Masculino  genero_Outro  \
0              0.0               1.0           0.0   
1              0.0    

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["nivel_profissional"].fillna(df["nivel_profissional"].value_counts().index[0], inplace=True)


2. (0,5 pontos) Faça uma análise exploratória de dados.

  > Procure entender como os dados se comportam e as relações entre diferentes *features*.
  >
  > **Alguns fatores a serem considerados:** Quais as distribuição dos valores de cada atributos? Como é a correlação entre os diferentes atributos? Existe multicolinearidade entre algumas *features*?

In [None]:
# TODO: Análise exploratória dos dados

df_proc.corr()

Unnamed: 0,idade,genero,pcd,gestor,nivel_profissional,tempo_exp_dados,tempo_exp_ti,salario,cor_raca_Amarela,cor_raca_Branca,cor_raca_Indígena,cor_raca_Outra,cor_raca_Parda,cor_raca_Unknown,cor_raca_Preta,estado_residencia_AC,estado_residencia_AL,estado_residencia_AP,estado_residencia_AM,estado_residencia_BA,estado_residencia_CE,estado_residencia_DF,estado_residencia_ES,estado_residencia_GO,estado_residencia_MA,estado_residencia_MT,estado_residencia_MS,estado_residencia_MG,estado_residencia_PR,estado_residencia_PB,estado_residencia_PA,estado_residencia_PE,estado_residencia_PI,estado_residencia_RN,estado_residencia_RS,estado_residencia_RJ,estado_residencia_RO,estado_residencia_SC,estado_residencia_SE,estado_residencia_SP,estado_residencia_TO,estado_residencia_nan,nivel_ensino_Doutorado ou Phd,nivel_ensino_Estudante,nivel_ensino_Graduação/Bacharelado,nivel_ensino_Mestrado,nivel_ensino_SemGrad,nivel_ensino_Unknown,nivel_ensino_Pós-graduação,area_formacao_Ciências Biológicas/ Farmácia/ Medicina/ Área da Saúde,area_formacao_Ciências Sociais,area_formacao_Computação / Engenharia de Software / Sistemas de Informação/ TI,area_formacao_Economia/ Administração / Contabilidade / Finanças/ Negócios,area_formacao_Estatística/ Matemática / Matemática Computacional/ Ciências Atuariais,area_formacao_Marketing / Publicidade / Comunicação / Jornalismo,area_formacao_Outra opção,area_formacao_Outras Engenharias,area_formacao_Química / Física,area_formacao_nan,situacao_trabalho_Empreendedor ou Empregado (CNPJ),situacao_trabalho_Empregado (CLT),situacao_trabalho_Estagiário,situacao_trabalho_Freelancer,situacao_trabalho_Prefiro não informar,situacao_trabalho_Servidor Público,situacao_trabalho_Vivo fora do Brasil e trabalho para empresa de fora do Brasil,situacao_trabalho_Vivo no Brasil e trabalho remoto para empresa de fora do Brasil,setor_Agronegócios,setor_Educação,setor_Entretenimento ou Esportes,setor_Filantropia/ONG's,setor_Finanças ou Bancos,setor_Indústria,setor_Internet/Ecommerce,setor_Marketing,setor_Outra Opção,setor_Seguros ou Previdência,setor_Setor Alimentício,setor_Setor Automotivo,setor_Setor Farmaceutico,setor_Setor Imobiliário/ Construção Civil,setor_Setor Público,setor_Setor de Energia,setor_Tech/Fábrica,setor_Telecomunicação,setor_Varejo,setor_Saude,setor_Consultoria,atuacao_dia_a_dia_AD/BI,atuacao_dia_a_dia_DS/ML/AI,atuacao_dia_a_dia_Engenharia,atuacao_dia_a_dia_Unknown,atuacao_dia_a_dia_nan,cargo_Analista de BI/BI Analyst,cargo_Analista de Dados/Data Analyst,cargo_Analista de Inteligência de Mercado/Market Intelligence,cargo_Analista de Negócios/Business Analyst,cargo_Analista de Suporte/Analista Técnico,cargo_Analytics Engineer,cargo_Cientista de Dados/Data Scientist,cargo_DBA/Administrador de Banco de Dados,cargo_Data Product Manager/ Product Manager (PM/APM/DPM/GPM/PO),cargo_Desenvolvedor/ Engenheiro de Software/ Analista de Sistemas,cargo_Diretor/VP,cargo_Economista,cargo_Engenheiro de Dados/Arquiteto de Dados/Data Engineer/Data Architect,cargo_Engenheiro de Machine Learning/ML Engineer/AI Engineer,cargo_Estatístico,cargo_Gerente/Head,cargo_Outra Opção,cargo_Outras Engenharias (não inclui dev),cargo_Professor/Pesquisador,cargo_Supervisor/Coordenador,"cargo_Sócio ou C-level (CEO, CDO, CIO, CTO etc)",cargo_Team Leader/Tech Leader
idade,1.000000,0.015834,0.020136,0.279067,0.385966,0.389281,0.361023,0.303226,0.022946,0.018406,-0.013648,0.009944,-0.009599,-0.019275,-0.026140,0.016272,-0.026297,0.005229,-0.021034,0.019709,0.004767,0.062520,-0.038740,0.011551,0.000206,-0.021802,-0.003754,-0.026310,-0.040329,-0.025723,-0.015171,-0.002732,0.001864,-0.036496,0.037869,0.025168,0.010745,-0.004309,-0.012363,-0.000868,0.005777,0.049524,0.127036,-0.291169,-0.166064,0.083970,-0.021897,-0.007198,0.250438,0.032206,-0.014125,0.039727,0.048517,0.001283,0.007403,0.020755,-0.112424,0.019889,-0.023034,0.066939,-0.039590,-0.195755,0.078423,-0.021007,0.161197,0.027777,-0.014486,-0.020086,0.044650,-0.013238,0.008687,-0.058781,0.033184,-0.024466,-0.023463,-0.022476,-0.003594,-0.047653,-0.033504,0.031300,-0.013733,0.112048,0.002404,0.024859,0.017529,-0.004515,0.031154,-0.021152,-0.159628,-0.088861,-0.052352,0.083943,0.271413,-0.104766,-0.091787,-0.053944,-0.053595,0.033827,-0.021417,-0.096077,0.034830,0.034667,0.021701,0.090869,0.004050,-0.055626,-0.053670,0.048101,0.214450,0.056439,0.035066,0.070689,0.110451,0.103965,0.035788
genero,0.015834,1.000000,-0.011248,0.056376,0.072187,0.068921,0.106078,0.091966,-0.009737,-0.015862,-0.005255,0.040629,0.015903,0.029766,-0.008317,0.063832,0.002158,0.011920,-0.005379,0.011567,0.019808,-0.018564,0.019775,0.007844,-0.002118,0.051507,0.033897,-0.048091,-0.008437,0.001831,0.033897,-0.004073,0.018626,0.019430,-0.020213,-0.000136,-0.019855,0.007473,-0.020544,0.003409,-0.013991,0.008382,-0.027745,0.047525,0.029169,-0.034127,0.022346,0.018854,-0.032711,-0.067532,-0.066439,0.078749,0.000915,-0.027233,-0.051107,-0.045744,-0.004608,0.012102,0.026412,0.065048,-0.038742,-0.046768,-0.019110,-0.033218,0.006822,0.030438,0.025234,-0.005156,-0.000789,0.006602,0.002158,-0.006139,-0.015839,0.014733,0.010995,-0.031278,0.036395,0.002468,0.011703,0.012816,0.013104,-0.006438,0.003761,-0.002189,-0.002884,-0.001781,0.018726,0.002188,-0.086213,0.037056,0.048422,-0.057199,0.055878,0.011786,-0.068249,-0.025691,-0.048421,-0.001850,0.002657,0.014024,-0.005276,-0.041665,-0.002335,0.011348,-0.001497,0.049969,0.040389,0.013712,0.041268,-0.048224,0.011353,0.003838,0.011603,0.028046,0.025104
pcd,0.020136,-0.011248,1.000000,-0.023284,-0.018622,0.005053,0.000161,-0.004249,-0.002939,-0.015342,0.027670,0.007671,-0.000945,0.055910,0.006197,0.038418,0.013072,-0.003434,-0.010610,-0.025841,-0.016492,0.051560,-0.021524,0.010250,-0.006874,-0.014841,0.000185,-0.003409,0.049399,-0.016384,0.012302,0.028433,0.008685,0.019188,-0.018348,-0.017964,0.054345,-0.007260,0.024110,-0.023139,0.047528,-0.002663,0.019486,0.014876,-0.007966,-0.005239,0.006367,-0.005433,-0.007472,-0.021237,-0.002974,0.004288,-0.018722,0.022701,0.011075,-0.008863,0.010642,-0.017330,0.004798,-0.028588,0.004999,-0.004350,0.020903,-0.006430,0.030310,-0.001104,0.007064,0.008403,-0.009663,0.076485,0.037824,0.011240,0.006746,-0.012612,0.003042,0.003126,0.006756,-0.002150,-0.016199,0.011568,-0.002063,0.023132,0.015592,-0.024775,0.023199,-0.027071,-0.021556,-0.014031,0.012366,0.018347,-0.019556,0.018165,-0.022959,0.006736,0.013475,-0.013574,-0.005507,-0.018138,0.022061,0.023006,0.021195,-0.012341,-0.007668,0.008936,-0.004858,-0.015788,0.004856,-0.009422,-0.017624,-0.002756,0.036536,-0.011932,-0.021668,-0.012550,0.010195
gestor,0.279067,0.056376,-0.023284,1.000000,0.442262,0.293784,0.130764,0.370339,0.012814,0.039462,-0.001003,0.040749,-0.041635,-0.032843,-0.010858,0.018213,0.005634,-0.011079,0.003876,0.000793,-0.002033,-0.019280,-0.002678,0.009904,-0.007518,-0.006822,0.012393,-0.001847,-0.040461,-0.034220,-0.004568,-0.024492,-0.015199,-0.027885,-0.000600,-0.019043,0.005046,-0.016113,-0.028287,0.064818,-0.017524,0.024378,0.031293,-0.111754,-0.124769,0.073938,-0.000885,0.019542,0.130483,-0.029866,-0.016267,-0.004191,0.048701,0.027619,0.049703,-0.027537,-0.040977,-0.014854,0.004077,0.194422,-0.102659,-0.100898,-0.012484,-0.005073,0.014359,0.018310,-0.007684,-0.010308,0.029921,-0.007542,0.014296,-0.032134,-0.022432,0.017161,0.025913,-0.006354,-0.028775,0.017127,-0.014575,-0.022669,0.037120,-0.001924,-0.025403,0.012266,-0.013184,0.030374,-0.016422,0.014223,-0.375383,-0.210905,-0.235811,-0.122826,0.936971,-0.167897,-0.233214,-0.043785,-0.097532,-0.058508,-0.087556,-0.198602,-0.030393,-0.063690,-0.068970,0.181542,-0.015672,-0.199867,-0.060107,-0.030393,0.559869,-0.117061,-0.038490,-0.038490,0.562185,0.275227,0.347261
nivel_profissional,0.385966,0.072187,-0.018622,0.442262,1.000000,0.592457,0.253298,0.489352,0.027800,0.065608,-0.012268,0.030972,-0.064333,-0.013172,-0.033232,-0.007848,-0.005355,-0.007848,-0.019553,-0.009703,-0.010312,0.006641,-0.030396,-0.034477,0.013172,-0.010322,-0.006379,-0.007844,-0.041638,-0.049678,-0.027267,-0.052352,-0.025148,-0.026770,0.007469,-0.025634,-0.011102,0.008306,-0.020039,0.101758,-0.012414,0.016816,0.078256,-0.324362,-0.106796,0.111911,-0.019979,-0.012414,0.213800,-0.060426,-0.039880,0.050538,0.008824,0.003090,0.023726,-0.069284,-0.000321,-0.004350,-0.022492,0.080789,0.065736,-0.340274,-0.004503,-0.037846,-0.003374,0.030930,0.094677,-0.031639,0.007859,0.010777,-0.022422,0.013996,0.008022,0.024403,-0.023117,-0.037195,0.004476,-0.004649,-0.052485,0.033571,-0.002654,-0.054913,-0.034118,0.025880,-0.006403,0.041943,0.023259,-0.008944,-0.265922,-0.068219,0.022592,-0.095320,0.411891,-0.168005,-0.167744,-0.060450,-0.009416,-0.052531,0.020908,-0.063563,0.010136,0.059526,-0.006309,0.080289,-0.011102,0.020402,-0.018285,-0.026808,0.247609,-0.142175,-0.014734,0.001976,0.248633,0.121722,0.153580
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
cargo_Outras Engenharias (não inclui dev),0.035066,0.011353,0.036536,-0.038490,-0.014734,-0.081927,-0.025841,-0.020432,-0.013758,0.003578,-0.004293,-0.004669,0.017445,-0.006741,-0.022299,-0.001829,-0.006218,-0.001829,0.041447,0.045681,-0.012197,-0.014139,0.035692,-0.010429,-0.003660,-0.007901,0.035579,-0.017347,-0.010826,-0.008723,-0.006353,0.010012,-0.004485,-0.007108,-0.004074,-0.012317,-0.002587,0.043507,-0.004669,-0.023810,-0.002892,0.033545,0.001129,-0.006780,-0.001004,-0.000488,-0.011306,-0.002892,0.008766,-0.011306,-0.009920,-0.025775,-0.034022,-0.021905,-0.013167,-0.018582,0.106314,-0.012551,-0.011685,0.001308,-0.024062,-0.017190,0.055122,-0.003423,0.044719,0.019207,-0.012690,-0.010836,-0.001467,0.020336,0.036610,-0.039182,0.045849,-0.013100,-0.012125,-0.009239,-0.009477,-0.011759,0.022426,-0.006484,0.129410,0.038543,0.063799,-0.029596,0.010613,-0.023748,-0.016596,-0.012084,0.006583,-0.025754,-0.038919,0.160453,-0.041080,-0.027710,-0.038490,-0.007226,-0.016097,-0.009656,-0.014451,-0.032778,-0.005016,-0.010512,-0.011383,-0.006988,-0.002587,-0.032987,-0.009920,-0.005016,-0.021550,-0.019320,1.000000,-0.006353,-0.021639,-0.010594,-0.013366
cargo_Professor/Pesquisador,0.070689,0.003838,-0.011932,-0.038490,0.001976,0.003214,-0.015471,0.024752,0.006055,0.017460,-0.004293,-0.004669,-0.013664,-0.006741,-0.009500,-0.001829,-0.006218,-0.001829,-0.005649,0.025868,-0.012197,-0.014139,-0.011459,-0.010429,0.068814,-0.007901,-0.006353,0.003908,0.001549,-0.008723,-0.006353,-0.012197,-0.004485,-0.007108,-0.004074,-0.000389,-0.002587,-0.018077,-0.004669,0.003350,-0.002892,0.056271,0.121316,-0.028012,-0.022046,0.029429,-0.011306,-0.002892,-0.025750,0.012575,-0.009920,-0.032530,-0.034022,0.056074,-0.013167,0.056512,-0.008173,0.052285,-0.011685,-0.029387,-0.031782,-0.001077,0.055122,-0.003423,0.103387,0.019207,-0.012690,-0.010836,0.237562,-0.009107,0.122265,-0.039182,0.005653,-0.013100,-0.012125,0.003647,-0.009477,-0.011759,-0.008624,-0.006484,-0.009656,-0.015293,-0.010836,-0.029596,-0.011980,-0.023748,-0.016596,-0.024080,-0.020832,0.046683,-0.030496,0.077042,-0.032925,-0.027710,-0.038490,-0.007226,-0.016097,-0.009656,-0.014451,-0.032778,-0.005016,-0.010512,-0.011383,-0.006988,-0.002587,-0.032987,-0.009920,-0.005016,-0.021550,-0.019320,-0.006353,1.000000,-0.021639,-0.010594,-0.013366
cargo_Supervisor/Coordenador,0.110451,0.011603,-0.021668,0.562185,0.248633,0.088552,0.006111,0.064294,0.015196,0.005666,0.004742,0.037556,-0.001479,-0.022960,-0.019832,0.039137,0.005649,-0.006228,-0.004489,-0.003421,0.014105,-0.005825,0.005273,0.004904,-0.012467,-0.005722,0.004629,-0.008742,-0.013134,-0.029713,0.004629,-0.006764,0.003268,-0.012455,0.019168,0.014553,0.023276,-0.008529,-0.015903,0.016198,-0.009852,-0.033440,0.004518,-0.042214,-0.071525,-0.000490,0.006369,0.018851,0.093105,-0.008592,0.000156,-0.024855,0.028152,0.023085,0.039242,0.007268,-0.026560,-0.008906,0.010931,-0.003957,0.031387,-0.053508,0.001162,-0.011660,0.032114,-0.023014,-0.023130,-0.021326,0.040549,0.005868,0.019063,-0.017865,0.016107,0.020379,0.000673,-0.018858,-0.005664,0.003166,-0.000200,0.003653,0.028090,0.009738,0.002052,-0.025660,-0.012501,0.025540,0.011225,-0.021905,-0.211035,-0.118568,-0.132570,-0.069051,0.526752,-0.094389,-0.131110,-0.024616,-0.054831,-0.032892,-0.049223,-0.111651,-0.017087,-0.035806,-0.038774,-0.023802,-0.008811,-0.112362,-0.033791,-0.017087,-0.073404,-0.065810,-0.021639,-0.021639,1.000000,-0.036085,-0.045529
"cargo_Sócio ou C-level (CEO, CDO, CIO, CTO etc)",0.103965,0.028046,-0.012550,0.275227,0.121722,0.080739,0.067747,0.118886,0.001087,0.001758,-0.007160,0.026713,-0.008638,-0.011241,0.009382,-0.003049,-0.010369,-0.003049,-0.009419,0.025116,0.020064,-0.011869,-0.004813,0.029571,-0.006103,-0.013176,-0.010594,0.011350,-0.023682,-0.014546,-0.010594,-0.020340,-0.007479,0.010908,0.022388,-0.025964,-0.004313,0.025872,-0.007785,-0.000589,-0.004823,0.007706,-0.005926,-0.020962,-0.027194,0.046053,0.024591,0.050746,-0.000033,-0.004373,-0.016543,-0.024551,0.049234,-0.005004,0.003090,-0.003665,-0.013630,-0.007825,0.036640,0.323261,-0.223876,-0.028667,0.005220,0.041268,-0.011403,-0.015651,-0.008193,-0.018070,0.038622,0.002667,0.015602,-0.044994,-0.027136,-0.021845,-0.006676,-0.021267,-0.015803,-0.005664,-0.014382,-0.010813,-0.016103,-0.014620,-0.002984,0.065750,-0.006277,-0.024884,-0.017586,0.083506,-0.103316,-0.058047,-0.064902,-0.033805,0.257880,-0.046210,-0.064187,-0.012051,-0.026843,-0.016103,-0.024098,-0.054661,-0.008365,-0.017529,-0.018983,-0.011653,-0.004313,-0.055009,-0.016543,-0.008365,-0.035936,-0.032218,-0.010594,-0.010594,-0.036085,1.000000,-0.022290


3. (0,1 pontos) Divida o seu conjunto de treinamento em dois conjuntos: treinamento e validação. A proporção de divisão pode ser escolhida, mas pense no impacto que isso pode resultar em seu modelo.

  > **Dica:** Defina uma *seed* para seus resultados serem reprodutíveis.

In [24]:
# TODO: Divisão de treinamento e validação
df.insert(0, "bias", [1] * df.shape[0])
y = df["salario"].to_numpy()
print(y)
X = df.drop(["salario"], axis=1).to_numpy()
print(X)
X_train, X_validation, y_train, y_validation = train_test_split(X, y, test_size=0.3, random_state=42)

[27510. 23837. 21406. ...  5775.  3809.  2709.]
[[ 1.          0.21153846  0.33333333 ...  1.          0.
  11.        ]
 [ 1.          0.30769231  0.33333333 ...  0.          1.
  10.        ]
 [ 1.          0.19230769  0.         ...  0.          0.
  10.        ]
 ...
 [ 1.          0.25        0.         ...  0.          0.
   5.        ]
 [ 1.          0.30769231  0.         ...  0.          0.
   4.        ]
 [ 1.          0.15384615  0.         ...  0.          0.
   3.        ]]


## Regressão Linear

Esta parte do trabalho visa prever o valor do salário dos profissionais, descrita pelo atributo `salario`, com base em seus dados demográficos e informações de carreira.

O atributo alvo nesta etapa é o atributo `salario`. Portanto, não utilize os atributos `salario` e `faixa_salarial` como *features* dos seus modelos, apenas para o cálculo da função de custo durante o treinamento e a validação.

### Atividades

1. (0,1 pontos) Faça a seleção das features mais importantes para o treinamento da sua regressão linear, com base em sua análise exploratória.

In [None]:
#TODO: Seleção de features.

# Seleção já realizada na etapa de pré-processamento

2. (1,75 pontos) Implemente e execute a regressão linear.

  Faça uma classe `LinearRegression` capaz de encontrar uma regressão utilizando dois métodos: **descida do gradiente** e a **equação normal**.

  Para a otimização por **descida do gradiente**, guarde o histórico da função de custo por época e retorno este histórico após a execução do ajuste. Além disso, utilize uma learning rate de `0.01` nesta etapa.

  > **Observações:** Inicie randomicamente sua regressão linear e lembre-se de não utilizar dados de teste no treinamento.

  Lembre-se que:

  > A hipótese da regressão linear é: $ h_\theta(x) = \theta^Tx$.
  >
  > E, o objetivo da regressão linear é minimizar a função de custo Root Mean Squared Error (RMSE):
  >
  > $$ J(\theta) = \frac{1}{2m} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 $$
  >
  > Para minimizar o custo $J(\theta)$, o algoritmo de descida do gradiente realiza uma atualização nos parâmetros do modelo a cada iteração:
  >
  > $$\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j}J(\theta) = \theta_j - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} $$
  >
  > onde $j$ é o índice do parâmetro a ser atualizado (atualizando simultaneamente $\theta_j$ para todos os $j$) e $\alpha$ é a taxa de aprendizado.

In [25]:
# TODO: Regressão Linear. Implemente sua solução. Você não pode usar bibliotecas como scikit-learn, Keras/TensorFlow, ou PyTorch.

class LinearRegression:
    def __init__(self, X, y) -> None:
        self.X = X
        self.y = y
        pass

    def fit(self, method: str =None, **kwargs):
        if method == "gradient_descent":
            return self.fit_gradient_descent_solve(**kwargs)
        else:
            return self.fit_analytical_solve()

    def fit_analytical_solve(self):
        Xt = np.transpose(self.X)
        feature_prod = np.matmul(Xt, self.X)

        if (np.linalg.det(feature_prod) == 0):
            raise Exception("Matriz não invertível na solução analítica. Favor checar redundância dos features.")
        
        inv_prod = np.linalg.inv(feature_prod)
        z = np.matmul(inv_prod, Xt)
        theta = np.matmul(z, self.y)

        return theta
    
    def error_derivative(self, batch_size: int, theta: np.array):
        random_idx = np.random.choice(self.X.shape[0], size=batch_size)
        X_batch = self.X[random_idx]
        y_batch = self.y[random_idx]

        y_predict = np.matmul(X_batch, theta)
        error = np.sum((y_batch - y_predict) ** 2) / (2 * batch_size)
        error_d = X_batch.T @ (y_predict - y_batch) / batch_size

        return error, error_d

    def fit_gradient_descent_solve(self, epochs: int, batch_size: int, alpha: float = 0.01):
        theta = np.random.rand(self.X.shape[1])
        epochs_error = []

        for idx_epoch in range(epochs):
            for _ in range(self.X.shape[0] // batch_size):
                error, error_d = self.error_derivative(batch_size, theta)
                theta -= alpha * error_d
            epochs_error.append(error)
        
        return theta, epochs_error

In [30]:
# testando com regressão linear do scikit learn

from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

regr = linear_model.LinearRegression()
regr.fit(X_train, y_train)
y_pred = regr.predict(X_validation)

print("coeff = \n", regr.coef_)
print("error = \n", mean_squared_error(y_validation, y_pred))

coeff = 
 [ 1.57043092e+11  1.41718621e+03 -6.38874909e+01  2.18712505e+02
  3.51105060e+15 -3.46656934e+03 -9.81250575e+01  5.73015028e+01
  4.53704283e+13  4.53704283e+13  4.53704283e+13  4.53704283e+13
  4.53704283e+13  4.53704283e+13  4.53704283e+13 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14 -4.09581903e+14
 -4.09581903e+14 -4.09581903e+14  8.50180105e+14  8.50180105e+14
  8.50180105e+14  8.50180105e+14  8.19449888e+14  8.19449888e+14
  8.50180105e+14  3.29345934e+14  3.29345934e+14  3.29345934e+14
  3.29345934e+14  3.29345934e+14  3.29345934e+14  3.29345934e+14
  3.29345934e+14  3.29345934e+14  3.60076151e+14  2.26176314e+14
  2.26176314e+1

In [28]:
# X = np.random.rand(10000)
# X = X.reshape((10000, 1))
# X = np.hstack((np.ones(10000).reshape(10000, 1), X))
# y = 2* X[:,1] + 5

# lr = LinearRegression(X, y)

# theta = lr.fit()
# theta
# print(np.sum(X * theta - y)/10000)

lr = LinearRegression(X_train, y_train)

theta, epochs_error = lr.fit(method="gradient_descent", epochs=10000, batch_size=1000)

print((np.sum((X_train @ theta) - y_train) ** 2) / X_train.shape[0])
print(epochs_error)

44921117.6060942
[np.float64(37152308.7104624), np.float64(12228933.779253509), np.float64(32019255.732952464), np.float64(33142629.171817157), np.float64(30087425.7775392), np.float64(35244836.527093686), np.float64(24906910.125664044), np.float64(15141777.506666292), np.float64(19174966.67458568), np.float64(18824797.66155713), np.float64(18823630.356591444), np.float64(22404737.024015084), np.float64(20213742.646387313), np.float64(21208986.710726086), np.float64(17938266.258126713), np.float64(31173739.20438884), np.float64(24418936.628218677), np.float64(38665279.52902005), np.float64(19268931.852964707), np.float64(23877240.227535903), np.float64(16836263.834716916), np.float64(22456531.436539184), np.float64(28064636.43127116), np.float64(24424755.196013175), np.float64(14884170.112330196), np.float64(20520071.948339403), np.float64(27536245.501176048), np.float64(20035112.691009782), np.float64(25953160.6458795), np.float64(11425637.005383966), np.float64(10161695.619308788), n

In [29]:
X_train.shape

(2661, 116)

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

3. (0,75 pontos) Experimente diferentes valores de *learning rates* para a descida de gradiente (GD). Plote o histórico da função de custo (função de custo vs. número de épocas) no conjunto de treinamento e no de validação para cada experimento.



In [None]:
# TODO: Descida do gradiente (GD) com 3 diferentes learning rates.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

 4. (0,25 pontos) Compare o seu melhor experimento baseado em GD com a sua implementação da equação normal.

In [None]:
# TODO: Compare as implementações

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

5. (1,25 pontos) Implementa e execute duas regressões lineares utilizando sklearn:

  1. Execute uma regressão com `sklearn.linear_model.SGDRegressor`, que utiliza descida do gradiente minimizando uma função de custo regularizada.
  2. Execute uma regressão com `sklearn.linear_model.LinearRegression`, que utiliza o método da equação normal.

  Compare os resultados obtidos com as suas implementações (de GD e da equação normal).

  Ou seja, compare o `sklearn.linear_model.SGDRegressor` com a sua implementação da descida do gradiente e o `sklearn.linear_model.LinearRegression` com a sua implementação da equação normal.

  > **Observação:** Utilize uma learning rate igual a algum dos experimentos que já fez para realizar uma comparação justa.


In [None]:
# TODO: Regressão Linear. Faça a regressão novamente, agora utilizando o sklearn.linear_model.SGDRegressor e sklearn.linear_model.LinearRegression.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

6. (0,4 ponto) Às vezes, precisamos de alguma função mais complexa para fazer uma boa predição. Elabore e avalie um modelo de Regressão Polinomial.

In [None]:
# TODO: Regressão polinomial. Está liberado utilizar scikit-learn.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

## Regressão Logística

Esta parte do trabalho visa prever a faixa salarial dos profissionais, descrita pelo atributo `faixa_salarial`, com base em seus dados demográficos e informações de carreira. Portanto, não utilize os atributos `salario` e `faixa_salarial` como *features* dos seus modelos, apenas para o cálculo da função de custo durante o treinamento e a validação.

### Atividades

1. (0,1 pontos) Faça a seleção das features mais importantes para o treinamento da sua regressão logística, com base em sua análise exploratória.

In [None]:
# TODO: Selecione de features.

2. (1,0 pontos) Faça uma Regressão Logística Multinomial. Ela é uma generalização da Regressão Logística para o caso em que queremos lidar com várias classes.

    Use a classe `sklearn.linear_model.SGDClassifier`, passando o parâmetro `loss="log_loss"` no construtor, para criar uma Regressão Logística a ser otimizada por descida do gradiente.

    Experimente diferentes valores de learning rate e avalie o impacto desse hiperparâmetro no treinamento do modelo.

In [None]:
# TODO: Regressão logística multinomial. Utilize a classe sklearn.linear_model.SGDClassifier do scikit-learn.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

3. (0,75 ponto) Faça um gráfico da função de custo vs. número de épocas, em relação ao conjunto de treinamento e ao conjunto de validação. Também faça um gráfico, de mesma estrutura, descrevendo a acurácia vs. número de época.

    Como é o comportamento do modelo? O modelo está aprendendo?

In [None]:
# TODO: Plote os gráficos de loss / acurácia vs. número de épocas. Você pode usar as bibliotecas scikit-learn, seaborn, matplotlib, etc.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

4. (0,9 pontos) Faça pelo menos 2 gráficos que visualizem as fronteiras de decisão entre duas *features*. Por exemplo, você pode fazer um gráfico da fronteira de decisão entre os atributos `tempo_exp_dados` e `satisfacao_empresa`, caso tenha utilizado essas *features*. Verifique se está fazendo o plot para atributos relevantes utilizados em seu modelo.

    > **Observação:** [Este tutorial](https://scikit-learn.org/stable/auto_examples/linear_model/plot_sgd_iris.html#sphx-glr-auto-examples-linear-model-plot-sgd-iris-py) do scikit-learn demonstra como extrair essas informações do `sklearn.linear_model.SGDClassifier`.

In [None]:
# TODO: Faça a visualização das fronteiras de decisão. Você pode usar as bibliotecas scikit-learn, seaborn, matplotlib, etc.

> **Quais foram suas conclusões? (1-2 parágrafos)**




*Escreva as conclusões aqui.*

5. (0,75 pontos) Avalie os resultados do seu modelo, utilizando métricas de classificação que achar relevante. Plote a matriz de confusão e analise os resultados.

In [None]:
# TODO: Avalie o seu modelo de classificação. Você pode usar as bibliotecas scikit-learn, seaborn, matplotlib, etc.

> **Quais foram suas conclusões? (1-2 parágrafos)**


*Escreva as conclusões aqui.*

## Submissão dos resultados no Kaggle

Para avaliar o desempenho do seu modelo, você deve submeter suas predições, no conjunto de teste, na competição [Tarefa #2 de MC886/MO444 2024S2](https://www.kaggle.com/t/20fa042c08f5453abd89d946468bd3de) do Kaggle.

A plataforma calculará automaticamente a métrica de avaliação e fornecerá um score.

> **Observação:** Não se preocupe apenas com o resultado do seu modelo. O seu score no placar não irá influenciar a sua nota nesta atividade :).

### Atividades

1. (1,0 pontos) Escolha **seus melhores modelos** para as duas tarefas feitas (regressão e classificação) e faça a predição dos atributos `salario` e `faixa_salarial` com base nos dados da pesquisa contidos no **conjunto de teste**.

  **Gere um arquivo de submissão, de tipo CSV, no formato adequado:** Gere uma linha por pessoa no conjunto de teste, com as duas colunas para os valores preditos, que devem estar nomeadas como **`salario`** e **`faixa_salarial`**.

  > Exemplo de arquivo (com o cabeçalho e conteúdo formatados):
  > ```
  > id, salario, faixa_salarial
  > 1, 0.0, "de R$ 0/mês a R$ 0/mês"
  > 2, 0.0, "de R$ 0/mês a R$ 0/mês"
  > 3, 0.0, "de R$ 0/mês a R$ 0/mês"
  > ```

  Submeta suas predições na competição [Tarefa #2 de MC886/MO444 2024S2](https://www.kaggle.com/t/20fa042c08f5453abd89d946468bd3de) no Kaggle.

  Conte para a gente! Qual foi o resultado que você obteve na competição? :)

*Conte aqui :)*

## Prazo

09 de outubro, quarta-feira, 23:59.

Política de penalidade para submissões atrasadas: Você não está sendo encorajada(o) a submeter o trabalho depois da data de submissão. Entretanto, caso isso aconteça, a nota será penalizada da seguinte forma:
- 10 de outubro, 23:59: nota * 0,75
- 11 de outubro, 23:59: nota * 0,5
- 12 de outubro, 23:59: nota * 0,25


## Envio

No Google Classroom, envie seu Jupyter Notebook, no formato RA1_RA2_2024s2_mc886mo444_tarefa_02.ipynb.

**Esta atividade NÃO é individual, deve ser realizada em dupla (grupo de duas pessoas).**
