#**MACHINE LEARNING**




##**Explique, com suas palavras, o que é machine learning?**

Machine Learning é um campo da **Inteligência Artificial** que permite que os computadores aprendam e melhorem seu **desempenho** de forma **autônoma** a partir de dados, sem serem explicitamente programados para cada tarefa. Em muitos casos, isso é feito utilizando **redes neurais**.

Um exemplo disso são os sistemas de recomendação, como os usados pela Netflix ou Spotify, que aprendem com o histórico do usuário para sugerir novos filmes ou músicas.

##**Explique o conceito de conjunto de treinamento, conjunto de validação e conjunto de teste em machine learning.**

O conjunto de treinamento é composto, em sua maior parte, por dados de um **dataset**. Ele é utilizado para que os algoritmos de Machine Learning aprendam a **identificar padrões presentes** nesses dados e possam, assim, realizar previsões — processo conhecido como **análise preditiva**. Por exemplo, esse conjunto pode ser usado para treinar um modelo a reconhecer padrões em exames de sangue, medições de pressão arterial ou outros tipos de dados, dependendo da aplicação.

O conjunto de validação é utilizado para **avaliar** o desempenho do modelo durante o treinamento, ajudando a ajustar seus parâmetros e evitar o *overfitting* — que ocorre quando o modelo se ajusta demais aos dados de treinamento, perdendo a capacidade de generalizar para novos dados. Ele permite monitorar o aprendizado e estimar como o modelo poderá se comportar diante de **dados desconhecidos**. Ajudaria a ajustar os parâmetros do modelo (como profundidade de uma árvore de decisão), testando seu desempenho com dados que não estavam no treinamento.

O conjunto de teste é utilizado após o **treinamento finalizado**. Ele contém dados **nunca vistos** pelo modelo e serve para verificar a sua capacidade de realizar **previsões com precisão** em dados reais ou novos, estimando seu **desempenho final**. Avaliaria o modelo final com novos dados, verificando se ele consegue prever corretamente o diagnóstico em situações nunca vistas.


##**Explique como você lidaria com dados ausentes em um conjunto de dados de treinamento.**



Primeiramente, eu analisaria a presença de valores ausentes utilizando **df.isnull().sum()** para verificar a quantidade de dados **faltantes** por coluna. Em seguida, avaliaria a proporção de valores ausentes em relação ao total de dados e seu impacto no contexto do problema e do modelo a ser treinado.

Após essa análise, escolheria uma estratégia de **imputação** adequada ao tipo de dado. Para variáveis numéricas, consideraria substituir os valores ausentes por 0 caso isso tenha um significado válido no contexto dos dados, ou por medidas **estatísticas** como **média**, **mediana** ou **moda**, dependendo da distribuição dos dados (ex: mediana para lidar melhor com outliers). Para variáveis categóricas, utilizaria a moda ou criaria uma nova categoria, como "Desconhecido".

Caso houvesse muitas colunas ou linhas com dados ausentes e a **imputação** não fosse viável ou introduzisse viés, poderia optar por remover essas linhas ou colunas utilizando **df.dropna()**, com cuidado para não comprometer a integridade do conjunto de dados.

In [2]:
import pandas as pd

df = pd.read_csv('dados_pacientes.csv')
df

Unnamed: 0,nome,idade,colesterol,pressao,diagnostico
0,Ana,28,180.0,120,Normal
1,Bruno,34,,130,Elevado
2,Carlos,45,220.0,125,Alto
3,Daniela,29,190.0,140,Normal
4,Eduardo,50,,135,Elevado
5,Fernanda,33,205.0,128,Alto
6,Gustavo,41,,132,Normal


In [3]:
df.isnull().sum()
#identificando quantos valores estão ausentes por coluna.

Unnamed: 0,0
nome,0
idade,0
colesterol,3
pressao,0
diagnostico,0


In [4]:
(df.isnull().mean() * 100).round(2)
#calculando a porcentagem de valores ausentes por coluna

Unnamed: 0,0
nome,0.0
idade,0.0
colesterol,42.86
pressao,0.0
diagnostico,0.0


Como a proporção de dados ausentes é inferior a 50%, não há necessidade de excluir a coluna.

In [5]:
df['colesterol'].fillna(df['colesterol'].mean(), inplace=True)
#imputação para uma variável numérica, substituindo os valores ausentes por sua média.

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['colesterol'].fillna(df['colesterol'].mean(), inplace=True)


In [6]:
df

Unnamed: 0,nome,idade,colesterol,pressao,diagnostico
0,Ana,28,180.0,120,Normal
1,Bruno,34,198.75,130,Elevado
2,Carlos,45,220.0,125,Alto
3,Daniela,29,190.0,140,Normal
4,Eduardo,50,198.75,135,Elevado
5,Fernanda,33,205.0,128,Alto
6,Gustavo,41,198.75,132,Normal


##**O que é uma matriz de confusão e como ela é usada para avaliar o desempenho de um modelo preditivo?**

A matriz de confusão é uma ferramenta de **avaliação** usada para medir o **desempenho** de modelos de classificação. Ela apresenta uma tabela que resume as previsões corretas e incorretas feitas pelo modelo, comparando os valores previstos com os valores reais.

Em um problema de classificação **binária**, por exemplo, a matriz contém quatro elementos principais:

- **Verdadeiro Positivo (VP):** o modelo previu positivo e estava certo;

- **Falso Positivo (FP):** o modelo previu positivo, mas estava errado;

- **Verdadeiro Negativo (VN):** o modelo previu negativo e estava certo;

- **Falso Negativo (FN):** o modelo previu negativo, mas estava errado.

Com base nessa matriz, é possível calcular diversas métricas importantes, como:

- **Acurácia:** proporção total de acertos;

- **Precisão:** proporção de positivos previstos que realmente são positivos;

- **Recall (Sensibilidade):** proporção de positivos reais que foram corretamente identificados;

- **F1-score:** média harmônica entre precisão e recall, útil em cenários com classes desbalanceadas.

A matriz de confusão é especialmente útil para entender onde o modelo está **errando** e se ele está cometendo **mais erros de um tipo específico** (por exemplo, muitos falsos positivos).

##**Em quais áreas (tais como construção civil, agricultura, saúde, manufatura, entre outras) você acha mais interessante aplicar algoritmos de machine learning?**

Acredito que algoritmos de **Machine Learning** têm aplicações valiosas em todas as áreas — da agricultura à manufatura —, mas a área da saúde é a que mais me comove e desperta meu interesse pessoal. Isso se deve, em parte, ao fato de minha família ter histórico de doenças hereditárias, o que me fez valorizar ainda mais o papel da tecnologia no diagnóstico, prevenção e tratamento de enfermidades.

A saúde é uma das áreas mais importantes para a humanidade, pois está diretamente ligada à nossa qualidade de vida e longevidade. Muitos avanços científicos, descobertas médicas e tratamentos só foram possíveis graças à combinação entre conhecimento humano e **ferramentas tecnológicas como o Machine Learning.**

Algoritmos de aprendizado de máquina podem ser usados para:

- Ajudar no diagnóstico precoce de doenças, como câncer e doenças cardiovasculares;

- Analisar exames médicos (imagens, exames de sangue, prontuários eletrônicos) com mais rapidez e precisão;

- Prever surtos de doenças infecciosas e personalizar tratamentos com base em perfis genéticos;

- Apoiar pesquisas clínicas, acelerando a descoberta de medicamentos e terapias inovadoras.

Em um mundo onde novas doenças surgem com frequência e muitas ainda não têm cura, o uso da **inteligência artificial pode salvar vidas**, **evitar diagnósticos tardios** e **reduzir a sobrecarga nos sistemas de saúde.** Acredito que essa integração entre saúde e tecnologia não só pode melhorar o presente, como transformar o futuro da medicina.