<a href="https://colab.research.google.com/github/Amdore/EDA-Malaria/blob/main/EDA_Mal%C3%A1ria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Metodologia CRISP - DM**

O projeto utilizou-se da metodologia CRISP-DM (Cross Industry Process Model for Data Mining) adaptada para projetos em Data Science - DS (Análise Exploratória de Dados, Machine Learning, Deep Learning, dentre outras aplicações). A referida metodologia baseia-se em 06 (seis) etapas, a saber: Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Construção dos Modelos, Avaliação e Implementação.

<img alt="Colaboratory logo" width="75%" src="https://raw.githubusercontent.com/consultantleonardoferreira/Projetos-em-Data-Science/master/crisphorizontal.png">

##A- Entendendo o Negócio

Nesta etapa serão estudados os objetivos do negócio, avaliada a situação negócio (quais problemas a serem resolvidos?), bem como determinado as metas e ou objetivos para o projeto de Data Science (quais objetivos e métricas de sucesso?)

####**A1.Objetivos do Negócio**

A malária é uma doença transmitida pela picada de um mosquito do gênero Anopheles que esteja infectada pr um protozoário do gênero Plasmodium. É uma doença mundialmente conhecida e que inclusive afeta o Brasil, sendo assim uma preocupação para o Ministério da Saúde e outras instituições, como a OMS.
Abaixo temos dois curtos vídeos, em inglês, sobre o tópico:
<br><br>
 * [Transmissão da malária para humanos (Parte 1)](https://www.youtube.com/watch?v=1v55yg0RfoY)<br>
 
 
* [Transmissão da malária para humanos (Parte 2)](https://www.youtube.com/watch?v=MxiWp8vkRFI)
 

<br><br>

####**A2.Quais os problemas a serem resovidos?**

 O objetivo desta Análise Exploratória de Dados é responder perguntas e detectar padrões que vão ajudar a melhor entender a doença:
 
 * Quais são os países mais afetados pela Malária? Eles tem algum fator em comum?
 


####**A3.Quais são as métricas para aferição do sucesso do projeto de DS?**

Respostas para as perguntas do item A2 bem como o tratamento devido dos dados utilizados nessa análise.

##B-Entendendo os Dados


Nesta etapa estaremos coletando os dados iniciais, descrevendo os referidos dados, bem como explorando os dados com as estatísticas descritivas e por fim, verificando a qualidade de dados.

####**B1. Coletando os dados iniciais**

Precisaremos importar os pacotes do Python necessários para a execução deste projeto. 

In [15]:
# Importando bibliotecas
import pandas as pd
import seaborn as sns
import matplotlib
from matplotlib import pyplot as plt



Além disso, para essa análise usaremos um conjunto de arquivos .csv do site Kaggle:

* [Malaria Our World In Data](https://www.kaggle.com/datasets/programmerrdai/malaria)
<br><br>
* [No. of cases from different countries from 2010](https://www.kaggle.com/datasets/imdevskp/malaria-dataset?select=reported_numbers.csv)

Analisando o primeiro conjunto de dataframes:

In [14]:
bednet = pd.read_csv('children-sleeping-under-treated-bednet.csv')
deaths_world_region = pd.read_csv('deaths-world-region.csv')
incidence = pd.read_csv('incidence-of-malaria.csv')
death_rates_age = pd.read_csv('malaria-death-rates-by-age.csv')
death_rates = pd.read_csv('malaria-death-rates.csv')
deaths_by_region = pd.read_csv('malaria-deaths-by-region.csv')
comparisons = pd.read_csv('malaria-deaths-comparisons.csv')
pib = pd.read_csv('malaria-prevalence-vs-gdp-per-capita.csv')


In [None]:
# Pegando informações do df bednet

display(bednet.dtypes)
bednet.shape

bednet.head()



Entity                                                            object
Code                                                              object
Year                                                               int64
Use of insecticide-treated bed nets (% of under-5 population)    float64
dtype: object

Unnamed: 0,Entity,Code,Year,Use of insecticide-treated bed nets (% of under-5 population)
0,Gambia,GMB,2020,44.0
1,Liberia,LBR,2020,44.299999
2,Zimbabwe,ZWE,2019,14.9
3,Ghana,GHA,2019,54.099998
4,Senegal,SEN,2019,65.400002


Podemos ver que este é um dataframe bem pequeno, com apenas 4 colunas. O nome do arquivo é bem peculiar também; bednet nesse caso se refere à uma medida de prevenção da malária(Insecticide-Treated Bed Nets, ou ITNs) onde se cobre a cama com uma rede com inseticida para impedir os mosquitos que transmitem malária de picar as pessoas durante o sono. Especialmente eficaz na prevenção para crianças abaixo de 5 anos.

<img alt ="bednet" width="100%" src="https://www.usaid.gov/sites/default/files/styles/732_width/public/pressreleases/WMD_1_0.JPG?itok=NO6W5ivO">

Com isso em mente, a coluna "Use of insecticide-treated bed nets (% of under-5 population)" faz mais sentido, pois retrata a porcentagem da população daquele país abaixo de 5 anos de idade que usam ITNs.

##C-Preparação dos Dados

De acordo com o código acima, o dataframe nomeado de "bednet" tem apenas 4 colunas, este também organizou a tabela pela ordem alfabética, o que dificulta a leitura porque tem países repetidos nessa tabela, em função do ano registrado.

In [None]:
bednet = bednet.sort_values(by=['Year'],ascending=False).copy()



bednet.head()

Unnamed: 0,Entity,Code,Year,Use of insecticide-treated bed nets (% of under-5 population)
76,Gambia,GMB,2020,44.0
122,Liberia,LBR,2020,44.299999
277,Zimbabwe,ZWE,2019,14.9
84,Ghana,GHA,2019,54.099998
202,Senegal,SEN,2019,65.400002


Corrigimos a ordem, mas o index ainda está com problemas. Então vamos corrigi-lo.

In [None]:
bednet = bednet.reset_index()
bednet.head()


Unnamed: 0,index,Entity,Code,Year,Use of insecticide-treated bed nets (% of under-5 population)
0,76,Gambia,GMB,2020,44.0
1,122,Liberia,LBR,2020,44.299999
2,277,Zimbabwe,ZWE,2019,14.9
3,84,Ghana,GHA,2019,54.099998
4,202,Senegal,SEN,2019,65.400002


Como poder ver, refiz um index devido, agora deletaremos o index antigo e arrumaremos a organização

In [None]:
bednet = bednet.drop(['index'], axis=1)
bednet.head()

Unnamed: 0,Entity,Code,Year,Use of insecticide-treated bed nets (% of under-5 population)
0,Gambia,GMB,2020,44.0
1,Liberia,LBR,2020,44.299999
2,Zimbabwe,ZWE,2019,14.9
3,Ghana,GHA,2019,54.099998
4,Senegal,SEN,2019,65.400002


In [None]:
# Pegando informações do df bednet

In [None]:
# Pegando informações do df bednet

##D-Construção de Modelos

##E-Avaliando os Resultados do Projeto de DS

##F-Implementação

##Conclusões