<a href="https://colab.research.google.com/github/simonefmr/teste/blob/main/C%C3%B3pia_de_Pandemics_MVP_2704.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **MVP Pós Data Science - PUC Rio - Sprint 1**
### Simone de Fátima Marques Ramos

## **1. Introdução**

Desde o final de 2019, a palavra “pandemia” se tornou comum no nosso dia a dia. Uma enfermidade se torna uma pandemia quando atinge níveis mundiais, ou seja, quando determinado agente se dissemina em diversos países ou continentes, usualmente afetando um grande número de pessoas. 

Quem define quando uma doença se torna esse tipo de ameaça global é a Organização Mundial da Saúde (OMS). Uma pandemia pode começar como um surto ou epidemia; ou seja, surtos, pandemias e epidemias têm a mesma origem - o que muda é a escala da disseminação da doença.


### **1.1. Problema de aprendizado supervisionado ou não supervisionado e Hipóteses sobre o problema**

Regularmente nosso mundo é impactado por novas doenças e estas se espalham afetando nossa saúde que, em alguns casos, podendo levar à morte. 

Apesar dos registros históricos, existem diversos fatores que podem contribuir para o avanço de novas doenças, como a taxa de transmissão, a mortalidade, o período de incubação etc. Cada doença e suas variantes se comportam de forma diferente.

Levando isto em consideração, não temos um resultado de saída esperado, considerando um problema de aprendizado não supervisionado. Tentarei explorar os dados e aprender os possíveis relacionamentos entre eles.


### **1.2. Definição do Problema** 

O objetivo deste projeto é analisar as epidemias já registradas, tentar identificar se existe um padrão entre elas como tempo de duração, número de morte, intervalo entre pandemias e regiões afetadas.

## **2. Importação de pacotes e bibliotecas**

In [None]:
# Importando bibliotecas e pacotes que serão utilizados na análise

# Importação de Bibliotecas
import pandas as pd
import numpy as np
import glob
import seaborn as sns
import statistics
import matplotlib.pyplot as plt
from matplotlib import cm
from pandas import set_option
from pandas.plotting import scatter_matrix

# para tratamento de data
import datetime

# para tratamento de missings
import missingno as ms 

# Configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

## transformações numéricas
from sklearn.preprocessing import MinMaxScaler # para normalização
from sklearn.preprocessing import StandardScaler # para padronização

## transformações categóricas
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

In [None]:
# Versões das Bibliotecas utilizadas

pd_pd = pd.__version__
np_np = np.__version__
sns_sns = sns.__version__

print('Versões utilizadas na análise:')
print('Pandas = '+pd_pd)
print('Numpy = '+np_np)
print('Seaborn = '+sns_sns)

Versões utilizadas na análise:
Pandas = 1.5.3
Numpy = 1.22.4
Seaborn = 0.12.2


## **3. Carregamento dos dados**


### **3.1. Condições ou restrições impostas para selecionar os dados**

O dataset "Pandemic Details of World" foi obtidos através do diretório público Kaggle, e traz detalhes de todas as pandemias relatadas no mundo nos quatro mil anos. 
Até o momento não houve restrições ao acesso ou à seleção dos dados.

### **3.2 Definição dos atributos**

**'Epidemics/pandemics'**: Nome dado à pandemia

**'Disease'**: Doença identificada como causadora da pandemia

**'Death toll'**: número de mortos apurado

**'Date'**: Período que ocorreu a pandemia

**'Location'**: Área onde foi apurada a ocorrência da epidemia ou pandemia

In [None]:
# Importar os dados do dataset que foram carregados no diretório do GitHub

# url a importar

url = 'https://raw.githubusercontent.com/simonefmr/Pandemic/main/pandemic_details_of_world.csv'

In [None]:
# Ler o dataset

pandemic = pd.read_csv(url)

In [None]:
# Identificando as colunas do dataset

pandemic.columns

Index(['Unnamed: 0', 'Epidemics/pandemics', 'Disease', 'Death toll', 'Date',
       'Location'],
      dtype='object')

## **4. Análise de Dados**

In [None]:
# Exlcuir a coluna unnamed (se refere à um indexador e não agrega informação)

pandemic.drop('Unnamed: 0',axis=1,inplace=True)

In [None]:
# Definindo o nome das colunas

colunas = ['Epidemics/pandemics', 'Disease', 'Death toll', 'Date', 'Location']

In [None]:
# Verificando dimensões do dataset (quantos atributos e instâncias existem)

pandemic.shape

(272, 5)

In [None]:
# Visualizando as primeiras linhas verificamos que os dados foram carregados corretamente

pandemic.head()

Unnamed: 0,Epidemics/pandemics,Disease,Death toll,Date,Location
0,Black Death,Bubonic plague,75–200 million,1346–1353,"Europe, Asia, and North Africa"
1,Spanish flu,Influenza A/H1N1,17–100 million,1918–1920,Worldwide
2,Plague of Justinian,Bubonic plague,15–100 million,541–549,"North Africa, Europe and Western Asia"
3,HIV/AIDS epidemic,HIV/AIDS,40.1 million (as of 2021,1981–present,Worldwide
4,COVID-19 pandemic,COVID-19,7–28.3 million (as of December 2022,2019[c]–present,Worldwide


In [None]:
pandemic.tail()

Unnamed: 0,Epidemics/pandemics,Disease,Death toll,Date,Location
267,2020 Nigeria yellow fever epidemic,Yellow fever,296 (as of 31 December 2020),2020,Nigeria
268,2021 India black fungus epidemic,Black fungus (COVID-19 condition),4332,2021-2022,India
269,2022 hepatitis of unknown origin in children,Hepatitis by Adenovirus variant AF41 (Unconfir...,18,2021–2022,Worldwide
270,2022–2023 monkeypox outbreak,Monkeypox virus,280,2022–present,Worldwide
271,2022 Uganda Ebola outbreak,Sudan ebolavirus,77,2022–2023,Uganda


Tipos de dados do dataset

In [None]:
# Resumo estatístico dos atributos com valor numérico.

pandemic.describe()

Unnamed: 0,Epidemics/pandemics,Disease,Death toll,Date,Location
count,272,272,272,272,272
unique,262,77,202,219,167
top,Cocoliztli epidemic of 1576,Bubonic plague,Unknown,2006,Worldwide
freq,2,57,31,6,27


**Observação:**

Neste ponto, o retorno não foi o esperado. Não foram apresentados valores numéricos dos dados que quero analisar. Foi gerado apenas contagens da quantidade de instâncias.

### **4.1 Limpeza dos dados**

In [None]:
# Verificando valores não-nulos e tipo de classe

pandemic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 272 entries, 0 to 271
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Epidemics/pandemics  272 non-null    object
 1   Disease              272 non-null    object
 2   Death toll           272 non-null    object
 3   Date                 272 non-null    object
 4   Location             272 non-null    object
dtypes: object(5)
memory usage: 10.8+ KB


In [None]:
# Verificando quantos objetos distintos são apresentados

pandemic.nunique()

Epidemics/pandemics    262
Disease                 77
Death toll             202
Date                   219
Location               167
dtype: int64

In [None]:
# Segmentando os anos
# Desta forma, vou dividir o ano inicial e o ano final da epidemia para poder
# realizar outros tipos de cálculo

pandemic[['First Year', 'Last Year']]=pandemic.Date.str.split(("-") and ("–"),expand=True)
pandemic

Unnamed: 0,Epidemics/pandemics,Disease,Death toll,Date,Location,First Year,Last Year
0,Black Death,Bubonic plague,75–200 million,1346–1353,"Europe, Asia, and North Africa",1346,1353
1,Spanish flu,Influenza A/H1N1,17–100 million,1918–1920,Worldwide,1918,1920
2,Plague of Justinian,Bubonic plague,15–100 million,541–549,"North Africa, Europe and Western Asia",541,549
3,HIV/AIDS epidemic,HIV/AIDS,40.1 million (as of 2021,1981–present,Worldwide,1981,present
4,COVID-19 pandemic,COVID-19,7–28.3 million (as of December 2022,2019[c]–present,Worldwide,2019[c],present
...,...,...,...,...,...,...,...
267,2020 Nigeria yellow fever epidemic,Yellow fever,296 (as of 31 December 2020),2020,Nigeria,2020,
268,2021 India black fungus epidemic,Black fungus (COVID-19 condition),4332,2021-2022,India,2021-2022,
269,2022 hepatitis of unknown origin in children,Hepatitis by Adenovirus variant AF41 (Unconfir...,18,2021–2022,Worldwide,2021,2022
270,2022–2023 monkeypox outbreak,Monkeypox virus,280,2022–present,Worldwide,2022,present


In [None]:
# verificando se tem nulls no dataset
pandemic.isnull().sum()

Epidemics/pandemics      0
Disease                  0
Death toll               0
Date                     0
Location                 0
First Year               0
Last Year              117
dtype: int64

**Observação:**

De 272 instâncias, 117 apresentam valores nulos no campo "Last Year"

In [None]:
# Visualizando os diferentes valores para anos iniciais
pandemic['First Year'].unique()

array(['1346', '1918', '541', '1981', '2019[c]', '1855', '1545', '165',
       '1519', '1957', '1968', '1576', '735', '1772', '1656', '1846',
       '1629', '1889−1890', '1350 BC', '430', '412 BC', '217', '249',
       '590', '627', '638', '664', '698', '746', '1485', '1489', '1510',
       '1557', '1561', '1563', '1582', '1592', '1596', '1600', '1603',
       '1616', '1632', '1633', '1634', '1636', '1647', '1648', '1663',
       '1665', '1668', '1675', '1676', '1677', '1679', '1681', '1687',
       '1693', '1699', '1702', '1707', '1710', '1713', '1720', '1721',
       '1730', '1732', '1733', '1735', '1738', '1741', '1743', '1759',
       '1760', '1762', '1763', '1770', '1775', '1778', '1788', '1789',
       '1793', '1800', '1801', '1802', '1812', '1813', '1817', '1820',
       '1821', '1826', '1828', '1829', '1834', '1837', '1841', '1847',
       '1848', '1853', '1854', '1857', '1862', '1861', '1863', '1867',
       '1871', '1870', '1875', '1876', '1878', '1881', '1885', '1889',
     

In [None]:
# Agora vou corrigir os anos que apresentem alguma informação extra e estão
# classificados como string por isso.

pandemic['First Year'] = pandemic['First Year'].replace('2019[c]','2019')
pandemic['First Year'] = pandemic['First Year'].replace('1889−1890','1889')
pandemic['First Year'] = pandemic['First Year'].replace('2021-2022','2021')

pandemic.head(20)

Unnamed: 0,Epidemics/pandemics,Disease,Death toll,Date,Location,First Year,Last Year
0,Black Death,Bubonic plague,75–200 million,1346–1353,"Europe, Asia, and North Africa",1346,1353
1,Spanish flu,Influenza A/H1N1,17–100 million,1918–1920,Worldwide,1918,1920
2,Plague of Justinian,Bubonic plague,15–100 million,541–549,"North Africa, Europe and Western Asia",541,549
3,HIV/AIDS epidemic,HIV/AIDS,40.1 million (as of 2021,1981–present,Worldwide,1981,present
4,COVID-19 pandemic,COVID-19,7–28.3 million (as of December 2022,2019[c]–present,Worldwide,2019,present
5,Third plague pandemic,Bubonic plague,12–15 million,1855–1960,Worldwide,1855,1960
6,Cocoliztli epidemic of 1545–1548,Cocoliztli,5–15 million,1545–1548,Mexico,1545,1548
7,Antonine Plague,Smallpox or measles,5–10 million,165–180 (possibly up to 190),Roman Empire,165,180 (possibly up to 190)
8,1520 Mexico smallpox epidemic,Smallpox,5–8 million,1519–1520,Mexico,1519,1520
9,1918–1922 Russia typhus epidemic,Typhus,2–3 million,1918–1922,Russia,1918,1922


In [None]:
# Percebemos que algumas datas são de períodos anteriores ao ano 1 do calendário
# Gregoriano. Primeiro vou excluir estes anos da análise e concentrar apenas nos
# ocorridos nos últimos 2023 anos.

str.pandemic['First Year'].map('1350 BC')
    

TypeError: 'str' object is not callable




AttributeError: ignored

In [None]:
# Visualizando os diferentes valores para anos iniciais
pandemic.head(20)

### **4.2 Análise descritiva**

A análise descritiva busca entender os parâmetros gerais e tentar identificar os pontos que precisam ser corrigidos.

In [None]:
# Função Pivot retorna agrupando todas as informações de um mesmo tipo e contabilizando elas

df.pivot(index='Class',columns='Section',values='Gr')

In [None]:
# Resumo estatístico dos atributos com valor numérico.

pandemic.describe()

Separando as features para análise

Informações do novo dataset


### **4.3. Resumo estatístico**

Distribuição de num

Visualizações Unimodais

Densidade das distribuições

BoxPlots

### **4.3.Visualizações multimodais**

Pair plot

Exemplo

df_reseted_indexes = df_feats.reset_index()

sns.pairplot(df_reseted_indexes)

## **5. Pré-processamento**

### **5.1 Tratamento de missings**

ms.matrix(datasetSemMissings)

In [None]:
pandemic.isnull().sum()

In [None]:
# salvando um novo dataset para tratamento de missings
# recuperando os nomes das colunas
col = list(pandemic.columns)

# o novo dataset irá conter todas as colunas do dataset original
pandemic_sem_missings = pandemic[col[:]]

#substituindo os zeros por NaN
pandemic_sem_missings.replace(0, np.nan, inplace=True)

#exibindo visualização matricial da nulidade do dataset
ms.matrix(pandemic_sem_missings)

In [None]:
filtro  = tips['size'] > 1

In [None]:
# Visualizando dados únicos dos últimos anos

pandemic['Last Year'].unique()

In [None]:
# Vou substituir a informação "present" pelo ano atual.

pandemic['Last Year'] = pandemic['Last Year'].replace('present','2023')

In [None]:
pandemic['Disease'].unique()

In [None]:
pandemic[]= data["Age"].replace(25.0, "Twenty five")

Backup do dataset

Tratando as Missings

In [None]:
current_time = datetime.datetime.now()
pandemic_sem_missings = pandemic_sem_missings['Ano final'].replace('present', current_time.year)
pandemic_sem_missings.head(20)

In [None]:
df['End Date']=df['End Date'].replace("present","2023")
df

### **5.2 Separação do conjunto de treino e conjunto de teste**

### **5.3 Normalização e Padronização**

Quando normalizar e quando padronizar?
Se a distribuição é normal, padronize. Caso contrário, normalize.

Os problemas de modelagem preditiva são muitas vezes complexos, não sendo clara a melhor transformação para realizar. Na dúvida, use a normalização. Se tiver tempo, explore os modelos com os dados sem transformação, com a padronização e com a normalização e veja se os resultados são significativamente diferentes e se o custo x benefício vale a pena.

Como a padronização resulta em valores positivos e negativos, pode ser interessante normalizar os dados após a padronização.

É possível definir os valores de mínimo e máximo de acordo com o conhecimento no negócio (e não simplesmente se ater aos valores observados).

In [None]:
# dados que iremos usar nos exemplos
data = np.asarray([[100, 0.001],
                   [8,   0.05],
                   [50,  0.005],
                   [88,  0.07],
                   [4,   0.1]])
print(data)

In [None]:
# Normalização

# Definindo o transformador como min max scaler
scaler = MinMaxScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

In [None]:
# Padronização 

# definindo o transformador como standard scaler
scaler = StandardScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

In [None]:
# definindo o transformador como one hot encoding
encoder = OneHotEncoder(sparse=False)

# transformando os dados
onehot = encoder.fit_transform(data)
print(onehot)

In [None]:
# Dummy encoding - definindo o transformador como hot encoding 
# (com dummy variable encoder)
encoder = OneHotEncoder(drop='first', sparse_output=False)

#transformando os dados
dummy = encoder.fit_transform(data)
print(dummy)

# **Series e Index**

Nesta aula, aprendemos:

Como selecionar uma variável do dataframe (por exemplo, dados['Tipo'] ou dados.Tipo)
Que um dataframe é composto de vários Series
Como eliminar duplicatas (pelo método drop_duplicates())
Como redefinir o index de um dataframe e series (atributo index)
Como concatenar dataframes (lembrando do axis)
Como criar novos dataframes baseados em estruturas de dados Python (lista, dicionários ou tuples)
Na próxima aula vamos aprender como filtrar os nossos dados! Pronto para continuar?

# **Isin / sort_index/ sort_values**

Nesta aula, vimos como:

Criar uma Series booleana usando o método isin(..) a partir do dataframe
Filtrar os dados de um dataframe baseado na Series booleana
Exportar e gravar os dados do dataframe (método to_csv())
Ordenar os dados de um dataframe (métodos sort_values() e sort_index())

## OR AND Idex Seleção 

Nesta aula, aprendemos:

Formas de seleção e frequências
Seleção com a condição OR (|)
Seleção com a condição AND (&)
Como criar um Index com split()
Seleção por linha e coluna em um dataframe:
Utilizando os índices numéricos e os rótulos das linhas

selecao = (alunos.Aprovado == True) & (alunos.Sexo == 'F')
aprovadas = alunos[selecao]
aprovadas

selecao = alunos['Aprovado'] == False
reprovados = alunos[['Nome', 'Sexo', 'Idade']][selecao]
reprovados