# <span style="color:blue"> MBA em Ciência de Dados</span>
# <span style="color:blue">Programação para Ciência de Dados</span>

## <span style="color:blue">Avaliação Final</span>
**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**

A avaliação vale 10 pontos. As questões de 1 a 4, caso respondidas da forma correta, totalizam 10 pontos. A última questão é um bônus que, se respondida corretamente, pode ajudar na nota final, ou seja, caso tenha respondido incorretamente uma das questões de 1 a 4, mas tenha acertado a questão bônus, ainda poderá atingir 10 pontos.

<font color='red'>**ATENÇÃO:** Quando terminar de exame, você deve fazer um "upload" do notebook no _moodle_</font>.

Para responder as questões abaixo será necessário fazer uso do arquivo <font style="font-family: monaco">covid.csv"</font> disponível para download no sistema _Moodle_. As colunas do conjunto de dados fornece informações sobre:
- **'Province/State'**: estado ou província onde os casos de COVID19 foram registrados
- **'Country/Region'**: país onde os casos de COVID19 foram registrados
- **'Lat'** e **'Long'**: latitude e longitude de referência
- **'Date'**: data dos registros
- **'Value'**: quantidade de casos registrados

In [1]:
import numpy as np
import pandas as pd

### Questão 1 (2 pontos)
Considerando os dados contidos no arquivo <font style="font-family: monaco">covid.csv"</font>:


#### a) (0.5 pontos)
Carregue o arquivo "covid.csv" e armazena em um pandas DataFrame.

In [2]:
covid = pd.read_csv('data\covid.csv')
covid.head(6)

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Value
0,#adm1+name,#country+name,#geo+lat,#geo+lon,#date,#affected+infected+value+num
1,,afghanistan,33,65,2020-03-18,22
2,,afghanistan,33,65,2020-03-17,22
3,,afghanistan,33,65,2020-03-16,21
4,,Afghanistan,33,65,2020-03-15,16
5,,afghanistan,33,65,2020-03-14,11


#### b) (0.5 pontos)
Elimine a primeira linha do DataFrame, a qual contém a informação:
```python
#adm1+name,#country+name,#geo+lat,#geo+lon,#date,#affected+infected+value+num
```

In [3]:
covid = covid.drop([0])
covid.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Value
1,,afghanistan,33,65,2020-03-18,22
2,,afghanistan,33,65,2020-03-17,22
3,,afghanistan,33,65,2020-03-16,21
4,,Afghanistan,33,65,2020-03-15,16
5,,afghanistan,33,65,2020-03-14,11


#### c) (1 ponto)
Verifique qual o tipo de dado da coluna "Value" e converta o tipo para inteiro (<font color='blue'>int</font>).

In [4]:
print("Tipo de dado da coluna 'Value': ",covid.dtypes['Value'])
covid['Value'] = covid['Value'].astype('int64')
print("Tipo de dado convertido: ",covid.dtypes['Value'])

Tipo de dado da coluna 'Value':  object
Tipo de dado convertido:  int64


### Questão 2 (2 pontos)
Devido a um erro de armazenamento de inteiros, alguns países apresentam mais de 8 bilhões de casos de COVID19 (valor da coluna "Value" maior ou igual a 8.000.000.000) 

Elimine as linhas onde o número de casos é maior ou igual a 8 bilhões.

In [5]:
print("Número de linhas antes da remoção: ", covid.shape[0])

mask = (covid['Value'] >= 8000000000)
indices = covid[mask].index.values

print("Número de linhas encontradas: ", len(indices))

for i in indices:
    covid = covid.drop([i])
    
    
print("Número de linhas depois da remoção: ", covid.shape[0])

Número de linhas antes da remoção:  26334
Número de linhas encontradas:  19
Número de linhas depois da remoção:  26315


### Questão 3 (3 pontos)
O nome de alguns países estão com a primeira letra em maíuscula e outros não.

Transforme os nomes dos países na coluna "Country/Region" para que contenham apenas letras **minúsculas**.

In [6]:
covid['Country/Region'] = covid['Country/Region'].map(lambda x: x.lower())
print('Ocorrências de letras maiúsculas: ' , str(covid['Country/Region']).isupper())

Ocorrências de letras maiúsculas:  False


### Questão 4 (3 pontos)
Quais são os três países com a maior quantidade de infectados?

Lembre de considerar apenas o maior valor de cada país.

**DICA:** groupby + max

In [7]:
maxinfect = covid.groupby(['Country/Region']).apply(lambda x: x['Value'].max())
print('Considerando o maior valor de cada país, temos no top 3: ')
print()
print(pd.DataFrame(maxinfect.sort_values(ascending=False)[0:3].to_dict().items(), columns=['país','infectados']))

Considerando o maior valor de cada país, temos no top 3: 

    país  infectados
0  china       67800
1  italy       35713
2   iran       17361


### Questão Bonus (2 pontos)
Considerando que a taxa de crescimento diária do vírus é de 1.31, quantos dias até o Brasil atingir 10000 casos?

OBS: A fórmula para a quantidade de pessoas infectada no dia $n$ a partir da quantidade atual é:

$ quantidade\_atual * (1+1.31^{n})$ (dentro do parênteses: 1 mais 1.31 elevado a $n$)

In [8]:
mask = (covid['Country/Region'] == 'brazil')
brazil_data = covid[mask].apply(lambda x: max(x))

dia=[]
infectados=[]

for i in np.arange(1,51):
    dia.append(i)
    infectados.append(brazil_data[5] * (1+1.31**i))
    
estimativa_brazil = pd.DataFrame(zip(dia,infectados),columns=['dias','infectados']).astype('int64')

mask = (estimativa_brazil['infectados'] >= 10000)
previsao_10k = estimativa_brazil[mask].apply(lambda x: min(x))

print('A previsão é que o Brasil levará '+ str(previsao_10k[0]) + ' dias para atingir 10.000 casos infectados.')

A previsão é que o Brasil levará 13 dias para atingir 10.000 casos infectados.
