# <span style="color:blue"> MBA em Ciência de Dados</span>
# <span style="color:blue">Programação para Ciência de Dados</span>

## <span style="color:blue">Avaliação Final</span>
**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**

A avaliação vale 10 pontos. As questões de 1 a 4, caso respondidas da forma correta, totalizam 10 pontos. A última questão é um bônus que, se respondida corretamente, pode ajudar na nota final, ou seja, caso tenha respondido incorretamente uma das questões de 1 a 4, mas tenha acertado a questão bônus, ainda poderá atingir 10 pontos.

<font color='red'>**ATENÇÃO:** Quando terminar de exame, você deve fazer um "upload" do notebook no _moodle_</font>.

Para responder as questões abaixo será necessário fazer uso do arquivo <font style="font-family: monaco">covid.csv"</font> disponível para download no sistema _Moodle_. As colunas do conjunto de dados fornece informações sobre:
- **'Province/State'**: estado ou província onde os casos de COVID19 foram registrados
- **'Country/Region'**: país onde os casos de COVID19 foram registrados
- **'Lat'** e **'Long'**: latitude e longitude de referência
- **'Date'**: data dos registros
- **'Value'**: quantidade de casos registrados

In [1]:
import numpy as np
import pandas as pd

### Questão 1 (2 pontos)
Considerando os dados contidos no arquivo <font style="font-family: monaco">covid.csv"</font>:


#### a) (0.5 pontos)
Carregue o arquivo "covid.csv" e armazena em um pandas DataFrame.

In [2]:
covid = pd.read_csv('covid.csv')

#### b) (0.5 pontos)
Elimine a primeira linha do DataFrame, a qual contém a informação:
```python
#adm1+name,#country+name,#geo+lat,#geo+lon,#date,#affected+infected+value+num
```

In [3]:
print(covid.head(3))

covid.drop(covid.index[0], inplace = True)

Province/State Country/Region       Lat      Long        Date  \
0     #adm1+name  #country+name  #geo+lat  #geo+lon       #date   
1            NaN    afghanistan        33        65  2020-03-18   
2            NaN    afghanistan        33        65  2020-03-17   

                          Value  
0  #affected+infected+value+num  
1                            22  
2                            22  


In [4]:
print(covid.head(3))

Province/State Country/Region Lat Long        Date Value
1            NaN    afghanistan  33   65  2020-03-18    22
2            NaN    afghanistan  33   65  2020-03-17    22
3            NaN    afghanistan  33   65  2020-03-16    21


#### c) (1 ponto)
Verifique qual o tipo de dado da coluna "Value" e converta o tipo para inteiro (<font color='blue'>int</font>).

In [5]:
print('Coluna: "Value"\nTipo: ',covid['Value'].dtypes)

covid['Value'] = covid['Value'].astype('int64')

Coluna: "Value"
Tipo:  object


In [6]:
print('Coluna: "Value"\nTipo: ', covid['Value'].dtypes)

Coluna: "Value"
Tipo:  int64


### Questão 2 (2 pontos)
Devido a um erro de armazenamento de inteiros, alguns países apresentam mais de 8 bilhões de casos de COVID19 (valor da coluna "Value" maior ou igual a 8.000.000.000) 

Elimine as linhas onde o número de casos é maior ou igual a 8 bilhões.

In [7]:
wrongValue = covid[covid['Value'] >= 8000000000].index
covid.drop(wrongValue, inplace = True)

### Questão 3 (3 pontos)
O nome de alguns países estão com a primeira letra em maíuscula e outros não.

Transforme os nomes dos países na coluna "Country/Region" para que contenham apenas letras **minúsculas**.

In [8]:
covid['Country/Region'] = covid['Country/Region'].str.lower()

### Questão 4 (3 pontos)
Quais são os três países com a maior quantidade de infectados?

Lembre de considerar apenas o maior valor de cada país.

**DICA:** groupby + max

In [9]:
print(covid.groupby('Country/Region')['Value'].max().sort_values(ascending=False).to_frame('Qtd. Infected').head(3).reset_index())

Country/Region  Qtd. Infected
0          china          67800
1          italy          35713
2           iran          17361


### Questão Bonus (2 pontos)
Considerando que a taxa de crescimento diária do vírus é de 1.31, quantos dias até o Brasil atingir 10000 casos?

OBS: A fórmula para a quantidade de pessoas infectada no dia $n$ a partir da quantidade atual é:

$ quantidade\_atual * (1+1.31^{n})$ (dentro do parênteses: 1 mais 1.31 elevado a $n$)

In [10]:
from datetime import timedelta
add = timedelta(days = 1)
covid['Date'] = pd.to_datetime(covid['Date'], format='%Y-%m-%d')

days = 1
brActualInfected = covid.loc[covid['Country/Region'] == 'brazil', 'Value'].max()
dateInitial = covid.loc[covid['Country/Region'] == 'brazil', 'Date'].max()
dateFinal = dateInitial
brInfected = 0

while brInfected < 10001:
    brInfected = brActualInfected * ((1 + 0.31)**days)
    dateFinal += add
    days += 1
    print(
        'Data Inicial: ', dateInitial.date(), \
        ' | Data Final: ', dateFinal.date(), \
        ' | Diff. em Dias: ', (dateFinal - dateInitial).days,' dia(s)', \
        ' | Qtd. de Infectados: ', '{:,.0f}'.format(brInfected).replace(',','.')
    )

print(120 * '-')

print('Após', (dateFinal - dateInitial).days,' dias ( de', dateInitial.date(), 'à', dateFinal.date() ,') atingiremos a quantidade aproximada de ', '{:,.0f}'.format(brInfected).replace(',','.'), ', para isso a taxa de crescimento diário do vírus deve se manter constante.')


Data Inicial:  2020-03-18  | Data Final:  2020-03-19  | Diff. em Dias:  1  dia(s)  | Qtd. de Infectados:  487
Data Inicial:  2020-03-18  | Data Final:  2020-03-20  | Diff. em Dias:  2  dia(s)  | Qtd. de Infectados:  638
Data Inicial:  2020-03-18  | Data Final:  2020-03-21  | Diff. em Dias:  3  dia(s)  | Qtd. de Infectados:  836
Data Inicial:  2020-03-18  | Data Final:  2020-03-22  | Diff. em Dias:  4  dia(s)  | Qtd. de Infectados:  1.096
Data Inicial:  2020-03-18  | Data Final:  2020-03-23  | Diff. em Dias:  5  dia(s)  | Qtd. de Infectados:  1.435
Data Inicial:  2020-03-18  | Data Final:  2020-03-24  | Diff. em Dias:  6  dia(s)  | Qtd. de Infectados:  1.880
Data Inicial:  2020-03-18  | Data Final:  2020-03-25  | Diff. em Dias:  7  dia(s)  | Qtd. de Infectados:  2.463
Data Inicial:  2020-03-18  | Data Final:  2020-03-26  | Diff. em Dias:  8  dia(s)  | Qtd. de Infectados:  3.226
Data Inicial:  2020-03-18  | Data Final:  2020-03-27  | Diff. em Dias:  9  dia(s)  | Qtd. de Infectados:  4.22