In [11]:
import pandas as pd

In [12]:
corona = pd.read_csv("covid_19_data.csv")

In [None]:
corona.info()

In [3]:
corona.head()

Unnamed: 0,SNo,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
0,1,01/22/2020,Anhui,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
1,2,01/22/2020,Beijing,Mainland China,1/22/2020 17:00,14.0,0.0,0.0
2,3,01/22/2020,Chongqing,Mainland China,1/22/2020 17:00,6.0,0.0,0.0
3,4,01/22/2020,Fujian,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
4,5,01/22/2020,Gansu,Mainland China,1/22/2020 17:00,0.0,0.0,0.0


In [7]:
corona['Last Update'] = pd.to_datetime(corona['Last Update'])

In [8]:
corona.sort_values("Last Update", ascending=False).head()

Unnamed: 0,SNo,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
285306,285307,05/02/2021,Zuid-Holland,Netherlands,2021-05-03 04:20:39,359327.0,4138.0,0.0
284793,284794,05/02/2021,Campania,Italy,2021-05-03 04:20:39,395094.0,6416.0,297441.0
284802,284803,05/02/2021,Catalonia,Spain,2021-05-03 04:20:39,585069.0,14149.0,26203.0
284801,284802,05/02/2021,Castilla y Leon,Spain,2021-05-03 04:20:39,223100.0,6754.0,8716.0
284800,284801,05/02/2021,Castilla - La Mancha,Spain,2021-05-03 04:20:39,185354.0,5851.0,6392.0


## Removendo Entradas

Usando o [`pd.drop()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html), se atentar com os argumentos:
* `axis`: `0` para linhas `1` para colunas
* `inplace`: `True` altera o *DataFrame* atual

Vamos fazer uma análise global então removeremos as províncias/estados (coluna `Province/State`)

In [None]:
corona.drop(['Province/State'], axis=1, inplace=True)  # True ele altera o df
corona.head()

## Lidando com dados faltantes (*missing values* `NA`)

| Method         | Description                                                  |
| -------------- | ------------------------------------------------------------ |
| `df.dropna()`  | Filtra `NA`, selecionar linhas (`axis = 0`) ou selecionar colunas (`axis=1`) |
| `df.fillna()`  | Preencher os `NA` com algum valor  |
| `df.isnull()`  | Retorna os valores booleanos indicando quais valores são `NA` |

In [None]:
corona

In [None]:
# filtra linhas com valores vazios - veja o total de linhas retornados
corona.dropna(axis=0)

In [None]:
# Retorna os valores booleanos indicando quais valores são NA
corona.isnull()

In [None]:
# Preenche NA com algum valor
corona.fillna(0, inplace=True)
corona

## Selecionando e Filtrando

* `DataFrame['Coluna']` = retorna uma *Series*
* `DataFrame[['Coluna']]` = retorna um *DataFrame*
* `DataFrame[['Coluna_1, 'Coluna_2']]` = multíplas Colunas
* `DataFrame.query()`

Tanto para *DataFrame* quanto para *Series*

* `.loc[]`
* `.iloc[]`
* `.where()`

# Fatiando

In [None]:
# Fatiando com loc[]
corona.loc[100:200]

In [None]:
# Fatiando com loc[]
corona.loc[100:200, 'Country/Region':'Confirmed']

In [None]:
# Fatiando com iloc[]
corona.iloc[100:200, :3]

In [None]:
# Criando um subset com algumas variáveis (lista)
variaveis = ['Country/Region', 'Confirmed', 'Deaths']
corona[variaveis] 

## Criando Novas Variáveis

In [None]:
corona['Confirmed + Deaths'] = corona['Confirmed'] + corona['Deaths']
corona.sample(3)

In [None]:
corona['Death by Cases'] = corona['Deaths'] / corona['Confirmed']
corona.sample(3)

## Convertendo Valores

* `.to_numeric()`
* `.to_datetime()`
* `.astype()`
    - `'bool'`
    - `'int64'`
    - `'float64'`
    - `'str'`
    - `'category'`
* `.replace()`

In [None]:
corona.head()

In [None]:
corona['Country/Region'].replace('Mainland China', 'China', inplace=True)
corona.head()

In [None]:
corona.info()

In [None]:
corona['Last Update'] = pd.to_datetime(corona['Last Update'])

In [None]:
corona.info()

In [None]:
# retornando uma Series
corona['Country/Region']

In [None]:
# retornando um DataFrame
corona[['Country/Region']]

In [None]:
corona[['Country/Region', 'Confirmed']]

In [None]:
# Filtrando e Retornando um DataFrame
df_tmp = corona[corona['Confirmed'] >8e4]  # 8e4 é 8 com 4 zeros = 80,000
df_novo = df_tmp.loc[9000:]
df_novo.head()

In [None]:
df_novo.plot().bar

In [None]:
# Filtrando variáveis qualitativas
corona[corona['Country/Region'] == 'Brazil']

In [None]:
# Filtrando e Retornando um DataFrame
# 8e4 significa o número inteiro "e" número de zeros, ou seja, 8e4 = 80.000
corona[(corona['Confirmed'] > 8e4) & (corona['Recovered'] > 1000)]

In [None]:
# Filtrando e Retornando um DataFrame com .loc
corona.loc[(corona['Confirmed'].between(8e4, 10e4, inclusive=False)) &
           (corona['Recovered'].between(12e3, 20e3, inclusive=True))]

In [None]:
# Filtrando e Retornando um DataFrame com df.where()
corona.where(corona['Confirmed'] > 10e2)
# Obs: se atente com os NaN

In [None]:
# Filtrando e Retornando um DataFrame com df.query()
corona.query('Confirmed > 8e4')

In [None]:
# Filtrando e Retornando um DataFrame com df.query()
corona.query('Confirmed > 8e4 & 10e3 < Recovered < 12e3')

## Removendo duplicados

* `.unique()`: retorna valores únicos
* `.duplicated()`: retorna `bool` para linhas duplicadas
* `drop_duplicates()`: retorna *DataFrame* com linhas duplicadas removidas

In [None]:
# Quantos países?
len(corona['Country/Region'].unique())

In [17]:
# Quantos Duplicados?
sum(corona.duplicated(subset=['Country/Region']))

285079

In [18]:
corona.drop_duplicates(subset=['Country/Region'], keep='last', inplace=True)
corona.head(3)
#Obs: se atente ao index

Unnamed: 0,SNo,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
2700,2701,02/28/2020,,Azerbaijan,2020-02-28T15:03:26,1.0,0.0,0.0
2721,2722,02/28/2020,,North Ireland,2020-02-28T05:43:02,1.0,0.0,0.0
4112,4113,03/08/2020,,Republic of Ireland,2020-03-08T21:03:03,21.0,0.0,0.0


## Ordenando e Rankeando

* .sort_index()
* .sort_values(): ordena de acordo com uma coluna
* .rank(): computa ranks numéricos ($1$ à $n$)

In [None]:
corona.sort_values(by=['Recovered'], ascending=False).head(20)

---

# Atividade

Importar o arquivo `data/mtcars.csv`. É uma base de dados extraída da revista americana sobre carros *Motor Trend US* de 1974. Possui 32 carros(linhas) e 11 características (colunas)

## Características
* `mpg`: Milhas por Galão (consumo)
* `cyl`: Número de cilíndros
* `disp`: Cilindada (em polegada cúbica)
* `hp`: Cavalos de Potência (HP)
* `drat`: Relação do eixo traseiro
* `wt`:	Peso em (1,000 libras)
* `qsec`: Tempo que atinge 400m (1/4 de milha)
* `vs`: Motor (0 = Forma em V, 1 = Reto)
* `am`: Transmissão (0 = Automático, 1 = Manual)
* `gear`: Número de marchas
* `carb`: Número de carburadores

Use o `pd.read_csv()` para importar os dados, use o argumento `index_col=0` para que a primeira coluna (modelo) seja os índices do *DataFrame*

In [None]:
# 1 - Importar os dados

import pandas as pd
mtcars = pd.read_csv("mtcars.csv")

In [None]:
# 2 - # Inspeciona o *DataFrame* e veja se todas as variáveis possuem os valores apropriados.
mtcars.info()

## Ordenando

Use o `.sort_values()` para ordenar o dataset descrescente em cavalos de potência (`hp`). Se atente ao **descrescente**

Qual o carro com mais HP? Ele está muito mais a frente do segundo colocado?

In [None]:
mtcars.sort_values("hp", ascending=False).head()

## Filtrando

1. Crie um *DataFrame* somente com os carros automáticos e use o `.shape` e veja quantos carros são dentre os 32
2. Crie um *DataFrame* somente com os carros que possuem motor em forma de V e use o `.shape` e veja quantos carros são dentre os 32

In [None]:
# 1.
# am - Transmissão (0 = Automático, 1 = Manual)
automaticos = mtcars[mtcars['am'] == 1]
automaticos.shape

In [None]:
# 2.
# vs - Motor (0 = Forma em V, 1 = Reto)
motor_reto = mtcars[mtcars['vs'] == 1]
motor_reto.shape

## Selecionando aleatoriamente uma amostra do `mtcars`

1. Use o `.sample()` para selecionar aleatoriamente uma amostra de 10 carros.

In [None]:
mtcars.sample(10)