<p align="center">
  <img src="https://pandas.pydata.org/static/img/pandas_secondary.svg" width="450">
</p>

Lista de conteúdos
---------------------------

[Visão Geral](#Visão-Geral)

[Vantagens](#Vantagens)

[Tipos de Dados](#Tipos-de-Dados)

[Lendo o dataset](#Lendo-o-dataset)

[Acessando colunas](#Acessando-colunas)

[Filtrando linhas do dataset](#Filtrando-linhas-do-dataset)

[Filtrando linhas e colunas do dataset](#Filtrando-linhas-e-colunas-do-dataset)

[Funções úteis](#Funções-úteis)

[Referências](#Referências)


## Visão Geral

 - Biblioteca para manipulação e análise de dados;
 - Oferece um conjunto de funções para operar dados tabulares (2D) e séries temporais (1D);
 - Usado na área de finanças, estatística, ciências sociais, e muitas áreas da engenharia;
 - Alternativa para a linguagem **R**;
 
## Vantagens
 
 - Facilidade em tratar informações faltantes;
 - Colunas podem ser facilmente excluídas ou adicionadas;
 - Conversão de tipos;
 - Visualização dos dados;
 - Rápido;

 
## Tipos de Dados
### Series
 
 - Lista de valores rotulados e de tipo único;
 - Possuem somente uma dimensão;
 
 <img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">
 <p style="text-align:center;">
    <small>
        Fonte: Documentação do Pandas [1]
    </small>
 </p>

In [None]:
import pandas as pd
frequencia_cardiaca = pd.Series(
    [82, 82, 84, 96, 95, 86, 84, 88, 90, 95, 102])
"""
["inst1", "inst2","inst3","inst4","inst5",
    "inst6","inst7","inst8","inst9","inst10",
    "inst11"]
"""
frequencia_cardiaca.iloc[0:4]

 ### DataFrame
  - Matrix 2D de valores rotulados;
  - Tipos diversos;
  - Tamanho mutável;
  - Semelhante à uma panilha/excel ou uma tabela SQL;
  - Cada coluna de um `DataFrame` é do tipo `Series`;
  
<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" />

<p style="text-align:center;">    
    <small>
        <b>Fonte</b>:
        Documentação do Pandas [1]
    </small>
</p>

## Lendo o dataset

![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

<p style="text-align:center;">
    <small>
        <b>Fonte</b>:
        Documentação do Pandas [1]
    </small>
</p>

 #### Lendo dados de um arquivo CSV

In [None]:
import pandas as pd
dataset = pd.read_csv("../datasets/country_vaccinations.csv")
dataset.head(4)

<p style="text-align: center;">
    <small>
        <b>Fonte</b>: Progresso da vacinação mundialmente
    </small>
</p>

<h1 style="text-align: center;"> Descrição do dataset </h1>


|                                         |          |
|:----------------------------------------|:---------|
| **contry**                              |   País   |
| **iso_code**                            |   Sigla  |
| **date**                                |   Data em que as informações seguintes se referem   |
| **total_vaccinations**                  |   Valor absoluto de imunizações no país (pode ser maior que o número de pessoas)  |
| **people_vaccinated**                   |   Número de pessoas vacinadas   |
| **people_fully_vaccinated**             |   Número de pessoas que tomaram as 2 doses da vacina   |
| **daily_vaccinations_raw**              |   Número de vacinações diárias de um país   |
| **daily_vaccinations**                  |   Número de vacinações diárias de um país   |
| **total_vaccinations_per_hundred**      |   Percentual de imunizações em relação a população total do país   |
| **people_vaccinated_per_hundred**       |   Percentual de pessoas imunizadas em relação a população total do país   |
| **people_fully_vaccinated_per_hundred** |   Percentual entre a quantidade de pessoas que tomaram a 2ª dose da vacina e a população do país   |
|    **daily_vaccinations_per_million**   |   Razão entre o número de pessoas vacinadas e a população total do país   |
| **vaccines**                            |   Vacinas sendo aplicadas no país  |
| **source_name**                         |   Organização que compilou os dados   |
| **source_website**                      |   Website que apresenta os dados   |

### Mostrando informações do dataset

In [None]:
dataset.shape

In [None]:
dataset.columns

In [None]:
dataset.info()

In [None]:
dataset.describe()


## Acessando colunas

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

<p style="text-align:center;">
    <b>Fonte</b>: Documentação do Pandas [1]
</p>

In [None]:
dataset["country"] # Seleção de uma única coluna 

In [None]:
dataset["country"].shape

In [None]:
dataset[["country", "date", "daily_vaccinations_raw"]] # Seleção de várias colunas

## Filtrando linhas do dataset

![](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)
 
 <p style="text-align:center;">
    <b>Fonte</b>: Documentação do Pandas [1]
</p>

In [None]:
# Selecionar o andamento da vacinação no Brasil.

imunization_in_brazil = dataset[dataset["country"] == "Brazil"]
imunization_in_brazil[["country", "total_vaccinations", "date", "source_name"]]

In [None]:
# Selecionar as informações da última quinta e sexta-feira.

last_thursday = "2021-02-25"
last_friday = "2021-02-26"

imunization_in_brazil[
    (imunization_in_brazil["date"] == last_friday) |
    (imunization_in_brazil["date"] == last_thursday)]

## Filtrando linhas e colunas do dataset


 ![](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)
 
 <p style="text-align:center;">
    <b>Fonte</b>: Documentação do Pandas [1]
</p>

### Filtrando através de labels

In [None]:
# Selecionar o total de pessoas vacinadas
# na última sexta-feira no Brazil e na Argentina.

imunization_br_arg = dataset[
    (dataset["country"] == "Brazil") | (dataset["country"] == "Argentina")]
imunization_br_arg

In [None]:
# Intervalo de labels

thu_friday_br_arg = imunization_br_arg.loc[
    (imunization_br_arg["date"] == last_friday) |
    (imunization_br_arg["date"] == last_thursday),
    "country":"people_fully_vaccinated"
]
thu_friday_br_arg

In [None]:
# Conjunto de labels

thu_friday_br_arg.loc[:, ["country", "date", "people_vaccinated"]]

### Filtrando através de índices 

In [None]:
thu_friday_br_arg = imunization_br_arg.loc[
    (imunization_br_arg["date"] == last_friday) |
    (imunization_br_arg["date"] == last_thursday)
]

thu_friday_br_arg

In [None]:
thu_friday_br_arg.iloc[:1, :]

In [None]:
thu_friday_br_arg.iloc[:3, 0:5]


## Funções úteis

### isin

Verifica se os valores de uma coluna estão presente da lista passada como parâmetro

In [None]:
im_br_arg_ch = dataset[
    dataset["country"].isin(
        ["Brazil", "Argentina", "Chile"])
]

im_br_arg_ch.loc[
    im_br_arg_ch["date"].isin([last_thursday, last_friday]),
    ["country", "date", "vaccines"]
]


### value_counts

Conta o número de entradas em cada categoria (e.g **"Brasil"**, **"Sinovac"**) de uma variável (e.g **country**, **vaccine**)

In [None]:
amount_of_days = dataset["country"].value_counts()
print("Imunização no Brasil iniciou à", amount_of_days["Brazil"], "dias")

### fillna (fill NaN)

Substitui valores nulos com o valor especificado

In [None]:
people_fully_vaccinated_br = dataset.loc[
    dataset["country"] == "Brazil",
    ["country", "date", "people_fully_vaccinated"]]

filled_with_zeros = people_fully_vaccinated_br["people_fully_vaccinated"].fillna(0)

people_fully_vaccinated_br["people_fully_vaccinated"] = filled_with_zeros

people_fully_vaccinated_br


### Nunique (number of unique)

Conta a quantidade de valores distintos que a coluna especificada tem

In [None]:
country_amount = dataset["country"].nunique()
print("Quantidade de países distintos presentes no dataset é", country_amount)

### Sort

Ordena os valores de uma coluna

In [None]:
# Ordenar os países pela taxa de pessoas vacinadas complementamente (%)

imun_last_friday = dataset[dataset["date"] == last_friday]

imun_last_friday = imun_last_friday.loc[
    imun_last_friday["people_fully_vaccinated_per_hundred"].notna(),
    ["country","date","people_fully_vaccinated_per_hundred"]]

imun_last_friday = imun_last_friday.sort_values(by="people_fully_vaccinated_per_hundred", ascending=False)

imun_last_friday["rank"] = [i for i in range(1, imun_last_friday.shape[0]+1)]

imun_last_friday

### Apply

Executa uma função em cada valor de uma coluna.

In [None]:
falkland = dataset[dataset["country"] == "Falkland Islands"]

def format_date(date):
    date = date.split("-")
    return date[2]+"/"+date[1]+"/"+date[0]


date = falkland["date"].apply(format_date)

dataset.loc[:,"date"] = date

falkland


### Drop

Remove linhas ou colunas de um dataframe

In [None]:
dataset.head(3)

In [None]:
# Remove as colunas do dataframe através de suas labels
dataset = dataset.drop(["iso_code", "source_website"], axis=1)

In [None]:
dataset.head(3)

In [None]:
# Remove as linhas do dataframe através de seus índices

dataset = dataset.drop([0, 1])

# Referências

[[1]](https://pandas.pydata.org/docs) Documentação do Pandas

[[2]](https://www.kaggle.com/gpreda/covid-world-vaccination-progress) Dataset do progresso da vacinação mundial contra a Covid-19

[[3]](https://www.w3schools.com/python/python_lists_comprehension.asp) Compreensão de listas em python W3Schools

[[4]](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) Pandas Cheat Sheet