## $\color{purple}{\text{Pandas}}$

<img align="center" src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width="250">

#### $\color{red}{\text{O que é?}}$

Pandas é uma biblioteca Python usada para trabalhar com conjuntos de dados.

Possui funções para analisar, limpar, explorar e manipular dados.

O nome "Pandas" faz referência tanto a "Panel Data" quanto a "Python Data Analysis" e foi criado por Wes McKinney em 2008.

#### $\color{red}{\text{Por que usar?}}$

Pandas permite analisar big data e tirar conclusões com base em teorias estatísticas.

Os pandas podem limpar conjuntos de dados confusos e torná-los legíveis e relevantes.

Dados relevantes são muito importantes na ciência de dados.

>Data Science: é um ramo da ciência da computação onde estudamos como armazenar, usar e analisar dados para derivar informações deles.

#### $\color{red}{\text{O que podem fazer?}}$

O Pandas fornece respostas sobre os dados. Como:

- Existe uma correlação entre duas ou mais colunas?
- O que é valor médio?
- Valor máximo?
- Valor mínimo?

Os pandas também podem excluir linhas que não são relevantes ou contêm valores errados, como valores vazios ou inválidos. Isso é chamado de limpeza dos dados.

#### $\color{red}{\text{Base do código}}$

A base do código do Pandas está localizado neste [repositório do github](https://github.com/pandas-dev/pandas).

#### $\color{red}{\text{Instalação}}$
Se você já tem o Python e o PIP instalados em um sistema, a instalação do Pandas é muito fácil. Basta usar:
>C:\Users\Your Name>pip install pandas

#### $\color{red}{\text{Importar}}$
Depois que o Pandas estiver instalado, importe-o em seus aplicativos adicionando a  palavra-chave: **import**

>import pandas

Exemplo:

In [3]:
import pandas

dataset = {
  'carros': ["BMW", "Volvo", "Ford"],
  'passagem': [3, 7, 2]
}

meu = pandas.DataFrame(dataset)

print(meu)

  carros  passagem
0    BMW         3
1  Volvo         7
2   Ford         2


#### $\color{red}{\text{Pandas como pd}}$

Pandas geralmente é importado sob o alias **pd** .

>alias: em Python, alias é um nome alternativo para se referir à mesma coisa

Para criar um alias,use a palavra **as** durante a importação:

In [4]:
import pandas as pd

Agora, o pacote **Pandas** pode ser referido como **pd** em vez de pandas.

Exemplo:

In [5]:
import pandas as pd

dataset = {
  'carros': ["BMW", "Volvo", "Ford"],
  'passagem': [3, 7, 2]
}

meu = pd.DataFrame(dataset)

print(meu)

  carros  passagem
0    BMW         3
1  Volvo         7
2   Ford         2


#### $\color{red}{\text{Versão do Pandas}}$

A string da versão é armazenada no atributo `__version__` .

In [6]:
import pandas as pd

print(pd.__version__)

1.4.2


### $\color{blue}{\text{Séries}}$

#### $\color{red}{\text{O que é uma Série?}}$
Uma série Pandas é como uma coluna em uma tabela.

É um array unidimensional que contém dados de qualquer tipo.

Exemplo: (Criar uma série de Pandas simples a partir de uma lista)

In [1]:
import pandas as pd

a = [1, 7, 2]

serie = pd.Series(a)

print(serie)

0    1
1    7
2    2
dtype: int64


#### $\color{red}{\text{Rótulos}}$

Se nada mais for especificado, os valores serão rotulados com seu número de índice. O primeiro valor tem índice 0, o segundo valor tem índice 1 etc. (Como é visto em NumPY).

Este rótulo pode ser usado para acessar um valor especificado.

In [7]:
print(serie[0])

1


#### $\color{red}{\text{Rótulos}}$
Com o argumento **index**, podemos nomear seus próprios rótulos. Cada elemento no **index** definirá um elemento no array.

In [5]:
import pandas as pd

a = [1, 7, 2]

serie = pd.Series(a, index = ["x", "y", "z"])

print(serie)

x    1
y    7
z    2
dtype: int64


In [6]:
# Acesso ao item
print(serie["z"])

2


#### $\color{red}{\text{Objetos de chave/valor como série}}$
Podemos usar um objeto de chave/valor, como um dicionário, ao criar uma série.

Exemplo: (Criar uma série de Pandas simples a partir de um dicionário)

In [10]:
import pandas as pd

calories = {"dia 1": 420, "dia 2": 380, "dia 3": 390}

serie = pd.Series(calories)

print(serie)

dia 1    420
dia 2    380
dia 3    390
dtype: int64


>As chaves do dicionário tornam-se os rótulos.

Para selecionar apenas alguns dos itens do dicionário, é preciso usar o argumento **index** e especificar apenas os itens que deseja incluir na Série.

Exemplo: (Criar uma série usando os dados de "dia 1" e "dia 2")

In [11]:
import pandas as pd

calories = {"dia 1": 420, "dia 2": 380, "dia 3": 390}

myvar = pd.Series(calories, index = ["dia 1", "dia 2"])

print(myvar)

dia 1    420
dia 2    380
dtype: int64


### $\color{blue}{\text{DataFrames}}$

#### $\color{red}{\text{O que é um DataFrame?}}$

Um DataFrame é uma estrutura de dados bidimensional/multidimensionais, como uma matriz bidimensional ou uma tabela com linhas e colunas.

> `Series` é como uma coluna, e um `DataFrame` é a tabela inteira.

Exemplo: (Criar um DataFrame simples)

In [15]:
import pandas as pd

data = {
  "calorias": [420, 380, 390],
  "duração(m)": [50, 40, 45]
}

#carregar dados em um objeto DataFrame:
x = pd.DataFrame(data)

print(x)

   calorias  duração(m)
0       420          50
1       380          40
2       390          45


#### $\color{red}{\text{Localizando linha}}$

Sendo o DataFrame uma tabela com linhas e colunas, o Pandas usa o atributo **loc** para retornar uma ou mais linhas especificadas.

Exemplo: (Retornar a linha 0) 
- Este exemplo retorna um Pandas Series .

In [17]:
print(x.loc[0])

calorias      420
duração(m)     50
Name: 0, dtype: int64


In [19]:
# Retornar a linha 0 e 2
print(x.loc[[0, 2]])

   calorias  duração(m)
0       420          50
2       390          45


Ao usar **[]**, o resultado é um Pandas DataFrame.

#### $\color{red}{\text{Índices nomeados}}$

Como visto anteriormente, podemos nomear os índices com o argumento **index**.

Exemplo: (Adicionar uma lista de nomes para dar um nome a cada linha)

In [20]:
import pandas as pd

data = {
  "calorias": [420, 380, 390],
  "duração(m)": [50, 40, 45]
}

#carregar dados em um objeto DataFrame:
x = pd.DataFrame(data,index =["dia 1","dia 2","dia 3"])

print(x)

       calorias  duração(m)
dia 1       420          50
dia 2       380          40
dia 3       390          45


#### $\color{red}{\text{Localizar índices nomeados}}$

Assim como anteriormente usamos **loc** para retornar a(s) linha(s) especificada(s).

Exemplo: (Retornar "dia 3")

In [21]:
print(x.loc["dia 3"])

calorias      390
duração(m)     45
Name: dia 3, dtype: int64


### $\color{blue}{\text{CSV}}$
#### $\color{red}{\text{Leitura arquivos CSV}}$
Uma maneira simples de armazenar grandes conjuntos de dados é usar arquivos CSV (arquivos separados por vírgula).

Os arquivos CSV contêm texto simples e é um formato bem conhecido que pode ser lido por todos, incluindo Pandas.

Exemplo: (Carregar o CSV em um DataFrame)

- Primeiro faremos no Jupyter Notebook:

Utilizando a sintaxe:

`'C://Users//user//Local onde foi colocado o CSV//NomeDoCSV.csv`

In [27]:
import pandas as pd

x = pd.read_csv('C://Users//bialn//Downloads//Leitura CSV//data.csv')

print(x.to_string()) 

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

- Utilizando o VSCode

`'C:\\Users\\user\\Local onde foi colocado o CSV\\NomeDoCSV.csv'`

In [None]:
import pandas as pd

x = pd.read_csv('C:\\Users\\bialn\\Downloads\\Leitura CSV\\data.csv')

print(x.to_string()) 

É possível fazer o mesmo com a sintaxe para usada no acesso do Jupyter Notebook no VSCode mas terá que instalar a leitura de especificação para sistemas de arquivos: **fsspec**.
 Para isso basta escever **pip install fsspec** no terminal.
 
 O **to_string()** serve para imprimir todo o DataFrame.
 Se não tivessemos utilizado esse parâmetros, então o Pandas retornaria paenas as 5 primeiras linhas e as 5 últimas.

In [28]:
import pandas as pd

x = pd.read_csv('C://Users//bialn//Downloads//Leitura CSV//data.csv')

print(x) 

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
..        ...    ...       ...       ...
164        60    105       140     290.8
165        60    110       145     300.0
166        60    115       145     310.2
167        75    120       150     320.4
168        75    125       150     330.4

[169 rows x 4 columns]


#### $\color{red}{\text{max_rows}}$

O número de linhas retornadas é definido nas configurações de opção do Pandas.

Podemos verificar o número máximo de linhas do seu sistema com a  instrução **pd.options.display.max_rows**.

Exemplo: (Verificar o número máximo de linhas retornadas)

In [29]:
import pandas as pd

print(pd.options.display.max_rows) 

60


Apareceu o número 60 em meu programa, o que significa que se o DataFrame contiver mais de 60 linhas, a instrução print(df) retornará apenas os cabeçalhos e as primeiras e últimas 5 linhas.
Podemos altera o número máximo de linhas utilizando a mesma instrução.

Exemplo: (Aumentar o número máximo de linhas para exibir o DataFrame inteiro)

In [30]:
import pandas as pd

pd.options.display.max_rows = 9999

x = pd.read_csv('C://Users//bialn//Downloads//Leitura CSV//data.csv')

print(x) 

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

### $\color{blue}{\text{JSON}}$
#### $\color{red}{\text{Leitura de um JSON}}$
Os conjuntos de big data geralmente são armazenados ou extraídos como JSON.

JSON é texto simples, mas tem o formato de um objeto, e é bastante conhecido no mundo da programação, incluindo Pandas.

E segue a mesma lógica do CSV.

Exemplo: (Carregar o arquivo JSON em um DataFrame)

In [31]:
import pandas as pd

x = pd.read_json('C://Users//bialn//Downloads//Leitura JSON//data.json')

print(x.to_string()) # Imprimindo todo o DataFrame

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.5
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

#### $\color{red}{\text{Dicionário como JSON}}$

> JSON = Dicionário Python
>>Os objetos JSON têm o mesmo formato dos dicionários Python.

Se o código JSON não estiver em um arquivo, mas em um Dicionário Python, poderemos carregá-lo diretamente em um DataFrame.


Exemplo: (Carregar um dicionário Python em um DataFrame)

In [32]:
import pandas as pd

data = {
  "Duração":{
    "0":60,
    "1":60,
    "2":60,
    "3":45,
    "4":45,
    "5":60
  },
  "Pulso":{
    "0":110,
    "1":117,
    "2":103,
    "3":109,
    "4":117,
    "5":102
  },
  "Pulso Max":{
    "0":130,
    "1":145,
    "2":135,
    "3":175,
    "4":148,
    "5":127
  },
  "Calorias":{
    "0":409,
    "1":479,
    "2":340,
    "3":282,
    "4":406,
    "5":300
  }
}

x = pd.DataFrame(data)

print(x) 

   Duração  Pulso  Pulso Max  Calorias
0       60    110        130       409
1       60    117        145       479
2       60    103        135       340
3       45    109        175       282
4       45    117        148       406
5       60    102        127       300


### $\color{blue}{\text{Analisando DataFrames}}$

#### $\color{red}{\text{Visualizando os dados}}$

Um dos métodos mais usados para obter uma visão geral rápida do DataFrame, é o método **head()**.

O **head()** retorna os cabeçalhos e um número especificado de linhas, começando do topo.

Exemplo: (Obter uma visão geral rápida imprimindo as primeiras 10 linhas do DataFrame)

In [33]:
import pandas as pd

x = pd.read_csv('C://Users//bialn//Downloads//Leitura CSV//data.csv')

print(x.head(10))

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0
5        60    102       127     300.0
6        60    110       136     374.0
7        45    104       134     253.3
8        30    109       133     195.1
9        60     98       124     269.0


Se o número de linhas não for especificado, o método **head()** retornará as 5 primeiras linhas.

In [34]:
import pandas as pd

x = pd.read_csv('C://Users//bialn//Downloads//Leitura CSV//data.csv')

print(x.head())

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0


Há também um método **tail()** para visualizar as últimas linhas do DataFrame.

O **tail()** retorna os cabeçalhos e um número especificado de linhas, começando na parte inferior.

Exemplo: (Imprimir as últimas 5 linhas do DataFrame)

In [35]:
print(x.tail()) 

     Duration  Pulse  Maxpulse  Calories
164        60    105       140     290.8
165        60    110       145     300.0
166        60    115       145     310.2
167        75    120       150     320.4
168        75    125       150     330.4


#### $\color{red}{\text{Informações sobre os dados}}$
O objeto DataFrames possui um método chamado **info()**, que fornece mais informações sobre o conjunto de dados.

Exemplo: (Imprimir informações sobre os dados)

In [36]:
print(x.info()) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB
None


Temos que existem 169 linhas e 4 colunas, e o nome de cada coluna, com o tipo de dados.

#### $\color{red}{\text{Valores Nulos}}$

O método **info()** também nos diz quantos valores não nulos estão presentes em cada coluna e, em nosso conjunto de dados, parece que há 164 de 169 valores não nulos na coluna "Calorias".

O que significa que existem 5 linhas sem valor algum, na coluna "Calorias", por qualquer motivo.

Valores vazios, ou valores nulos, podem ser ruins ao analisar dados, e deve-se considerar a remoção de linhas com valores vazios, isso é chamado de limpeza de dados .

#### Para mais especificações: 
##### [pandas.Series ](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

##### [pandas.Index ](https://pandas.pydata.org/docs/reference/api/pandas.Index.html)

##### [pandas.DataFrame ](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

##### [pandas.DataFrame.loc ](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)

##### [ Indexing and selecting data](https://pandas.pydata.org/docs/user_guide/indexing.html)

##### [pandas.read_csv ](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

##### [pandas.DataFrame.to_string ](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_string.html)

##### [Options and settings ](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)

##### [fsspec](https://pypi.org/project/fsspec/)

##### [pandas.read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)

##### [pandas.DataFrame.info](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)