# Pandas

A biblioteca Pandas nos permite realizar a manipulação de dados de uma tabela. Essas tabelas são chamadas de `DataFrame` que são obtidas a partir de arquivos `csv` e objetos `dict`. 

**Exemplo:** Considere os registros de um monitoramento de uma atividade física do qual são observados o tempo de duração, pulsação, pulsação máxima e calorias. 

Duração | Pulsação| Pulsação Máx.| Calorias
---|---|---|---
60 |110|130|409.1
60 |117|145|479.0
60 |103|135|340.0
45 |109|175|282.4
45 |117|148|406.0
30 |102|127|300.0
30 |110|136|374.0
45 |104|134|253.3

No código a seguir construiremos um `DataFrame`  chamado `monitoring` para visualizar a tabela dos dados registrados.



In [7]:
import pandas as pd

monitoring_dict = {
  "Duration": [60,60,60,45,45,30,30,45],
  "Pulse": [110,117,103,109,117,102,110,104],
  "Maxpulse": [130,145,135,175,148,127,136,134],
  "Calories": [409.1,479.0,340.0,282.4,406.0,300.0,374.0,253.3]
}

monitoring = pd.DataFrame(monitoring_dict)
print(monitoring)

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0
5        30    102       127     300.0
6        30    110       136     374.0
7        45    104       134     253.3


Na linha 1 importamos a biblioteca ``pandas`` utilizando um álias `pd`. Nas linhas de 3 a 8 temos um  objeto `dict` armazenado na variável `monitoring_dict` com os dados registrados. Na linha 10 criamos o objeto `DataFrame` com uma estrutura de tabelas e armazenamos na variável `monitoring`.
    
Existem alguns métodos disponíveis para obter informações sobre o objeto: 

- `info()` mostra a estrutura da tabela
- `head()` retorna os cinco primeiros registros
- `shape` retorna o número de linhas e colunas do `DataFrame`
- `describe()` retorna estatísticas das colunas ue tem valores numéricos
 

In [8]:
print(monitoring.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  8 non-null      int64  
 1   Pulse     8 non-null      int64  
 2   Maxpulse  8 non-null      int64  
 3   Calories  8 non-null      float64
dtypes: float64(1), int64(3)
memory usage: 388.0 bytes
None


In [9]:
print(monitoring.head())

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0


## Selecionando colunas

Para selecionar colunas de um `DataFrame` utilizamos o nome do objeto colocando entre colchetes as colunas desejadas, ou seja, 

`dataframe["column"]`. 

Temos no código a seguir a seleção da coluna `"Duration"` do dataframe `monitoring` armazenado na variável `select_duration`. 

In [10]:
select_duration = monitoring["Duration"]
print(select_duration)

0    60
1    60
2    60
3    45
4    45
5    30
6    30
7    45
Name: Duration, dtype: int64


Podemos também utilizar a sintaxe com ponto `dataframe.colmun` para selação de colunas. Para selecionar mais de uma coluna utilizamos a sintaxe com colchetes 
<br><br> `dataframe[["column1","column2","column3"]]`. 

Observe que os nomes das colunas desejadas são passada como um objeto do tipo `list`. O código a seguir mostra a seleção das colunas `"Duration"` e `"Calories"` do dataframe `monitoring` armazenado na variável `monitoring_duration_cal`.

In [18]:
monitoring_duration_cal = monitoring[["Duration","Calories"]]
print(monitoring_duration_cal)

   Duration  Calories
0        60     409.1
1        60     479.0
2        60     340.0
3        45     282.4
4        45     406.0
5        30     300.0
6        30     374.0
7        45     253.3


## Selecionando linhas
Podemos filtrar registros de um `DataFrame` condicionado a valores desejados de uma coluna. 
A sintaxe para seleção de registros para valor de uma coluna é
`dataframe_name[dataframe_name["column"] == value]`. 

No código a seguir armazenamos na variável `selected_duration_60` a seleção dos registros do dataframe `monitoring` onde o tempo de duração do treinamento é igual a 60.

In [17]:
selected_duration_60 = monitoring[monitoring["Duration"] == 60]
print(selected_duration_60)

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0


**Observação:** Se utilizarmos `monitoring["Duration"] == 60` teremos como retorno um objeto `DataFrame` com valores booleanos. 

Para selecionar linhas onde os valores de uma coluna estão em uma lista de valores utilizamos método `isin(values)` onde os parâmetros `values` são do tipo valuesiterable, Series, DataFrame ou Dictionary.

In [None]:
selected_rows_2 = monitoring[monitoring["Duration"].isin([30,60])]
print(selected_rows_2)

Podemos selecionar registros condicionados a valores de múltiplas colunas. A sintaxe utilizada é

`dataframe_name[(dataframe_name["column1]== valuee) & (dataframe_name["column2]==value2)]`

In [12]:
selected_rows_3 = monitoring[(monitoring["Duration"]==60)& (monitoring["Calories"]>400)]
print(selected_rows_3)

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0


## Partes de um DataFrame

O objeto `DataFrame` tem os atributos a seguir:
- `.values`: um array NumPy com registros
- `.columns` : um objeto `Index` com os nomes das colunas
- `.index`: um objeto `RangeIndex` 

In [None]:
print(monitoring.values)
print(monitoring.columns)
print(monitoring.index)

## Ordenando registros
 O método `sort_values(column)` retorna os registros de um `DataFrame` em ordem crescente de uma colunas desejada. Para retorna em ordem decresetente utilizamo o argumento `ascending = False`.

In [20]:
duration_asc= monitoring.sort_values("Duration")
duration_desc = monitoring.sort_values("Duration", ascending = False)
duration_pulse = monitoring.sort_values(["Duration","Pulse"], ascending = [True,False])

print(duration_asc)

   Duration  Pulse  Maxpulse  Calories
5        30    102       127     300.0
6        30    110       136     374.0
3        45    109       175     282.4
4        45    117       148     406.0
7        45    104       134     253.3
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0


In [None]:
print()

In [None]:
print()

## Estatística
### Média moda e mediana

Em um objeto `DataFrame` podemos obter algumas medidas de tendência de uma coluna. Os métodos disponíveis para essa finalidade são
- `men()` : retorna a média aritmética dos valores de uma coluna
- `mode()` : retorna a moda valores de uma coluna
- `median()`: retorna a mediana dos valores de uma coluna

**Exemplo:** Considere um registro das notas das três avaliações aplicadas em uma turma conforme  à seguir:

Prova 1| Prova 2| Prova3
---|---|--
8.0|7.6|7.6
8.2|9.2|9.2
4.5|5.8|5.8
7.0|7.5|7.5
8.5|8.5|8.5
9.2|7.2|7.2
7.5|8.5|8.5
7.7|6.0|6.0
6.2|8.0|8.0

Vamos criar um objeto `DataFrame` e armazenar na variável `notas`. Vamos obter o desempenho da turma em cada prova utilizando o método `mean()` e armazenar na variável `desempenho`

In [33]:
import pandas as pd

notas_dict = {
    "Prova 1": [8.0, 8.2, 4.5, 7.0, 8.5, 9.2, 7.5, 7.7, 6.2],
    "Prova 2": [7.6, 9.2, 5.8, 7.5, 8.5, 7.2, 8.5, 6.0, 8.0],
    "Prova 3": [7.6, 9.2, 5.8, 7.5, 8.5, 7.2, 8.5, 6.0, 8.0]
}

notas = pd.DataFrame(notas_dict)

media_prova1 = notas["Prova 1"].mean()
media_prova2 = notas["Prova 2"].mean()
media_prova3 = notas["Prova 3"].mean()
desempenho =[media_prova1,media_prova2,media_prova3]
print(notas)
print(desempenho)

   Prova 1  Prova 2  Prova 3
0      8.0      7.6      7.6
1      8.2      9.2      9.2
2      4.5      5.8      5.8
3      7.0      7.5      7.5
4      8.5      8.5      8.5
5      9.2      7.2      7.2
6      7.5      8.5      8.5
7      7.7      6.0      6.0
8      6.2      8.0      8.0
[7.422222222222222, 7.588888888888889, 7.588888888888889]


Vamos cirar uma nova coluna `Média` para registrar a nota final de cada aluno calculada pela a média aritmética das notas.

In [36]:
notas["Média"] = (notas["Prova 1"]+notas["Prova 2"]+notas["Prova 3"])/3
print(notas)

   Prova 1  Prova 2  Prova 3     Média
0      8.0      7.6      7.6  7.733333
1      8.2      9.2      9.2  8.866667
2      4.5      5.8      5.8  5.366667
3      7.0      7.5      7.5  7.333333
4      8.5      8.5      8.5  8.500000
5      9.2      7.2      7.2  7.866667
6      7.5      8.5      8.5  8.166667
7      7.7      6.0      6.0  6.566667
8      6.2      8.0      8.0  7.400000


### Máximo e mínimo

Podemos também obter o valor mínimo e máximo de uma coluna utilizando os métodos `min()` e `max()`. Vamos consultar a menor e a maior nota final e armazenar nas variáveis `media_min` e `media_max`.

In [37]:
media_min = notas["Média"].min()
media_max = notas["Média"].max()
print([media_min,media_max])

[5.366666666666667, 8.866666666666665]


### Soma e soma acumulada

Em um objeto `DataFrame` é possível obter a soma de todos registros de uma coluna específica. Para isso utilizamos os métodos `sum()` e para obter a soma acumulada utilizamos o método `cumsum()`.

**Exemplo:** Antônio registrou seus gastos feitos durante um dia de viagem com a família.

- Café da manhã R$ 23,50
- Visita museu R$ 42,00
- Almoço R$ 72,36
- Passeio de lancha R$ 50,00
- Lanche R$ 37,20
- Visita parque R$ 37,00
- Jantar R$ 172,46

Vamos criar um objeto `DataFrame` e armazenar na variável `gastos` para obtermos o gasto total utilizando método `sum()` 

In [None]:
import pandas as pd

gastos_dict={
    "Descrição" : ["Cafe da manhã","Visita museu","Almoço","Passeio de lancha","Lanche","Visita ao parque","Jantar"],
    "Valor": [23.50,42.00,72.36,50.00,37.20,37.00,172.46]
}

gastos = pd.DataFrame(gastos_dict)
total = gastos["Valor"].sum()

print(gastos)
print(total)

### Frequência relativa e frequência relativa acumulada


**Exemplo:** Em uma sala de aula, com 50 estudantes, o professor de educação física os consultou sobre qual seria o esporte favorito de cada um deles. As respostas obtidas foram anotadas de acordo com a sua frequência absoluta:

- futebol: 50 estudantes
- voleibol: 12 estudantes
- handebol: 6 estudantes
- queimada: 8 estudantes
- outros: 4 estudantes

Vamos criar um `DataFrame` chamado `esportes` com as colunas `Modalidade` e `Freq_abs` e, a partir dessas colunas, adicionamos as novas colunas `Freq_rel` e `Freq_rel_ac`

In [38]:
import pandas as pd
esportes_dict ={
    "Modalidade":["futebol","voleibol","handebol","queimada","outros"],
    "Freq_abs":[50,12,6,8,4]
}

esportes = pd.DataFrame(esportes_dict)
total = esportes["Freq_abs"].sum()
esportes["Freq_rel"]=esportes["Freq_abs"]/total
esportes["Req_rel_ac"]=esportes["Freq_rel"].cumsum()

print(esportes)

  Modalidade  Freq_abs  Freq_rel  Req_rel_ac
0    futebol        50     0.625       0.625
1   voleibol        12     0.150       0.775
2   handebol         6     0.075       0.850
3   queimada         8     0.100       0.950
4     outros         4     0.050       1.000


Na linha 8 armazenamos na variável `total` a soma dos registros da coluna `Freq_abs`. Na linha 9 criamos nova coluna `Freq_rel` que divide cada registro da coluna `Freq_abs` pela soma total. Na linha 10 a coluna `Freq_rel_ac` foi criada a partir da soma acumulada da frequência relativa.

## Quartis
Em um conjunto de dados obtemos os quartis utilizando o método `quantile(value)`.

**Exemplo:** Considere os dados de uma pesquisa sobre a quantidade de investimentos de empresas com projetos de presenvação do meio ambiente disponível no arquivo `investimentos.csv`. 

In [59]:
investimentos = pd.read_csv("H:/Meu Drive/python_basico/investimentos.csv")
print(investimentos)
print(investimentos["valor"].quantile(0.25))



              empresa       valor
0       São Francisco   256341.45
1          Freitas SA   452968.32
2                Tech  5437574.45
3      Steal Máquinas    43784.87
4                Soft    23657.56
5         Brasil Tech    74126.23
6  Banco Nacional SA    563276.95
7       Fresh Bebidas    56167.73
8              Ki-mel    96125.03
9    Telecomunicações    54612.85
55001.57


## Método `agg()`

Agregação de uma função a uma coluna

In [40]:
def pct30(column):
    return column.quantile(0.3)
print(data_dictionary["Pulse"].agg(pct30))

print(esportes["Freq_abs"].quantile(0.25))

104.5
6.0


### Excluindo dados duplicados

`dataframe.drop_duplicates("column")` ou `dataframe.drop_duplicates(subset=["column1","column2"])`


### Contando registros

Contagem do numero de registros iguais de uma coluna
` dataframe["column"].value_counts()` podemos utilizar como argumento `sort=True` para obter a contagem em ordem decrescente

Explicar o comando ` dataframe["column"].value_counts(normalize=True)` 