# Pandas
___

O Pandas é uma das principais bibliotecas utilizadas nos trabalhos de ciência de dados no dia-a-dia. Ele trabalha com dados de forma tabular e é bastante comparado ao excel. Suas duas principais estruturas de dados são a ```series``` e o ```dataframe (df)```, o primeiro é criado através de um array de uma dimensão e o segundo com arrays de duas dimensões.

O Pandas tem seus prós e contras, dentre seus prós temos a quantidade enorme de funções para criar, ler, salvar. transformar e tratar dados tabulares, tem uma sintaxe fácil e permite o encadeamento de métodos (method chaining). Dentre seus contras temos a ineficiência de memória para se trabalhar com grandes datasets (big data), porém existem outras bibliotecas parecidas com sintaxe parecida que trabalham com grandes quantidades de dados (Vaex e Dask).

Entender Pandas é totalmente necessário visto que é bem mais normal trabalharmos com massas de dados não tão grandes e todas as bibliotecas que trabalham com bigdata em python possuem uma classe chamada dataframe. A familiaridade com pandas é necessária para cientistas de dados iniciantes até para os mais sêniores.

# Importação
___

Para importar o pandas basta utilizar o código:

```python
import pandas as pd 
```

O alias ``pd`` é comumente utilizado e por convenção se mantém consistente ao longo de códigos escritos em python nas mais diversas formas.

In [1]:
## importando o pandas

import pandas as pd

## importando o numpy e definindo a seed aleatória

import numpy as np
np.random.seed(42)

# Dados
___

Para executar nosso trabalho iremos utilizar o dataset ```crime_data_from_2020_to_present.csv```. A referência para o entendimento de cada colunas pode ser encontrado em [kaggle](https://www.kaggle.com/susant4learning/crime-in-los-angeles-data-from-2020-to-present).

# Series
___

Series são conjuntos de dados de uma dimensão criados a partir de arrays (também de uma dimensão), são a base do pandas e possuem 4 características básicas:

* dados (data)
* indíces (index)
* tipo do dado (dtype)
* nome (name)

As várias funções e métodos do pandas podem ser utilizados em séries, dataframes ou em ambos, basta consultar a a [documentação de referência](https://pandas.pydata.org/docs/reference/index.html#api) para entender.

Para criar uma série basta utilizar a função:

```python 
pd.Series(data,index,dtype,name)
```

In [2]:
## criando um array

arr = np.random.randint(50,100,size=24)
arr

array([88, 78, 64, 92, 57, 70, 88, 68, 72, 60, 60, 73, 85, 89, 73, 52, 71,
       51, 73, 93, 79, 87, 51, 70])

In [3]:
## criando uma série

pesos =  pd.Series(data=arr, index=range(0,24), dtype=int, name='pesos')
pesos

0     88
1     78
2     64
3     92
4     57
5     70
6     88
7     68
8     72
9     60
10    60
11    73
12    85
13    89
14    73
15    52
16    71
17    51
18    73
19    93
20    79
21    87
22    51
23    70
Name: pesos, dtype: int64

É possível acessar cada uma das características de uma série através dos métodos com seus respectivos nomes.

In [4]:
## acessando os dados da série

pesos.values

array([88, 78, 64, 92, 57, 70, 88, 68, 72, 60, 60, 73, 85, 89, 73, 52, 71,
       51, 73, 93, 79, 87, 51, 70])

In [5]:
## acessando os indices da série

pesos.index

RangeIndex(start=0, stop=24, step=1)

In [6]:
## acessando o tipo dos dados da série

pesos.dtype

dtype('int64')

In [7]:
## acessando o nome da série

pesos.name

'pesos'

# Operações com Séries
___

As operações com séries funcionam da mesma forma das operações com arrays. Toda a comodidade dos arrays é replicada para séries.

In [8]:
## criando um array dos alturas e sua respectiva série

arr_alturas = np.random.randint(50,70,size=24)
alturas = pd.Series(arr_alturas,name='height*10(foot)')
alturas

0     50
1     61
2     61
3     66
4     59
5     65
6     64
7     64
8     68
9     61
10    69
11    52
12    54
13    68
14    56
15    58
16    56
17    67
18    53
19    63
20    67
21    58
22    51
23    69
Name: height*10(foot), dtype: int64

In [9]:
## transformando a altura de foot para cm

alturas = (alturas/10)*30.48
alturas.name = 'altura(cm)'
alturas

0     152.400
1     185.928
2     185.928
3     201.168
4     179.832
5     198.120
6     195.072
7     195.072
8     207.264
9     185.928
10    210.312
11    158.496
12    164.592
13    207.264
14    170.688
15    176.784
16    170.688
17    204.216
18    161.544
19    192.024
20    204.216
21    176.784
22    155.448
23    210.312
Name: altura(cm), dtype: float64

Para executar operações entre duas séries é necessário que ambas possuam o mesmo shape. Nos casos de operações entre séries com shapes diferentes é criado um valor nulo no local.

In [10]:
## criando a série com a correção das alturas

correcao_altura = pd.Series(np.random.normal(size=12),name='correcao_altura(cm)')
correcao_altura

0     0.779193
1    -1.101098
2     1.130228
3     0.373119
4    -0.386473
5    -1.158770
6     0.566113
7    -0.704453
8    -1.377939
9    -0.353117
10   -0.461466
11    0.066657
Name: correcao_altura(cm), dtype: float64

In [11]:
alturas + correcao_altura

0     153.179193
1     184.826902
2     187.058228
3     201.541119
4     179.445527
5     196.961230
6     195.638113
7     194.367547
8     205.886061
9     185.574883
10    209.850534
11    158.562657
12           NaN
13           NaN
14           NaN
15           NaN
16           NaN
17           NaN
18           NaN
19           NaN
20           NaN
21           NaN
22           NaN
23           NaN
dtype: float64

Caso exista necessidade de adicionar valores a uma série, podemos utilizar o método:

```python
.append()
```

Vale notar que o método acima só aceita outra série e não arrays ou listas.

In [12]:
## criando a série para append
serie_para_append = pd.Series(np.random.normal(size=12))


## dando append na série correcao_altura ignorando os índices

correcao_altura = correcao_altura.append(serie_para_append,ignore_index=True)
correcao_altura

0     0.779193
1    -1.101098
2     1.130228
3     0.373119
4    -0.386473
5    -1.158770
6     0.566113
7    -0.704453
8    -1.377939
9    -0.353117
10   -0.461466
11    0.066657
12   -0.176286
13    1.200893
14    0.698399
15   -0.171629
16   -0.907187
17    1.188626
18    0.785532
19    2.656010
20    0.263486
21    1.641771
22    0.460816
23    0.085923
dtype: float64

In [13]:
## corrigindo alturas

alturas = alturas + correcao_altura
alturas

0     153.179193
1     184.826902
2     187.058228
3     201.541119
4     179.445527
5     196.961230
6     195.638113
7     194.367547
8     205.886061
9     185.574883
10    209.850534
11    158.562657
12    164.415714
13    208.464893
14    171.386399
15    176.612371
16    169.780813
17    205.404626
18    162.329532
19    194.680010
20    204.479486
21    178.425771
22    155.908816
23    210.397923
dtype: float64

Também é possível executar operações lógicas com séries e o retorno são também series de valores booleanos.

In [17]:
alturas > 190

0     False
1     False
2     False
3      True
4     False
5      True
6      True
7      True
8      True
9     False
10     True
11    False
12    False
13     True
14    False
15    False
16    False
17     True
18    False
19     True
20     True
21    False
22    False
23     True
dtype: bool

In [21]:
## utilizando condições lógicas mais complexas

alturas > 190 and alturas < 200

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

As condições lógicas mais complexas utilizando ```not and or``` no pandas são representadas por outros operadores, respectivamente ```~ & \```.

In [25]:
## utilizando and &

(alturas > 190) & (alturas < 200)

0     False
1     False
2     False
3     False
4     False
5      True
6      True
7      True
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20    False
21    False
22    False
23    False
dtype: bool

In [29]:
~( (alturas > 190) & (alturas < 200) )

0      True
1      True
2      True
3      True
4      True
5     False
6     False
7     False
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19    False
20     True
21     True
22     True
23     True
dtype: bool