# Pandas
___

O Pandas é uma das principais bibliotecas utilizadas nos trabalhos de ciência de dados no dia-a-dia. Ele trabalha com dados de forma tabular e é bastante comparado ao excel. Suas duas principais estruturas de dados são a ```series``` e o ```dataframe (df)```, o primeiro é criado através de um array de uma dimensão e o segundo com arrays de duas dimensões.

O Pandas tem seus prós e contras, dentre seus prós temos a quantidade enorme de funções para criar, ler, salvar. transformar e tratar dados tabulares, tem uma sintaxe fácil e permite o encadeamento de métodos (method chaining). Dentre seus contras temos a ineficiência de memória para se trabalhar com grandes datasets (big data), porém existem outras bibliotecas parecidas com sintaxe parecida que trabalham com grandes quantidades de dados (Vaex e Dask).

Entender Pandas é totalmente necessário visto que é bem mais normal trabalharmos com massas de dados não tão grandes e todas as bibliotecas que trabalham com bigdata em python possuem uma classe chamada dataframe. A familiaridade com pandas é necessária para cientistas de dados iniciantes até para os mais sêniores.

# Importação
___

Para importar o pandas basta utilizar o código:

```python
import pandas as pd 
```

O alias ``pd`` é comumente utilizado e por convenção se mantém consistente ao longo de códigos escritos em python nas mais diversas formas.

In [178]:
## importando o pandas

import pandas as pd

## importando o numpy e definindo a seed aleatória

import numpy as np
np.random.seed(42)

## ignorando alguns warnings

import warnings
warnings.filterwarnings("ignore")

# Dados
___

Para executar nosso trabalho iremos utilizar os datasets:

> ```crime_data_from_2020_to_present.csv```. A referência para o entendimento de cada colunas pode ser encontrado em [kaggle](https://www.kaggle.com/susant4learning/crime-in-los-angeles-data-from-2020-to-present). 

>```carros.csv``` que descreve as características de alguns carros juntamente com seus preços de venda (esse dataset foi adaptado de [kaggle](https://www.kaggle.com/adityadesai13/used-car-dataset-ford-and-mercedes)).

> ```titanic.csv``` que descreve cada um dos passageiros do Titanic e se sobreviveram ou não ao seu desastre. A referência com a descrição de cada coluna pode ser encontrada em [kaggle](https://www.kaggle.com/c/titanic/data).

# Series
___

Series são conjuntos de dados de uma dimensão criados a partir de arrays (também de uma dimensão), são a base do pandas e possuem 4 características básicas:

* dados (data)
* indíces (index)
* tipo do dado (dtype)
* nome (name)

As várias funções e métodos do pandas podem ser utilizados em séries, dataframes ou em ambos, basta consultar a a [documentação de referência](https://pandas.pydata.org/docs/reference/index.html#api) para entender.

Para criar uma série basta utilizar a função:

```python 
pd.Series(data,index,dtype,name)
```

In [2]:
## criando um array

arr = np.random.randint(50,100,size=24)
arr

array([88, 78, 64, 92, 57, 70, 88, 68, 72, 60, 60, 73, 85, 89, 73, 52, 71,
       51, 73, 93, 79, 87, 51, 70])

In [3]:
## criando uma série

pesos =  pd.Series(data=arr, index=range(0,24), dtype=int, name='pesos')
pesos

0     88
1     78
2     64
3     92
4     57
5     70
6     88
7     68
8     72
9     60
10    60
11    73
12    85
13    89
14    73
15    52
16    71
17    51
18    73
19    93
20    79
21    87
22    51
23    70
Name: pesos, dtype: int64

É possível acessar cada uma das características de uma série através dos métodos com seus respectivos nomes.

In [4]:
## acessando os dados da série

pesos.values

array([88, 78, 64, 92, 57, 70, 88, 68, 72, 60, 60, 73, 85, 89, 73, 52, 71,
       51, 73, 93, 79, 87, 51, 70])

In [5]:
## acessando os indices da série

pesos.index

RangeIndex(start=0, stop=24, step=1)

In [6]:
## acessando o tipo dos dados da série

pesos.dtype

dtype('int64')

In [7]:
## acessando o nome da série

pesos.name

'pesos'

# Operações com Séries
___

As operações com séries funcionam da mesma forma das operações com arrays. Toda a comodidade dos arrays é replicada para séries.

In [8]:
## criando um array dos alturas e sua respectiva série

arr_alturas = np.random.randint(50,70,size=24)
alturas = pd.Series(arr_alturas,name='height*10(foot)')
alturas

0     50
1     61
2     61
3     66
4     59
5     65
6     64
7     64
8     68
9     61
10    69
11    52
12    54
13    68
14    56
15    58
16    56
17    67
18    53
19    63
20    67
21    58
22    51
23    69
Name: height*10(foot), dtype: int64

In [9]:
## transformando a altura de foot para cm

alturas = (alturas/10)*30.48
alturas.name = 'altura(cm)'
alturas

0     152.400
1     185.928
2     185.928
3     201.168
4     179.832
5     198.120
6     195.072
7     195.072
8     207.264
9     185.928
10    210.312
11    158.496
12    164.592
13    207.264
14    170.688
15    176.784
16    170.688
17    204.216
18    161.544
19    192.024
20    204.216
21    176.784
22    155.448
23    210.312
Name: altura(cm), dtype: float64

Para executar operações entre duas séries é necessário que ambas possuam o mesmo shape. Nos casos de operações entre séries com shapes diferentes é criado um valor nulo no local.

In [10]:
## criando a série com a correção das alturas

correcao_altura = pd.Series(np.random.normal(size=12),name='correcao_altura(cm)')
correcao_altura

0     0.779193
1    -1.101098
2     1.130228
3     0.373119
4    -0.386473
5    -1.158770
6     0.566113
7    -0.704453
8    -1.377939
9    -0.353117
10   -0.461466
11    0.066657
Name: correcao_altura(cm), dtype: float64

In [11]:
alturas + correcao_altura

0     153.179193
1     184.826902
2     187.058228
3     201.541119
4     179.445527
5     196.961230
6     195.638113
7     194.367547
8     205.886061
9     185.574883
10    209.850534
11    158.562657
12           NaN
13           NaN
14           NaN
15           NaN
16           NaN
17           NaN
18           NaN
19           NaN
20           NaN
21           NaN
22           NaN
23           NaN
dtype: float64

Caso exista necessidade de adicionar valores a uma série, podemos utilizar o método:

```python
.append()
```

Vale notar que o método acima só aceita outra série e não arrays ou listas.

In [12]:
## criando a série para append
serie_para_append = pd.Series(np.random.normal(size=12))


## dando append na série correcao_altura ignorando os índices

correcao_altura = correcao_altura.append(serie_para_append,ignore_index=True)
correcao_altura

0     0.779193
1    -1.101098
2     1.130228
3     0.373119
4    -0.386473
5    -1.158770
6     0.566113
7    -0.704453
8    -1.377939
9    -0.353117
10   -0.461466
11    0.066657
12   -0.176286
13    1.200893
14    0.698399
15   -0.171629
16   -0.907187
17    1.188626
18    0.785532
19    2.656010
20    0.263486
21    1.641771
22    0.460816
23    0.085923
dtype: float64

In [13]:
## corrigindo alturas

alturas = alturas + correcao_altura
alturas

0     153.179193
1     184.826902
2     187.058228
3     201.541119
4     179.445527
5     196.961230
6     195.638113
7     194.367547
8     205.886061
9     185.574883
10    209.850534
11    158.562657
12    164.415714
13    208.464893
14    171.386399
15    176.612371
16    169.780813
17    205.404626
18    162.329532
19    194.680010
20    204.479486
21    178.425771
22    155.908816
23    210.397923
dtype: float64

Também é possível executar operações lógicas com séries e o retorno são também series de valores booleanos.

In [14]:
alturas > 190

0     False
1     False
2     False
3      True
4     False
5      True
6      True
7      True
8      True
9     False
10     True
11    False
12    False
13     True
14    False
15    False
16    False
17     True
18    False
19     True
20     True
21    False
22    False
23     True
dtype: bool

In [15]:
## utilizando condições lógicas mais complexas

alturas > 190 and alturas < 200

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

As condições lógicas mais complexas utilizando ```not and or``` no pandas são representadas por outros operadores, respectivamente ```~ & \```.

In [16]:
## utilizando and &

(alturas > 190) & (alturas < 200)

0     False
1     False
2     False
3     False
4     False
5      True
6      True
7      True
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20    False
21    False
22    False
23    False
dtype: bool

In [17]:
~( (alturas > 190) & (alturas < 200) )

0      True
1      True
2      True
3      True
4      True
5     False
6     False
7     False
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19    False
20     True
21     True
22     True
23     True
dtype: bool

# DataFrame
___

O dataframe nada mais é do que um conjunto de series organizadas como colunas. Ele possui a maior gama de métodos e funções, possui características e pode ser indexado facilmente. Ele é a principal estrutura de dados utilizada no pandas e torna o trabalho de manipulação de dados muito mais simples. Para criar um dataframe basta utilizar um array de duas dimensões através do código:

```python
pd.DataFrame(data,index,columns,dtype)
```

Diferente da criação das séries, ao invés de nome o dataframe tem ```columns``` que é uma lista com os nomes de cada coluna.

In [18]:
## criando um array de duas dimensões utilizando os já criados

arr_2d = np.column_stack([alturas,pesos])

In [19]:
## criando um dataframe

df = pd.DataFrame(data=arr_2d, columns=['ALTURAS DOS JOGADORES','PESOS DOS JOGADORES'])
df

Unnamed: 0,ALTURAS DOS JOGADORES,PESOS DOS JOGADORES
0,153.179193,88.0
1,184.826902,78.0
2,187.058228,64.0
3,201.541119,92.0
4,179.445527,57.0
5,196.96123,70.0
6,195.638113,88.0
7,194.367547,68.0
8,205.886061,72.0
9,185.574883,60.0


O dataframe possui uma série de características que podem ser acessadas e algumas até alteradas.

In [20]:
## shape

df.shape

(24, 2)

O shape do dataframe é igual ao do array que o criou, caso o dataframe seja alterado o shape também é alterado.

In [21]:
## size

df.size

48

In [22]:
## columns

df.columns

Index(['ALTURAS DOS JOGADORES', 'PESOS DOS JOGADORES'], dtype='object')

É possível alterar os nomes das colunas sobreescrevendo os valores associados a ```df.columns```

In [23]:
## alterando o nome das colunas de forma rápida

df.columns = [x.lower().replace(' ','_') for x in df.columns]
df.columns

Index(['alturas_dos_jogadores', 'pesos_dos_jogadores'], dtype='object')

In [24]:
## indíces

df.index

RangeIndex(start=0, stop=24, step=1)

In [25]:
## eixos

df.axes

[RangeIndex(start=0, stop=24, step=1),
 Index(['alturas_dos_jogadores', 'pesos_dos_jogadores'], dtype='object')]

Vale a pena notar que em várias funções do pandas existe o parâmetro ```axis``` podendo receber os valores 0 ou 1.

![axis](imgs/axis.png)

O racional é que no eixo 0 efetuamos uma operação **por toda a exntesão das linhas** e no eixo 1 efetuamos a operação **por toda a exntesão das colunas**.

Para conseguir informações rápidas sobre o dataframe, podemos utilizara a função ```df.info()``` que mostra:

* a classe do objeto em ```df```
* informações sobre o índice
* quantidade de colunas
* tipos dos dados de cada coluna
* quantidade de valores não nulos em cada coluna
* uso de memória para guardar o dataframe

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 2 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   alturas_dos_jogadores  24 non-null     float64
 1   pesos_dos_jogadores    24 non-null     float64
dtypes: float64(2)
memory usage: 512.0 bytes


Dataframes também podem ser criados através de dicionários através da função:

```python
pd.DataFrame.from_dict(data,orient,dtype,columns)
```

O parâmetro ```orient``` vai controlar o funcionamento da função e resultará em resultados diferentes.

In [27]:
data = {
    'col_1': [3, 2, 1, 0], 
    'col_2': ['a', 'b', 'c', 'd']
}

In [28]:
## utilizando a orientação por colunas

pd.DataFrame.from_dict(data,orient='columns')

Unnamed: 0,col_1,col_2
0,3,a
1,2,b
2,1,c
3,0,d


In [29]:
## utilizando a orientação por indices

pd.DataFrame.from_dict(data,orient='index')

Unnamed: 0,0,1,2,3
col_1,3,2,1,0
col_2,a,b,c,d


Perceba que ```orient``` controla a interpretação das chaves do dicionário e sua transformação em linhas (index) ou colunas (columns).

# Input e Output
___

O pandas oferece várias funções ler dados de vários formatos e escrever também em vários formatos. O formato mais comum de dados que utilizamos são os ```csv``` e o ```xlsx```, mas o pandas está preparado também para ler arquivos com os seguintes formatos:

* texto (extensão .txt)
* .json
* html
* XML
* área de transferência
* HDF5
* .parquet
* stata
* sas
* spss

Para a leitura de arquivos basta utilizarmos o sintaxe ```read_<tipo do arquivo>``` da seguinte forma:

```python
pd.read_csv()
pd.read_excel()
pd.read_json()
pd.read_xml()
pd.read_hdf()
pd.read_html()
```

Para a escrita de arquivos basta utilizarmos o sintaxe ```to_<tipo do arquivo>``` da seguinte forma:

```python
df.to_csv()
df.to_excel()
df.to_json()
df.to_xml()
df.to_hdf()
df.to_html()
```

In [30]:
## abrindo arquivo csv

pd.read_csv('data/crime_data_from_2020_to_present.csv').head()

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
1,190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
2,201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,77th Street,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.263
3,191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
4,191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",...,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


A função

```python
pd.read_csv()
```

possui vários parâmetros, em sua grande maioria são opcionais, mas são extremamente úteis para nosso trabalho. Alguns dos mais utilizados:

* encoding -> define o encoding dos dados de entrada
* sep -> define o separador entre os dados
* usecols -> recebe uma lista com o nome das colunas que devem ser carregadas
* nrows -> define a quantidade de linhas a serem carregadas
* decimal -> define o caracter utilizado para separação de decimais
* converters -> recebe um dicionário contendo o nome das colunas e os tipos para conversão

A utilização dos parâmetros de leitura de arquivos vai sempre variar de acordo com a necessidade de leitura. Em casos de dados muito grandes, podemos utilizar ```nrows``` para trabalhar inicialmente com uma pequena amostra dos dados e depois executar o código com o dataset completo, por exemplo.

In [31]:
## carregando todo o dataset

pd.read_csv('data/crime_data_from_2020_to_present.csv').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317854 entries, 0 to 317853
Data columns (total 28 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   DR_NO           317854 non-null  int64  
 1   Date Rptd       317854 non-null  object 
 2   DATE OCC        317854 non-null  object 
 3   TIME OCC        317854 non-null  int64  
 4   AREA            317854 non-null  int64  
 5   AREA NAME       317854 non-null  object 
 6   Rpt Dist No     317854 non-null  int64  
 7   Part 1-2        317854 non-null  int64  
 8   Crm Cd          317854 non-null  int64  
 9   Crm Cd Desc     317854 non-null  object 
 10  Mocodes         274531 non-null  object 
 11  Vict Age        317854 non-null  int64  
 12  Vict Sex        276448 non-null  object 
 13  Vict Descent    276443 non-null  object 
 14  Premis Cd       317849 non-null  float64
 15  Premis Desc     317746 non-null  object 
 16  Weapon Used Cd  116477 non-null  float64
 17  Weapon Des

In [32]:
## usando o nrows

pd.read_csv('data/crime_data_from_2020_to_present.csv',nrows=100).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 28 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   DR_NO           100 non-null    int64  
 1   Date Rptd       100 non-null    object 
 2   DATE OCC        100 non-null    object 
 3   TIME OCC        100 non-null    int64  
 4   AREA            100 non-null    int64  
 5   AREA NAME       100 non-null    object 
 6   Rpt Dist No     100 non-null    int64  
 7   Part 1-2        100 non-null    int64  
 8   Crm Cd          100 non-null    int64  
 9   Crm Cd Desc     100 non-null    object 
 10  Mocodes         92 non-null     object 
 11  Vict Age        100 non-null    int64  
 12  Vict Sex        92 non-null     object 
 13  Vict Descent    92 non-null     object 
 14  Premis Cd       100 non-null    int64  
 15  Premis Desc     100 non-null    object 
 16  Weapon Used Cd  45 non-null     float64
 17  Weapon Desc     45 non-null     obje

Também podemos usar o ```usecols``` para ler somente as colunas que queremos (e em conjunto com ```nrows```) e diminuir o consumo de memória.

In [33]:
## utilizando nrows e usecols

small_df =  pd.read_csv('data/crime_data_from_2020_to_present.csv',
            nrows=1000,
            usecols=['AREA','Vict Sex','Vict Descent'])

small_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   AREA          1000 non-null   int64 
 1   Vict Sex      922 non-null    object
 2   Vict Descent  922 non-null    object
dtypes: int64(1), object(2)
memory usage: 23.6+ KB


# Indexing e Slicing
___

Já vimos anteriormente que todo dataframe possui algumas características (ou partes) que são importante. Um array de valores (dados), um conjunto de índices para as linhas e também um conjunto de índices para as colunas. Para acessarmos e modificarmos valores nos dataframes é necessário entendermos os conceitos por trás desses índices.

In [34]:
df = pd.read_csv('data/crime_data_from_2020_to_present.csv')
df.head()

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
1,190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
2,201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,77th Street,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.263
3,191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
4,191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",...,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


Já vimos que é possível acessar os nomes dos índices e das colunas através dos códigos

```python
df.columns
df.index
```

In [35]:
## nomes das colunas

df.columns

Index(['DR_NO', 'Date Rptd', 'DATE OCC', 'TIME OCC', 'AREA', 'AREA NAME',
       'Rpt Dist No', 'Part 1-2', 'Crm Cd', 'Crm Cd Desc', 'Mocodes',
       'Vict Age', 'Vict Sex', 'Vict Descent', 'Premis Cd', 'Premis Desc',
       'Weapon Used Cd', 'Weapon Desc', 'Status', 'Status Desc', 'Crm Cd 1',
       'Crm Cd 2', 'Crm Cd 3', 'Crm Cd 4', 'LOCATION', 'Cross Street', 'LAT',
       'LON'],
      dtype='object')

In [36]:
## indices das linhas

df.index

RangeIndex(start=0, stop=317854, step=1)

Podemos modificar os índices das linhas utilizando os valores de uma coluna inteira como novos índices. Para isso basta utilizar a função 

```python
df.set_index('nome da coluna')
```

In [37]:
## novo índice

df = df.set_index('DR_NO')
df.head()

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,0444 0913,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,0416 1822 1414,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,77th Street,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.263
191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1402,...,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329,...,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


Podemos também resetar os índices, voltando a ter índices das linhas dentro de um range incremetal. Para isso basta utilizarmos o 

```python
df.reset_index()
```

In [38]:
df = df.reset_index()
df.head()

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
1,190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
2,201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,77th Street,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.263
3,191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),...,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
4,191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",...,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


Ao selecionar linhas ou colunas utilizamos seus índices, sejam eles números ou strings. Para selecionar colunas inteiras é basta utilizarmos a seguinte sintaxe

```python
df['nome da coluna']
```

In [39]:
## acessando todos os valores de uma colunas (selecionando a coluna)

df['AREA']

0          3
1          1
2         12
3         15
4         19
          ..
317849    12
317850     5
317851    17
317852     3
317853    20
Name: AREA, Length: 317854, dtype: int64

Veja que ao acessar a coluna, estamos na verdade retornando uma série. Ela possui todas as características e métodos de uma série comum.

In [40]:
## verificando o tipo

type(df['AREA'])

pandas.core.series.Series

Ainda é possível utilizar outra sintaxe para acessar uma coluna!

In [41]:
## acessando a mesma coluna AREA

df.AREA

0          3
1          1
2         12
3         15
4         19
          ..
317849    12
317850     5
317851    17
317852     3
317853    20
Name: AREA, Length: 317854, dtype: int64

É possível também retornar um grupo de colunas através do indexador ```[]``` basta que ele receba, ao invés de um único nome da coluna, uma lista de nomes.

In [42]:
df[['DR_NO','AREA']]

Unnamed: 0,DR_NO,AREA
0,10304468,3
1,190101086,1
2,201220752,12
3,191501505,15
4,191921269,19
...,...,...
317849,211208872,12
317850,210506531,5
317851,211710505,17
317852,210312887,3


Perceba que retorno da nossa indexação é um conjunto de séries formando um novo dataframe contendo somente aquilo que selecionamos. Essa sintaxe é bem simples para o acesso de informações guardadas em colunas, mas e para acessar somente linhas, para isso utilizamos os métodos ```.loc[]``` e ```.iloc[]```.

In [43]:
## acessando a linha com o indice zero

df.loc[0]

DR_NO                                                   10304468
Date Rptd                                 01/08/2020 12:00:00 AM
DATE OCC                                  01/08/2020 12:00:00 AM
TIME OCC                                                    2230
AREA                                                           3
AREA NAME                                              Southwest
Rpt Dist No                                                  377
Part 1-2                                                       2
Crm Cd                                                       624
Crm Cd Desc                             BATTERY - SIMPLE ASSAULT
Mocodes                                                0444 0913
Vict Age                                                      36
Vict Sex                                                       F
Vict Descent                                                   B
Premis Cd                                                  501.0
Premis Desc              

In [44]:
df = df.set_index('DR_NO')
df.loc[0]

KeyError: 0

Ao alterarmos o índice de 0 para o valor na colunas DR_NO não conseguimos mais acessar a linha utilizando o índice 0, mas sim o índice 10304468

In [45]:
df.loc[10304468]

Date Rptd                                 01/08/2020 12:00:00 AM
DATE OCC                                  01/08/2020 12:00:00 AM
TIME OCC                                                    2230
AREA                                                           3
AREA NAME                                              Southwest
Rpt Dist No                                                  377
Part 1-2                                                       2
Crm Cd                                                       624
Crm Cd Desc                             BATTERY - SIMPLE ASSAULT
Mocodes                                                0444 0913
Vict Age                                                      36
Vict Sex                                                       F
Vict Descent                                                   B
Premis Cd                                                  501.0
Premis Desc                               SINGLE FAMILY DWELLING
Weapon Used Cd           

É importante notar que a sintaxe ```.loc[]``` utiliza o identificador do índice, seja ele uma string ou um número. Se passarmos um índice que não existe para ```.loc[]``` teremos um erro de chaveamento.

In [46]:
df.loc['nasser']

KeyError: 'nasser'

É possível não utilizar o índice, mas a localização da linha de fato. Nesse sentido, ao invés de passarmos o nome do índice, passamos a localização do índice que queremos retornar. Para isso basta usar a sintaxe ```.iloc[]```

In [47]:
df.loc[10304468]

Date Rptd                                 01/08/2020 12:00:00 AM
DATE OCC                                  01/08/2020 12:00:00 AM
TIME OCC                                                    2230
AREA                                                           3
AREA NAME                                              Southwest
Rpt Dist No                                                  377
Part 1-2                                                       2
Crm Cd                                                       624
Crm Cd Desc                             BATTERY - SIMPLE ASSAULT
Mocodes                                                0444 0913
Vict Age                                                      36
Vict Sex                                                       F
Vict Descent                                                   B
Premis Cd                                                  501.0
Premis Desc                               SINGLE FAMILY DWELLING
Weapon Used Cd           

In [48]:
df.iloc[0]

Date Rptd                                 01/08/2020 12:00:00 AM
DATE OCC                                  01/08/2020 12:00:00 AM
TIME OCC                                                    2230
AREA                                                           3
AREA NAME                                              Southwest
Rpt Dist No                                                  377
Part 1-2                                                       2
Crm Cd                                                       624
Crm Cd Desc                             BATTERY - SIMPLE ASSAULT
Mocodes                                                0444 0913
Vict Age                                                      36
Vict Sex                                                       F
Vict Descent                                                   B
Premis Cd                                                  501.0
Premis Desc                               SINGLE FAMILY DWELLING
Weapon Used Cd           

Tanto o ```.loc[]``` quanto o ```.iloc[]``` suportam a também uma indexação mais completa passando também o identificador ou o número do índice da colunas.

![axis](imgs/loc.png)

In [49]:
## acessando o valor de AREA NAME da linhas com índice 201220752

df.loc[201220752,'AREA NAME']

'77th Street'

In [50]:
## acessando o valor de AREA NAME da linhas com índice 201220752 utilizando iloc

df.iloc[2,4]

'77th Street'

Se podemos acessar o valor, também podemos alterá-lo.

In [51]:
df.iloc[2,4] = 'Mission'
df.iloc[2,4]

'Mission'

In [52]:
df.head()

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,0444 0913,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,0416 1822 1414,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.263
191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1402,...,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329,...,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


Tanto o ```.loc``` quanto o ```.iloc``` também trabalham com fatiamento através do ```:```

In [53]:
## usando iloc com fatiamento

df.iloc[:10,:3]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230
190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230
191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730
191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415
200100501,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,30
200100502,01/02/2020 12:00:00 AM,01/02/2020 12:00:00 AM,1315
200100504,01/04/2020 12:00:00 AM,01/04/2020 12:00:00 AM,40
200100507,01/04/2020 12:00:00 AM,01/04/2020 12:00:00 AM,200
201817357,09/12/2020 12:00:00 AM,09/12/2020 12:00:00 AM,30


In [54]:
## usando o loc com fatiamento

df.loc[201220752:201817357,'AREA':'Mocodes']

Unnamed: 0_level_0,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
201220752,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202
191501505,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1402
191921269,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329
200100501,1,Central,163,1,121,"RAPE, FORCIBLE",0413 1822 1262 1415
200100502,1,Central,161,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),1402 2004 0344 0387
200100504,1,Central,155,2,946,OTHER MISCELLANEOUS CRIME,1402 0392
200100507,1,Central,101,1,341,"THEFT-GRAND ($950.01 & OVER)EXCPT,GUNS,FOWL,LI...",1822 0344 1402
201817357,18,Southeast,1871,2,930,CRIMINAL THREATS - NO WEAPON DISPLAYED,0421 1822


In [55]:
## usando o loc com listas

df.loc[[191921269,200100507],['AREA','Vict Descent']]

Unnamed: 0_level_0,AREA,Vict Descent
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1
191921269,19,X
200100507,1,B


Da mesma forma que podemos fazer indexação de listas e arrays utilizando máscaras de valores booleanos também conseguimos fazer isso com dataframes.

In [56]:
mascara = df['AREA'] == 12
mascara

DR_NO
10304468     False
190101086    False
201220752     True
191501505    False
191921269    False
             ...  
211208872     True
210506531    False
211710505    False
210312887    False
212005847    False
Name: AREA, Length: 317854, dtype: bool

In [57]:
df.loc[mascara]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.2630
201214491,06/10/2020 12:00:00 AM,06/10/2020 12:00:00 AM,1345,12,77th Street,1213,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1822 1307,...,IC,Invest Cont,745.0,,,,5700 S ST ANDREWS PL,,33.9910,-118.3113
201213641,05/27/2020 12:00:00 AM,05/25/2020 12:00:00 AM,1640,12,77th Street,1208,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,48TH ST,FIGUEROA ST,33.9997,-118.2827
201221820,10/02/2020 12:00:00 AM,10/02/2020 12:00:00 AM,600,12,77th Street,1273,2,624,BATTERY - SIMPLE ASSAULT,1202 1701 2021 0913 0562 0444 0443,...,AO,Adult Other,624.0,,,,8800 S HALLDALE AV,,33.9574,-118.3025
201223646,10/30/2020 12:00:00 AM,10/30/2020 12:00:00 AM,2240,12,77th Street,1268,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,0913 0400 0444 1814 2000,...,AA,Adult Arrest,626.0,,,,200 W 81ST ST,,33.9659,-118.2765
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211216212,07/21/2021 12:00:00 AM,07/12/2021 12:00:00 AM,430,12,77th Street,1215,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,1500 W 56TH ST,,33.9915,-118.3019
211204656,01/11/2021 12:00:00 AM,01/10/2021 12:00:00 AM,2300,12,77th Street,1259,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,400 E 74TH ST,,33.9730,-118.2657
211205121,01/16/2021 12:00:00 AM,01/16/2021 12:00:00 AM,300,12,77th Street,1265,1,330,BURGLARY FROM VEHICLE,0344 1822 1307 1609,...,IC,Invest Cont,330.0,,,,1300 W 81ST PL,,33.9652,-118.2984
211215635,07/13/2021 12:00:00 AM,06/13/2021 12:00:00 AM,100,12,77th Street,1266,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),,...,IC,Invest Cont,420.0,,,,8000 S HOOVER ST,,33.9662,-118.2871


Se quisermos utilizar condições lógicas mais complicadas é possível, basta criar condições lógicas mais complexas também.

In [58]:
mascara = (df['AREA'] == 12) & (df['Status'] == 'IC')
df.loc[mascara]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.2630
201214491,06/10/2020 12:00:00 AM,06/10/2020 12:00:00 AM,1345,12,77th Street,1213,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1822 1307,...,IC,Invest Cont,745.0,,,,5700 S ST ANDREWS PL,,33.9910,-118.3113
201213641,05/27/2020 12:00:00 AM,05/25/2020 12:00:00 AM,1640,12,77th Street,1208,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,48TH ST,FIGUEROA ST,33.9997,-118.2827
211209197,03/20/2021 12:00:00 AM,07/01/2020 12:00:00 AM,1425,12,77th Street,1243,2,354,THEFT OF IDENTITY,0928,...,IC,Invest Cont,354.0,,,,1600 W 67TH ST,,33.9785,-118.3068
201213840,05/30/2020 12:00:00 AM,05/30/2020 12:00:00 AM,1000,12,77th Street,1243,2,901,VIOLATION OF RESTRAINING ORDER,2038 0561 1202,...,IC,Invest Cont,901.0,,,,1700 W 65TH PL,,0.0000,0.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211216212,07/21/2021 12:00:00 AM,07/12/2021 12:00:00 AM,430,12,77th Street,1215,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,1500 W 56TH ST,,33.9915,-118.3019
211204656,01/11/2021 12:00:00 AM,01/10/2021 12:00:00 AM,2300,12,77th Street,1259,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,400 E 74TH ST,,33.9730,-118.2657
211205121,01/16/2021 12:00:00 AM,01/16/2021 12:00:00 AM,300,12,77th Street,1265,1,330,BURGLARY FROM VEHICLE,0344 1822 1307 1609,...,IC,Invest Cont,330.0,,,,1300 W 81ST PL,,33.9652,-118.2984
211215635,07/13/2021 12:00:00 AM,06/13/2021 12:00:00 AM,100,12,77th Street,1266,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),,...,IC,Invest Cont,420.0,,,,8000 S HOOVER ST,,33.9662,-118.2871


O método ```.isin()``` verifica uma condição frente a uma lista de valores.

In [59]:
lista_de_areas = [12,3,1]

df.loc[df['AREA'].isin(lista_de_areas)]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,0444 0913,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,0416 1822 1414,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.2630
200100501,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,30,1,Central,163,1,121,"RAPE, FORCIBLE",0413 1822 1262 1415,...,IC,Invest Cont,121.0,998.0,,,700 S BROADWAY,,34.0452,-118.2534
200100502,01/02/2020 12:00:00 AM,01/02/2020 12:00:00 AM,1315,1,Central,161,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),1402 2004 0344 0387,...,IC,Invest Cont,442.0,998.0,,,700 S FIGUEROA ST,,34.0483,-118.2631
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
210311528,06/11/2021 12:00:00 AM,06/11/2021 12:00:00 AM,2130,3,Southwest,356,2,888,TRESPASSING,0360 0554 0913,...,IC,Invest Cont,888.0,,,,1500 W 36TH ST,,34.0228,-118.3046
210111609,06/09/2021 12:00:00 AM,06/07/2021 12:00:00 AM,1500,1,Central,154,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,2000 0913 1814 0319 1310 0448 0408 0421 0416,...,IC,Invest Cont,626.0,,,,5TH,SPRING,34.0474,-118.2496
211215635,07/13/2021 12:00:00 AM,06/13/2021 12:00:00 AM,100,12,77th Street,1266,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),,...,IC,Invest Cont,420.0,,,,8000 S HOOVER ST,,33.9662,-118.2871
211208872,03/19/2021 12:00:00 AM,03/19/2021 12:00:00 AM,1105,12,77th Street,1218,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,58TH ST,FIGUEROA ST,33.9897,-118.2827


Criar um código com condições lógicas para o mesmo resultado ficaria mais complicado.

In [60]:
mascara = (df.AREA == 12)|(df.AREA == 3)|(df.AREA == 1)
df.loc[mascara]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,0444 0913,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,0416 1822 1414,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
201220752,09/16/2020 12:00:00 AM,09/16/2020 12:00:00 AM,1230,12,Mission,1259,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),2004 1820 0913 0329 1202,...,IC,Invest Cont,745.0,,,,700 E 73RD ST,,33.9739,-118.2630
200100501,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,30,1,Central,163,1,121,"RAPE, FORCIBLE",0413 1822 1262 1415,...,IC,Invest Cont,121.0,998.0,,,700 S BROADWAY,,34.0452,-118.2534
200100502,01/02/2020 12:00:00 AM,01/02/2020 12:00:00 AM,1315,1,Central,161,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),1402 2004 0344 0387,...,IC,Invest Cont,442.0,998.0,,,700 S FIGUEROA ST,,34.0483,-118.2631
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
210311528,06/11/2021 12:00:00 AM,06/11/2021 12:00:00 AM,2130,3,Southwest,356,2,888,TRESPASSING,0360 0554 0913,...,IC,Invest Cont,888.0,,,,1500 W 36TH ST,,34.0228,-118.3046
210111609,06/09/2021 12:00:00 AM,06/07/2021 12:00:00 AM,1500,1,Central,154,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,2000 0913 1814 0319 1310 0448 0408 0421 0416,...,IC,Invest Cont,626.0,,,,5TH,SPRING,34.0474,-118.2496
211215635,07/13/2021 12:00:00 AM,06/13/2021 12:00:00 AM,100,12,77th Street,1266,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),,...,IC,Invest Cont,420.0,,,,8000 S HOOVER ST,,33.9662,-118.2871
211208872,03/19/2021 12:00:00 AM,03/19/2021 12:00:00 AM,1105,12,77th Street,1218,1,510,VEHICLE - STOLEN,,...,IC,Invest Cont,510.0,,,,58TH ST,FIGUEROA ST,33.9897,-118.2827


A indexação por colunas também nos ajuda a criar novas colunas. Basta usar a mesma sintaxe de indexação, passando o nome da nova coluna e os dados que devem estar nela.

In [61]:
df['nova_coluna'] = df.AREA + 10

In [62]:
df.nova_coluna

DR_NO
10304468     13
190101086    11
201220752    22
191501505    25
191921269    29
             ..
211208872    22
210506531    15
211710505    27
210312887    13
212005847    30
Name: nova_coluna, Length: 317854, dtype: int64

# Datas
___

Além dos tipos tradicionais de dados do python ainda temos o ```datetime``` que é um tipo de dados específico para trabalhar com datas e horas. Esse tipo de dado é bastante utilizado para criar novas colunas e extrair mais informações sobre os dados, finalmente também é possível fazer várias operações com datas que ajudam a nossa análise.

In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 317854 entries, 10304468 to 212005847
Data columns (total 28 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Date Rptd       317854 non-null  object 
 1   DATE OCC        317854 non-null  object 
 2   TIME OCC        317854 non-null  int64  
 3   AREA            317854 non-null  int64  
 4   AREA NAME       317854 non-null  object 
 5   Rpt Dist No     317854 non-null  int64  
 6   Part 1-2        317854 non-null  int64  
 7   Crm Cd          317854 non-null  int64  
 8   Crm Cd Desc     317854 non-null  object 
 9   Mocodes         274531 non-null  object 
 10  Vict Age        317854 non-null  int64  
 11  Vict Sex        276448 non-null  object 
 12  Vict Descent    276443 non-null  object 
 13  Premis Cd       317849 non-null  float64
 14  Premis Desc     317746 non-null  object 
 15  Weapon Used Cd  116477 non-null  float64
 16  Weapon Desc     116477 non-null  object 
 17  

A coluna ```DATE OCC``` está como objeto, o correto seria transformá-la em ```datetime``` para isso podemos utilizar a função 

```python
pd.to_datetime()
```

In [64]:
pd.to_datetime(df['DATE OCC'])

DR_NO
10304468    2020-01-08
190101086   2020-01-01
201220752   2020-09-16
191501505   2020-01-01
191921269   2020-01-01
               ...    
211208872   2021-03-19
210506531   2021-03-04
211710505   2021-07-09
210312887   2021-07-12
212005847   2021-02-22
Name: DATE OCC, Length: 317854, dtype: datetime64[ns]

O ```datetime``` possui métodos para que possamos extrair informações mais específicas de cada data. Para acessar esses métodos temos que selecionar a coluna com o datetime e utilizar o método ```.dt```.

In [65]:
## extraindo o ano de cada data

pd.to_datetime(df['DATE OCC']).dt.year

DR_NO
10304468     2020
190101086    2020
201220752    2020
191501505    2020
191921269    2020
             ... 
211208872    2021
210506531    2021
211710505    2021
210312887    2021
212005847    2021
Name: DATE OCC, Length: 317854, dtype: int64

In [66]:
## extraindo o mês de cada data

pd.to_datetime(df['DATE OCC']).dt.month

DR_NO
10304468     1
190101086    1
201220752    9
191501505    1
191921269    1
            ..
211208872    3
210506531    3
211710505    7
210312887    7
212005847    2
Name: DATE OCC, Length: 317854, dtype: int64

In [67]:
## extraindo o número da semana

pd.to_datetime(df['DATE OCC']).dt.isocalendar().week

DR_NO
10304468      2
190101086     1
201220752    38
191501505     1
191921269     1
             ..
211208872    11
210506531     9
211710505    27
210312887    28
212005847     8
Name: week, Length: 317854, dtype: UInt32

In [68]:
## extraindo o dia do mês

pd.to_datetime(df['DATE OCC']).dt.day

DR_NO
10304468      8
190101086     1
201220752    16
191501505     1
191921269     1
             ..
211208872    19
210506531     4
211710505     9
210312887    12
212005847    22
Name: DATE OCC, Length: 317854, dtype: int64

In [69]:
## extraindo o dia da semana (segunda == 0 até domingo == 6)

pd.to_datetime(df['DATE OCC']).dt.dayofweek

DR_NO
10304468     2
190101086    2
201220752    2
191501505    2
191921269    2
            ..
211208872    4
210506531    3
211710505    4
210312887    0
212005847    0
Name: DATE OCC, Length: 317854, dtype: int64

Para executar operações com as datas temos que utilizar a função ```pd.DateOffset```. Essa função é capaz criar um objeto de data que pode ser facilmente utilizado em operações.

In [70]:
## adicionando um dia

pd.to_datetime(df['DATE OCC']) + 1

TypeError: Addition/subtraction of integers and integer-arrays with DatetimeArray is no longer supported.  Instead of adding/subtracting `n`, use `n * obj.freq`

In [71]:
## adicionando um dia

pd.to_datetime(df['DATE OCC']) + pd.DateOffset(days=1)

DR_NO
10304468    2020-01-09
190101086   2020-01-02
201220752   2020-09-17
191501505   2020-01-02
191921269   2020-01-02
               ...    
211208872   2021-03-20
210506531   2021-03-05
211710505   2021-07-10
210312887   2021-07-13
212005847   2021-02-23
Name: DATE OCC, Length: 317854, dtype: datetime64[ns]

In [72]:
## subtraindo um dia

pd.to_datetime(df['DATE OCC']) + pd.DateOffset(days=-1)

DR_NO
10304468    2020-01-07
190101086   2019-12-31
201220752   2020-09-15
191501505   2019-12-31
191921269   2019-12-31
               ...    
211208872   2021-03-18
210506531   2021-03-03
211710505   2021-07-08
210312887   2021-07-11
212005847   2021-02-21
Name: DATE OCC, Length: 317854, dtype: datetime64[ns]

As datas também aceitam serem alvos de operações lógicas! Através de strings, o que deixa as operações lógicas bem mais fáceis.

In [73]:
mascara = pd.to_datetime(df['DATE OCC']) > '2021-01-01'
df[mascara]

Unnamed: 0_level_0,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,...,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON,nova_coluna
DR_NO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
211607282,04/25/2021 12:00:00 AM,04/25/2021 12:00:00 AM,300,16,Foothill,1675,1,440,THEFT PLAIN - PETTY ($950 & UNDER),1822 0344,...,Invest Cont,440.0,,,,10900 DORA ST,,34.2293,-118.3675,26
210811260,07/04/2021 12:00:00 AM,03/26/2021 12:00:00 AM,930,8,West LA,849,1,341,"THEFT-GRAND ($950.01 & OVER)EXCPT,GUNS,FOWL,LI...",0344 2034 1822 0352 1221,...,Invest Cont,341.0,,,,1100 S BEDFORD ST,,34.0546,-118.3806,18
210207095,03/19/2021 12:00:00 AM,03/18/2021 12:00:00 AM,1100,2,Rampart,211,1,510,VEHICLE - STOLEN,,...,Invest Cont,510.0,,,,600 N MARIPOSA AV,,34.0812,-118.2992,12
210906427,03/01/2021 12:00:00 AM,03/01/2021 12:00:00 AM,1409,9,Van Nuys,952,1,440,THEFT PLAIN - PETTY ($950 & UNDER),0344 1822 0394 1420,...,Invest Cont,440.0,,,,5400 N SEPULVEDA BL,,34.1685,-118.4662,19
210909634,05/24/2021 12:00:00 AM,05/19/2021 12:00:00 AM,1135,9,Van Nuys,981,1,330,BURGLARY FROM VEHICLE,1414 1822 1300 0344 0321 1609,...,Invest Cont,330.0,,,,4400 NOBLE AV,,34.1505,-118.4622,19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211208872,03/19/2021 12:00:00 AM,03/19/2021 12:00:00 AM,1105,12,77th Street,1218,1,510,VEHICLE - STOLEN,,...,Invest Cont,510.0,,,,58TH ST,FIGUEROA ST,33.9897,-118.2827,22
210506531,03/04/2021 12:00:00 AM,03/04/2021 12:00:00 AM,2210,5,Harbor,564,2,434,FALSE IMPRISONMENT,0319 0334 0400 0443 1814 2000,...,Adult Arrest,434.0,,,,200 W 2ND ST,,33.7424,-118.2814,15
211710505,07/09/2021 12:00:00 AM,07/09/2021 12:00:00 AM,1050,17,Devonshire,1798,2,624,BATTERY - SIMPLE ASSAULT,0913 1804 0416,...,Invest Cont,624.0,,,,8800 DEMPSEY AV,,34.2302,-118.4775,27
210312887,07/12/2021 12:00:00 AM,07/12/2021 12:00:00 AM,1200,3,Southwest,363,1,350,"THEFT, PERSON",1822 0344 0346 2004 1259 1251 1402,...,Invest Cont,350.0,,,,CRENSHAW BL,STOCKER ST,34.0088,-118.3351,13


# Funções Estatísticas
___

Existem algumas funções já implementadas no pandas que nos ajudam a entender melhor as estatísticas do nosso dataframe. Algumas funções podem aplicadas a séries, em dataframes ou nas duas.

In [74]:
df = pd.read_csv('data/carros.csv')
df.head()

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
0,Corsa,2018,7885,Manual,9876,Petrol,145,55.4,1.4
1,Corsa,2019,11995,Manual,2500,Petrol,145,54.3,1.4
2,Corsa,2017,9777,Automatic,9625,Petrol,145,47.9,1.4
3,Corsa,2016,8500,Manual,25796,Petrol,30,55.4,1.4
4,Corsa,2019,10000,Manual,3887,Petrol,145,43.5,1.4


Inicialmente é importante inspecionar nossos dados. A função ```.head()```, ```.tail()``` e ```.sample()``` são as principais para ter uma noção rápida a qualidade dos dados.

In [75]:
## tail pegando as últimas linhas

df.tail()

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
13627,Tigra,2007,2499,Manual,48640,Petrol,165,46.3,1.4
13628,Vectra,2007,1795,Manual,75000,Petrol,240,39.2,1.8
13629,Vectra,2005,1495,Manual,74000,Petrol,235,38.7,1.8
13630,Vectra,2008,1695,Automatic,131000,Diesel,200,39.8,1.9
13631,Vectra,2005,1450,Manual,147000,Petrol,330,27.9,3.2


In [76]:
## sample pegando uma amostra de 10 elementos

df.sample(10)

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
12351,Insignia,2018,15791,Manual,14481,Petrol,145,47.1,1.5
12483,Insignia,2016,9995,Manual,23922,Petrol,125,50.4,1.4
3946,Astra,2017,9999,Manual,13833,Petrol,150,51.4,1.4
3059,Corsa,2018,9590,Manual,5447,Petrol,150,43.5,1.4
3559,Astra,2017,11498,Semi-Auto,18717,Petrol,145,51.4,1.4
1225,Corsa,2019,11095,Manual,8346,Petrol,145,44.8,1.4
5538,Astra,2019,13989,Manual,674,Diesel,145,72.4,1.6
10624,Zafira,2016,9999,Manual,37737,Petrol,200,42.2,1.4
7585,Mokka X,2018,12998,Manual,10628,Petrol,145,39.2,1.4
9639,Crossland X,2019,11140,Manual,3499,Petrol,145,44.8,1.2


As principais estatísticas descritivas podem ser facilmente calculadas utilizando funções e métodos já implementados nas classes do pandas.

In [77]:
## descobrindo a média de preço de venda dos carros

df.price.mean()

10406.457893192488

In [78]:
## descobrindo a mediana dos preços

df.price.median()

9999.0

In [79]:
## descobrindo a variância dos preços

df.price.var()

12726252.688124914

In [80]:
## descobrindo o desvio padrão dos preços

df.price.std()

3567.387375674937

In [81]:
## descobrindo a contagem de preços

df.price.count()

13632

In [82]:
## descobrindo o valor mínimo e máximo

print(df.price.min())
print(df.price.max())

450
52489


Essas medidas são simples e podem ser facilmente calculadas utilizando a função ```.describe()```.

In [83]:
## utilizando describe

df.price.describe()

count    13632.000000
mean     10406.457893
std       3567.387376
min        450.000000
25%       7899.000000
50%       9999.000000
75%      12580.750000
max      52489.000000
Name: price, dtype: float64

O ```.describe()``` também traz os valores associados ao primeiro quartil (25%), mediana (50%) e terceiro quartil (75%). É possível utilizar o parâmetro percentiles para personalizar quais valores de percentis gostaríamos que o describe devolva.

In [84]:
## utilizando describe

df.price.describe(percentiles=[0.25,0.5,0.75,0.99])

count    13632.000000
mean     10406.457893
std       3567.387376
min        450.000000
25%       7899.000000
50%       9999.000000
75%      12580.750000
99%      19995.000000
max      52489.000000
Name: price, dtype: float64

O describe retorna uma série e podemos acessar os valores fazendo uma indexção simples

In [85]:
type(df.price.describe(percentiles=[0.25,0.5,0.75,0.99]))

pandas.core.series.Series

In [86]:
df.price.describe(percentiles=[0.25,0.5,0.75,0.99]).loc['99%']

19995.0

Outra estatística que nos ajuda a entender mais sobre nossos dados é o IQR.

In [87]:
price_stats = df.price.describe()

In [88]:
iqr = price_stats.loc['75%'] - price_stats.loc['25%']

In [89]:
iqr

4681.75

Um IQR muito alto demonstra que existe uma variação também bem grande em pelo menos 50% dos dados, um IQR baixo demonstra uma maior consistência nos valores dos carros.

Outra função que, apesar de não ser estatística, ajuda demais nas análises do dia a dia é a ```pct_change()``` que retorna mudança percentual de um valor para o valor imediatamente abaixo.

In [90]:
pd.Series([1,2,3])

0    1
1    2
2    3
dtype: int64

In [91]:
## Qual é o aumento percentual na média dos preços ao longo dos anos de 2017 até 2020

ls_anos = [2017,2018,2019,2020]
mascara = (df.year.isin(ls_anos)) & (df.model == ' Corsa')
media_de_preco = df[mascara].groupby('year').mean().price

media_de_preco.pct_change()

year
2017         NaN
2018    0.100739
2019    0.147986
2020    0.590265
Name: price, dtype: float64

A função ```.rank()``` elabora um ranking dos valores.

In [92]:
pd.DataFrame({'price':df.price,'rank':df.price.rank(ascending=False)}).sort_values('rank')

Unnamed: 0,price,rank
7042,52489,1.0
12871,39000,2.0
12067,28995,3.0
11918,28991,4.0
13589,27995,5.0
...,...,...
3464,695,13628.0
3272,590,13629.0
3258,495,13630.0
5920,450,13631.5


Finalmente temos o ```.corr()``` que traz a correlação entre valores. A correlação padrão calculada é a de pearson, mas pode ser alterada e até criamos a nossa própria função e utilizar na função.

In [93]:
## existe uma correlação entre preço e mileage

df[['price','mileage']].corr()

Unnamed: 0,price,mileage
price,1.0,-0.607549
mileage,-0.607549,1.0


# Transformações (reshaping)
___

O trabalho de um cientista de dados envolve, em sua grande maioria, criar datasets "tidy" esse é um termo utilizado para descriminar formatos de datasets que estão apropriados para análise ou sejam facilmente interpretados e lidos. Esse processo envolve a transformação e preparação de dados complexos e estruturados, algumas vezes, pensando somente em termos de armazenamento.

Já sabemos que ```shape``` descreve o formato de um dataset.

In [95]:
## avaliando o dataset que temos

df

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
0,Corsa,2018,7885,Manual,9876,Petrol,145,55.4,1.4
1,Corsa,2019,11995,Manual,2500,Petrol,145,54.3,1.4
2,Corsa,2017,9777,Automatic,9625,Petrol,145,47.9,1.4
3,Corsa,2016,8500,Manual,25796,Petrol,30,55.4,1.4
4,Corsa,2019,10000,Manual,3887,Petrol,145,43.5,1.4
...,...,...,...,...,...,...,...,...,...
13627,Tigra,2007,2499,Manual,48640,Petrol,165,46.3,1.4
13628,Vectra,2007,1795,Manual,75000,Petrol,240,39.2,1.8
13629,Vectra,2005,1495,Manual,74000,Petrol,235,38.7,1.8
13630,Vectra,2008,1695,Automatic,131000,Diesel,200,39.8,1.9


In [96]:
df.shape

(13632, 9)

Aqui sabemos que o dataset possui 13632 linhas e 9 colunas. Cada linha significa um carro diferente que foi vendido e suas características (features). Chamamos essa organização do dataset de ```wide```. Isso significa que cada linha é única, porém abrimos a oportunidade para termos valores nulos (faltantes) no dataset. Esse formato é interessante para análises estatísticas e até tratamento de valores nulos.

In [112]:
df_long = df.groupby('model').mean().drop('year',axis=1).melt(ignore_index=False)
df_long

Unnamed: 0_level_0,variable,value
model,Unnamed: 1_level_1,Unnamed: 2_level_1
Adam,price,8017.907127
Agila,price,4085.909091
Ampera,price,11631.333333
Antara,price,6117.555556
Astra,price,10471.414260
...,...,...
Vectra,engineSize,2.175000
Viva,engineSize,1.000000
Vivaro,engineSize,1.600000
Zafira,engineSize,1.498831


O dataset acima possui 110 linhas e 2 colunas. Aqui temos cada característica (feature) em uma linha e não mais em colunas, esse é o formato ```long```.

In [114]:
df_long.loc[' Adam']

Unnamed: 0_level_0,variable,value
model,Unnamed: 1_level_1,Unnamed: 2_level_1
Adam,price,8017.907127
Adam,mileage,20511.941685
Adam,tax,131.641469
Adam,mpg,51.514687
Adam,engineSize,1.241037


Perceba que para o modelo de carro chamado "Adam" temos uma coluna que descreve qual é a variável e outra coluna que descreve o valor associado a variável. Se não tivessemos informação sobre "engineSize" desse modelo a linha que representa essa informação não existiria. Esse é o formato mais comum em dados chamados de "tidy", pois pode melhor sumarizar dados, torna a construção de gráficos mais fácil e também deixa o dataset pronto para análises mais complexas (através da sua comparação com dicionários, chave-valor).

A função ```.melt()``` transforma nosso dataset de ```wide``` para ```long```.<br>
As funções ```.pivot()``` e ```.pivot_table()``` transforma nosso dataset de ```long``` para ```wide```.

Outra transformação comum é transposição. Não tão eficiente, porém uma ferramenta a mais para vermos nossos dados. A transposição faz com que linhas sejam colunas e colunas sejam linhas.

In [117]:
df.head()

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
0,Corsa,2018,7885,Manual,9876,Petrol,145,55.4,1.4
1,Corsa,2019,11995,Manual,2500,Petrol,145,54.3,1.4
2,Corsa,2017,9777,Automatic,9625,Petrol,145,47.9,1.4
3,Corsa,2016,8500,Manual,25796,Petrol,30,55.4,1.4
4,Corsa,2019,10000,Manual,3887,Petrol,145,43.5,1.4


In [120]:
## transpondo o dataset

df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13622,13623,13624,13625,13626,13627,13628,13629,13630,13631
model,Corsa,Corsa,Corsa,Corsa,Corsa,Corsa,Corsa,Corsa,Corsa,Corsa,...,Agila,Agila,Agila,Tigra,Tigra,Tigra,Vectra,Vectra,Vectra,Vectra
year,2018,2019,2017,2016,2019,2017,2011,2019,2018,2016,...,2009,2014,2012,2009,2006,2007,2007,2005,2008,2005
price,7885,11995,9777,8500,10000,9743,3995,9990,10000,6999,...,5113,7250,5200,2995,1795,2499,1795,1495,1695,1450
transmission,Manual,Manual,Automatic,Manual,Manual,Manual,Manual,Manual,Manual,Manual,...,Automatic,Automatic,Automatic,Manual,Manual,Manual,Manual,Manual,Automatic,Manual
mileage,9876,2500,9625,25796,3887,13546,53067,3953,11160,13046,...,21098,18488,32028,34000,92000,48640,75000,74000,131000,147000
fuelType,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,...,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Petrol,Diesel,Petrol
tax,145,145,145,30,145,145,145,150,145,30,...,160,145,145,160,265,165,240,235,200,330
mpg,55.4,54.3,47.9,55.4,43.5,49.6,49.6,43.5,43.5,55.4,...,47.9,49.6,49.6,46.3,36.7,46.3,39.2,38.7,39.8,27.9
engineSize,1.4,1.4,1.4,1.4,1.4,1.4,1.4,1.4,1.4,1.4,...,1.2,1.2,1.2,1.4,1.8,1.4,1.8,1.8,1.9,3.2


É imporante entender o conceito de ```unidade de análise``` nos datasets de formato ```long``` a unidade de análise é cada característica de um carro, ou seja, estamos interessados nas características de cada carro e não no carro em si. No formato ```wide``` estamos preocupado com todas as caracaterísticas do carro ao mesmo tempo, nossa unidade de análise é o carro como um todo e não só uma característica dele.

> wide:

> * cada linhas tem várias features da mesma unidade de análise
> * cada feature está representada em uma coluna diferente
> * não contem observações repetidas
> * pode conter um grande número de dados faltantes

> long :

> * precisa de uma coluna para identificar features da mesma observação
> * cada linha representa uma feature
> * existem múltiplas linhas para a mesma observação
> * inexistência de valores nulos

O formato long é o melhor para guardar dados limpos, porém se precisarmos demonstrar a relação entre algumas features, fazer operações com datas ou até fazer operações com colunas o formato wide vai ser necessário. Para isso utilizamos o ```.pivot()``` ou o ```.pivot_table()```.

O método 

```python
df.pivot_table(index,columns,values,aggfunc)
```

possui quatro parâmetros, o primeiro discrimina qual deve ser a nova unidade de análise, o segundo recebe a coluna que deve ser explodida (e criará N colunas para N valores únicos na coluna passada), o terceiro parâmetro que recebe os valores que devem popular cada nova coluna criada e o último controla o comportamento de agregação que será feito quando encontrarmos índices iguais.

In [157]:
## utilizando o dataset do titanic

titanic = pd.read_csv('data/titanic.csv')
titanic.columns = ['id' if x == 'PassengerId' else x.lower() for x in titanic.columns]
titanic.head()

Unnamed: 0,id,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Imagine que queremos analisar se a **idade e o sexo tiveram algum tipo influência na possibilidade de sobrevivência** de cada pessoa. Como executar essa análise?

In [158]:
## primeiro vamos selecionar somente os dados necessários

data = titanic[['sex','survived','age','id']]
data.head()

Unnamed: 0,sex,survived,age,id
0,male,0,22.0,1
1,female,1,38.0,2
2,female,1,26.0,3
3,female,1,35.0,4
4,male,0,35.0,5


In [159]:
## agora basta utilizar pivot_table

data.pivot_table(index='survived',columns=['sex','age'],values='id',aggfunc='count')

sex,female,female,female,female,female,female,female,female,female,female,...,male,male,male,male,male,male,male,male,male,male
age,0.75,1.00,2.00,3.00,4.00,5.00,6.00,7.00,8.00,9.00,...,61.00,62.00,64.00,65.00,66.00,70.00,70.50,71.00,74.00,80.00
survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,,,4.0,1.0,,,1.0,,1.0,4.0,...,3.0,2.0,2.0,3.0,1.0,2.0,1.0,2.0,1.0,
1,2.0,2.0,2.0,1.0,5.0,4.0,1.0,1.0,1.0,,...,,1.0,,,,,,,,1.0


A vizualização acima não é interssante pois é ilegível.

In [162]:
## executando um tranpose

data.pivot_table(index='survived',columns=['sex','age'],values='id',aggfunc='count').T

Unnamed: 0_level_0,survived,0,1
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.75,,2.0
female,1.00,,2.0
female,2.00,4.0,2.0
female,3.00,1.0,1.0
female,4.00,,5.0
...,...,...,...
male,70.00,2.0,
male,70.50,1.0,
male,71.00,2.0,
male,74.00,1.0,


Mesmo com o transpose é complicado entender os dados, isso acontece porque a variável 'age' é numérica e pode assumir vários valores diferentes, talvez tê-la separado em grupos seja mais interessante. Vamos criar uma coluna nova que descreve se aquela pessoa está acima 65 anos ou abaixo de 14, para isso precisaremos de uma função.

In [164]:
def bin_idade(value):
    if value >= 65 or value < 14:
        return 'prioridade'
    else:
        return 'n_prioridade'

Agora podemos aplicar a função ```bin_idade``` por todas as idades dos passageiros criando uma nova coluna ```prioridade```

In [171]:
data['prioridade'] = bin_idade(data.age)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Ao utilizar a sintaxe acima a função, ao invés de receber um valor único, recebe uma série inteira e não está preparada para isso. Uma opção seria buscarmos cada valor de 'age' e de forma iterativa passarmos ele para ```bin_idade```.

In [181]:
ls_prioridades = []

for idade in data.age.values:
    ls_prioridades.append(bin_idade(idade))
else:
    ls_prioridades = np.array(ls_prioridades)

In [182]:
data['prioridade'] = ls_prioridades
data

Unnamed: 0,sex,survived,age,id,prioridade
0,male,0,22.0,1,n_prioridade
1,female,1,38.0,2,n_prioridade
2,female,1,26.0,3,n_prioridade
3,female,1,35.0,4,n_prioridade
4,male,0,35.0,5,n_prioridade
...,...,...,...,...,...
886,male,0,27.0,887,n_prioridade
887,female,1,19.0,888,n_prioridade
888,female,0,,889,n_prioridade
889,male,1,26.0,890,n_prioridade


A resolução utilizada acima não está incorreta, porém não é a mais adequada, o pandas já nos oferece uma forma mais pythonica de executar tarefas desse tipo e sem a necessidade de loops. Para isso basta utilizar o método ```.apply()``` que recebe uma função e passa cada valor de uma coluna específica para esta função.

In [184]:
## redefinindo data
data = titanic[['sex','survived','age','id']]
data.head()

Unnamed: 0,sex,survived,age,id
0,male,0,22.0,1
1,female,1,38.0,2
2,female,1,26.0,3
3,female,1,35.0,4
4,male,0,35.0,5


In [185]:
data.age.apply(bin_idade)

0      n_prioridade
1      n_prioridade
2      n_prioridade
3      n_prioridade
4      n_prioridade
           ...     
886    n_prioridade
887    n_prioridade
888    n_prioridade
889    n_prioridade
890    n_prioridade
Name: age, Length: 891, dtype: object

Veja que ao utilizar o apply ele já retorna uma série contendo o resultado da aplicação da função a cada um dos valores da coluna 'age'.

In [187]:
## criando a coluna

data['prioridade'] = data.age.apply(bin_idade)

In [195]:
## executando a análise necessária

result = data.pivot_table(index='survived',columns=['sex','prioridade'],values='id',aggfunc='count')
result

sex,female,female,male,male
prioridade,n_prioridade,prioridade,n_prioridade,prioridade
survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,68,13,442,26
1,212,21,87,22


Agora podemos inferir algumas coisas com a tabela resultante.

In [206]:
## chance de sobrevivência feminina n_prioridade
## 212/(68+212+23+21)

surv_fem_np = result.iloc[1,0] / result.iloc[:,0:2].sum().sum()
surv_fem_np

0.6751592356687898

In [208]:
## chance de sobrevivência masculina n_prioridade
## 87/(442+87+26+22)

surv_masc_np = result.iloc[1,2] / result.iloc[:,2:].sum().sum()
surv_masc_np

0.15077989601386482

In [215]:
chance = round(pd.Series(np.array([surv_masc_np,surv_fem_np]),index=['masc','fem']).pct_change().fem*100,2)
print(f'Entre os passageiros sem prioridade as mulheres possuem uma probabilidade de {chance}% maior de sobrevivência do que os homens no mesmo grupo.')

Entre os passageiros sem prioridade as mulheres possuem uma probabilidade de 347.78% maior de sobrevivência do que os homens no mesmo grupo.
