<a href="https://colab.research.google.com/github/devthumos/aboutpandas/blob/main/Python_para_Data_Science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python para Data Science: Funções, Pacotes e Pandas

## A biblioteca dos cientistas: Pandas

### Estruturas de Dados

Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy

**Series**

Arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado <br>
Os rótulos das linhas de uma series são conhecidos como index <br>
<br>
Sintaxe básica:
```
s = pd.Series(data=dados, index=index)
```

In [None]:
import pandas as pd

series = pd.Series(data=[1, 2, 3], index=[f"Number {x}" for x in range(1, 4)])
series

Number 1    1
Number 2    2
Number 3    3
dtype: int64

O argumento data pode ser um dicionário, uma lista, um array Numpy ou uma constante

**Dataframes**

Uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas <br>
Assim como as series, os dataframes são capazes de armazenar qualquer tipo de dado <br>
<br>
Sintaxe básica:
```
df = pd.DataFrame(data=dados, index=index, columns=columns
```

In [None]:
import pandas as pd

dataset = pd.DataFrame(data=[[x, x, x] for x in range(1, 100)], index=[f"{x} º Row" for x in range(1, 100)], columns=[f"{x} º Column" for x in range(1, 4)])
dataset

Unnamed: 0,1 º Column,2 º Column,3 º Column
1 º Row,1,1,1
2 º Row,2,2,2
3 º Row,3,3,3
4 º Row,4,4,4
5 º Row,5,5,5
...,...,...,...
95 º Row,95,95,95
96 º Row,96,96,96
97 º Row,97,97,97
98 º Row,98,98,98


**Prática**

In [None]:
from google.colab import drive
drive.mount("/content/gdrive")

Mounted at /content/gdrive


Temos aqui o **index_col** <br>
Esse parâmetro especifica qual coluna deve ser levada como índex

In [None]:
import pandas as pd

dataset = pd.read_csv("/content/gdrive/MyDrive/db.csv", sep=";", index_col=0)
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


### Seleções com DataFrames

**Importando bibliotecas, arquivos do drive e lendo o csv**

In [None]:
from google.colab import drive
import pandas as pd

drive.mount("/content/gdrive")

dataset = pd.read_csv("/content/gdrive/MyDrive/db.csv", sep=";", index_col=0)
dataset.head()

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


**Slicing**

É o mesmo slicing que já conhecemos das listas, tuplas e arrays Numpy <br>
Porém não conseguimos fazer o slicing das colunas como fazemos no Numpy <br>
<br>
Sintáxe:
```
DataFrame[start:Final:Step]
```

In [None]:
dataset[5:10:1]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2


**iloc** e **loc**

Podemos fazer seleções melhores e mais elegantes utilizando o *iloc* e o *loc* <br>
Sendo a sintaxe do iloc bem parecida com a do slicing do Numpy
<br>
<br>
*Obs: Lembrando que estamos utilizando o loc para acessar os índexes pelo fato dos indexes estarem sendo considerados como a coluna "Nome" do nosso dataset csv*
<br>
<br>
Sintaxe do <strong>iloc</strong>:
```
DataFrame.iloc[Start_Row:Final_Row:Step_Row, Start_Column:Final_Column:Step_Column]
```

In [None]:
dataset.iloc[5:10:1, 1:3:1]

Unnamed: 0_level_0,Ano,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Palio Weekend,2012,10728.0
A5,2019,
Série 3 Cabrio,2009,77599.0
Dodge Jorney,2010,99197.0
Carens,2011,37978.0


O iloc também nos permite fazer seleções, mas se utiliza dos índices numéricos, ou seja, na posição das informações

In [None]:
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


Sintaxe do loc:
```
DataFrame.loc[["Column_1", "Column_2", ..., "Column_n"]]
DataFrame.loc["Column_n"]
```

In [None]:
dataset.loc["Passat"]

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: Passat, dtype: object

In [None]:
dataset.loc[["Passat", "DS5"]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [None]:
print(type(dataset.loc["Passat"]))
print(type(dataset.loc[["Passat", "DS5"]]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


### Queries com DataFrames

**Importando bibliotecas, arquivos do drive e lendo o csv**

In [None]:
from google.colab import drive
import pandas as pd

drive.mount("/content/gdrive")

dataset = pd.read_csv("/content/gdrive/MyDrive/db.csv", sep=";", index_col=0)
dataset.head()

Podemos fazer Querys de uma Forma mais crua como a abaixo

In [None]:
dataset[(dataset.Motor == "Motor Diesel") & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


In [None]:
dataset[(dataset.Motor == "Motor Diesel") | (dataset["Zero_km"] == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
...,...,...,...,...,...,...
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33
XC60,Motor 4.0 Turbo,2019,,True,"['Painel digital', 'Piloto automático', 'Centr...",77675.79


Também podemos fazer essas querys utilizando o método query

In [None]:
dataset.query("Motor == 'Motor Diesel' and Zero_km == True")

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


In [None]:
dataset.query("Motor == 'Motor Diesel' or Zero_km == True")

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
...,...,...,...,...,...,...
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33
XC60,Motor 4.0 Turbo,2019,,True,"['Painel digital', 'Piloto automático', 'Centr...",77675.79


### Tratamento de Dados

**Importando bibliotecas, arquivos do drive e lendo o csv**

In [None]:
from google.colab import drive
import pandas as pd

drive.mount("/content/gdrive")

dataset = pd.read_csv("/content/gdrive/MyDrive/db.csv", sep=";", index_col=0)
dataset.head()

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


**isna()**
<br>
<br>
É uma função que nos permite selecionar informações nulas ou não, nos devolvendo uam series booleana identificando quais valores são ou não "NA"

In [None]:
dataset[dataset.Quilometragem.isna()]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.40
...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33


**fillna()**
<br>
<br>
A função fillna() nos disponibiliza uma forma de preenchermos esses valores nulos

In [None]:
dataset.Quilometragem.fillna(0, inplace=True)

**dropna()**
<br>
<br>
A função dropna() elimina todos os registros que contêm os valores nulos de um dataframe a partir do parâmetro subset<br>que recebe a variável na qual queremos buscar os valores nulos que serão eliminados

In [None]:
# Pegando o dataset original
dataset = pd.read_csv("/content/gdrive/MyDrive/db.csv", sep=";", index_col=0)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(2)
memory usage: 12.3+ KB


In [None]:
dataset = dataset.dropna(subset=["Quilometragem"])

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 197 entries, Jetta Variant to Macan
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          197 non-null    object 
 1   Ano            197 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        197 non-null    bool   
 4   Acessórios     197 non-null    object 
 5   Valor          197 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(2)
memory usage: 9.4+ KB
