<a href="https://colab.research.google.com/github/marcos-marques/ds_base/blob/main/pandas_basic_for_data_science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Data Science 📊

Esta série de Notebooks tem como objetivo de trazer uma introdução das principais bibliotecas utilizandas no universo de Data Science.

------

<div><p><b>ATENÇÃO:</b> <i>Você não conseguirá editar esse notebook, salve este notebook em seu Google Drive pessoal.</i></p>
<p>Passos: <b>Acessar o menu Arquivo </b> > <b> Salvar uma cópia no Drive</b> </p>
</div>

# Pandas Básico 🐼

A biblioteca Pandas é construída no NumPy e fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python.

In [1]:
# Use a seguinte convenção de importação
import pandas as pd

## Pedindo Ajuda

Se você precisar saber como funciona uma determinada função no Pandas, você pode utilizar a função **help** em seguida passar o objeto Pandas para o qual precisa de ajuda com a função. 

In [5]:
help(pd.DataFrame.count)

Help on function count in module pandas.core.frame:

count(self, axis: 'Axis' = 0, level: 'Level | None' = None, numeric_only: 'bool' = False)
    Count non-NA cells for each column or row.
    
    The values `None`, `NaN`, `NaT`, and optionally `numpy.inf` (depending
    on `pandas.options.mode.use_inf_as_na`) are considered NA.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        If 0 or 'index' counts are generated for each column.
        If 1 or 'columns' counts are generated for each row.
    level : int or str, optional
        If the axis is a `MultiIndex` (hierarchical), count along a
        particular `level`, collapsing into a `DataFrame`.
        A `str` specifies the level name.
    numeric_only : bool, default False
        Include only `float`, `int` or `boolean` data.
    
    Returns
    -------
    Series or DataFrame
        For each column/row the number of non-NA/null entries.
        If `level` is specified returns a `D

## Estruturas de dados do Pandas

### Series

Uma matriz rotulada unidimensional capaz de armazenar qualquer tipo de dados.

In [2]:
sr = pd.Series([30, -8, 12, 14, 33], index=[ 'a', 'b', 'c', 'd', 'e'])
sr

a    30
b    -8
c    12
d    14
e    33
dtype: int64

### Data Frame

Uma estrutura de dados rotulada bidimensional com colunas de tipos potencialmente diferentes.

In [3]:
# colunas ['Amazonas',  'Pernambuco',  'São Paulo', 'Mato Grosso', 'Santa Catarina']
# index 0, 1, 2

data = {'Estado': ['Amazonas',  'Pernambuco',  'São Paulo', 'Mato Grosso', 'Santa Catarina'], 'Capital': ['Manaus',  'Recife',  'São Paulo', 'Cuiabá', 'Florianópolis'], 'População': [39000000, 93000000, 443000000, 32000000, 62000000]} 

df = pd.DataFrame(data,columns=['Estado',  'Capital',  'População'])

df

Unnamed: 0,Estado,Capital,População
0,Amazonas,Manaus,39000000
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000
3,Mato Grosso,Cuiabá,32000000
4,Santa Catarina,Florianópolis,62000000


## Dropping

- Removendo valores de **linhas**
- Removendo valores de **colunas**

In [4]:
# removendo valores de linhas (axis=0)
# ao utilizar o drop, você não exclui os valores da serie "sr", apenas exclui para essa execução, mas a serie "sr" continua tendo os valores
print('Utilizando drop')
print(sr.drop(['a', 'c']))
print('----------------')
print('Sem drop')
print(sr)

Utilizando drop
b    -8
d    14
e    33
dtype: int64
----------------
Sem drop
a    30
b    -8
c    12
d    14
e    33
dtype: int64


## Sort & Rank

Ordenando um Data Frame utilizando as funções **sort** e **rank**

- Classificar por rótulos ao longo de um eixo
- Classificar por valores ao longo de um eixo
- Atribuir classificações às entradas



In [6]:
# Ordenando pelo index
df.sort_index()

Unnamed: 0,Estado,Capital,População
0,Amazonas,Manaus,39000000
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000
3,Mato Grosso,Cuiabá,32000000
4,Santa Catarina,Florianópolis,62000000


In [7]:
# Ordenando por uma determinada coluna
df.sort_values(by='Capital')

Unnamed: 0,Estado,Capital,População
3,Mato Grosso,Cuiabá,32000000
4,Santa Catarina,Florianópolis,62000000
0,Amazonas,Manaus,39000000
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000


In [8]:
# A função rank quando não definido uma coluna em especifico, ela define uma ordem para cada item da coluna, sendo 1.0 primeiro e 5.0 último da coluna
# sendo que a ordenação pode ser por ordem alfabética ou numérica
 
df.rank()

Unnamed: 0,Estado,Capital,População
0,1.0,3.0,2.0
1,3.0,4.0,4.0
2,5.0,5.0,5.0
3,2.0,1.0,1.0
4,4.0,2.0,3.0


## I/O (Input e Output)

Lendo e escrevendo dados em arquivos **CSV**, **Excel** e **Table**

### I/O DataFrame para CSV


In [9]:
file_csv = 'sample_data/my_file.csv'

# Salvando um DataFrame em disco no formato CSV
df.to_csv(file_csv, index=None)

In [10]:
df = pd.read_csv(file_csv)
df

Unnamed: 0,Estado,Capital,População
0,Amazonas,Manaus,39000000
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000
3,Mato Grosso,Cuiabá,32000000
4,Santa Catarina,Florianópolis,62000000


### I/O DataFrame para XLS

In [11]:
file_xls = 'sample_data/my_file.xls'

# Salvando um DataFrame em disco no formato XLS
df.to_excel( file_xls, sheet_name='Sheet_1', engine='xlwt', index=None)

  after removing the cwd from sys.path.


### I/O para uma Query SQL ou DataBase Table

Para trabalhar com dados provenientes de bases de dados ou para salvar em banco de dados é necessário importar a biblioteca ```sqlalquemy```

In [12]:
from sqlalchemy import create_engine

In [13]:
# Criando uma base de dados com sqlite na memoria
engine = create_engine('sqlite:///:memory:')

In [14]:
table = 'my_table'

# Salvando um DataFrame como uma tabela em uma Base
df.to_sql(table, engine, index=None, if_exists='replace')

In [15]:
pd.read_sql(table, engine)

Unnamed: 0,Estado,Capital,População
0,Amazonas,Manaus,39000000
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000
3,Mato Grosso,Cuiabá,32000000
4,Santa Catarina,Florianópolis,62000000


## Seleção

Selecionando elementos em um DataFrame

- Por Posição
- Por Rótulo

Para seleção de dados utilizando Pandas é muito comum o uso das funções **iloc** e **loc**.

**Diferenças entre loc e iloc**

A principal distinção entre loce iloc é:

- **loc** é baseado em rótulos, o que significa que você precisa especificar linhas e colunas com base em seus rótulos de linha e coluna .
- **iloc** é baseado em posição inteira, então você tem que especificar linhas e colunas por seus valores de posição inteira (posição inteira baseada em 0).

\*\* **at** esta função permite selecionar um único valor por vez

### Selecionando um único elemento em um Seria


In [16]:
# Selecionando um elemento em uma Serie
sr[3]

14

### Selecionando parte de um DataFrame

In [17]:
# Selecionando parte de um DataFrame, neste caso estamos selecionando todas as colunas e somente duas linhas
df[1:3]

Unnamed: 0,Estado,Capital,População
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000


### Selecionando por Posição


In [18]:
# Selecionando um registro no DataFrame utilizando a posição da linha e coluna com a função iloc
df.iloc[[1],[0]]

Unnamed: 0,Estado
1,Pernambuco


### Por Rótulo

In [19]:
# Selecionando um único valor de uma linha pelo rótulo (coluna)
df.loc[[1],['Capital']]

Unnamed: 0,Capital
1,Recife


In [20]:
df.at[0, 'Capital']

'Manaus'

## Boolean Indexing

In [21]:
# Selecionando valor na Serie sr desde que o valor não seja maior que 1
sr[~(sr > 1)] 

b   -8
dtype: int64

In [22]:
# Selecionando valor na Serie sr desde que o valor seja menor que 1 ou maior que 20
sr[(sr < -1) | (sr > 20)]

a    30
b    -8
e    33
dtype: int64

In [23]:
# Selecionar no DataFrame na Coluna População que seja maior que 50000000
df[df['População'] > 50000000]

Unnamed: 0,Estado,Capital,População
1,Pernambuco,Recife,93000000
2,São Paulo,São Paulo,443000000
4,Santa Catarina,Florianópolis,62000000


## Recuperando Informações de Série/DataFrame

### Informações Básicas

In [24]:
# Verificando o número de linhas e colunas de um DataFrame
df.shape

(5, 3)

In [25]:
# Detalhes dos valores de indice
df.index

RangeIndex(start=0, stop=5, step=1)

In [26]:
# Informações relacionadas a colunas do DataFrame
df.columns

Index(['Estado', 'Capital', 'População'], dtype='object')

In [27]:
# Obtendo informações do DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Estado     5 non-null      object
 1   Capital    5 non-null      object
 2   População  5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes


In [28]:
# Detalhes da quantidade de registros por colunas e de nulos
df.count()

Estado       5
Capital      5
População    5
dtype: int64

### Informações de Resumo

In [29]:
# Soma dos Valores
df.sum()

Estado       AmazonasPernambucoSão PauloMato GrossoSanta Ca...
Capital               ManausRecifeSão PauloCuiabáFlorianópolis
População                                            669000000
dtype: object

In [30]:
# Soma cumulativa das colunas
df.cumsum()

Unnamed: 0,Estado,Capital,População
0,Amazonas,Manaus,39000000
1,AmazonasPernambuco,ManausRecife,132000000
2,AmazonasPernambucoSão Paulo,ManausRecifeSão Paulo,575000000
3,AmazonasPernambucoSão PauloMato Grosso,ManausRecifeSão PauloCuiabá,607000000
4,AmazonasPernambucoSão PauloMato GrossoSanta Ca...,ManausRecifeSão PauloCuiabáFlorianópolis,669000000


In [31]:
# Obtendo o valor mínimo de cada uma das colunas, também é possível obter o mim de uma única coluna
df.min()

Estado       Amazonas
Capital        Cuiabá
População    32000000
dtype: object

In [32]:
# Obtendo o valor máximo de cada uma das colunas, também é possível obter o max de uma única coluna
df.max()

Estado       São Paulo
Capital      São Paulo
População    443000000
dtype: object

In [33]:
# Obtendo informações estatísticas do DataFrame, só considera colunas com números
df.describe()

Unnamed: 0,População
count,5.0
mean,133800000.0
std,174481200.0
min,32000000.0
25%,39000000.0
50%,62000000.0
75%,93000000.0
max,443000000.0


In [34]:
# Retorna o valor médio de colunas com valores numéricos
df.mean()

  


População    133800000.0
dtype: float64

In [35]:
# Retorna o valor mediano apenas de colunas com valores numéricos
df.median()

  


População    62000000.0
dtype: float64

## Aplicando funções

Quando trabalhamos com Pandas é possível aplicar uma função a uma coluna, isto é útil para tratamento de dados.


- `map` é elemento a elemento para Série (aceita `dict` e `Series`)
- `applymap` é elemento para DataFrames
- `apply` também funciona de forma elementar, mas é adequado para operações e agregação mais complexas. O comportamento e o valor de retorno dependem da função.

In [36]:
 # Função de exemplo
 f = lambda x: x*2

In [37]:
df['População * 2'] = df[['População']].apply(f)
df

Unnamed: 0,Estado,Capital,População,População * 2
0,Amazonas,Manaus,39000000,78000000
1,Pernambuco,Recife,93000000,186000000
2,São Paulo,São Paulo,443000000,886000000
3,Mato Grosso,Cuiabá,32000000,64000000
4,Santa Catarina,Florianópolis,62000000,124000000


In [38]:
df.applymap(f)

Unnamed: 0,Estado,Capital,População,População * 2
0,AmazonasAmazonas,ManausManaus,78000000,156000000
1,PernambucoPernambuco,RecifeRecife,186000000,372000000
2,São PauloSão Paulo,São PauloSão Paulo,886000000,1772000000
3,Mato GrossoMato Grosso,CuiabáCuiabá,64000000,128000000
4,Santa CatarinaSanta Catarina,FlorianópolisFlorianópolis,124000000,248000000
