# Pandas

Esse notebook contém um resumo de todo o material já estudado sobre a biblioteca Pandas. <br>
Documentação oficial em https://pandas.pydata.org/docs/




# O que é pandas?

Pandas é uma biblioteca open-source do python, para manipulação de dados tabelados. Possuindo várias funções para manipular arquivos `.csv`, `.xls`, `.json`, entre outros. Pandas tem uma integração natural com NumPy, além de possuir um funcionamento análogo em vários sentidos.

De acordo com o próprio criador dessa biblioteca, Wes McKinney, o nome Pandas é derivado de panel data (dados em painel), um termo de econometria para conjuntos de dados estruturados. O surgimento da biblioteca, no início de 2008, começou devido a insatisfação de McKinney de obter uma ferramenta de processamento de dados de alto desempenho, com recursos flexíveis de manipulação de planilhas e de banco de dados relacionais




# Estrutura de Dados

Os dois principais objetos da biblioteca Pandas são as **Series** e os **DataFrames**. 

- Serie: matriz unidimensional que contém uma sequência de valores que apresentam uma indexação (que podem ser numéricos inteiros ou rótulos), muito parecida com uma única coluna no Excel.

- DataFrame: estrutura de dados tabular, semelhante a planilha de dados do Excel, em que tanto as linhas quanto as colunas apresentam rótulos.
<br>

A partir dos objetos principais a biblioteca Pandas disponibiliza um conjunto de funcionalidades sofisticadas de indexação, que permite reformatar, manipular, agregar ou selecionar subconjuntos específicos dos dados que estamos trabalhando.


![](https://geo-python.github.io/site/_images/pandas-structures-annotated.png)

# Instalação 

Em geral a biblioteca Pandas pode ser instalada utilizando o comando pip, que é o gerenciador de pacotes do Python, no terminal de comando do ambiente de programação desejado, por meio da execução: <br>

> `pip install pandas`
<br>

**OBS:** Alguns ambientes de programação, como o Anaconda, ao serem instalados já instalam automaticamente alguns pacotes que considerem populares entre os desenvolvedores, como é o caso do Pandas.

Após a instalação do biblioteca, é necessário importar o pacote, utilizando o comando *import* :



In [None]:
# É comum importar pandas como pd, sendo pd um "apelido", para facilitar na hora de chamar o pacote
import pandas as pd

# Leitura de arquivos


Na sequência podemos ler um conjunto de dados, sendo que no Pandas existem vários métodos para leitura de dados, com diferentes formatos (como .xlsx, json, .csv). Geralmente, esses métodos iniciam com a palavra *`read_`* seguido da extensão do arquivo.
<br>
Documentação - lendo diveros tipos de arquivos em python: https://pandas.pydata.org/pandas-docs/stable/reference/io.html 

Dependendo do programa que estiver utilizando e onde estiver os dados haverá uma forma de fazer a leitura. Em geral os dados podem estar:

- hospedados em um site, então deve ler a url do site 
- dem uma pasta de seu computador ou drive, então deve indicar o caminho para o arquivo local. Sendo que caso esteja utiliando um drive pessoal no colab é necessário dar permissão para o "colab se ligar com o drive"

In [None]:
# forma de ligar o colab ao drive
from google.colab import drive
drive.mount('/content/drive')

# depois é só fazer a leitura do arquivo indicando o caminho do arquivos, como por exemplo:
# '/content/drive/MyDrive/Colab Notebooks/Data - Youtube/data/titanic.csv'

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# caso esteja em um site, você pode criar um variável e atribuir a ela o link e depois indicar essa variável
# ou pode adiconar o link diretamente 

# com variável 
url = 'https://raw.githubusercontent.com/icmc-data/Intro-Data-Science-Youtube/master/data/titanic.csv'
df = pd.read_csv(url, sep = ',')


# sem variável
dados = pd.read_csv('https://raw.githubusercontent.com/icmc-data/Intro-Data-Science-Youtube/master/data/titanic.csv', sep = ',')

Caso os dados que está trabalhando tenham o nome das colunas é possivel utiliar o argumento `header=None` quando for ler os dados, caso sontrário a pimeira linha do arquivo será lida tranformada no cabeçalho.

`data = pd.read_csv(url, header=None)`

E posteiormente dar nome as coluna , utilizando o o argumento names = nome_das_colunas. Novamente pode fazer isso diretamente ao ler os dados ou pode criar uma lista a parte e depois chamar ela.

```
nomes = ['Col_1', 'Col_2', 'Col_N']
data = pd.read_csv(url, names = nomes)
```

```
 data = pd.read_csv(url, names = ['Col_1', 'Col_2', 'Col_N'])
```


# Series
O objeto fundamental do Pandas são as **Series**.

As Series são as **colunas das tabelas**, que são originadas de um array unidimensional capaz de guardar qualquer tipo de dado (integers, strings, floating, Python objects, etc.). 
<br><br>
A series possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário. Qu nada mais são que os rótulos das linhas 
<br><br>
Forma básica de criação dessa estrutura:<br>
`s = pd.Series(dados, index = index)`
<br>

Aqui estamos chamando a biblioteca Pandas por meio de seu apelido pd seguido de Series(), para o qual passamos os dados e um index (quando necessário). Esse argumento dados pode ser um dicionário, uma lista, um array Numpy ou uma constante


In [None]:
# Criando um dataFrame simples para exemplicifar a Series dentro de um df
import numpy as np

novoDf= pd.DataFrame(data=np.random.randint(20, size=(8, 4)),
                      index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                      columns=['Col_1', 'Col_2', 'Col_3', 'Col_4'])


In [None]:
novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,11,12,5,1
b,4,4,15,7
c,1,14,1,15
d,16,16,12,14
e,3,17,16,17
f,2,9,5,5
g,12,3,12,12
h,0,8,15,13


Visual de uma series:

In [None]:
novoDf.Col_1

a    11
b     4
c     1
d    16
e     3
f     2
g    12
h     0
Name: Col_1, dtype: int64

Tipo de uma series

In [None]:
type(novoDf.Col_1)

pandas.core.series.Series

## Criar Series a partir de listas

Podemos criar uma series **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [None]:
# definindo uma série com valores e indices
indices = ["a", "b", "c", "d"]
lista = [10, 20, 30, 40]

serie = pd.Series(data = lista, index = indices)

serie

a    10
b    20
c    30
d    40
dtype: int64

Podemos acessar o elemento 30, que está associado ao índice c:

In [None]:
serie['c']

30

Para retornar todos os índices podemos utilizar o método `series.index`

In [None]:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')

E para acessar os valores podemos utilizar o atributo `series.values`


In [None]:
serie.values

array([10, 20, 30, 40])


## Criar Series a partir de dicionários
Também podemos **criar uma série a partir de um dicionário**, e os índices e valores são automaticamente capturados:

In [None]:
# criando uma série a partir de um dicionario
dic2 = {"nome": "André", 
        "idade" : 23}

pd.Series(dic2)

nome     André
idade       23
dtype: object

## Criar dicionários a partir de Series
O inverso também é possível:

In [None]:
dicionario = dict(serie)

dicionario

{'a': 10, 'b': 20, 'c': 30, 'd': 40}

## Filtros em Series
Podemos aplicar filtros para selecionar apenas os elementos que satisfaçam determinada condição.
No exemplo abaixo, iremos selecionar apenas os elementos que sejam maiores que 15:


In [None]:
serie[serie > 15] 

b    20
c    30
d    40
dtype: int64

Note que `serie > 15` nos retorna uma series com elementos `True` e `False`, caso os elementos da serie satisfaçam a condição. Ao utilizar esse comando dentro dos colchetes, `serie[serie > 15]`, estamos selecionado apenas os elementos que satisfazem a condição.

# DataFrame

DataFrame, pois é o principal elemento do Pandas.
Ele é basicamente a representação de uma planilha/tabela, porém com muitas funções que permitem inspeção e manipulação.

O Dataframe possui uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Assim como as series, os dataframes são capazes de armazenar qualquer tipo de dado.

Por debaixo dos panos, o dataframe é representado por um dicionário em que a **chave** é o **nome da coluna** e os **valores** são as **Series** (todas com mesmo índice).

Forma básica de criação dessa estrutura:<br>
`df = pd.DataFrame(dados, index = index, columns = columns)`
<br>
Para a criação de um dataframe, passamos para a chamada de pd.DataFrame(), além dos nossos dados, os rótulos das linhas (index) e das colunas (columns). Nossos dados, mais uma vez, podem ser um dicionário, uma lista, um array Numpy, uma series ou mesmo outro dataframe.

## Criando um DataFrame

### Criação de DataFrame a partir de dicionários

Assim, podemos **criar um dataframe a partir de um dicionario**, usando a função `pd.DataFrame()` 

In [None]:
cadastro = {"nomes" : ["André", "Mariazinha"],
                "idade" : [22, 25],
                "cidade" : ["Mauá", "Santo André"],
                "filhos": [0, 0],
                "altura" : [1.80, 1.65]}

cadastro

{'nomes': ['André', 'Mariazinha'],
 'idade': [22, 25],
 'cidade': ['Mauá', 'Santo André'],
 'filhos': [0, 0],
 'altura': [1.8, 1.65]}

In [None]:
# criando um dataframe a partir de um dicionario
df = pd.DataFrame(cadastro)
df

Unnamed: 0,nomes,idade,cidade,filhos,altura
0,André,22,Mauá,0,1.8
1,Mariazinha,25,Santo André,0,1.65


### Criar dataframe a partir de listas

In [None]:
# Considere a seguinte lista
age = [['Artur', 95.5, "M"], ['Vera', 79.7, "F"],
       ['Mônica', 85.1, "F"], ['Toni', 75.4, "M"]]
  
# Cria um pandas dataframe passando a lista e, se quiser, o nome das colunas
pd.DataFrame(age, columns=['Npme', 'Pontos', 'Sexo'])

### Criar dataframe a partir de array

In [None]:
import numpy as np

# Considere o seguinte array:
my_array = np.random.randint(1, 10, 18)

# Cria um pandas dataframe passando o array e, se quiser, o nome das colunas
pd.DataFrame(my_array.reshape(-1,3), columns=['col_1','col_2','col_3'])


## Conhecendo os dados

Após chamar os dados podemos visualar o DataFrame. Para isso podemos utilizar os comando 
- head(): mostra o innicio da tabela, por padrão  as 5 primeiras linhas, mas podeos passar o valor que quisermos.
- tail(): mostra as linhas finais da tabela, e por padrão  5 linhas também

In [None]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [None]:
df.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Para conhecer os dados que estamos trabalho podemos usar algumas funções:
- shape()
- columns
- dtypes
- uniqui()
- value_counts()
- etc...

#### .shape()

 O primeiro valor trata-se da quantidade de linhas do conjunto de dados e o segundo a quantidade de colunas.


In [None]:
df.shape()

(891, 12)

#### .columns 
Podemos acessar as colunas do DataFrame


In [None]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

#### df.dtypes
Podemos conferir o tipo de dado de cada coluna

In [None]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

nota: Em geral, quando a biblioteca não consegue identificar o tipo do dado entre os padrões python conhecidos (int, float, string, datetime, entre outros), ela define o dado com o formato de object. 

####.info()

Para saber quais colunas temos no dataframe, qual o formato se encontram os dados em cada coluna e 
a quantidade de memória para ler esse conjunto de dados, fornece a quantidade de valores não nulos 
e o tipo de cada coluna podemos utilizar o comando info:

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### .value_counts()
Traz a contagem de elementos pra cada valor distinto da coluna em que está sendo aplicado.

In [None]:
# value_counts() traz a contagem de elementos pra cada valor distinto da coluna em que está sendo aplicado.
df.Pclass.value_counts()

#### .unique()
retorna quem são os valores únicos da sua coluna. Equivalente ao DISTINCT column no SQL

In [None]:
df.Embarked.unique()

#### nunique()
retorna a quantidade de valores únicos da sua coluna. Equivalente ao COUNT (DISTINCT column) no SQL

In [None]:
df.Embarked.nunique()

## Estatistica Básica 

Assim como no NumPy podemos aplicar diversas funções de agregação aos dados (concaternar os valores). Essas funções são por padrão aplicadas a cada coluna.

Ao mesmo tempo esses métodos nos auxiliam na análise da estatistica básica, como determinar os limites superiores e inferiores (min e  max), desvio padrão, moda, média e mediana.

O Pandas possui diversos métodos que podem ser utilizados nessa estrutura.
Abaixo estão alguns métodos que essa estrutura de dados possui e facilitam alguns cálculos e análises:


| Método      | Descrição     |
| ----------- | -----------   |
| sum         | soma          |
| mean        | média         |
| std         | desvio padrão |
| mode        | moda          |
| max         | valor máximo  |
| min         | valor mínimo  |
| idxmax      | primeiro índice com valor máximo |
| idxmin      | primeiro índice com valor mínimo |
| value_counts | contagem de valores |
| describe    | estatísticas básicas |


Por meio dessas funções podemos compreender mais sobre os nossos dados e também facilitam alguns cálculos.

In [None]:
# Podemos observar as estatísticas de cada coluna do DataFrame utilizando o método `.describe()`
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
# Soma
df.sum()

PassengerId                                               397386
Survived                                                     342
Pclass                                                      2057
Name           Braund, Mr. Owen HarrisCumings, Mrs. John Brad...
Sex            malefemalefemalefemalemalemalemalemalefemalefe...
Age                                                      21205.2
SibSp                                                        466
Parch                                                        340
Ticket         A/5 21171PC 17599STON/O2. 31012821138033734503...
Fare                                                     28693.9
dtype: object

In [None]:
# Média
df.mean()

PassengerId    446.000000
Survived         0.383838
Pclass           2.308642
Age             29.699118
SibSp            0.523008
Parch            0.381594
Fare            32.204208
dtype: float64

In [None]:
df.max()

PassengerId                            891
Survived                                 1
Pclass                                   3
Name           van Melkebeke, Mr. Philemon
Sex                                   male
Age                                     80
SibSp                                    8
Parch                                    6
Ticket                           WE/P 5735
Fare                               512.329
dtype: object

## Tratando valores nulos

Uma das grandes vantagens de se usar com a biblioteca Pandas e trabalhar com valores nulos. Com rastrear esses valores e eliminar ou subistituir esses dados.

Valores nulos são entradas da tabela que estão vazias (pense em uma celula do Excel sem nenhum valor dentro). O fato de um campo não estar preenchido pode ter motivos diferentes, cabe ao ciêntista de dados saber com cada caso.

É importante saber que a maioria dos algoritmos de aprendizado de máquina não trabalham com valores nulos, então é importante tratá-los na preparação dos dados.

Para verificar quantos dados faltantes existem em nosso conjunto, podemos utilizar a função `isnull` ou `isna`, na qual verifica em cada uma das colunas se o elemento é nulo ou não, seguida da função `sum`, que irá somar todas as respostas verdadeiras obtidas na função anterior, da forma:

#### .isna() e isnull()
retorna um df booleano indicando se existe um nulo naquela posição. `pd.isnull()` é um alias para `pd.isna()` dentro do python como podemos ver na <a href="https://github.com/pandas-dev/pandas/blob/0409521665bd436a10aea7e06336066bf07ff057/pandas/core/dtypes/missing.py#L109">documentação</a>. O pandas dataframe é baseado nos df do R, onde null e na tem sentidos distintos.

#### .replace()
substitui elementos dentro do df.  É um dos métodos que aceita o parâmetro `inplace`.


In [None]:
# para apenas uma troca
df.replace('male', 'H')

In [None]:
# para mais de uma troca
df.replace(['male', 'female'], ['H', 'M'])

In [None]:
df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [None]:
df.isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [None]:
# Podemos usar a função isna/isnull e somar para ver o numero de nulos em cada coluna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

**Removovendo valores nulos** <br>

Temos basicamente três opções de como lidar com esses dados faltantes:

  - Podemos remover as linhas que possuirem dados faltantes
  - Podemos remover as colunas que possuirem dados faltantes
  - Podemos substituir dados faltantes por algum valor (a média, por exemplo)
    
Vamos analisar nosso DataFrame e ver que tipo de medida podemos adotar

In [None]:
# Talvez seja interessante saber qual porcentagem dos valores é nulo
df.isna().sum() / df.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

É possível utilizar o pandas para fazer **agrupar dados**:

In [None]:
# Podemos ordenar nosso df pelo Pclass e Fare para preencher os nulos de Embarked 
# utilizando o ffill se aceitarmos a premissa de que os portões de embarque eram
# distintas de acordo com o nível social. 

# Qual problema poderíamos estar causando nos nossos dados?
df.sort_values(['Pclass', 'Fare']).fillna(method='ffill')

Nesse caso temos 3 colunas que apresentam valores nulos, porém cada uma delas será tratada de uma diferente.

- **Age**: Cerca de 20% dos valores dessa coluna são nulos, então o ideal é substituir os dados faltantes pela média dos valores da coluna;
- **Cabin**: Essa coluna possui 77% de valores nulos,  portanto o idela é deletar a coluna inteira;
- **Embarked**: Essa coluna só possui 0.2% de valores nulos, então  o ideal é remover somente as linhas onde os valores da coluna embarked são nulos.

Para tratar o valores nulos existem dois métodos que podemos usar, o `.fillna()` e `.dropna()`

#### .fillna() 
 vai gerar uma cópia do que foi passado substituindo os valores nulos por um valores especificados. <br>
Parâmetros úteis:

* method{‘bfill’,‘ffill’, None}, default None <br>

Preenche os `NAS` propagando o último valor válido para frente `(ffill)` ou utiliza próxima observação válida para preencher os nulos `(bfill)`.

* axis{0 para ‘index’, 1 para ‘colunas’} <br>

* inplace{booleano}, default False

In [None]:
# primeiro calcula-se a média das idades
idade_media  = df['Age'].mean()

# Substituindo a coluna pela coluna com NaN sustituidos
df.loc[:, 'Age'] = df['Age'].fillna(idade_media)

In [None]:
# para ser mais rápido posso fazer assim 
df.Age.fillna(df.Age.mean())

In [None]:
# Vamos ver se até agora aconteceu o que queriamos
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

existem outras forma de se usar o fillna

In [None]:
# passando o mesmo valor da coluna x para a coluna y, que possui nulos
df['colx'].fillna(df['col y'], inplace=True)


# exemplo
df['Postal Address'].fillna(df['Permanent Address'], inplace=True)


In [None]:
  Postal Address Permanent Address
0       New York             Miami
1            NaN         Amsterdam
2         London            London
3         Mumbai            Rajkot
4            NaN            Sydney


depois de preencher 

  Postal Address Permanent Address
0       New York             Miami
1      Amsterdam         Amsterdam
2         London            London
3         Mumbai            Rajkot
4         Sydney            Sydney

In [None]:
# posso tambem passar uma conta para a minha função fillna

df['c'] = df.c.fillna(df.a * df.b)

# isso seria a mesma coisa que:

df['temp'] = np.where(df.a % 2 == 0, df.a * df.b, df.a + df.b) # crio uma coluna temporária passando para o resultado de uma opreação
df['c'] = df.c.fillna(df.temp) # passo os valores da coluna temporária para a que tem nulos
df.drop('temp', axis=1, inplace=True) # deleto a coluna temporária

#### .dropna()
 retorna um DataFrame sem as colunas ou linhas que possuem valores nulos. 

Temos parâmetros importantes: 
- `axis` indica se deseja remover linhas (0) ou colunas (1)
- `subset` indica as labels do outro eixo que podem ser consideradas para remoção
- `thresh` indica o número minimo de nulos para ser removida
- `inplace` indica se a operação deve ser realizada no próprio DataFrame ou uma cópia deve ser retornada.

In [None]:
# Vamos começar removendo a coluna Cabin
# Nesse caso vamos utilizar o thresh=600, para indicar que a coluna que tiver mais que 600 dados nulos queremos que que seja retirada do DataFrame
df.dropna(axis=1, thresh=600, inplace=True)

In [None]:
#Agora vamos remover as linhas que possuem Embarked nulo
# Para a coluna Embarked vamos utilizar o subset, e indicar que todas as linhas que esse dados for nulo será removida

df.dropna(axis=0, subset=['Embarked'], inplace=True)

In [None]:
# Conferindo se limpamos tudo
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

#### .notnull()

Outro comando que podemos usar é o `.notnull()`, que retorna df com True ou False, com True para elementos não nulos

In [None]:
df.notnull().sum()

## Acessando Dados

Podemos visualizar e trabalhar com uma ou mais colunas em especifico do nosso conjunto de dados, para isso precisamos acessar esses dados.
Podemos fazer isso de duas formas:

- **acessar os valores nas colunas** pelo nome delas - uma idexação simples
- utilizando o `.loc ` e ` .iloc`



In [None]:
#Para essa parte iremos definir um DataFrame simples para uma facil compreenção das funções
import numpy as np

novoDf= pd.DataFrame(data=np.random.randint(20, size=(8, 4)),
                      index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                      columns=['Col_1', 'Col_2', 'Col_3', 'Col_4'])

novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,16,4,5,10
b,13,18,11,10
c,19,14,15,5
d,8,8,3,8
e,19,1,4,7
f,10,12,0,3
g,14,14,0,8
h,1,0,1,0


#### Indexação simples

In [None]:
# acessar coluna "Nome" diretamente
novoDf['Col_1']

a    11
b    18
c    15
d     2
e     8
f    17
g    10
h    16
Name: Col_1, dtype: int64

In [None]:
novoDf.Col_1

a    11
b    18
c    15
d     2
e     8
f    17
g    10
h    16
Name: Col_1, dtype: int64

In [None]:
print (novoDf['Col_1'])

a    11
b    18
c    15
d     2
e     8
f    17
g    10
h    16
Name: Col_1, dtype: int64


In [None]:
# Podemos selecionar uma das colunas do nosso DataFrame e atribuir ela a uma variável
coluna_um = novoDf['Col_1']
coluna_um

a    11
b    18
c    15
d     2
e     8
f    17
g    10
h    16
Name: Col_1, dtype: int64

In [None]:
# E assim obter uma Series, pois cada coluna é um objeto do tipo Series
type(coluna_um)

pandas.core.series.Series

In [None]:
# Ao inves de selecionar um unica coluna podemos pegar um conjunto usado uma lista
coluna_1_3 = novoDf[['Col_1', 'Col_3']]
coluna_1_3

Unnamed: 0,Col_1,Col_3
a,11,10
b,18,17
c,15,15
d,2,16
e,8,17
f,17,8
g,10,11
h,16,4


In [None]:
# Usando slices dentro dos [] selecionamos um conjunto de linhas
novoDf[2:6]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
c,15,3,15,0
d,2,9,16,15
e,8,1,17,16
f,17,12,8,8


In [None]:
# Podemos selecionar linhas usando booleanos
novoDf[[True, True, False, True, False, False, False, True]]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,11,7,10,14
b,18,11,17,3
d,2,9,16,15
h,16,3,4,11


#### *.loc* (indexando por label)
O index é a label de cada linha, enquanto o nome das colunas é o label de cada coluna. Podemos usar esses labels para indexar conjuntos de valores específicos do DataFrame.

> Podemos utilizar o `.loc[indice_linhas, nome_colunas]` para acessar determinas colunas e as linhas através dos índices e nomes das colunas.

In [None]:
# Podemos selecionar uma linha pela sua label "a"
novoDf.loc['a', :]

Col_1    11
Col_2     7
Col_3    10
Col_4    14
Name: a, dtype: int64

In [None]:
# Podemos também selecionar colunas
novoDf.loc[:, 'Col_2']

a     7
b    11
c     3
d     9
e     1
f    12
g     3
h     3
Name: Col_2, dtype: int64

In [None]:
# Podemos fazer cortes de qualquer forma

novoDf.loc[["a","c","d"], ["Col_1", "Col_3","Col_4"]]

Unnamed: 0,Col_1,Col_3,Col_4
a,11,10,14
c,15,15,0
d,2,16,15


In [None]:
# selecionar as linhas de algumas colunas usando slice
novoDf.loc[:, 'Col_1':'Col_3']

Unnamed: 0,Col_1,Col_2,Col_3
a,11,7,10
b,18,11,17
c,15,3,15
d,2,9,16
e,8,1,17
f,17,12,8
g,10,3,11
h,16,3,4


In [None]:
# selecionar apenas uma linha de uma coluna
novoDf.loc["c", "Col_2"]

3

#### *.iloc* (indexando por posição)
Já no iloc a identificação de linhas e colunas é feita pela sua posição, agora sim 1ª, 2ª,... colunas e linhas. 


> Podemos utilizar o `.iloc[número_linhas, número_colunas]` para acessar determinas colunas e as linhas através as posições das linhas e colunas

In [None]:
# Vamos selecionar a primeira linha
novoDf.iloc[0,:]

Col_1    11
Col_2     7
Col_3    10
Col_4    14
Name: a, dtype: int64

In [None]:
# Vamos selecionar a segunda coluna
novoDf.iloc[:,1]

a     7
b    11
c     3
d     9
e     1
f    12
g     3
h     3
Name: Col_2, dtype: int64

In [None]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas sequenciais
novoDf.iloc[3:5, 1:4]

Unnamed: 0,Col_2,Col_3,Col_4
d,1,10,12
e,0,18,14


In [None]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas não sequenciais
novoDf.iloc[3:4, [1,3]]

Unnamed: 0,Col_2,Col_4
d,1,12


In [None]:
# Também podemos fazer cortes de qualquer forma
novoDf.iloc[[0, 3, 4], [0, 2]]

Unnamed: 0,Col_1,Col_3
a,16,16
d,6,10
e,9,18


In [None]:
# Selecionando colunas com bool
novoDf.iloc[:, [True, False, False, True]]

Unnamed: 0,Col_1,Col_4
a,16,2
b,17,15
c,12,2
d,6,12
e,9,14
f,0,11
g,15,11
h,17,0


### Diferença entre .loc e .iloc
O .loc irá trazer o dado utilizando o índice, não importando se o índice não está ordenado. Já o .iloc irá respeitar a ordem atual dos dados

In [None]:
novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,12,17,12,16
b,4,2,12,13
c,0,15,4,9
d,19,12,0,9
e,6,2,4,15
f,0,4,13,12
g,6,11,5,17
h,14,10,12,18


Para criar uma cópia dos dados temos que usar a função `.copy()`, pois  só a atubuição dos dados a uma nova variável pode dar erros 

In [None]:
novoDf_copy = novoDf.copy()

In [None]:
# vamos bagunçar o índice do df chamado tabela
novoDf_copy.index = sorted(novoDf_copy.index.values, reverse=True)
novoDf_copy

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
h,12,17,12,16
g,4,2,12,13
f,0,15,4,9
e,19,12,0,9
d,6,2,4,15
c,0,4,13,12
b,6,11,5,17
a,14,10,12,18


In [None]:
# traz o índice
novoDf_copy.loc[["a","b"],:]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,14,10,12,18
b,6,11,5,17


In [None]:
# iloc traz a linha
novoDf_copy.iloc[[0,1],:]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
h,12,17,12,16
g,4,2,12,13


## Alterando dados do DataFrame

É possível **alterar valores** da tabela. Para isso, primeiro localizamos o valor a ser alterado, passando a linha e coluna correspondente, e depois atribuímos o novo valor

Para passar onde os dados estão podemos usar os comandos `.loc` e `.iloc`

In [None]:
novoDf.loc["b", "Col_2"] = "Joãozinho"
novoDf.loc["e", "Col_1"] = 100

novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,12,17,12,16
b,4,Joãozinho,12,13
c,0,15,4,9
d,19,12,0,9
e,100,2,4,15
f,0,4,13,12
g,6,11,5,17
h,14,10,12,18


In [None]:
novoDf.loc[["a","g"],'Col_4']='bbb'
novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
a,2,3,14,bbb
b,6,Joãozinho,6,17
c,9,1,4,19
d,8,3,4,0
e,100,9,12,19
f,4,16,11,3
g,8,8,18,bbb
h,17,9,17,1


## Operações em DataFrames

Certo, agora que já sabemos como manipular DataFrames podemos começar a manipular os dados que temos para fazer descobertas ou para prepará-los para um modelo de aprendizado de máquina.


Para isso temos algumas funções que nos ajudam, como:
- drop()
- rename()
- sort()
- sort_values()
- etc...

#### .drop()
Permite deletar linhas ou colunas inteiras dependendo do parâmetro `axis`. É um dos métodos que aceita o parâmetro `inplace`.

In [None]:
df_copy.drop(['Nome','Idade'], axis=1)

In [None]:
df_copy.drop([0,1]) # removendo linha, padrão é axis = 0 que é linha

#### .sort_values()
Como diz o nome, o método é utilizado para ordenar os dados baseado em uma ou mais colunas. Para retornar a ordem reversa utilize o argumento `ascending=True`. É um dos métodos que aceita o parâmetro `inplace`.

In [None]:
df.sort_values(['Pclass','Fare'], ascending=True) # para fazer em ordem crecente

In [None]:
df.sort_values(['Pclass','Fare'], ascending=[True, False]) # para fazer o Pclass em ordem crecente e o fare em decrescente

#### .rename()
Você consegue renomear tanto o nome das colunas quanto o índice (axis='index').

In [None]:
# vamos criar uma cópia do df
df_copy = df.copy()
df_copy.rename({'Age':'Idade', 'Name':'Nome'}, axis=1, inplace=True)
df_copy.head()

#### .duplicated()  e .drop_duplicated()
O `.duplicated()` retorna uma series indicando se determinada linha possui duplicados ou não. <br>
Já o `.drop_duplicated()`, elimina as linhas duplicadas. <br>


Parametros do `.drop_duplicated()`: <br>

    * subset
        seleciona colunas para serem utilizdas na comparação de linhas duplicadas
    * keep{‘first’, ‘last’, False}, default ‘first’
        Determina qual duplicado manter
    * inplace - bool, default False
        Se False retorna uma cópia do df com as alterações, es True faz as modificações no próprio df


-----

Vamos fazer um teste para compreender como essa função funciona

In [None]:
# vamos criar um df que possua linhas duplicadas
df_dup = df.copy()

df_dup.loc[891, :] = df_dup.loc[0, :]
                                
df_dup.loc[892, :] = df_dup.loc[1, :]
df_dup.loc[893, :] = df_dup.loc[1, :]

print(df.shape, df_dup.shape)

In [None]:
df_dup.duplicated().sum()

In [None]:
df_dup.duplicated()

In [None]:
print(df_dup.shape)
print(df_dup.drop_duplicates().shape)

---

Outra ação muito comum é a adição e remoção de linhas e colunas


In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Adicionar coluna

A recomendação do Pandas é que sempre que se for alterar valores do DataFrame, seja adicionando uma coluna inteira ou mudando um único valor. E que seja utilizado os comandos `.loc` e `.iloc`.

Isso se dá ao fato de nem sempre o que é retornado de uma indexação é uma view para o valor original, em algumas situações pode ser uma cópia. 

Documentação: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy 

In [None]:
df.loc[:, 'Coluna Aleatoria'] = np.random.randint(100, size=(df.shape[0],))
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Coluna Aleatoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,89
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,93
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,31
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,31
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,58


In [None]:
# porém é possivel fazer a adição de uma coluna sem esses comandos
df[0]=0
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Coluna Aleatoria,0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,89,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,93,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,31,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,31,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,58,0


Podemos também criar novas colunas a partir de operações matemáricas.<br>
Para isso vamos utilizar o novoDf

In [None]:
novoDf= pd.DataFrame(data=np.random.randint(20, size=(8, 4)),
                      index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                      columns=['Col_1', 'Col_2', 'Col_3', 'Col_4'])

In [None]:
# calculando a média usando as colunas Prova_1, Prova_2, Prova_3 e Prova_4
novoDf["média"] = (novoDf["Col_1"] + novoDf["Col_2"] + 
                   novoDf["Col_3"] + novoDf["Col_4"])/4
novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média
a,6,12,4,16,9.5
b,12,19,2,0,8.25
c,19,11,14,12,14.0
d,11,13,9,4,9.25
e,11,8,18,5,10.5
f,16,7,8,15,11.5
g,2,6,12,9,7.25
h,3,3,17,12,8.75


Também há alguns métodos prontos que facilitam a utilização:

In [None]:
# calculando a media com o método .mean(axis=1)
novoDf["Média_2"] = novoDf[ ["Col_1", "Col_2", "Col_3","Col_4"] ].mean(axis = 1)
novoDf

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
a,6,12,4,16,9.5,9.5
b,12,19,2,0,8.25,8.25
c,19,11,14,12,14.0,14.0
d,11,13,9,4,9.25,9.25
e,11,8,18,5,10.5,10.5
f,16,7,8,15,11.5,11.5
g,2,6,12,9,7.25,7.25
h,3,3,17,12,8.75,8.75


### Adicionando linha

In [None]:
df.loc[10, :] = [1245245, "Joãozinho", 100, 10, 4, 6, 7, "bbb", 2, 'b', "cheio", 3, 5]

In [None]:
df.head(15)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Coluna Aleatoria,0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,61,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,6,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,5,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,89,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,64,0
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,90,0
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,19,0
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,96,0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,64,0
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,5,0


### Remover linha

A operação de remoção (e várias operações em DataFrames) não realizam a alteração no DataFrame original, elas retornam um novo DataFrame com as alterações feitas. 

Podemos salvar esse retorno numa variável (até mesmo na mesma variavel que o DataFrame original) ou passar um parâmetro especial para o DataFrame dizendo para ele realizar as mudanças no próprio DataFrame `inplace=True`

In [None]:
# Salvando na variavel
df = df.drop(10)

# Ou podemos indicar com o padrametro in_place
# df.drop(10, inplace=True)

In [None]:
df.head(15)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Coluna Aleatoria,0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,89,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,93,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,31,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,31,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,58,0
5,6,0,3,"Moran, Mr. James",male,29.699118,0,0,330877,8.4583,Q,0,0
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,S,86,0
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,S,27,0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,S,17,0
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,C,97,0


Caso eu tenha linhas duplicadas posso retirar esses dados facilmente com o 
`.drop_duplicated()`

In [None]:
df.drop_duplicated()

### Remover coluna

In [None]:
# Para remover uma coluna precisamos avisar que estamos querendo remover uma coluna
df = df.drop(columns=['Coluna Aleatoria'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,0


In [None]:
df = df.drop(columns=[0])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


## Aplicando funções em colunas
Em várias situações queremos aplicar funções em colunas, nas maioria das vezes para gerar novas colunas. Vamos ver qual é o jeito certo de fazer isso. Mas antes vamos dar uma olhada no que <span style="color:red;">não deve ser feito</span>.

Vamos supor que queremos criar uma coluna chamada 'Faixa etária' que é construida baseada na coluna 'Age'.

In [None]:
# Vamos criar uma função que faz essa transformação
def calc_faixa_etaria(idade):
    if idade < 13:
        return 'Criança'
    elif idade < 18:
        return 'Adolescente'
    elif idade < 60:
        return 'Adulto'
    else:
        return 'Idoso'

In [None]:
# A primeira ideia pode ser fazer algo assim
faixas_etarias = []
for i in range(df.shape[0]):
    idade = df.iloc[i, 5] # Age é a coluna 5
    faixa = calc_faixa_etaria(idade)
    faixas_etarias.append(faixa)

faixas_etarias[8:14]

['Adulto', 'Adolescente', 'Criança', 'Adulto', 'Adulto', 'Adulto']

Mas isso é extremamente ineficiente quando o tamanho do DataFrame é grande!

A solução correta é usar o método `.apply()`, que aplica uma função em cada uma das entradas e retorna um `pd.Series` com todos os resultados.

In [None]:
faixas_etarias = df['Age'].apply(calc_faixa_etaria)
faixas_etarias.iloc[8:14]

8          Adulto
9     Adolescente
10        Criança
11         Adulto
12         Adulto
13         Adulto
Name: Age, dtype: object

In [None]:
df.loc[:, 'Faixa etaria'] = faixas_etarias
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Faixa etaria
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,Adulto
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,Adulto
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,Adulto
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,Adulto
5,6,0,3,"Moran, Mr. James",male,29.709916,0,0,330877,8.4583,Q,Adulto


## Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [None]:
novoDf.head()

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
a,6,12,4,16,9.5,9.5
b,12,19,2,0,8.25,8.25
c,19,11,14,12,14.0,14.0
d,11,13,9,4,9.25,9.25
e,11,8,18,5,10.5,10.5


In [None]:
novoDf["média"] > 10

a    False
b    False
c     True
d    False
e     True
f     True
g    False
h    False
Name: média, dtype: bool

In [None]:
# retorna o sub-dataframe que contém valores maiores que 10 na coluna "média"
# ou seja, é um filtro que utiliza a coluna "média"!

novoDf[novoDf["média"] > 10]


Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
c,19,11,14,12,14.0,14.0
e,11,8,18,5,10.5,10.5
f,16,7,8,15,11.5,11.5


Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [None]:
# AND
novoDf [ (novoDf["média"]>10) & (novoDf["Média_2"]>11 ) ]

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
c,19,11,14,12,14.0,14.0
f,16,7,8,15,11.5,11.5


In [None]:
# OR
novoDf [ (novoDf["média"]>10) | (novoDf["Média_2"]>11 ) ]


Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
c,19,11,14,12,14.0,14.0
e,11,8,18,5,10.5,10.5
f,16,7,8,15,11.5,11.5


In [None]:
# fazendo um filtro para pegar o maior dos valores com base em uma condição
# nesse caso quero que me retorne  dentro do meu filtro o ligar onde tenho o maor valor da col_1

novoDf [(novoDf["média"]>10) | (novoDf["Média_2"]>11 )] [["Col_1"]].max()

Col_1    19
dtype: int64

In [None]:
# pegando somente a coluna "média"  dos valores das col 1 e 3 são iguais

novoDf[novoDf["Col_1"]==novoDf["Col_3"]] ["média"]

# no caso vai me retornar vazio, porque não tenho valores iguais entre essas duas colunas ( e cada linha)

Series([], Name: média, dtype: float64)

Podemos criar um novo df diretamento do filtro

In [None]:
Col_3_maior10 = novoDf [novoDf ["Col_3"] >10]
Col_3_maior10

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
c,19,11,14,12,14.0,14.0
e,11,8,18,5,10.5,10.5
g,2,6,12,9,7.25,7.25
h,3,3,17,12,8.75,8.75


### Função .query()

In [None]:
novoDf.query(" Col_3 > 10 ")

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,média,Média_2
c,19,11,14,12,14.0,14.0
e,11,8,18,5,10.5,10.5
g,2,6,12,9,7.25,7.25
h,3,3,17,12,8.75,8.75


In [None]:
# posso fazer a busca com palavras tbm 
# nesse caso como o nome é string tenho que por ela entre aspas tbm 

dados.query ("Col == 'nome que quero' ")

Ainda posso usar o format python para fazer o filtro
Exemplo de uma estrutura

In [None]:
prova_4 = tabela.query('{} >= 7 and Prova_3 >= 7 and Nome=="{}"'.format('Prova_4', 'Ana Beatriz'))
prova_4

## Agregação de dados

### Groupby
Assim como no SQL, no pandas também temos um método com o qual podemos agregar os dados. O `groupby` primeiro separa nossos dados em grupos definidos dentro do método,  aplicar um tipo de operação usando agregação, transformação, filtragem ou até uma função própria e, por fim, juntar os resultados encontrados.
<br>

<br>

Exemplo de aplicação da função de agregação `sum`

![image](https://user-images.githubusercontent.com/71708626/140041764-c897f144-c6d2-4c22-84d1-efa5416592d6.png)

<br>
<br>
Exemplo de aplicação da função de agregação `mean`

![image](https://user-images.githubusercontent.com/71708626/140041841-fe483ea0-e9d0-46d0-ad2c-1b6405f78083.png)

<br>
<br>



Utilizar o `groupby` é o mesmo que fazer a sequência:

    Dividir os dados em grupos utilizando um critério
    
    Aplicar uma função em cada um dos grupos separadamente
    
    Combinar o resultado em uma estrutura de dados

#### Funções de agregação
Com essas funções podemos aplicar operações estatísticas nos nossos dados. Exemplos:<br>
`mean`, `std`, `max`, `min`, `count`, `sum`, `var`. <br>
Quando queremos aplicar apenas uma dessas operações podemos chamá-las diretamente após o `groupby`:


In [None]:
# FUNÇÃO DE AGREGAÇÃO mean()
df.groupby(["Pclass", "Sex"]).mean()

Aqui agregamos os dados por Pclass e Sex e em todas as colunas numéricas foi calculada a média. Se quiséssemos a média de apenas uma coluna poderíamos adicioná-la ao final da nossa sentença:

In [None]:
# Queremos apenas a média de idade considerando a classe e o sexo
df.groupby(["Pclass", "Sex"]).mean()[['Age']]

Ou de modo mais eficiente:

In [None]:
df.groupby(["Pclass", "Sex"])[['Age']].mean()

Note que `df.groupby('A').colname.mean()` é mais eficiente que `df.groupby('A').mean().colname` pois a agregação só será realizada na coluna de interesse (colname).

Quando queremos aplicar mais de uma operação chamamos o método `.agg()`

In [None]:
df.groupby(["Pclass"]).agg(['mean','max','min'])

Para operações distintas em colunas distintas passamos um dicionário com o nome da coluna como chave e a operação como valor

In [None]:
import numpy as np
df.groupby(['Pclass']).agg({'Embarked':pd.Series.mode,'Fare':np.mean})

Se quisermos que o df de saída tenha nomes específicos devemos seguir o padrão:

In [None]:
df.groupby(['Pclass']).agg(mode_embarked=('Embarked',pd.Series.mode), mean_fare=('Fare',np.mean))

Reparem que a coluna utilizada no `groupby` virou um index do nosso df. Para convertê-la em coluna novamente temos duas formas: <br>
  1. chamar o parâmetro `as_index=False` dentro do `groupby`
  2. aplicar `.reset_index()` ao final da sentença

In [None]:
# exemplo com as_index = False
df.groupby(['Pclass'], as_index=False).agg(mode_embarked=('Embarked',pd.Series.mode),mean_fare=('Fare',np.mean))

In [None]:
# exemplo com .reset_index()
df.groupby(['Pclass']).agg(mode_embarked=('Embarked',pd.Series.mode),mean_fare=('Fare',np.mean)).reset_index()

E se quisessemos criar uma coluna nova que contenham o valor médio do Fare por Pclass?

In [None]:
df.groupby('Pclass')[["Fare"]].mean()

Queremos que todos da primeira classe tenham o valor 84.15 nessa nova coluna, todes da segunda classe tenham o valor 20.66 e da terceira classe 13.67. <br>
Podemos tentar:

In [None]:
df["Fare_Mean"] = df.groupby('Pclass')["Fare"].mean()

In [None]:
df.head(10)

Xiiii... deu ruim...
<br>
<br>
Como poderíamos resolver utilizando o `groupby().agg()`?

#### Transformação dos dados
Ao aplicarmos o método `.transform()` temos como retorno um objeto com o mesmo index do df de origem contendo a a tranformação realizada para cada uma das linhas. Dessa forma podemos utilizar esse método e apenas criar uma coluna nova no nosso df.
<br>

Ele será muito **útil na criação de novas features** para os modelos.

In [None]:
df["Fare_Mean"] = df.groupby('Pclass')["Fare"].transform('mean')
df.head(10)

In [None]:
df.groupby('Pclass')[["Fare"]].transform('mean')

Podemos aplicar tanto as operações mencionadas na agregação quanto uma função `lambda`:

In [None]:
df['variacao_max_min'] = df.groupby('Pclass')[["Fare"]].transform(lambda x: x.max() - x.min())
df.head(10)

Também podemos preencher os valores nulos com a média de cada grupo

In [None]:
# verificando quantidade de nulos por coluna
df.isna().sum()

Para preencher os nulos utilizaremos o método `.fillna()` que veremos mais ainda hoje

In [None]:
df['Age_sem_nulo'] = df.groupby(['Pclass'])[['Age']].transform(lambda x: x.fillna(x.mean()))

In [None]:
df.isna().sum()

In [None]:
# Conferindo o preenchimento de nulos
# idade média por Pclass
df.groupby(['Pclass'])[['Age']].mean()

In [None]:
# selecionando a parte do df que tem idade nula
df[df.Age.isna()].head(10)

#### Filtros
O filtro retorna apenas um subset do nosso df. Aqui podemos aplicar filtros mais elaborados do que os vistos na última aula. <br>
Podemos, por exemplo, eliminar categorias do df que possuem apenas alguns elementos:

In [None]:
df.SibSp.value_counts()

In [None]:
df.shape

In [None]:
def filter_func(x):
    return x['Fare'] - x.Fare_Mean < 100

# df_filter = df.groupby(['SibSp']).filter(lambda x: filter_func(x))

df_filter = df.groupby(['SibSp']).filter(lambda x: len(x) >20)
df_filter.shape

In [None]:
df_filter.SibSp.value_counts()

Vamos supor que antes de afundar o titanic, o time de hapiness quisesse promover uma jogatina para os grupos (segmentado por classe e sexo) que possuem idade média acima de 30 anos.

In [None]:
df.groupby(['Pclass','Sex'])[['Age']].mean()

como podemos filtrar nosso df para termos apenas os passageiros que pertecem a essas segmentações escolhidas?

In [None]:
df.groupby(['Pclass','Sex']).filter(lambda x: x['Age'].mean()>30)

#### Apply

In [None]:
df.groupby(['Pclass']).apply(lambda x: x.describe())

In [None]:
df.columns

E se quisessemos comparar o quanto cada passageiro pagou a mais ou a menos da média do Fare?

In [None]:
def f(group):
    return pd.DataFrame({'Fare_original': group,
                         'Fare_variacao': group - group.mean()})

df[['Fare_original','Fare_variacao']] = df.groupby('Pclass')['Fare'].apply(f)

POsso usar a função apply para preencher valore nulos

In [None]:
d = {'Desc': ['Studio', 'Rooms', 'Studio', 'Studio', 'Studio', 'Rooms','Rooms','Rooms','Studio', 'Rooms']}
df = pd.DataFrame(data=d)
df['Rooms'] = np.nan

# Lambda function       
df['Rooms'] = df.apply(lambda row: 
                       0 if row['Desc'] == 'Studio' 
                       else 1, 
                       axis=1)

#### Transform X Apply
Com o `.transform()` podemos manipular **apenas uma coluna ou linha**, dependendo do parâmetro `axis`. Com o `.apply()` podemos manipular **várias colunas ou linhas** ao mesmo tempo.

## Cruzamento e concatenação de bases

Também é possível fazer **cruzamento de bases** com o pandas. 

Pra quem conhece SQL: esses são os joins!

Pra quem conhece Excel: essa é uma forma de fazer o procv!

Vamos supor que temos as notas de duas provas dos alunos separas em sheets diferentes do excel e queremos juntar essa notas em um único df.


Ref: https://towardsdatascience.com/python-pandas-dataframe-join-merge-and-concatenate-84985c29ef78

In [None]:
# ler os dados de diferentes sheets do mesmo excel "notas.xlsx"
import pandas as pd

df1 = pd.read_excel("notas.xlsx", sheet_name="notas1")
df2 = pd.read_excel("notas.xlsx", sheet_name="notas2")

In [None]:
df1

In [None]:
df2

Repare que temos alunos distintos nos dois df

Diferentes tipos de join

![image](https://user-images.githubusercontent.com/71708626/141090699-6d68d2dd-cd22-4ced-b72f-ffe401871a88.png)

O pandas possui dois métodos específicos para trabalharmos com o join de colunas entre df: `.merge()` e `.join()`. O `.merge()` fornece mais flexibilidade de trabalho e iremos utilizar e ele.

### pd.merge()
pd.merge(
    left,
    right,
    how="inner",
    on=None,
    left_on=None,
    right_on=None,
    left_index=False,
    right_index=False,
    sort=True,
    suffixes=("_x", "_y")
)

In [None]:
df_junto = df1.merge(df2, how='outer')

df_junto.sort_values("prova2", ascending=False)

In [None]:
df1.merge(df2, how="outer", on="RA")

In [None]:
df1.merge(df2, how="outer", on=["RA", "aluno"])

### pd.concat()
Diferente do `.merge()` e `.join()` que operam apenas com colunas, com o `.concat()` podemos especificar se queremos concatenar em linhas ou colunas.
Na concatenação de colunas o `.concat()` considerando o index dos df e não podemos especificar colunas.

pd.concat(
    objs,
    axis=0,
    join="outer",
    ignore_index=False,
    keys=None,
    levels=None,
    names=None,
    verify_integrity=False,
    copy=True,
)



- axis = 0<br>
![image](https://user-images.githubusercontent.com/71708626/141091200-5783e870-3c5b-4a0b-867f-f3f782eadb81.png)

- axis = 1<br>
![image](https://user-images.githubusercontent.com/71708626/141091037-b4713428-dbb7-4137-875d-1f62fc641ea9.png)

In [None]:
pd.concat([df1, df2], axis=1, join="inner")

Repare que ao concatenar diretamente pelo index ele juntou o aluno obi wan com o anakin. Para tirar esse erro podemos utilizar `ignore_index=True` e tirar o `axis=1`.

In [None]:
pd.concat([df1, df2], join="outer", ignore_index=True)

Ao concatenar dois df nas linhas, o `.concat()` irá considerar o nome das colunas. Se temos colunas com nomes distintos e utilizamos o parâmetro join='inner', ele irá ignorar essas colunas: 

In [None]:
pd.concat([df1, df2], axis=0, join="inner")

## Salvando DataFrames

E também é bem fácil salvar um dataframe de volta pra CSV ou pro Excel. 

In [None]:
# salvando dados em csv com o método .to_csv()
tabela.to_csv("tabela_processada2.csv", sep=",")

In [None]:
# Usamos index=False para não salvarmos a coluna de index
df.to_csv('data/dados_editados.csv', index=False) # disco local, passamos o caminho só

In [None]:
# Salvando o data frame editado
data.to_csv('/content/drive/MyDrive/Colab Notebooks/Data - Youtube/data/dados_editados.csv', index=False) # drive passamos o caminho tbm

Para salvar esses dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>


In [None]:
# salvando dados em excel com o método .to_excel()
tabela.to_excel("tabela_processada.xlsx")

## Criando um relatório

In [None]:
# instalando o pandas profiling
!pip install pandas-profiling

In [None]:
# import o ProfileReport
from pandas_profiling import ProfileReport

In [None]:
# executando o profile
profile = ProfileReport(data, title='Relatório - Pandas Profiling')

In [None]:
profile

In [None]:
# salvando o relatório no disco
profile.to_file(output_file="Relatorio-Dataset Titanic.html")

Summarize dataset:   0%|          | 0/26 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Sites úteis


https://levelup.gitconnected.com/pandas-dataframe-python-10-useful-tricks-b4beae91df3d


https://medium.com/horadecodar/como-usar-o-query-do-pandas-fdf4a00727dc

https://ichi.pro/pt/minha-folha-de-referencias-do-python-pandas-128003210494824

https://medium.com/data-hackers/pandas-combinando-data-frames-com-merge-e-concat-10e7d07ca5ec

https://estatsite.com.br/2019/04/30/join-merge-no-python-pandas/

https://medium.com/data-hackers/tratamento-e-transforma%C3%A7%C3%A3o-de-dados-nan-uma-vis%C3%A3o-geral-e-pr%C3%A1tica-54efa9fc7a98