# Guia Rapido Pandas

Este é um guia com o intuito de categorizar e facilitar a consulta a comandos basicos da Biblioteca Pandas

## Instalação

In [None]:
%pip install pandas

## Importação

In [None]:
import pandas as pd

## DataFrame

DataFrame é pode ser associado a uma tabela e que contem um lista de entradas individuais, cada entrada é chamada de row (ou record) e cada sessão de column ou Serie.

|   Index  | column 1 | column 2 | column X |
|:--------:|:--------:|:--------:|:--------:|
| record 1 |     A    |     1    |     !    |
| record 2 |     B    |     2    |     #    |
| record X |     Z    |    99    |     @    |


### Criando um DataFrame

Pode ser utilizado um diconario ou qualquer outro interavel para gerar um novo DataFrame

In [62]:
interavel = {"Yes": [50, 21, 14, 345, 979], "No": [13, 1685, 11, 238, 56]}

pd.DataFrame(interavel)


Unnamed: 0,Yes,No
0,50,13
1,21,1685
2,14,11
3,345,238
4,979,56


### Setando o indice do dataframe

Cada row do data frame por padão recebe um numero como indice, porem é possivel editar esse valor.

In [64]:
data = {"Yes": [50, 21], "No": [13, 16]}
index = ["HotDog", "Pizza"]

pd.DataFrame(data, index=index)


Unnamed: 0,Yes,No
HotDog,50,13
Pizza,21,16


### Acessando uma Serie (coluna) do DataFrame

Ao criar um objeto DF é gerado para cada Serie um metodo de acesso sendo o nome da serie. Em caso de nomes complexos ou com caracteres especiais é indicado acessar a Serie atraves de [] passando o nome como string

In [65]:
df = pd.DataFrame({"Yes": [50, 21, 14, 345, 979],
                  "No": [13, 1685, 11, 238, 56]})

# Acesso via objeto
df.Yes

# Acesso nomes complexos
df['Yes']


0     50
1     21
2     14
3    345
4    979
Name: Yes, dtype: int64

### Acessando uma row do Dataframe

In [66]:
df.values[0]


array([50, 13])

### Acessando o valor de uma coluna e row

Podemos acessar diretamente uma coluna e uma linha informando o nome da coluna e o indice da linha.

In [68]:
df['Yes'][2]


14

### Tamanho do DataFrame (Shape)

Retorna o tamanho do DataFrame na ordem de linhas e colunas

In [7]:
df = pd.DataFrame({"Yes": [50, 21, 14, 345, 979, 3, 3, 5, 8, 9, 79, 7, 319, 8489],
                   "No": [13, 1685, 11, 238, 56, 3, 3, 5, 8, 9, 79, 7, 319, 8489]})

df.shape


(14, 2)

### Selecionando X linhas

Pode ser selecionado uma quantidade de linhas, para os casos que queremos apenas uma parcela das informações.

In [8]:
df.head(7)


Unnamed: 0,Yes,No
0,50,13
1,21,1685
2,14,11
3,345,238
4,979,56
5,3,3
6,3,3


### Selecionando uma linha por indice (iloc)

O metodo iloc é utilizado para selecionar linhas que contenham o indice informado.

In [69]:
df.iloc[1]


Yes      21
No     1685
Name: 1, dtype: int64

### Selecionando linha e coluna por indice (iloc)

In [10]:
# iloc[linha, coluna]

df.iloc[:, 1]


0       13
1     1685
2       11
3      238
4       56
5        3
6        3
7        5
8        8
9        9
10      79
11       7
12     319
13    8489
Name: No, dtype: int64

### Selecionando Multiplas Linhas e Colunas por indice (iloc)

In [11]:
# iloc[ [lista de linhas] , [lista de colunas] ]

df.iloc[[1, 4, 7], 0]


1     21
4    979
7      5
Name: Yes, dtype: int64

### Selecionando coluna por nome (loc)

In [12]:
df2 = pd.DataFrame({'Nome': ["A", "B", "C"], "Pais": [
                   "Brasil", "Eua", "Canadá"], "Visto Valido": [True, False, True]})

# loc [numero da linha, 'nome coluna']
df2.loc[:, "Pais"]


0    Brasil
1       Eua
2    Canadá
Name: Pais, dtype: object

### Selecionando varias colunas por nome (loc)

In [13]:
df2.loc[:, ["Nome", "Visto Valido"]]


Unnamed: 0,Nome,Visto Valido
0,A,True
1,B,False
2,C,True


### Setando um Index

In [14]:
df2.set_index("Nome")


Unnamed: 0_level_0,Pais,Visto Valido
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
A,Brasil,True
B,Eua,False
C,Canadá,True


### Inserindo Valores

In [15]:
df["Yes"] = [int(x) for x in range(len(df))]

df


Unnamed: 0,Yes,No
0,0,13
1,1,1685
2,2,11
3,3,238
4,4,56
5,5,3
6,6,3
7,7,5
8,8,8
9,9,9


## DataSet (Series)

DataSet ou Series é o equivalente a serie de valores (coluna) de uma tabela.

|   Serie  |
|:--------:|
| valor 1  |
| valor 2  |
| valor X  |



### Criando uma serie

In [16]:
pd.Series([1, 2, 3, 4, 5])


0    1
1    2
2    3
3    4
4    5
dtype: int64

### Setando o indice e o nome da Serie

In [17]:
serie = [30, 35, 39]
index = ['inside', 'outside', 'underground']
serie_name = "Capacity"

pd.Series(serie, index=index, name=serie_name)


inside         30
outside        35
underground    39
Name: Capacity, dtype: int64

# Leitura de Arquivos

### Lendo um CSV

In [None]:
data = pd.read_csv("./file/path")


### Definindo uma coluna do CSV como Index 

In [None]:
pd.read_csv("./file/path",
            index_col="numero da coluna")


### Lendo um JSON

In [None]:
data = pd.read_json("./file/path")

### Transformando um JSON em um DF

In [None]:
pd.json_normalize(json_data)

# Seleção condicional

In [None]:
df2 = pd.DataFrame({'Nome': ["A", "B", "C"], "Pais": [
                   "Brasil", "Eua", "Canadá"], "Visto Valido": [True, False, True]})


### Comparador

Ao ser feita uma comparação em alguma coluna do DataFrame o resultado será um Serie de true e false, com isso podemos combinar junto ao loc para filtrar variaveis.

In [None]:
df2['Nome'] == "B"


0    False
1     True
2    False
Name: Nome, dtype: bool

In [None]:
df2.loc[df2["Nome"] == "B"]


Unnamed: 0,Nome,Pais,Visto Valido
1,B,Eua,False


### Comparador Maior, Menor e Igual

In [None]:
df2.iloc[df2.index >= 1]


Unnamed: 0,Nome,Pais,Visto Valido
1,B,Eua,False
2,C,Canadá,True


### Logica AND

In [None]:
# loc[ (primeiro comparador) & (segundo comparador) ]

df2.loc[(df2["Nome"] == "C") & (df2["Visto Valido"] == True)]


Unnamed: 0,Nome,Pais,Visto Valido
2,C,Canadá,True


### Logica OR

In [None]:
# loc[ (primeiro comparador) | (segundo comparador) ]

df2.loc[(df2["Nome"] == "A") | (df2["Visto Valido"] == False)]


Unnamed: 0,Nome,Pais,Visto Valido
0,A,Brasil,True
1,B,Eua,False


### Is In (isin)

Verifica se o valor passado esta presente no conjunto de dados, retornando valores booleanos

In [None]:
# isin( [valor ou lista de valores] )

df2.loc[df2["Pais"].isin(['Eua', 'Brasil'])]


Unnamed: 0,Nome,Pais,Visto Valido
0,A,Brasil,True
1,B,Eua,False


### Is NULL

Retorna os valores nulos de uma coluna



In [28]:
df3 = pd.DataFrame({'Nome': ["A", "B", "C"], "Pais": [
                   "Brasil", "Eua", "Canadá"], "Visto Valido": [None, False, None]})

# isnull()
df3.loc[df3["Visto Valido"].isnull()]


Unnamed: 0,Nome,Pais,Visto Valido
0,A,Brasil,
2,C,Canadá,


In [30]:
# Forma Alternativa
df3[pd.isnull(df3['Visto Valido'])]


Unnamed: 0,Nome,Pais,Visto Valido
0,A,Brasil,
2,C,Canadá,


### Not NULL 

Retorna os valores não nulos

In [None]:
# notnull()
df3.loc[df3["Visto Valido"].notnull()]


Unnamed: 0,Nome,Pais,Visto Valido
1,B,Eua,False


In [31]:
# Forma Alternativa
df3[pd.notnull(df3['Visto Valido'])]


Unnamed: 0,Nome,Pais,Visto Valido
1,B,Eua,False


# Funções

### Describe

Utilizado para descrever uma Serie, retorna alguns insites dependendo do tipo de dado. 

In [None]:
df.No.describe()


count      14.000000
mean      780.357143
std      2262.491024
min         3.000000
25%         7.250000
50%        12.000000
75%       198.250000
max      8489.000000
Name: No, dtype: float64

In [None]:
df2.Pais.describe()


count          3
unique         3
top       Brasil
freq           1
Name: Pais, dtype: object

### Mean

Utilizado para calcular a media entre os valores da Serie ou DataFrame e retorna um numero real

In [None]:
df.Yes.mean()


6.5

### Median

Utilizado para calcular a media de valores de uma Serie ou DataFrame e retorna um numero arrendondado

In [None]:
df.Yes.median()


6.5

### Unique

Retorna todos os valores unicos da Serie

In [None]:
df.Yes.unique()


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13])

### Value Counts

Conta a quantidade de vezes que cada valor aparece na Serie

In [None]:
df2.Pais.value_counts()


Brasil    1
Eua       1
Canadá    1
Name: Pais, dtype: int64

### Size

Retorna o tamanho (quantidade) da serie

In [20]:
df2.size


9

### Map

Transforma cada valor em outro

In [None]:
df.No.map(lambda i: i + 100)


0      113
1     1785
2      111
3      338
4      156
5      103
6      103
7      105
8      108
9      109
10     179
11     107
12     419
13    8589
Name: No, dtype: int64

### Apply

Aplica uma função customizada ao DataFrame, por padrão ela transforma cada row e para transformar as colunas deve ser passado o atributo axis="columns"

In [None]:
def sigla(row):
    row.Nome = f"Sr.{row.Nome}"
    return row


df2.apply(sigla, axis="columns")


Unnamed: 0,Nome,Pais,Visto Valido
0,Sr.A,Brasil,True
1,Sr.B,Eua,False
2,Sr.C,Canadá,True


### Mesclando duas Colunas (Metodo Rapido)



In [None]:
df2.Nome + " - " + df2.Pais


0    A - Brasil
1       B - Eua
2    C - Canadá
dtype: object

### Idxmax e Idxmin

Retornar o indice da maior ou menor ocorrencia da Serie

In [None]:
df.No.idxmax()


13

In [None]:
df.No.idxmin()


5

# Agrupamentos e Agregações

### Groupby

Cria um objeto tipo grupby sendo cada item um grupo de valores

In [None]:
df = pd.DataFrame({'Resposta 1': ["yes", "no", "yes", "yes", "yes", "no"], 'Resposta 2': [
                  "no", 'no', 'no', 'yes', 'yes', 'no']})

df.groupby('Resposta 1')['Resposta 1'].count()


Resposta 1
no     2
yes    4
Name: Resposta 1, dtype: int64

### Agg

Usado junto ao groupby possui uma variedade de funções que podem ser aplicadas simultaneamente ao DataFrame

- len
- min
- max

In [None]:
df.groupby('Resposta 1')['Resposta 1'].agg([len, min, max])


Unnamed: 0_level_0,len,min,max
Resposta 1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
no,2,no,no
yes,4,yes,yes


### Sort Values

Realiza a classificação dos valores atravez da coluna informada, podendo ainda classificar de modo crescente ou decrescente

In [None]:
df.sort_values(by='Resposta 1', ascending=True)


Unnamed: 0,Resposta 1,Resposta 2
1,no,no
5,no,no
0,yes,no
2,yes,no
3,yes,yes
4,yes,yes


# Tipos de Dado

### dtypes

Retorna o tipo de dado de cada coluna do DataFrame

In [23]:
df.dtypes


Yes    int64
No     int64
dtype: object

### dtype

Retorna o tipo de dado da coluna especificada

In [24]:
df.Yes.dtype


dtype('int64')

### astype

Trasnforma uma a coluna no formato especificado

- float64 (NaN)
- int64
- datetime64
- object (string)

In [25]:
df.Yes.astype('float64')


0      0.0
1      1.0
2      2.0
3      3.0
4      4.0
5      5.0
6      6.0
7      7.0
8      8.0
9      9.0
10    10.0
11    11.0
12    12.0
13    13.0
Name: Yes, dtype: float64

# Substituindo Valores

### Fillna

Substitui todas os valores NaN de uma coluna pelo valor especificado

In [35]:
# df.coluna.fillna('valor a ser aplicado')

df = pd.DataFrame({'Nome': ['A', 'B', 'C', 'D', 'E'], 'Nota': [
                  5, None, float("NaN"), 9.1, float('nan')]})

df.Nota.fillna('sem nota')


0         5.0
1    sem nota
2    sem nota
3         9.1
4    sem nota
Name: Nota, dtype: object

### Replace

Substitui o valor passado pelo valor especificado

In [36]:
# df.coluna.replace('valor original','novo valor')

df = pd.DataFrame({'Nome': ['A', 'B', 'C', 'D', 'E'], 'Nota': [
                  5, None, float("NaN"), 9.1, float('nan')]})

df.Nome.replace('A', 'Abracadabra')


0    Abracadabra
1              B
2              C
3              D
4              E
Name: Nome, dtype: object

# Renomeando e Combinando Valores

### Rename

Renomea index ou colunas

In [42]:
# dataset.rename(columns={'nome antigo':'novo nome'})
# dataset.rename(index={0:'novo nome', N :'novo nome'...})

df.rename(columns={'Nome': 'Letra', 'Nota': 'Valores'},
          index={0: 'Primeiro', 1: 'Segundo', 2: 'Terceiro'})


Unnamed: 0,Letra,Valores
Primeiro,A,5.0
Segundo,B,
Terceiro,C,
3,D,9.1
4,E,


### Rename Axis

Renomea ou cria uma serie em um dos eixos selecionados

In [50]:
# dataframe.rename_axis('linha', axis='rows')
# dataframe.rename_axis('coluna', axis='columns')


df.rename_axis('Nova Linha', axis='rows').rename_axis('Nova Coluna',axis='columns')

Nova Coluna,Nome,Nota
Nova Linha,Unnamed: 1_level_1,Unnamed: 2_level_1
0,A,5.0
1,B,
2,C,
3,D,9.1
4,E,


### Concat

Concatena duas colunas ou data sets caso tenham as mesmas colunas para comparar

In [54]:
df1 = pd.DataFrame({'Nome':['A','B','C'],'Valor':[1,2,3]})
df2 = pd.DataFrame({'Nome':['Z','X','Y']})

pd.concat([df1,df2])

Unnamed: 0,Nome,Valor
0,A,1.0
1,B,2.0
2,C,3.0
0,Z,
1,X,
2,Y,


### Join 

Aplica logica join usando o index como chave entre os DFs

Necessario sempre informar o ***lsuffix*** e o ***rsulffix*** pois caso haja alguma coluna com o mesmo nome em ambos os DFs elas sejam renomeadas com esse valor.

In [58]:
# left_df.join(right_df, lsuffix='nome', rsulffix='nome')

df_left = pd.DataFrame({'Nome':['A','B','C'],'Idade':[22,15,19]})
df_right = pd.DataFrame({'Nome':['A','B','C','D','E','F'],'Sexo':['M','F','O','F','F','M']})

df_left.join(df_right,lsuffix='_left',rsuffix='_rigth')

Unnamed: 0,Nome_left,Idade,Nome_rigth,Sexo
0,A,22,A,M
1,B,15,B,F
2,C,19,C,O


### Merge

Similar ao join porem permite realizar a junção em outras direções:

- left
- right
- outer (full join)
- inner (padrão)
- cross