<a href="https://colab.research.google.com/github/rodreras/geopy_minicurso/blob/main/notebooks/2_bibliotecas/PythonGeo_Bibliotecas_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução às Bibliotecas - Parte 1

Neste notebook, vamos ver rapidamente algumas bibliotecas importantes que são utilizadas na análise de dados. São elas:
- `Pandas`, para manipulação de dados
- `Numpy`, para criar vetores e aplicação de funções matemáticas.   
- `Matplotlib`, para plotar os dados
- `Seaborn`, para deixar os gráficos mais bonitos.

Essa parte do curso foi traduzida do curso gratuito [Python para Geológos](https://github.com/kevinalexandr19/manual-python-geologia), desenvolvido pelo Geólogo [Kevin Alexander Gómez](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) do Peru. O curso possui [Licença MIT](https://github.com/kevinalexandr19/manual-python-geologia/blob/main/LICENSE), permitindo assim a distribuição e modificação do material. 
Para saber mais, visite o repositório  [Python para Geológos](https://github.com/kevinalexandr19/manual-python-geologia).

___

## Pandas

Pandas é uma biblioteca, ou seja, um módulo de códigos que permite que o Python fique mais poderoso. Seu principal objetivo é realizar a manipulação de dados de forma simples e rápida.
A forma de visualização dos dados é sempre em tabelas, em forma de `Dataframes` ou então `Series`.

Por ser uma biblioteca muito poderosa, pode-se fazer uma série de atividades:

- Explorar, limpar e processar os dados de maneira veloz e programática;
- Integração de diversos formatos de fontes de dados (`json`,`csv`,`sql`, etc.);
- Filtrar e selecionar colunas ou linhas específicas;
- Realizar cálculos básicos rápidos;
- Agrupar e desagrupar dados;
- Entre muitas outras coisas mais.

In [None]:
#para importar  a biblioteca
import pandas as pd

### 1. Pandas Series

Vamos criar um objeto denominado `Series`.

In [None]:
au = pd.Series([5.0, 6.1, 4.2, 2.4, 8.3], index=["A", "B", "C", "D", "E"])


ag = pd.Series({"A": 51.2, "B": 62.7, "C": 54.8, "D": 47.1, "E": 40.3})
au, ag

(A    5.0
 B    6.1
 C    4.2
 D    2.4
 E    8.3
 dtype: float64, A    51.2
 B    62.7
 C    54.8
 D    47.1
 E    40.3
 dtype: float64)

In [None]:
#agora obter os índices da Series
au.index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [None]:
# dessa vez, os valores.
au.values

array([5. , 6.1, 4.2, 2.4, 8.3])

**DESAFIO**

- Crie agora uma Series para os valores de Cu.

|Amostra| Valor |
|-------|-------|
| A | 3.2 |
| B | 4.5 |
| C |  2.1 | 
| D | 4.8 |
| E | 5.4 |



In [None]:
#escreva aqui sua serie para Cu
cu = pd.Series([3.2, 4.5, 2.1, 4.8, 5.4], index=["A", "B", "C", "D", "E"])
#agora, coloque para retornar toda a serie.
cu

A    3.2
B    4.5
C    2.1
D    4.8
E    5.4
dtype: float64

In [None]:
# Podemos criar uma cópia com a função copy()
copia = cu.copy()
copia

A    3.2
B    4.5
C    2.1
D    4.8
E    5.4
dtype: float64

In [None]:
#Da mesma forma como um dicionário Python, podemos adicionar e modificar os 
# valores de uma série

copia[0] = 0
copia["F"] = 10
copia

A     0.0
B     4.5
C     2.1
D     4.8
E     5.4
F    10.0
dtype: float64

In [None]:
index = ["A", "B", "C", "D", "E"]

dict(zip(index, [4.0, 6.1, 3.5, 6.4, 8.9]))

{'A': 4.0, 'B': 6.1, 'C': 3.5, 'D': 6.4, 'E': 8.9}

In [None]:
#agora, além de zn, crie uma para pb
index = ["A", "B", "C", "D", "E"]

zn = pd.Series(dict(zip(index, [4.0, 6.1, 3.5, 6.4, 8.9])))
pb = pd.Series(dict(zip(index, [4.6, 3.4, 9.8, 1.2, 3.3])))

In [None]:
#mostrando os resultados
display(zn)
display(pb)

A    4.0
B    6.1
C    3.5
D    6.4
E    8.9
dtype: float64

A    4.6
B    3.4
C    9.8
D    1.2
E    3.3
dtype: float64

In [None]:
#Dentro de uma série, podemos fazer fatiamento das informações
zn[1:3]

B    6.1
C    3.5
dtype: float64

In [None]:
pb["C": "E"]

C    9.8
D    1.2
E    3.3
dtype: float64

Duas funções bem importantes do Pandas são `.loc` e `.iloc`. Elas servem para localizar um termo ou então buscar pela posição. Vejamos a seguir:

In [None]:
#vou buscar um valor que tenha "B"

zn.loc['B']

6.1

In [None]:
#buscar o que tem na posição 1
zn.iloc[1]

6.1

### 2. Pandas Dataframe

Um dataframe, também abreviado como `df`, agrupa uma conjunto de `Series` para gerar uma tabela com colunas e linhas.
Vamos utilizar as `Series` criadas para fazer um dataframe.

In [None]:
df = pd.DataFrame({'Au':au,
                   'Ag':ag,
                   'Cu':cu,
                   'Zn':zn,
                   'Pb': pb
                   }
                  )
#para retornar sem limite de linhas
df

Unnamed: 0,Au,Ag,Cu,Zn,Pb
A,5.0,51.2,3.2,4.0,4.6
B,6.1,62.7,4.5,6.1,3.4
C,4.2,54.8,2.1,3.5,9.8
D,2.4,47.1,4.8,6.4,1.2
E,8.3,40.3,5.4,8.9,3.3


In [None]:
#usando a função head
df.head()

Unnamed: 0,Au,Ag,Cu,Zn,Pb
A,5.0,51.2,3.2,4.0,4.6
B,6.1,62.7,4.5,6.1,3.4
C,4.2,54.8,2.1,3.5,9.8
D,2.4,47.1,4.8,6.4,1.2
E,8.3,40.3,5.4,8.9,3.3


In [None]:
df.head(2)

Unnamed: 0,Au,Ag,Cu,Zn,Pb
A,5.0,51.2,3.2,4.0,4.6
B,6.1,62.7,4.5,6.1,3.4


In [None]:
#Desafio:
## como obter o final do df?
df.tail(2)

Unnamed: 0,Au,Ag,Cu,Zn,Pb
D,2.4,47.1,4.8,6.4,1.2
E,8.3,40.3,5.4,8.9,3.3


In [None]:
#Também podemos fazer uma cópia de um dataframe
df.copy()

Unnamed: 0,Au,Ag,Cu,Zn,Pb
A,5.0,51.2,3.2,4.0,4.6
B,6.1,62.7,4.5,6.1,3.4
C,4.2,54.8,2.1,3.5,9.8
D,2.4,47.1,4.8,6.4,1.2
E,8.3,40.3,5.4,8.9,3.3


#### 2.1 Índices e Colunas

As vezes, é necessário renomear uma coluna. Para isso, usamos a função `rename()`. 

In [None]:
df.rename(
          columns={"Au": "Ouro"},
          index={"A": "AM1"}
          )

Unnamed: 0,Ouro,Ag,Cu,Zn,Pb
AM1,5.0,51.2,3.2,4.0,4.6
B,6.1,62.7,4.5,6.1,3.4
C,4.2,54.8,2.1,3.5,9.8
D,2.4,47.1,4.8,6.4,1.2
E,8.3,40.3,5.4,8.9,3.3


In [None]:
# Em alguns casos, é necessário remover o índice para realizar operações.
## Para isso, usamos a função reset_index()

df.reset_index()

Unnamed: 0,index,Au,Ag,Cu,Zn,Pb
0,A,5.0,51.2,3.2,4.0,4.6
1,B,6.1,62.7,4.5,6.1,3.4
2,C,4.2,54.8,2.1,3.5,9.8
3,D,2.4,47.1,4.8,6.4,1.2
4,E,8.3,40.3,5.4,8.9,3.3


In [None]:
#Caso adicionemos o parâmetro drop = True, o índice antigo será descartado

df.reset_index(drop=True)

Unnamed: 0,Au,Ag,Cu,Zn,Pb
0,5.0,51.2,3.2,4.0,4.6
1,6.1,62.7,4.5,6.1,3.4
2,4.2,54.8,2.1,3.5,9.8
3,2.4,47.1,4.8,6.4,1.2
4,8.3,40.3,5.4,8.9,3.3


In [None]:
#Caso queiramos que a mudança seja permanente, precisamos usar o parâmetro
## inplace = True

df.reset_index(drop = True, inplace = True)

In [None]:
df.head()

Unnamed: 0,Au,Ag,Cu,Zn,Pb
0,5.0,51.2,3.2,4.0,4.6
1,6.1,62.7,4.5,6.1,3.4
2,4.2,54.8,2.1,3.5,9.8
3,2.4,47.1,4.8,6.4,1.2
4,8.3,40.3,5.4,8.9,3.3


In [None]:
#Todavia, podemos acrescentar um índice novamente:

df.index = ["AM1", "AM2", "AM3", "AM4", "AM5"]
df

Unnamed: 0,Au,Ag,Cu,Zn,Pb
AM1,5.0,51.2,3.2,4.0,4.6
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2
AM5,8.3,40.3,5.4,8.9,3.3


In [None]:
#Se necessário, podemos colocar um nome no índice
df.index.name = 'Amostras'
df

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM1,5.0,51.2,3.2,4.0,4.6
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2
AM5,8.3,40.3,5.4,8.9,3.3


In [None]:
#Para ver todas as colunas de um df, usamos a função columns

df.columns

Index(['Au', 'Ag', 'Cu', 'Zn', 'Pb'], dtype='object')

In [None]:
#Para saber o tipo de dados de cada coluna, há a função dtypes, muito importante
# na hora de fazer a exploração dos dados

df.dtypes

Au    float64
Ag    float64
Cu    float64
Zn    float64
Pb    float64
dtype: object

In [None]:
# Algumas vezes, talvez seja necessário ordenar de forma crescente
# ou decrescente os valores

df.sort_values(by=['Ag'], ascending = True)

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM5,8.3,40.3,5.4,8.9,3.3
AM4,2.4,47.1,4.8,6.4,1.2
AM1,5.0,51.2,3.2,4.0,4.6
AM3,4.2,54.8,2.1,3.5,9.8
AM2,6.1,62.7,4.5,6.1,3.4


In [None]:
#Experimente escrever o último código, mas ao invés de ascending = True, coloque False
#quais são as diferenças?

df.sort_values(by=['Ag'], ascending = False)

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM1,5.0,51.2,3.2,4.0,4.6
AM4,2.4,47.1,4.8,6.4,1.2
AM5,8.3,40.3,5.4,8.9,3.3


#### 2.2 Seleção de Linhas e Colunas

Podemos selecionar colunas a partir de seu nome. Veja abaixo:

In [None]:
df['Au'] #df.Au

Amostras
AM1    5.0
AM2    6.1
AM3    4.2
AM4    2.4
AM5    8.3
Name: Au, dtype: float64

In [None]:
## E também podemos selecionar várias com uma lista
df[['Au','Pb','Ag']]

Unnamed: 0_level_0,Au,Pb,Ag
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AM1,5.0,4.6,51.2
AM2,6.1,3.4,62.7
AM3,4.2,9.8,54.8
AM4,2.4,1.2,47.1
AM5,8.3,3.3,40.3


In [None]:
#o fatiamento também ocorre em dfs

df[1:]

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2
AM5,8.3,40.3,5.4,8.9,3.3


In [None]:
df['AM3':]

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2
AM5,8.3,40.3,5.4,8.9,3.3


In [None]:
#As funções de loc e iloc são ótimas ferramentas em dataframes
df.loc[["AM1", "AM3"], ["Ag", "Pb"]]

Unnamed: 0_level_0,Ag,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1
AM1,51.2,4.6
AM3,54.8,9.8


In [None]:
##Desafio: filtre apenas a amostra AM5 e Au

df.loc[['AM5'], ['Au']]

Unnamed: 0_level_0,Au
Amostras,Unnamed: 1_level_1
AM5,8.3


In [None]:
df.loc["AM1": "AM4", :]

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM1,5.0,51.2,3.2,4.0,4.6
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2


In [None]:
df.iloc[[0, 2], [1, 4]]

Unnamed: 0_level_0,Ag,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1
AM1,51.2,4.6
AM3,54.8,9.8


In [None]:
df.iloc[0:4, :]

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM1,5.0,51.2,3.2,4.0,4.6
AM2,6.1,62.7,4.5,6.1,3.4
AM3,4.2,54.8,2.1,3.5,9.8
AM4,2.4,47.1,4.8,6.4,1.2


In [None]:
#Expressões lógicas também podem ser utilizadas por aqui...
df["Au"] > 5.0


Amostras
AM1    False
AM2     True
AM3    False
AM4    False
AM5     True
Name: Au, dtype: bool

In [None]:
#caso queira que retorne um dataframe, é preciso fazer isso:
df[df["Au"] > 5.0]

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AM2,6.1,62.7,4.5,6.1,3.4
AM5,8.3,40.3,5.4,8.9,3.3


#### 2.3 Modificando linhas e colunas

É possível remover linhas e colunas usando a função `drop()`, e em seguida o parâmetro `inplace = True`, para certificar-se de que a alteração foi salva.

In [None]:
df.drop(columns=["Au", "Ag"], index=["AM1", "AM2"])

Unnamed: 0_level_0,Cu,Zn,Pb
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AM3,2.1,3.5,9.8
AM4,4.8,6.4,1.2
AM5,5.4,8.9,3.3


In [None]:
#Também podemos acrescentar novas colunas
df["LigaMetalica"] = df["Cu"] + df["Zn"] + df["Pb"]
df

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb,LigaMetalica
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AM1,5.0,51.2,3.2,4.0,4.6,11.8
AM2,6.1,62.7,4.5,6.1,3.4,14.0
AM3,4.2,54.8,2.1,3.5,9.8,15.4
AM4,2.4,47.1,4.8,6.4,1.2,12.4
AM5,8.3,40.3,5.4,8.9,3.3,17.6


#### 2.4 Valores Vazios em Pandas

Vamos criar uma coluna vazia. Para isso, precisaremos da ajuda da biblioteca `Numpy`.

In [None]:
import numpy as np

df['Null'] = np.nan
df

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb,LigaMetalica,Null
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
AM1,5.0,51.2,3.2,4.0,4.6,11.8,
AM2,6.1,62.7,4.5,6.1,3.4,14.0,
AM3,4.2,54.8,2.1,3.5,9.8,15.4,
AM4,2.4,47.1,4.8,6.4,1.2,12.4,
AM5,8.3,40.3,5.4,8.9,3.3,17.6,


In [None]:
#Para localizar valores nulos (nan), usamos a função isna

df.isna().sum()

Au              0
Ag              0
Cu              0
Zn              0
Pb              0
LigaMetalica    0
Null            5
dtype: int64

In [None]:
#Para alterar todos os valores nulos, há a função abaixo.
df.fillna("")


Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb,LigaMetalica,Null
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
AM1,5.0,51.2,3.2,4.0,4.6,11.8,
AM2,6.1,62.7,4.5,6.1,3.4,14.0,
AM3,4.2,54.8,2.1,3.5,9.8,15.4,
AM4,2.4,47.1,4.8,6.4,1.2,12.4,
AM5,8.3,40.3,5.4,8.9,3.3,17.6,


In [None]:
#Por fim, caso queira excluir todos os NaN (o que não é recomendável do
#ponto de vista estatístico), basta usar a função dropna()

# axis = 1 para eliminar das colunas

#axis = 0 para eliminar das linhas

df.dropna(axis = 1)

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb,LigaMetalica
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AM1,5.0,51.2,3.2,4.0,4.6,11.8
AM2,6.1,62.7,4.5,6.1,3.4,14.0
AM3,4.2,54.8,2.1,3.5,9.8,15.4
AM4,2.4,47.1,4.8,6.4,1.2,12.4
AM5,8.3,40.3,5.4,8.9,3.3,17.6


In [None]:
df.dropna(axis=1, inplace=True)
df

Unnamed: 0_level_0,Au,Ag,Cu,Zn,Pb,LigaMetalica
Amostras,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AM1,5.0,51.2,3.2,4.0,4.6,11.8
AM2,6.1,62.7,4.5,6.1,3.4,14.0
AM3,4.2,54.8,2.1,3.5,9.8,15.4
AM4,2.4,47.1,4.8,6.4,1.2,12.4
AM5,8.3,40.3,5.4,8.9,3.3,17.6


#### 2.5 Guardar e Carregar arquivos

Para guardar a informação, é preciso ver, primeiro, se o Pandas aceita exportar para o formato desejado (muito provavelmente vai dar certo).

Muito comum exportar os dados diretamente para `csv`. Para isso, existe a função `to_csv()`.

Como ainda não montamos o Drive nessa lição, vamos fazer isso, e então salvar o arquivo na pasta `Dados`.

In [None]:
# Run this cell to mount your Google Drive.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
#vamos definir o nome da pasta e o caminho onde o arquivo será salvo
caminho = '/content/drive/MyDrive/minicurso_python_geologia/Notebooks/05_11/2_Bibliotecas/Dados'

In [None]:
#agora, salvando o arquivo
df.to_csv(caminho+'/'+'analise_quimica.csv')

In [None]:
#para ler, o processo é bastante semelhante

csv = pd.read_csv(caminho+'/'+'analise_quimica.csv')
csv.head()

Unnamed: 0,Amostras,Au,Ag,Cu,Zn,Pb,LigaMetalica
0,AM1,5.0,51.2,3.2,4.0,4.6,11.8
1,AM2,6.1,62.7,4.5,6.1,3.4,14.0
2,AM3,4.2,54.8,2.1,3.5,9.8,15.4
3,AM4,2.4,47.1,4.8,6.4,1.2,12.4
4,AM5,8.3,40.3,5.4,8.9,3.3,17.6


#### 2.6 Análise geral

As vezes, queremos só dar uma olhada geral nos números e estatísticas. Para isso, existe a função `describe()`.

In [None]:
rochas = pd.read_csv(caminho+'/'+'rochas.csv')
rochas.head()

Unnamed: 0,Nome,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
0,Peridotita,45.16,1.56,8.79,0.97,44.47,0.1,0.02,0.13,0.1
1,Peridotita,45.97,2.94,8.9,2.83,39.89,0.17,0.04,0.13,0.19
2,Peridotita,46.91,3.62,8.23,2.73,39.55,0.14,0.01,0.13,0.11
3,Peridotita,44.96,2.01,9.04,1.1,43.39,0.1,0.02,0.13,0.11
4,Peridotita,45.24,0.73,7.92,0.42,46.79,0.01,0.01,0.11,0.03


In [None]:
rochas.describe()

Unnamed: 0,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
count,4564.0,4564.0,4564.0,4564.0,4564.0,4564.0,4564.0,4564.0,4564.0
mean,58.539551,11.066517,5.398737,3.084427,14.704665,2.521468,1.99712,0.098935,0.403606
std,11.57278,6.377444,3.003889,1.945397,18.636226,1.841039,1.62922,0.056822,0.353953
min,23.49,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,44.7,3.23,3.17,1.87,1.26,0.24,0.09,0.06,0.14
50%,64.05,14.819279,4.56,2.97,2.103881,3.175,2.27,0.09635,0.38
75%,67.62,15.85,7.66,4.0325,38.5525,3.97,3.29,0.13,0.56
max,79.9,25.4,20.72,25.265,53.1,7.9,8.13,1.21,4.78


In [None]:
#Para obter os valores únicos da coluna, usamos a função unique()

rochas.Nome.unique()

array(['Peridotita', 'Granodiorita'], dtype=object)

In [None]:
rochas.shape

(4564, 10)

In [None]:
rochas.sample(5)

Unnamed: 0,Nome,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
2018,Granodiorita,66.49,16.83,3.3,4.93,0.99,3.99,1.73,0.11,0.34
1513,Peridotita,40.36,0.2,9.44,1.04,48.05,0.02,0.09,0.15,0.17
1320,Peridotita,45.45,1.98,8.24,2.59,40.84,0.17,0.01,0.121,0.043
1856,Granodiorita,66.42,16.43,3.0,4.16,1.61,4.27,3.03,0.027,0.525
2674,Granodiorita,68.3,15.3,3.25,4.03,1.5,3.22,2.89,0.1,0.67


In [None]:
rochas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4564 entries, 0 to 4563
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nome    4564 non-null   object 
 1   SiO2    4564 non-null   float64
 2   Al2O3   4564 non-null   float64
 3   FeOT    4564 non-null   float64
 4   CaO     4564 non-null   float64
 5   MgO     4564 non-null   float64
 6   Na2O    4564 non-null   float64
 7   K2O     4564 non-null   float64
 8   MnO     4564 non-null   float64
 9   TiO     4564 non-null   float64
dtypes: float64(9), object(1)
memory usage: 356.7+ KB


#### 2.7 Agrupamento de dados

Para agrupar dados de acordo com uma ou diversas colunas, podemos usar o método `groupby()`. 
Essa função permite realizar operações sobre cada um dos grupos de forma independente.

In [None]:
rochas.groupby(['Nome'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f788ac609d0>

In [None]:
#quantidade de elementos por grupo
rochas.groupby(['Nome']).count()

Unnamed: 0_level_0,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Granodiorita,2993,2993,2993,2993,2993,2993,2993,2993,2993
Peridotita,1571,1571,1571,1571,1571,1571,1571,1571,1571


In [None]:
#media por grupo
rochas.groupby(['Nome']).mean()

Unnamed: 0_level_0,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Granodiorita,66.478101,15.494279,3.736919,3.448311,1.618093,3.725909,2.983752,0.078362,0.517362
Peridotita,43.415374,2.630939,8.564758,2.391172,39.636627,0.226822,0.117431,0.138131,0.186882


In [None]:
#quantidade de SiO2 por grupo
rochas.groupby(['Nome'])['FeOT'].mean()

Nome
Granodiorita    3.736919
Peridotita      8.564758
Name: FeOT, dtype: float64

In [None]:
#mediana por grupo
rochas.groupby(['Nome']).median()

Unnamed: 0_level_0,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Granodiorita,66.52,15.53,3.6,3.37,1.51,3.72,2.98,0.07,0.49
Peridotita,43.85,2.13,8.06,1.98,41.02,0.14,0.03,0.13,0.09


In [None]:
#coeficiente de variação por grupo
rochas.groupby(['Nome']).std() / rochas.groupby(['Nome']).mean()

Unnamed: 0_level_0,SiO2,Al2O3,FeOT,CaO,MgO,Na2O,K2O,MnO,TiO
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Granodiorita,0.062405,0.079269,0.408062,0.446731,0.590787,0.245766,0.361306,0.657902,0.474438
Peridotita,0.06275,0.987772,0.297652,1.002265,0.194094,2.061584,2.805062,0.32168,2.255234


In [None]:
#por fim, se quisermos realizar várias funções para colunas específicas,
#usamos o método agg

rochas.groupby('Nome').agg({"SiO2": [np.max, np.min], "Al2O3": [np.max, np.min]})

Unnamed: 0_level_0,SiO2,SiO2,Al2O3,Al2O3
Unnamed: 0_level_1,amax,amin,amax,amin
Nome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Granodiorita,79.9,35.3,22.71,5.4
Peridotita,58.16,23.49,25.4,0.01
