# Aula 12. Pandas
<img  src= "img/pandas1.jpeg" style="width:500px; height:500px">

Pandas é uma das bibliotecas mais utilizadas em Python para manipulação e análise de dados. Esta biblioteca é de código aberto, escrita em Numpy e oferece estruturas e operações para manipulação de tabelas numéricas e séries temporais.

Os principais destaques são:
- Possui dois tipos de objetos `pandas.core.frame.DataFrame` e `pandas.core.series.Series` com indexação integrada;
- Facilita a leitura, escrita e modificação de arquivos com diferentes formatos, entre os quais se destaca .csv, .txt, .xlsx, SQL, HDF5 (Hierarchical Data Format version 5) dentre outros;
- Permite tabelas com diferentes niveis de indexação;
- Permite agrupamento de dados por categorias;
- Realiza mesclagem e junção de conjuntos de dados com alto desempenho;
- Altamente otimizado com códigos escritos em Cython e C;
- Pandas é amplamente utilizado em ambientes acadêmicos e comerciais, incluindo finanças, neurociência, economia, estatística, publicidade, análise da web e muito mais.
---
 
  <font size="6"> Os tópicos que vamos abordar nesta série de conversas são:</font>

- [X] Instalação de pandas;
- [x] Importando pandas;
- [x] Series;
- [x] DataFrame e manipulação;
 - [X] Criação de DataFrame;
 - [X] Extraindo informação por colunas. CUIDADO COM NOTAÇÃO SQL;
 - [X] Extraindo utilizando função loc;
 - [X] Extraindo utilizando função iloc;
 - [X] Adicionando novas colunas;
 - [X] Adicionando novas filas (função append);
 - [X] Eliminando colunas ou filas.
- [X] Operadores de comparação e seleção condicional;
- [X] Dados ausentes;
 - [X] Dropna
 - [X] filna
 - [X] replace
- [X] Groupby, aggregate e apply
- [ ] Juntando diffenrentes `DataFrame` 
 - [ ] `concat`
 - [ ] `merge`
 - [ ] `join`
- [ ] Operações
 - [ ] unique
 - [ ] nunique
 - [ ] value_counts
 - [ ] del ( )
 - [ ] columns
 - [ ] index
 - [ ] sort_values
 - [ ] pivol
- [ ] Importando e exportando dados.
 - [ ] csv
 - [ ] excell
 - [ ] html
- Aplicação
---
<font size="5"> Recomento visitar o site oficial do projeto [Pandas](https://pandas.pydata.org/) para conhecer mais um pouco desta biblioteca.</font>

## Intalação do pandas

Para instalar pandas no nosso computador podemos utilizar o condas ou o pip.
```python
conda install pandas
pip install pandas
```

## importando pandas e numpy

In [1]:
import pandas as pd
import numpy as np

## Series
O conceito principal de uma [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) em Pandas e trabalhar com vetores a partir do indice ou labels. A sintaxe para definir uma Series é:
```python
 pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [None]:
# Definindo algumas variaveis que vamos utilizar
valores  = np.random.randn(1, 10).reshape(10,)
index_row = "A B C D E F G H I J".split(" ")
d = {key: value for key, value in zip(index_row, valores)}

In [None]:
# Criando uma Series passando somente os valores
pd.Series(valores)

In [None]:
# Criando uma Series passando data e index
pd.Series(data=valores, index=index_row)

In [None]:
# Observemos que pomodes criar uma Series passando qualquer tipo de dados
pd.Series(index=valores, data=index_row)

In [None]:
# Observemos que uma Series se comporta muito semelhante ao dicionário dado que ela trabalhar com chave: valor,
# portanto podemos criar uma Seires passando um dicionário
pd.Series(d)

Mas qual é a vantagem de utilizar uma Series em relação ao arrays?

In [None]:
series_1 = pd.Series(data=[5, 10, 20, 30, 8], index="A B C D J".split(" "))
series_2 = pd.Series(data=[20, 15, 15, 5, 25], index="A B K D C".split(" "))
print(series_1)
print(series_2)
print(series_1 + series_2)

## DataFrame e manipulação
O objeto principal de Pandas é o [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), este objeto se aproxima ao que conhecemos como planilha de excell (somente em aparência). Para definir um DataFrame utilizamos a seguinte sintaxe:
```python
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```
Neste caso os argumentos mais relevantes são `data`, `index` e `columns`, porém o único argumento obrigatório é o `data`.

### Criação de DataFrame

In [None]:
data = np.arange(1, 17).reshape((4,4))
index = "Row_1 Row_2 Row_3 Row_4".split(" ")
col = "Col_1 Col_2 Col_3 Col_4".split(" ")

In [None]:
data

In [None]:
# Definindo um DataFrame passando data
pd.DataFrame(data)

In [None]:
# Definindo um DataFrame passando data e index
pd.DataFrame(data, index)

In [None]:
# Definindo um DataFrame passando todos data, index e columns
data_frame = pd.DataFrame(data, index, col)
data_frame

### Extraindo informação por colunas. *CUIDADO COM NOTAÇÃO SQL*

In [None]:
# Extraindo informação da columna Col_4
data_frame["Col_4"]

In [None]:
# Podemos utilizar a notação de ponto e o nome da columna, porém esta forma não é recomendada
data_frame.Col_3

### Extraindo utilizando função loc
A propriedade [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) permite obter os dados de um DataFrame a partir dos labels das filas e das coluna. A sintaxe para aplicar esta propriedade é:
```python
DataFrame.loc[]
```

In [None]:
# Podemos utilizar a função loc para extrair informação utilizando o índice da fila e o nome da coluna
data_frame.loc["Row_1", "Col_1"]

In [None]:
# Para extrair diferentes colunas ou fila passamos uma lista com os nomes das colunas e filas
data_frame.loc[["Row_1", "Row_4"], ["Col_1", "Col_4"]]

In [None]:
# Também podemos utilizar a função loc para extrair filas
data_frame.loc["Row_3"]

### Extraindo utilizando função iloc
Existe outra forma de extrair os valores de um DataFrame utilizando a notação aprendida em Numpy, para isso utilizamos a propriedade [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html):
```python
DataFrame.iloc[]
```

In [None]:
data_frame.iloc[0, 0]

In [None]:
data_frame.iloc[ [0, -1], [0, -1]]

In [None]:
data_frame.iloc[2]

In [None]:
data_frame.iloc[2:]

### Adicionando novas colunas

In [None]:
data_frame["Col_nova"] = data_frame.iloc[:, -1] + data_frame.iloc[:, 0]
data_frame

In [None]:
data_frame["Col_nova_2"]  = 2
data_frame

In [None]:
data_frame

### Adicionando novas filas (função append)
Para adicionar uma nova fila utilizamos a função [append()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html), essa função adiciona uma nova (ou novas) fila(s) no final do DataFrame. A sintaxe utilizada para isso é:
```python
DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)
```

In [None]:
np.array([[1,2,3,4]])

In [None]:
data_frame2 = pd.DataFrame([[1,2,3,4]], columns=col)
data_frame.append(data_frame2)

In [None]:
data_frame.append(data_frame*10)

### Eliminando colunas ou filas
Para eliminar colunas ou filas de um DataFrame utilizamos a função [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html). Neste caso se deve passar o indice da fila que será eliminada ou o label da coluna. Além disso, deve-se especificar o `axis` o qual é 0 para filas e 1 para columnas. A sintaxe utilizada é:

```python
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```

In [None]:
data_frame

In [None]:
# Eliminando a primeira fila
data_frame.drop("Row_1", axis=0)

In [None]:
# Eliminando varias filas 
data_frame.drop(["Row_1", "Row_3"], axis=0)

In [None]:
# Eliminando a primeira coluna
data_frame.drop("Col_1", axis=1)

In [None]:
data_frame

In [None]:
# Eliminando a varias colunas coluna
data_frame.drop(["Col_1", "Col_4"], axis=1, inplace=True)

In [None]:
data_frame
# é interessante o fato de não modificar o data_frame original?

## Operadores de comparação e seleção condicional
Da mesma forma que é possível aplicar operadores de comparação em arrays, com pandas podemos aplicar os mesmos operadores.

In [None]:
# Criando dados para trabalhar
np.random.seed(100)
data2 = np.random.randint(-10, 10, (5,5))
col2 = [f"Col_{i}" for i in range(1, 6)]
row2 = [f"Row_{i}" for i in range(1, 6)]
data_frame2 = pd.DataFrame(data2, row2, col2)
data_frame2 

In [None]:
data_frame2 > 0

In [None]:
# Podemos atribuir esse teste de comparação a uma variável e utiliza-o para realizar seleção
comp = data_frame2 > 0
data_frame2[comp] 
# data_frame2[data_frame2 > 0] 
data_frame2

In [None]:
# Aplicando uma comparação numa serie
comp = data_frame2["Col_5"] > 0
data_frame2[comp]["Col_1"]
data_frame2

In [None]:
# Aplicando comparações multiples
comp1 = data_frame2["Col_5"] >= 2 #(Row_1, Row_2 e Row_4)
comp2 = data_frame2["Col_3"] < -1 # (Row_1, Row_2)
data_frame2[comp2 & comp1]

In [None]:
# As tres linhas anteriores são equivalentes a:
data_frame2[(data_frame2["Col_5"] >= 2) & (data_frame2["Col_3"] < -1)]

In [None]:
data_frame2

## Dados ausentes
Quando trabalhamos com dados provenientes de fontes externas (como base de dados, dados de sensores, etc), pode acontecer que existam dados com valores "inapropriados" ou valores ausentes. Nesse caso a biblioteca Pandas ajuda a processar esses valores.

Cabe destacar que o conceito de dado "inapropriado" varia de cenário para cenário e aforma de tratar esses dados pode varia. Porém, Pandas possui uma diversa variedade de funções e metódos que podem ser utilizados para essa finalidade.

Recomendo a leitura de [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html). Nesta leitura a empresa desenvolvedora da biblioteca Pandas apresenta varias formas de processar dados ausentes.


In [2]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(-10, 10, (n, n)).astype(object)
col2 = [f"Col_{i}" for i in range(1, n + 1)]
row2 = [f"Row_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_nan = pd.DataFrame(data2, row2, col2)
data_frame_nan

Unnamed: 0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9,Col_10
Row_1,-2.0,-7.0,,5.0,6.0,0.0,-8.0,-8,-8.0,4.0
Row_2,-8.0,7.0,6.0,,-6.0,1.0,6.0,-1,-8.0,
Row_3,-6.0,-9.0,3.0,9.0,-6.0,-6.0,-7.0,-3,7.0,5.0
Row_4,,,,6.0,-8.0,,9.0,-8,4.0,7.0
Row_5,6.0,5.0,-3.0,3.0,,2.0,8.0,-10,-8.0,0.0
Row_6,7.0,,3.0,0.0,,,8.0,-2,9.0,4.0
Row_7,-10.0,,2.0,0.0,,-4.0,,5,0.0,
Row_8,-7.0,,6.0,1.0,-6.0,-5.0,-3.0,-4,-8.0,0.0
Row_9,8.0,,2.0,-9.0,-4.0,0.0,-10.0,-8,9.0,-6.0
Row_10,8.0,,,-1.0,,6.0,-4.0,-5,,


### Dropna

Para excluir valores faltantes `NaN` utilizamos a função [`dropna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Os argumentos necessarios para esta função são:

```python
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

In [None]:
# Elimiando os valores NaN, observemos que o resultado é somente Row_3
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=0)

In [None]:
# Elimiando os valores NaN, observemos que o resultado é somente Col_8
# Neste caso definimos axis=0, o que indica que caso alguma fila tenha pelo menos um Nan, a fila será excluida
data_frame_nan.dropna(axis=1)

In [None]:
# Também podemos definir a quantidade de valores no Nan que vamos aceitar. Por tanto se queremos aceitar
# pelo menos um NaN devemos de passar `thresh=9`
data_frame_nan.dropna(axis=1,thresh=9)

In [None]:
# Observemos que a tabela original não foi modificada.
data_frame_nan

In [None]:
# Se queremos modificar o arquivo original devemos passar `inplace=True`
data_frame_nan.dropna(axis=1,thresh=7, inplace=True)
data_frame_nan

### fillna
Outra forma de processar os dados faltantes é utilizando a função [`fillna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) a qual permite substituir o valor faltante por outro valor.
```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
```

In [None]:
# Criando data frame com valores nan
np.random.seed(100)
n = 10
data2 = np.random.randint(25, 37, (n, n)).astype(object)
col2 = [f"Day_{i}" for i in range(1, n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(n):
    for c in range(n):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna

In [None]:
data_frame_fillna.fillna(value="VALOR ERRADO")

In [None]:
# Caso queiramos preencher o valor faltante pelo valor anterior podemos realizar isso aplicando o `method="ffill"`
# Criando data frame com valores nan
np.random.seed(100)
n = 1440 # Equivalente a coleta de pontos cada 60 segundos por 24 h
r_n = 5
data2 = np.random.randint(27, 33, (n, r_n)).astype(object)
col2 = [f"Reactor_{i}" for i in range(1, r_n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(data2.shape[0]):
    for c in range(data2.shape[1]):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
data_frame_fillna = pd.DataFrame(data2, row2, col2)
data_frame_fillna.info()
data_frame_fillna.describe()

In [None]:
data_frame_fillna

In [None]:
data_frame_fillna.fillna(method="ffill", inplace=True)

In [None]:
data_frame_fillna

In [None]:
data_frame_fillna.info()
data_frame_fillna.describe()

### replace
Uma das alternativas mais adequadas para trabalhar com valores ausentes ou inadequados é utilizando a função [`replace`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html). Esta função trabalha de forma semelhante a `dropna` e `filna` porém agora podemos indicar qual ou quais valores queremos substituir. A sintaxe para o funcionamento deste método é:

```python
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```

In [None]:
# Vamos contiuar com data_frame_nan
data_frame_nan

In [None]:
# Observemos que temos varios valores Nan
data_frame_nan.replace(to_replace=np.nan, value=10)

In [None]:
# Podemos passar uma lista de valores para ser subtituido
data_frame_nan.replace(to_replace=[np.nan, 8], value=10)

In [None]:
# E também uma lista de valores para substuir
data_frame_nan.replace(to_replace=[np.nan, 8], value=[100, 80])

In [None]:
# Voltando ao exemplo do sensor de temperatura
np.random.seed(100)
n = 1440 # Equivalente a coleta de pontos cada 60 segundos por 24 h
r_n = 3
err = [10, 15, 20, 40, 35]
data2 = np.random.uniform(27, 33, (n, r_n)).astype(object)
col2 = [f"Reactor_{i}" for i in range(1, r_n + 1)]
row2 = [f"Time_{i}" for i in range(1, n + 1)]
for r in range(data2.shape[0]):
    for c in range(data2.shape[1]):
        if np.random.random() < 0.25:
            data2[r, c] = np.nan
        elif np.random.random() < 0.1:
            data2[r, c] = np.random.choice(err)
data_frame_replace = pd.DataFrame(data2, row2, col2)


In [None]:
data_frame_replace

In [None]:
import matplotlib.pyplot as plt
%matplotlib nbagg
for react in data_frame_replace.columns:
    fig, ax = plt.subplots()
    ax.plot(data_frame_replace[react].values,
             ls="-",
             c='black',
             marker="o", 
             markersize=1.0,
             markeredgecolor='blue',
             lw=0.1)
    ax.set_xlabel("Time")
    ax.set_ylabel("Temperature [°C]")
    ax.set_title(react)

In [None]:
data_frame_replace.replace(to_replace=[40, 35, 20, 15, 10, np.nan], value=data_frame_replace.mean().mean(), inplace=True)

## Groupby, aggregate e apply
Quando trabalhamos com dados qualitativos nominais pode ser necessário realizar agrupamentos e aplicar funções neste grupo de dados para conseguir entender melhor nosso sistema. Panda oferece uma serie de funções que ajudam a realizar isso. Cabe destacar que o potencial de Pandas está no uso em conjunto destas funções e outras.

---

A função [`groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) é umas das função **mais importantes** da biblioteca Pandas devido a que permite realizar o agrupamento de grande quantidade de dados e aplicar funções sobre esses valores agrupados de forma rápida. Para aplicar essa função utilizamos a seguinte sintaxe:
```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)
```

---

A função [`aggregate`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html) permite aplicar uma (ou mais funções) sobre uma(s) coluna(s) ou fila(s).

**Observações**:
- Podem ser aplicadas funções `built-in function`, `lambda functions` ou funções criadas por nós;
- Podem ser aplicadas diferentes quantidades e tipos de funções para diferentes colunas ou filas do mesmo DataFrame;
- Ao momento de passar a funções não é necessário realizar a chamada da função.

A sintaxe utilizada para aplicar esta função é:
```python
DataFrame.aggregate(func=None, axis=0, *args, **kwargs)
```
***Recomendo ler a [documentação da função aggregate](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html) para conseguir entender melhor seu funcionamento***.

---

A função [`apply`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) permite aplicar **UMA FUNÇÃO** sobre uma Series ou um DataFrame, especificando ou eixo onde dever ser aplicada a função.

**Observações**:
- Podem ser aplicadas funções `built-in function`,  `lambda functions` ou funções criadas por nós;
- Ao momento de passar a funções não é necessário realizar a chamada da função.

A sintaxe para utilizar esta função é:

```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
```
***Recomendo ler a [documentação da função apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) para conseguir entender melhor seu funcionamento***.









In [None]:
# Para entender o funcionamento da função groupby vamos a criar uma matrix de dados
n = 1500
np.random.seed(100)
empresas = [f"Empresa {np.random.randint(1, 51)}" for _ in range(n)]
valor_investido = [np.random.uniform(500, 3500) for _ in range(n)]
retorno = [np.random.uniform(2000, 5000) for _ in range(n)]
transferencias = [np.random.randint(50, 150) for _ in range(n)]
matriz = np.c_[valor_investido, retorno, transferencias]
colum = "Valor investido ($R), Retorno ($R), Transferencias".split(", ")
#-----------------------------------------------------------------------
# Criação do DataFrame
data_frame_groupby = pd.DataFrame(data=matriz, columns=colum )
data_frame_groupby["Lucro ($)"] = data_frame_groupby["Retorno ($R)"] - data_frame_groupby["Valor investido ($R)"]
data_frame_groupby["Empresas"] = empresas
data_frame_groupby

In [None]:
data_frame_groupby["Empresas"].unique()

### Groupby

In [None]:
# Para entender o conceito de Groupby, vamos agrupar os dados por empresas
dfgroupby = data_frame_groupby.groupby(by="Empresas")

In [None]:
# Observemos que o retorno da função groupby é o endereço na memoria de um objeto
dfgroupby

In [None]:
# Para conseguir visualizar o DataFrame, devemos aplicar uma função sobre os valores
dfgroupby.mean()

In [None]:
# Podemos utilizar o groupby para realizar agrupamento por camadas
agrupamento_empr_trans = data_frame_groupby.groupby(["Empresas", "Transferencias"]).mean()
agrupamento_empr_trans

In [None]:
agrupamento_trans_empr = data_frame_groupby.groupby(["Transferencias", "Empresas"]).mean()
agrupamento_trans_empr

In [None]:
# E se queremos realizar filtragem ao momento de aplicar o filtro?
agrupamento_empr_trans[(agrupamento_empr_trans["Valor investido ($R)"]>1800) & 
                        (agrupamento_empr_trans["Lucro ($)"]>1500)]

In [None]:
# Podemos utilizar algums metodos para potencializar o uso de groupby
data_frame_groupby.groupby(["Empresas"]).get_group(("Empresa 1"))

In [None]:
data_frame_groupby.groupby(["Empresas", "Transferencias"]).get_group(("Empresa 1", 52))

### aggregate

In [None]:
# podemos aplicar aggreagate para um groupby de dois niveis

# pd.set_option('display.max_rows', 10)
dfgroupby.aggregate({"Lucro ($)": [min, max, np.mean, np.std],
                     "Retorno ($R)": [min, max, np.mean, np.std],
                     "Transferencias": [min, max]})

In [None]:
agrupamento_empr_trans.aggregate({"Lucro ($)": [min, max, np.mean, np.std],
                     "Retorno ($R)": [min, max, np.mean, np.std]})

### apply

In [None]:
# Exemplo com dados de lingaugems de programação
pd.set_option('display.max_rows', 80)
df_ling = pd.read_csv("./Dados/programming_languages.csv")
df_ling

In [None]:
df_lig_grop = df_ling.groupby(by="year")
df_lig_grop["language"]

In [None]:
# Obtendo um dataframe com as linguagens criadas em cada
pd.set_option('display.max_rows', 50)
df_lig_grop["language"].apply(','.join)

In [None]:
# Obtendo um dataframe com as linguagens criadas em cada
df_lig_grop["language"].apply(len).values
df_lig_grop["language"].apply(len).index.values

In [None]:
import matplotlib.pyplot as plt
plt.plot(df_lig_grop["language"].apply(len).index.values,
         df_lig_grop["language"].apply(len).values,
        ls="",
        marker="s")

## Juntando DataFrames
Em algumas ocasiones pode ser necessário criar um DataFrame utilizando dois ou mais DataFrame já existentes. Panda facilita realizar estas operações utilizando as funções `concat`, `merge` e `join`.

### Concat
A função [`concat`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) permite realizar a união de dois DataFrame. A união pode ser feita adicionando o DataFrame como uma série de colunas ou filas novas. Para aplicar está funções se aplica a seguinte sintaxe:

```python
pandas.concat(objs: Union[Iterable[FrameOrSeries], Mapping[Label, FrameOrSeries]], axis='0', join: str = "'outer'", ignore_index: bool = 'False', keys='None', levels='None', names='None', verify_integrity: bool = 'False', sort: bool = 'False', copy: bool = 'True')
```
Cabe destacar que esse método é próprio das `series` e dos `DataFrame`

In [None]:
data = np.arange(1, 10).reshape((3, 3))
columnas = [f"Col {i}" for i in range(1, 4)]
data_frame_1 = pd.DataFrame(data=data, columns=columnas)
data_frame_2 = pd.DataFrame(data=data, columns=columnas)*10
data_frame_3 = pd.DataFrame(data=data, columns=columnas)*100

In [None]:
data_frame_1

In [None]:
data_frame_2

In [None]:
data_frame_3

In [None]:
# Passando os DataFrame que queremos juntar
pd.concat([data_frame_1, data_frame_2, data_frame_3])

In [None]:
# observemos que os índices foram mantidos para os DataFrame original
# Se queremos “reiniciar” os índices passamos o argumento
pd.concat([data_frame_1, data_frame_2, data_frame_3], ignore_index='False')

In [None]:
# Como vimos na reunião passada podemos passar o argumento axis para definir sobre qual eixo queremos realizar a operação
pd.concat([data_frame_1, data_frame_2, data_frame_3], axis=0)

In [None]:
pd.concat([data_frame_1, data_frame_2, data_frame_3], axis=1)

In [None]:
# O que acontece quando os index dos DataFrame são diferentes?
data_frame_2.index = pd.RangeIndex(start=3, stop=6, step=1)
data_frame_3.index = pd.RangeIndex(start=6, stop=9, step=1)
pd.concat([data_frame_1, data_frame_2, data_frame_3], axis=1)

### merge
Pode ser necessário realizar a união de duas tabelas que compartem os elementos de uma coluna, neste caso a função `concat` não é a mais indicada. Pandas possui o método [`marge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) que realiza a junção de duas tabelas mesclando os elementos que compartilham a mesma coluna. A sintaxe para ralizar essa operação é:
```python
DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes='_x', '_y', copy=True, indicator=False, validate=None)
```

In [None]:
# Modificando os DataFrame
data_frame_1["coluna em comum"] = "A B C".split(" ")
data_frame_2["coluna em comum"] = "A C B".split(" ")

In [None]:
data_frame_1

In [None]:
data_frame_2

In [None]:
pd.merge(data_frame_1, data_frame_2, on="coluna em comum")

In [None]:
# Podemos passar mais de uma coluna em comum
data_frame_1["coluna em comum 2"] = "X O I".split(" ")
data_frame_2["coluna em comum 2"] = "Q I X".split(" ")

In [None]:
data_frame_1

In [None]:
data_frame_2

In [None]:
pd.merge(data_frame_1, data_frame_2, on=["coluna em comum", "coluna em comum 2"])

In [None]:
pd.merge(data_frame_1, data_frame_2, on=["coluna em comum", "coluna em comum 2"], how="left")

In [None]:
pd.merge(data_frame_1, data_frame_2, on=["coluna em comum", "coluna em comum 2"], how="right")

In [None]:
pd.merge(data_frame_1, data_frame_2, on=["coluna em comum", "coluna em comum 2"], how="outer")

In [None]:
pd.merge(data_frame_1, data_frame_2, on=["coluna em comum", "coluna em comum 2"], how="inner")

### join
Pode ser necessário combinar DataFrames que possam compartilhar os mesmos índices, neste caso as funções `concat` e `merge` não são as mais adequadas. Para resolver esses problemas os DataFrame pandas possuem o método [`join`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) o qual consegue juntar DataFrame avaliando as semelhanças entre os índices. A sintaxe utilizada é:
```python
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
```

In [None]:
data_frame_1.index = 1, 2, 3
data_frame_2.index = 3, 1, 4

In [None]:
data_frame_1

In [None]:
data_frame_2

In [None]:
data_frame_1.join(data_frame_2, lsuffix=' Original')

In [None]:
# Neste método temos o parâmetro how que modifica a forma de ralizar a união

In [None]:
data_frame_1.join(data_frame_2, lsuffix=' Original', how="left")

In [None]:
data_frame_1.join(data_frame_2, lsuffix=' Original', how="right")

In [None]:
data_frame_1.join(data_frame_2, lsuffix=' Original', how="inner")

In [None]:
data_frame_1.join(data_frame_2, lsuffix=' Original', how="outer")

##  Operações

### unique

O método [`unique`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html) mostra os valores únicos contidos numa `Series`. Esses valores são mostrados em ordem de ocorrência. A sintaxe para utilizar este método é:

```python
pandas.unique(values)
```

In [None]:
# Forma de ser usado 1
data_frame_nan["Col_1"].unique()

In [None]:
data_frame_nan

In [None]:
# Forma de ser usado 2
pd.unique(data_frame_nan["Col_1"])

### nunique
O método [`nunique`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html) retorna o quantidades de ocorrências únicas numa `Series`. A sintaxe para utilizar esse método é:
```python
DataFrame.nunique(axis=0, dropna=True)
```

In [None]:
data_frame_nan

In [None]:
# Utilizando função sem passar nenhum tipo de parâmetro
data_frame_nan.nunique()
# Observemos que os valores Nan não são considerados

In [None]:
# Utilizando utilizando o parâmetro dropna
data_frame_nan.nunique(dropna=False)
# Observemos que os valores Nan são considerados

In [None]:
# Utilizando utilizando o parâmetro axis
data_frame_nan.nunique(axis=1, dropna=False)

### value_counts
A função [`value_counts`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html) retorna uma `Series` com todos os valores e o número de ocorrências de cada valor. A sintaxe para utilizar essa função é
```python
Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
```

In [None]:
#  Utilizando a função com o parâmetro sort
data_frame_nan["Col_1"].value_counts()

In [None]:
# Utilizando a função com o parâmetro sort e normalize
data_frame_nan["Col_3"].value_counts(sort=True, normalize=True)

In [None]:
# Utilizando a função com o parâmetro sort, normalize, dropna
data_frame_nan["Col_3"].value_counts(sort=True, normalize=False, dropna=False)

In [None]:
# Utilizando a função com argumento sort nenhum tipo de parâmetro
data_frame_nan["Col_3"].value_counts(sort=True)

### del

`del` não é uma função ou método próprio de Pandas. Porém podemos usar ele para eliminar colunas de forma rápida. A sintaxe para realizar isso é:
```python
del nome_DataFrame[‘Nome_da_coluna_a_ser_eliminada’]
```

In [None]:
data_frame_nan

In [None]:
del data_frame_nan["Col_6"]

In [None]:
data_frame_nan

### columns
O método `columns` retorna os labels do `DataFrame`. A sintaxe para utilizar este método é:
```python
DataFrame.columns
```

In [None]:
data_frame_nan.columns

### index
O método `index` retorna os índices (labels das filas) do `DataFrame`. A sintaxe para utilizar este método é:
```python
DataFrame.index
```

In [None]:
data_frame_nan.index

### sort_values

A função [`sort_values`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) organiza um DataFrame por colunas ou filas. Está função permite organizar os DataFrame por varias colunas ou filas ao mesmo tempo. A sintaxe para aplicar essa função é:
```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
```

In [None]:
data_frame_nan

In [None]:
# Só utilizando o parâmetro by e ordenando somente por uma coluna
data_frame_nan.sort_values(by="Col_3")

In [None]:
# Só utilizando o parâmetro by e ordenando somente por duas colunas
data_frame_nan.sort_values(by=["Col_3", "Col_4"])

In [None]:
# Organizando o vetor por filas
data_frame_nan.sort_values(by=["Row_2"], axis=1)

In [None]:
# Organizando o vetor por filas
data_frame_nan.sort_values(by=["Row_2", "Row_3"], axis=1)

### pivot

O método [`pivot`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html) é um dos métodos mais simples de Pandas, mas ao mesmo tempo, um dos mais usados e mais poderosos (mais um). Esse método está no mesmo nível que `groupby` e `aggregate`. Esse método se encarrega de reestruturar a um DataFrame. A sintaxe para aplicar esse método é:
```python
DataFrame.pivot(index=None, columns=None, values=None)
```


In [None]:
data_url = 'http://bit.ly/2cLzoxH'
data_frame_exemple = pd.read_csv(data_url)
data_frame_exemple

In [None]:
# Re-estruturando o dataframe
data_frame_exemple.pivot(index="country", columns="year", values="lifeExp")

In [None]:
# Re-estruturando o dataframe, trabalhando com dois index
data_frame_exemple.pivot(index=["country", "continent"], columns="year", values="lifeExp")

In [None]:
# Re-estruturando o dataframe, trabalhando com dois index
data_frame_exemple.pivot(index=["country", "continent"], columns="year", values=["lifeExp", "pop"])

### describe

A função [`describe`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) apresenta as estatísticas de um DataFrame, sendo: média, desvio padrão, quartis, etc. A sintaxe para aplicar está função é:
```python
DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
```


In [None]:
data_frame_exemple.describe()

In [None]:
data_frame_nan.describe()

### info

O método [`info`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html) apresenta um resumo do DataFrame. A sintaxe para aplicar esse método é:
```python
DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None)
```

In [None]:
data_frame_exemple.info()

In [None]:
data_frame_nan.info()

## Exportando e importando dados

Uma das habilidades mais relevantes de Pandas é a forma eficiente de escrever e transformar esses arquivos em DataFrame. A biblioteca pandas possui mais de 15 funções que realizam a leitura de arquivos e os transformam em `pandas.DataFrame`.

---
As funções que utilizaremos para leitura de arquivos são:
- `pd.read_csv()`
- `pd.read_excel()`
- `pd.read_html()`
- `pd.to_csv()`
- `pd.to_excel()`

### read_csv

A função [`pd.read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) realiza a leitura de arquivos `.csv` ou `.txt` e os transforma em DataFrame. A sintaxe para utilizar está função é:
```python
pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
```
Como podemos observar esta função possui diversos parâmetros, porém o único parâmetro obrigatório é `filepath_or_buffer`, os outros parâmetros estão definidos por padrão. Mas devemos ter cuidado com o parâmetro `sep` o qual pude ser diferente ao valor padrão "`,`".

In [None]:
# Lendo um arquivo csv com separador padrão
arquivo_1 = pd.read_csv("./Dados/arquivo1.csv")
arquivo_1

In [None]:
# Lendo mais um arquivo csv
arquivo_2 = pd.read_csv("./Dados/arquivo2.csv")
arquivo_2

In [None]:
# Lendo mais um arquivo csv
arquivo_3 = pd.read_csv("./Dados/arquivo3.csv")
arquivo_3

### read_excel
A função [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) permite a leitura de arquivos tipo excel. Vale  destacar que a as extensões permitidas são: xls, xlsx, xlsm, xlsb, odf, ods. A sintaxe para a utilizar esta função é:
```python
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)
```


In [None]:
arquivo_4 = pd.read_excel(io="./Dados/arquivo4.xlsx")
arquivo_4

In [None]:
arquivo_5 = pd.read_excel(io="./Dados/arquivo5.xlsx")
arquivo_5

In [None]:
# E se o arquivo tem mais de uma aba?
arquivo_6 = pd.read_excel(io="./Dados/arquivo6.xlsx")
arquivo_6

### read_html
A função [`read_html`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html) permite realizar a leitura de uma tabela contida num site. Para utilizar está função aplicamos a seguinte sintaxe:
```python
pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)
```

In [None]:
tabela_html_1 = pd.read_html("http://www.ipeadata.gov.br/ExibeSerie.aspx?serid=32098&module=M")

In [None]:
tabela_html_2 = pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/banklist.html")

### to_csv
A função [`to_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) permite exportar um DataFrame para um arquivo .csv. A sintaxe para utilizar esta função e:
```python
DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict')
```

In [None]:
tabela_html_1[2].to_csv("html_to_csv.csv")

### to_excel
A função [`to_excel`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) permite exportar uma DataFrame para um arquivo .xlsx. A sintaxe para utilizar esta função e:
```python
DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)
```

In [None]:
tabela_html_2[0].to_excel("html_to_excel.xlsx")