# MultiIndex
Permite ter vários níveis de índices em um DataFrame. 

In [19]:
import pandas as pd
import numpy as np

# criando um exemplo de multi-index
arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]

index = pd.MultiIndex.from_arrays(arrays, names=('letras', 'numeros'))
data_array = pd.Series(np.random.randn(4), index=index)

data_array

letras  numeros
A       1         -0.175258
        2         -2.114182
B       1         -1.381851
        2          1.124286
dtype: float64

# Stack e unstack
Para tratamento de dados multi-index (com mais de um índice)
## Stack stack()
* Usada para coverter colunas de um DF em índices, resultando em uma reorganização dos dados de formato "largo" (wide) para formato longo (long). 
* Ela empilha as colunas selecionadas movendo-as para o índice mais interno.

## Unstack unstack():
* É o oposto da função stack. 
* Desempilha os dados de um DF de formato "longo" para "largo", movendo índices internos para as colunas correspondentes, reorganizando o DF para um formato mais tabular. 

In [6]:
# stack
# criando um df com índice hierárquico
import pandas as pd
df = pd.DataFrame({'grupo': ['A', 'A', 'B', 'B'],
                'categoria': ['X', 'Y', 'X', 'Y'],
                'ano': [2019, 2020, 2019, 2020],
                'valor': [10, 20, 30, 40]})
df = df.set_index(['grupo', 'categoria', 'ano'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,valor
grupo,categoria,ano,Unnamed: 3_level_1
A,X,2019,10
A,Y,2020,20
B,X,2019,30
B,Y,2020,40


In [7]:
# utilizando a função stack para empilhar os valores do índice valor 
df_stacked = df.stack()
df_stacked

grupo  categoria  ano        
A      X          2019  valor    10
       Y          2020  valor    20
B      X          2019  valor    30
       Y          2020  valor    40
dtype: int64

In [9]:
#unstack
df_unstacked = df_stacked.unstack()
df_unstacked

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,valor
grupo,categoria,ano,Unnamed: 3_level_1
A,X,2019,10
A,Y,2020,20
B,X,2019,30
B,Y,2020,40


# Explode
É utilizado para transformar listas (ou outras estruturas de dados semelhantes a listas) que estão contidas em uma coluna do DataFRame em linhas separadas, replicando os valores das outras colunas correspondentes. 


In [14]:
#criando df
dfl = pd.DataFrame({'col1': ['foo', 'bar', 'baz'],
                    'col2': [[1, 2], [3, 4, 5], [6, 7, 8]]})
dfl

Unnamed: 0,col1,col2
0,foo,"[1, 2]"
1,bar,"[3, 4, 5]"
2,baz,"[6, 7, 8]"


In [15]:
#explodindo
dfl.explode('col2')

Unnamed: 0,col1,col2
0,foo,1
0,foo,2
1,bar,3
1,bar,4
1,bar,5
2,baz,6
2,baz,7
2,baz,8


# Pivot
A função ``pivot()`` retorna um novo DataFrame com a estrutura pivotada, onde os valores únicos da coluna especificada em columns se tornam as colunas distintas, e os valores da coluna especificada em values são distribuidos nessas colunas.
* **Uso básico:** É usado principalmente para **remodelar** dados. Ele pega as colunas simples como entrada e gira elas em um DataFrame multiindex. 
* **Flexibilidade:** Ele não pode lidar com dados duplicados para a mesma combinação de índices e colunas. Se houver duplicatas, ele gerará um erro. 
* **Funções de agregação:** Não possui funcionabilidade para realizar operações de agregação

Exemplo:
```df.pivot(index='date', columns='variable', values='value')```

In [16]:
df_ri = pd.DataFrame({'grupo': ['A', 'A', 'B', 'B'],
                    'categoria': ['X', 'Y', 'X', 'Y'],
                    'ano': [2019, 2020, 2019, 2020],
                    'valor': [10, 20, 30, 40]})
df_ri.pivot(index='grupo',
            columns='ano',
            values='valor')

ano,2019,2020
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,20
B,30,40


A função `` pivot_table()`` permite calcular agregações de dados com base em uma ou mais colunas do DF, fornecendo uma visão resumida dos dados em formato de tabela. É útil quando você precisa **resumir e analisar dados de forma mais detalhada**, agrupando-os e realizando cálculos de agregação com base em colunas específicas. 
* **Uso básico:** É uma generalização do método ```pivot``` que pode lidar com valores duplicados agregando-os.
* **Flexibilidade:** Ele pode lidar com dados duplicados, especificando uma função de agregação (sum, mean etc.)
* **Funções de agregação:** Ele pode realizar operações de agregação e é, portanto, mais flexível que o metodo ```pivot``` quando se trata de resumir dados

Exemplo:
```df.pivot_table(index='date', columns='variable', values='value', aggfunc=np.sum)```

In [17]:
df2 = pd.DataFrame({'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
                    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
                    'C': [1, 2, 3, 4, 5, 6],
                    'D': [7, 8, 9, 10, 11, 12]})
df2

Unnamed: 0,A,B,C,D
0,foo,one,1,7
1,foo,one,2,8
2,foo,two,3,9
3,bar,two,4,10
4,bar,one,5,11
5,bar,one,6,12


In [18]:
# aplicando função pivot_table()
pd.pivot_table(df2, values='C', index='A', columns='B', aggfunc='sum') 
#agrupar os valores de c em uma tabela com índice A e as colunas B ou seja agregar os valores de c em função do index A pelas colunas de B

B,one,two
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,11,4
foo,3,3


# Tipos de dados
* Verificamos o tipo de dado da coluna utilizando ``.dtypes``
* ``astype()`` é usada para alterar o tipo de dado de uma coluna. Ela permite converter uma coluna para um tipo de dado diferente, como inteiro, ponto flutuante, string, data, entre outros. 

# Missing Values
Referem-se a ausência de dados em uma estrutura de dados. A presença de missing values em conjuntos de dados podem afetar análises estatísticas, modelagem e visualização, uma vez que esses valores ausentes podem distorcer as estimativas e resultados. Existem várias formas pelas quais missing values podem ocorrer, entre elas:
1. Dados não coletados 
2. Erros de entrada de dados
3. Falhas em sensores ou instrumentos
4. Problemas de integridade (corrupção dos dados)
5. Dados não disponíveis
6. Falhas de processamento ou extração (joins)
7. Valores nulos em bases de dados relacionais

Use os métodos ``isna()`` ou ``isnull()`` para **identificar** células que contém missing values - também pode ser utilizado com a seguinte sintaxe: `` df[~df['A].isna()]`` para verificar se uma coluna em específico possui valores null. Com o método ``info()`` temos informações da **quantidade de missing values e o tipo de dados** das variáveis.


O método ``dropna()`` é utilizado para excluir observações que contenham pelo menos um missing value das linhas de um df, o ``.dropna(subset='coluna)`` remove apenas as linhas que contem missing values daquela coluna especificada e o  ``.dropna(axis=1)`` remove todas as colunas que possuam pelo menos um valor nulo. 

Use o método ``fillna()`` para preenchjer missing values com um valor específico. Por exemplo, `` fillna(0)`` substitui todos os valores faltantes por zero. ``fillna({'coluna': valor})`` substitui todos os valores faltantes daquela coluna espeficidada pelo valor indicado na função.  ``fillna(df.mean())`` substitui os valores faltantes pela média dos valores dentro de uma coluna. 

## Tipos de missing values
Existem diferentes representações para missing values, entre elas:

- NaN (Not a Number): missing values em arrays e estruturas de dados numéricos.
- None: O objeto é usado para representar a ausência de um valor em objetos Python em geral. 
- NaT (Not a Time): É um valor especial usado para representar missing values em objetos de data e hora (datetime).
- Inf (Infinity): Inf é um valor especial usado para representar infinito em cálculos numéricos.