# Conteúdos importantes para a prova

1. [Pandas. Combinar dados, transpor e aplicar transformações às colunas, `groupby`.
`merge`, `concat`, `transpose`, `apply`, normalização para valores numéricos, `fillna`, `replace` ](#Operacoes)

2. Visualização de Dados. Tipos de visualização e gráficos. Elementos gráficos dos Labs:
*anottations*, `vlines/lines`, múltiplos gráficos em uma mesma figura, colocar linha de tendência,
mapa de calor (incluindo de correlação) etc. https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c7_parte_1.html

3. Funções de distribuição de probabilidades. `PDF`, `CDF`, `PPF`, `qqplot`, várias distrubuições 
com diferentes parâmetros.

4. Testes estatíticos. Tabela de testes no último Lab + testes de correlação. Semalhança de curvas.
Entender a diferença entre testes paramétricos e não paramétricos, e suas relação com IC.






  

# Operacoes

Pandas. Combinar dados, transpor e aplicar transformações às colunas, groupby. merge, concat, transpose, apply, normalização para valores numéricos, fillna, replace

## Merge
Combinar dois DataFrames com base em uma ou mais colunas.

In [None]:
# Criando DataFrames de exemplo
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Idade': [23, 34, 45]
})

# Merge usando a coluna 'ID'
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)
print("_________________________________")
# Merge com 'how' definido como 'outer'
outer_merged_df = pd.merge(df1, df2, on='ID', how='outer')
print(outer_merged_df)
print("_________________________________")

# Merge com 'how' definido como 'left'
left_merged_df = pd.merge(df1, df2, on='ID', how='left')
print(left_merged_df)
print("_________________________________")


   ID   Nome  Idade
0   1    Ana     23
1   2  Bruno     34
_________________________________
   ID    Nome  Idade
0   1     Ana   23.0
1   2   Bruno   34.0
2   3  Carlos    NaN
3   4     NaN   45.0
_________________________________
   ID    Nome  Idade
0   1     Ana   23.0
1   2   Bruno   34.0
2   3  Carlos    NaN
_________________________________


In [None]:
# Exemplo 2: Merge usando múltiplas colunas
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Cidade': ['SP', 'RJ', 'MG']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Idade': [23, 34, 45],
    'Cidade': ['SP', 'RJ', 'BA']
})

merged_df_multiple = pd.merge(df1, df2, on=['ID', 'Cidade'])
print(merged_df_multiple)

# Exemplo 3: Merge com suffixes para colunas com o mesmo nome
df3 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos']
})

df4 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Nome': ['Maria', 'João', 'Pedro']
})
print("_________________________________")
merged_df_suffixes = pd.merge(df3, df4, on='ID', suffixes=('_left', '_right'))
print(merged_df_suffixes)


   ID   Nome Cidade  Idade
0   1    Ana     SP     23
1   2  Bruno     RJ     34
_________________________________
   ID Nome_left Nome_right
0   1       Ana      Maria
1   2     Bruno       João


## Concat
Concatenar DataFrames ao longo de um eixo especificado.

In [None]:
# Criando DataFrames de exemplo
df3 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos']
})

df4 = pd.DataFrame({
    'ID': [4, 5, 6],
    'Nome': ['Daniela', 'Eduardo', 'Fernanda']
})

# Concatenação vertical
concat_df = pd.concat([df3, df4])
print(concat_df)
print("_________________________________")

# Concatenação horizontal
df5 = pd.DataFrame({
    'Sobrenome': ['Silva', 'Souza', 'Santos']
})

concat_df_horizontal = pd.concat([df3, df5], axis=1)
print(concat_df_horizontal)
print("_________________________________")

# Concat com redefinição de índice
concat_df_reset_index = pd.concat([df3, df4], ignore_index=True)
print(concat_df_reset_index)
print("_________________________________")


   ID      Nome
0   1       Ana
1   2     Bruno
2   3    Carlos
0   4   Daniela
1   5   Eduardo
2   6  Fernanda
_________________________________
   ID    Nome Sobrenome
0   1     Ana     Silva
1   2   Bruno     Souza
2   3  Carlos    Santos
_________________________________
   ID      Nome
0   1       Ana
1   2     Bruno
2   3    Carlos
3   4   Daniela
4   5   Eduardo
5   6  Fernanda
_________________________________


In [None]:
# Exemplo 2: Concat com chaves (keys) para identificação
df5 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos']
})

df6 = pd.DataFrame({
    'ID': [4, 5, 6],
    'Nome': ['Daniela', 'Eduardo', 'Fernanda']
})

concat_with_keys = pd.concat([df5, df6], keys=['Grupo1', 'Grupo2'])
print(concat_with_keys)

# Exemplo 3: Concat com níveis de índice (levels)
df7 = pd.DataFrame({
    'ID': [1, 2],
    'Nome': ['Ana', 'Bruno']
})

df8 = pd.DataFrame({
    'ID': [3, 4],
    'Nome': ['Carlos', 'Daniela']
})

concat_with_levels = pd.concat([df7, df8], keys=['Grupo1', 'Grupo2'], names=['Grupo', 'Linha'])
print(concat_with_levels)


          ID      Nome
Grupo1 0   1       Ana
       1   2     Bruno
       2   3    Carlos
Grupo2 0   4   Daniela
       1   5   Eduardo
       2   6  Fernanda
              ID     Nome
Grupo  Linha             
Grupo1 0       1      Ana
       1       2    Bruno
Grupo2 0       3   Carlos
       1       4  Daniela


## Transpose
Transpor o DataFrame, trocando linhas por colunas.

In [None]:
# Criando DataFrame de exemplo
df6 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
print(df6)
print("_________________________________")

# Transposição do DataFrame
transposed_df = df6.transpose()
print(transposed_df)
print("_________________________________")

# Transposição com mudança de nome das colunas
transposed_df.columns = ['Linha1', 'Linha2', 'Linha3']
print(transposed_df)
print("_________________________________")

# Transposição com reset de índice
transposed_reset_df = transposed_df.reset_index()
print(transposed_reset_df)
print("_________________________________")


   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
_________________________________
   0  1  2
A  1  2  3
B  4  5  6
C  7  8  9
_________________________________
   Linha1  Linha2  Linha3
A       1       2       3
B       4       5       6
C       7       8       9
_________________________________
  index  Linha1  Linha2  Linha3
0     A       1       2       3
1     B       4       5       6
2     C       7       8       9
_________________________________


In [None]:
# Exemplo 2: Transposição e renomeação das colunas com reset de índice
df9 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

transposed_renamed = df9.transpose().reset_index()
transposed_renamed.columns = ['Original', 'Linha1', 'Linha2', 'Linha3']
print(transposed_renamed)

# Exemplo 3: Transposição com alteração de tipos
df10 = pd.DataFrame({
    'A': ['x', 'y', 'z'],
    'B': ['a', 'b', 'c']
})

transposed_with_types = df10.transpose().astype(str)
print(transposed_with_types)


  Original  Linha1  Linha2  Linha3
0        A       1       2       3
1        B       4       5       6
2        C       7       8       9
   0  1  2
A  x  y  z
B  a  b  c


## Apply
Aplicar uma função ao longo de um eixo do DataFrame.

In [None]:
# Criando DataFrame de exemplo
df7 = pd.DataFrame({
    'Valores': [1, 2, 3, 4, 5]
})

# Aplicar função lambda para duplicar os valores
df7['Duplicado'] = df7['Valores'].apply(lambda x: x * 2)

# Aplicar função numpy sqrt para calcular a raiz quadrada dos valores
df7['Raiz'] = df7['Valores'].apply(np.sqrt)

# Aplicar função personalizada para categorizar os valores
def categorizar(valor):
    if valor < 3:
        return 'Baixo'
    elif valor < 5:
        return 'Médio'
    else:
        return 'Alto'

df7['Categoria'] = df7['Valores'].apply(categorizar)
print(df7)


   Valores  Duplicado      Raiz Categoria
0        1          2  1.000000     Baixo
1        2          4  1.414214     Baixo
2        3          6  1.732051     Médio
3        4          8  2.000000     Médio
4        5         10  2.236068      Alto


In [None]:
# Exemplo 2: Aplicar função numpy log ao longo das colunas
df11 = pd.DataFrame({
    'Valores': [1, 2, 3, 4, 5]
})

df11['Log'] = df11['Valores'].apply(np.log)
print(df11)

# Exemplo 3: Aplicar função usando applymap em todo o DataFrame
df12 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})
print("_________________________________")
df12_applymap = df12.applymap(lambda x: x * 2)
print(df12_applymap)


   Valores       Log
0        1  0.000000
1        2  0.693147
2        3  1.098612
3        4  1.386294
4        5  1.609438
_________________________________
   A   B
0  2   8
1  4  10
2  6  12


## Groupby
Agrupar dados por uma ou mais colunas e aplicar funções de agregação.

In [None]:
# Criando DataFrame de exemplo
df8 = pd.DataFrame({
    'Departamento': ['RH', 'TI', 'RH', 'TI', 'RH'],
    'Salário': [5000, 6000, 5200, 5800, 4900]
})

# Agrupar por departamento e calcular a média salarial
grouped_df = df8.groupby('Departamento')['Salário'].mean().reset_index()
print(grouped_df)
print("_________________________________")

# Agrupar por departamento e calcular o salário máximo
max_salary_df = df8.groupby('Departamento')['Salário'].max().reset_index()
print(max_salary_df)

print("_________________________________")
# Agrupar por departamento e calcular o total salarial
total_salary_df = df8.groupby('Departamento')['Salário'].sum().reset_index()
print(total_salary_df)

print("_________________________________")

  Departamento      Salário
0           RH  5033.333333
1           TI  5900.000000
_________________________________
  Departamento  Salário
0           RH     5200
1           TI     6000
_________________________________
  Departamento  Salário
0           RH    15100
1           TI    11800
_________________________________


In [None]:
# Exemplo 2: Agrupar por múltiplas colunas e calcular várias estatísticas
df13 = pd.DataFrame({
    'Departamento': ['RH', 'TI', 'RH', 'TI', 'RH'],
    'Local': ['SP', 'RJ', 'SP', 'RJ', 'MG'],
    'Salário': [5000, 6000, 5200, 5800, 4900]
})

grouped_multiple = df13.groupby(['Departamento', 'Local']).agg({
    'Salário': ['mean', 'max', 'sum']
}).reset_index()
print(grouped_multiple)

# Exemplo 3: Agrupar e aplicar transformação personalizada
df14 = pd.DataFrame({
    'Categoria': ['A', 'B', 'A', 'B'],
    'Valor': [10, 20, 30, 40]
})

def custom_transformation(x):
    return x.sum() / x.count()

grouped_custom = df14.groupby('Categoria').transform(custom_transformation)
print(grouped_custom)


  Departamento Local Salário             
                        mean   max    sum
0           RH    MG  4900.0  4900   4900
1           RH    SP  5100.0  5200  10200
2           TI    RJ  5900.0  6000  11800
   Valor
0   20.0
1   30.0
2   20.0
3   30.0


## Normalização para valores numéricos
Normalizar os valores numéricos do DataFrame.



In [None]:
# Criando DataFrame de exemplo
df9 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Normalização min-max
df9['A_normalizado'] = (df9['A'] - df9['A'].min()) / (df9['A'].max() - df9['A'].min())
df9['B_normalizado'] = (df9['B'] - df9['B'].min()) / (df9['B'].max() - df9['B'].min())
print(df9)
print("_________________________________")
# Normalização z-score
df9['A_zscore'] = (df9['A'] - df9['A'].mean()) / df9['A'].std()
df9['B_zscore'] = (df9['B'] - df9['B'].mean()) / df9['B'].std()
print(df9)
print("_________________________________")
# Normalização decimal scaling
df9['A_decimal_scaling'] = df9['A'] / 10**np.ceil(np.log10(df9['A'].abs().max()))
df9['B_decimal_scaling'] = df9['B'] / 10**np.ceil(np.log10(df9['B'].abs().max()))
print(df9)
print("_________________________________")

   A   B  A_normalizado  B_normalizado
0  1  10           0.00           0.00
1  2  20           0.25           0.25
2  3  30           0.50           0.50
3  4  40           0.75           0.75
4  5  50           1.00           1.00
_________________________________
   A   B  A_normalizado  B_normalizado  A_zscore  B_zscore
0  1  10           0.00           0.00 -1.264911 -1.264911
1  2  20           0.25           0.25 -0.632456 -0.632456
2  3  30           0.50           0.50  0.000000  0.000000
3  4  40           0.75           0.75  0.632456  0.632456
4  5  50           1.00           1.00  1.264911  1.264911
_________________________________
   A   B  A_normalizado  B_normalizado  A_zscore  B_zscore  A_decimal_scaling  \
0  1  10           0.00           0.00 -1.264911 -1.264911                0.1   
1  2  20           0.25           0.25 -0.632456 -0.632456                0.2   
2  3  30           0.50           0.50  0.000000  0.000000                0.3   
3  4  40           0

In [None]:
# Exemplo 2: Normalização por robust scaler (removendo mediana e escalando pela IQR)
df15 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

q1 = df15.quantile(0.25)
q3 = df15.quantile(0.75)
iqr = q3 - q1

df15_robust = (df15 - q1) / iqr
print(df15_robust)

# Exemplo 3: Normalização com divisão pelo valor máximo (feature scaling)
df16 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

df16_feature_scaling = df16 / df16.max()
print(df16_feature_scaling)


     A    B
0 -0.5 -0.5
1  0.0  0.0
2  0.5  0.5
3  1.0  1.0
4  1.5  1.5
     A    B
0  0.2  0.2
1  0.4  0.4
2  0.6  0.6
3  0.8  0.8
4  1.0  1.0


##  Fillna
Preencher valores ausentes em um DataFrame.

In [None]:
# Criando DataFrame de exemplo com valores NaN
df10 = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, 5]
})

print("_________________________________")
print(df10)
print("_________________________________")
# Preencher valores NaN com zero
df10_filled_0 = df10.fillna(0)
print(df10_filled_0)
print("_________________________________")
# Preencher valores NaN com a média da coluna
df10_filled_mean = df10.fillna(df10.mean())
print(df10_filled_mean)
print("_________________________________")
# Preencher valores NaN com o método ffill (forward fill)
df10_filled_ffill = df10.fillna(method='ffill')
print(df10_filled_ffill)
print("_________________________________")

_________________________________
     A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0
4  5.0  5.0
_________________________________
     A    B
0  1.0  0.0
1  0.0  2.0
2  3.0  0.0
3  0.0  4.0
4  5.0  5.0
_________________________________
     A         B
0  1.0  3.666667
1  3.0  2.000000
2  3.0  3.666667
3  3.0  4.000000
4  5.0  5.000000
_________________________________
     A    B
0  1.0  NaN
1  1.0  2.0
2  3.0  2.0
3  3.0  4.0
4  5.0  5.0
_________________________________


In [None]:
# Exemplo 2: Preencher valores NaN com método bfill (backward fill)
df17 = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, 5]
})



print("_________________________________")
print(df17)
print("_________________________________")
df17_filled_bfill = df17.fillna(method='bfill')
print(df17_filled_bfill)

# Exemplo 3: Preencher valores NaN com um dicionário de valores
df18 = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, 5]
})
print("_________________________________")
df18_filled_dict = df18.fillna({'A': 0, 'B': 1})
print(df18_filled_dict)


_________________________________
     A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0
4  5.0  5.0
_________________________________
     A    B
0  1.0  2.0
1  3.0  2.0
2  3.0  4.0
3  5.0  4.0
4  5.0  5.0
_________________________________
     A    B
0  1.0  1.0
1  0.0  2.0
2  3.0  1.0
3  0.0  4.0
4  5.0  5.0


##  Replace
Substituir valores em um DataFrame.

In [None]:
# Criando DataFrame de exemplo
df11 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['um', 'dois', 'três', 'quatro', 'cinco']
})

print("_____________ORIGINAL____________")

print(df11)
print("_________________________________")
# Substituir valores em uma coluna
df11_replaced = df11.replace({'A': {1: 10, 2: 20}})
print(df11_replaced)
print("_________________________________")
# Substituir valores em múltiplas colunas
df11_replaced_multiple = df11.replace({1: 10, 'um': 'dez'})
print(df11_replaced_multiple)
print("_________________________________")
# Substituir usando expressões regulares
df11_replaced_regex = df11.replace(to_replace=r'^d.*$', value='numeral', regex=True)
print(df11_replaced_regex)
print("_________________________________")

_____________ORIGINAL____________
   A       B
0  1      um
1  2    dois
2  3    três
3  4  quatro
4  5   cinco
_________________________________
    A       B
0  10      um
1  20    dois
2   3    três
3   4  quatro
4   5   cinco
_________________________________
    A       B
0  10     dez
1   2    dois
2   3    três
3   4  quatro
4   5   cinco
_________________________________
   A        B
0  1       um
1  2  numeral
2  3     três
3  4   quatro
4  5    cinco
_________________________________


In [None]:
# Exemplo 2: Substituir valores em uma série
df19 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['um', 'dois', 'três', 'quatro', 'cinco']
})

df19['A_replaced'] = df19['A'].replace([1, 2, 3], [10, 20, 30])
print(df19)

# Exemplo 3: Substituir valores com regex em múltiplas colunas
df20 = pd.DataFrame({
    'A': ['um', 'dois', 'três'],
    'B': ['quatro', 'cinco', 'seis']
})
print("_________________________________")
df20_replaced_regex = df20.replace(to_replace=r'[a-z]', value='X', regex=True)
print(df20_replaced_regex)


   A       B  A_replaced
0  1      um          10
1  2    dois          20
2  3    três          30
3  4  quatro           4
4  5   cinco           5
_________________________________
      A       B
0    XX  XXXXXX
1  XXXX   XXXXX
2  XXêX    XXXX


# 5

# 5