# Estrutura de dados e primeiros insights

Leitura recomendada:<br>
https://www.jstatsoft.org/article/view/v059i10/v59i10.pdf

# Conhecendo a biblioteca Pandas

In [4]:
# bibliotecas
import pandas as pd             # objetos DataFrame e Series 
import numpy as np              # objetos arrays e matrizes

### Criando um DataFrame a partir de um dicionário

In [7]:
# definindo o dicionário
golf_dict = {
    "ceu":["nuvem","nuvem","sol","chuva","sol","sol"],
    "temperatura":[83,94,70,70,85,80],
    "umidade":[86,65,90,75,None,90],
    "vento":[None,True,False,False,False,True],
    "joga":["sim","sim","sim","sim","nao","nao"]}

# usando o método DataFrame da biblioteca pandas
df = pd.DataFrame(golf_dict)
df

Unnamed: 0,ceu,temperatura,umidade,vento,joga
0,nuvem,83,86.0,,sim
1,nuvem,94,65.0,True,sim
2,sol,70,90.0,False,sim
3,chuva,70,75.0,False,sim
4,sol,85,,False,nao
5,sol,80,90.0,True,nao


### Característica de um objeto DataFrame

In [10]:
print("Características de um objeto pandas DataFrame:")
pd.DataFrame({
    "Característica":
        ["Tipo", "É iterável?", "É mutável?", "Quantos métodos?"],
    "Descrição":
        ["pandas.core.frame.DataFrame", "sim", "não", 217]
})

Características de um objeto pandas DataFrame:


Unnamed: 0,Característica,Descrição
0,Tipo,pandas.core.frame.DataFrame
1,É iterável?,sim
2,É mutável?,não
3,Quantos métodos?,217


Como são 217 métodos, veremos apenas alguns deles, a saber, os mais utilizados.

### Fatiamento DataFrames

In [14]:
# É possível com o método iloc fatiar um DataFrame por índices
ind_linha_inicial = 2
ind_linha_final = 5
ind_coluna_inicial = 1
ind_coluna_final = 4
df.iloc[ind_linha_inicial:ind_linha_final, ind_coluna_inicial:ind_coluna_final]

Unnamed: 0,temperatura,umidade,vento
2,70,90.0,False
3,70,75.0,False
4,85,,False


In [16]:
# Outra forma de fatiamento é através do método loc
# Neste caso passam-se índices das linhas e nomes das colunas
inds_linha = [2,3,4]
nomes_colunas = ["temperatura", "umidade","vento"]
df.loc[inds_linha, nomes_colunas]

Unnamed: 0,temperatura,umidade,vento
2,70,90.0,False
3,70,75.0,False
4,85,,False


In [18]:
# É possível selecionar apenas uma coluna
df["temperatura"]

0    83
1    94
2    70
3    70
4    85
5    80
Name: temperatura, dtype: int64

In [20]:
# nesse caso, a seleção retorna um objeto do tipo pandas Series
serie_temperatura = df["temperatura"]
type(serie_temperatura)

pandas.core.series.Series

In [22]:
print("Características de um objeto pandas Series:")
pd.DataFrame({
    "Característica":
        ["Tipo", "É iterável?", "É mutável?", "Quantos métodos?"],
    "Descrição":
        ["pandas.core.series.Series", "sim", "não", 207]
})

Características de um objeto pandas Series:


Unnamed: 0,Característica,Descrição
0,Tipo,pandas.core.series.Series
1,É iterável?,sim
2,É mutável?,não
3,Quantos métodos?,207


### Método info para DataFrames

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ceu          6 non-null      object 
 1   temperatura  6 non-null      int64  
 2   umidade      5 non-null      float64
 3   vento        5 non-null      object 
 4   joga         6 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 372.0+ bytes


- Aplicações:
    - Ver o tipo de objeto armazenado em cada coluna;
    - Ver se há dados perdidos
    - Ver quantas colunas
    - Ver quanto de memória está gastando

### Método describe para DataFrames

In [29]:
# Estatísticas básicas de colunas numéricas
df.describe()

Unnamed: 0,temperatura,umidade
count,6.0,5.0
mean,80.333333,81.2
std,9.266427,10.94075
min,70.0,65.0
25%,72.5,75.0
50%,81.5,86.0
75%,84.5,90.0
max,94.0,90.0


- Aplicações:
    - Ver o número de linhas não nulas
    - Ver a média e o desvio padrão
    - Ver percentis 0%, 25%, 50%, 75% e 100%

In [32]:
# Passando o parâmetros include = ['O'] para variáveis categóricas
df.describe(include=['O'])

Unnamed: 0,ceu,vento,joga
count,6,5,6
unique,3,2,2
top,sol,False,sim
freq,3,3,4


- Aplicações:
    - Ver o número de linhas não nulas
    - Ver o número de dados duplicados
    - Ver os top mais frequentes bem como suas frequências

### Estatísticas para Séries

In [36]:
# média
serie_temperatura.mean()

80.33333333333333

In [38]:
# desvio padrão
serie_temperatura.std()

9.266426855410163

In [40]:
# mediana 
serie_temperatura.median()

81.5

In [42]:
# contagem de valores
serie_temperatura.value_counts()

temperatura
70    2
83    1
94    1
85    1
80    1
Name: count, dtype: int64

In [44]:
# contagem de valores em percentual
serie_temperatura.value_counts(normalize=True)

temperatura
70    0.333333
83    0.166667
94    0.166667
85    0.166667
80    0.166667
Name: proportion, dtype: float64

In [46]:
# moda
serie_temperatura.mode()

0    70
Name: temperatura, dtype: int64

### Preenchendo dados perdidos com a média

In [49]:
# calculando a umidade média
umidade_media = df['umidade'].mean()

# preenchendo umidade faltante com a média
df['umidade'].fillna(umidade_media, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['umidade'].fillna(umidade_media, inplace=True)


### Preenchendo dados perdidos com a moda

In [52]:
# calculando a moda do vento
vento_moda = df['vento'].mode()

# preenchendo vento faltante com a moda
df['vento'].fillna(vento_moda, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['vento'].fillna(vento_moda, inplace=True)
  df['vento'].fillna(vento_moda, inplace=True)


### Método map para Séries

In [55]:
# transformando True em 1 e False em 0
df['vento'] = df['vento'].map({True: 1, False: 0})

In [57]:
# transformando 'sim' em 1 e 'nao' em 0
df['joga'] = df['joga'].map({'sim': 1, 'nao': 0})

In [59]:
# criando coluna chuva
df['chuva'] = df['ceu'].map(lambda x: 1 if x == 'chuva' else 0)

In [61]:
# criando coluna sol
df['sol'] = df['ceu'].map(lambda x: 1 if x == 'sol' else 0)

In [63]:
df

Unnamed: 0,ceu,temperatura,umidade,vento,joga,chuva,sol
0,nuvem,83,86.0,0,1,0,0
1,nuvem,94,65.0,1,1,0,0
2,sol,70,90.0,0,1,0,1
3,chuva,70,75.0,0,1,1,0
4,sol,85,81.2,0,0,0,1
5,sol,80,90.0,1,0,0,1


### Método drop para DataFrame

In [66]:
# removendo a coluna ceu
df.drop('ceu', axis=1, inplace=True)

In [68]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1


### Inserindo novas linhas

In [71]:
# inserindo 2 novas linhas na tabela
novas_linhas = pd.DataFrame(
    np.array([
        [84,89,1,0,1,0],
        [91,17,0,1,0,0]
     ]), columns=df.columns,)
df = pd.concat([df, novas_linhas])

In [73]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1
0,84,89.0,1,0,1,0
1,91,17.0,0,1,0,0


### Resetando os índices

In [76]:
# resetando os índices
df.reset_index(inplace=True)
df.drop('index', axis=1, inplace=True)
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1
6,84,89.0,1,0,1,0
7,91,17.0,0,1,0,0


### Removendo linhas

In [79]:
# removendo as linhas 2, 5, 7
df.drop([2,5,7], axis=0, inplace=True)

In [81]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
6,84,89.0,1,0,1,0


### Reordenando colunas

In [84]:
# reordenando colunas
df = df[['chuva', 'sol', 'temperatura', 'umidade','vento','joga']]
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
1,0,0,94,65.0,1,1
3,1,0,70,75.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


### Filtros

In [87]:
# duas linhas com maior temperatura
df.nlargest(2, 'temperatura')

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
1,0,0,94,65.0,1,1
4,0,1,85,81.2,0,0


In [89]:
# duas linhas com menor temperatura
df.nsmallest(2, 'temperatura')

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
3,1,0,70,75.0,0,1
0,0,0,83,86.0,0,1


In [91]:
# Linhas com umidade acima de 80
df[df['umidade'] > 80]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


In [93]:
# Linhas com umidade acima de 80 e sem vento
df[(df['umidade'] > 80) & (df['vento'] == 0)]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
4,0,1,85,81.2,0,0


In [95]:
# Linhas com umidade acima de 80 ou sem vento
df[(df['umidade'] > 80) | (df['vento'] == 0)]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
3,1,0,70,75.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


### Agrupamentos e agregações

Quantas linhas que o jogador joga e quantas o jogador não joga? Além disso, qual a temperatua média para cada um desses grupos?

In [99]:
df.groupby(by='joga', as_index=False).agg({'temperatura': ['mean','count']})

Unnamed: 0_level_0,joga,temperatura,temperatura
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count
0,0,84.5,2
1,1,82.333333,3


In [101]:
df.groupby(by=['sol', 'vento', 'chuva']).agg({'joga': ['mean']})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,joga
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean
sol,vento,chuva,Unnamed: 3_level_2
0,0,0,1.0
0,0,1,1.0
0,1,0,1.0
0,1,1,0.0
1,0,0,0.0


<h3>Criando tabelas cruzadas</h3>

In [104]:
myCrosstable = pd.crosstab(df['sol'], df['chuva'])
myCrosstable

chuva,0,1
sol,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2,2
1,1,0


In [106]:
myCrosstable.values

array([[2, 2],
       [1, 0]], dtype=int64)

In [108]:
myCrosstable.index

Index([0, 1], dtype='int64', name='sol')

In [110]:
myCrosstable.columns

Index([0, 1], dtype='int64', name='chuva')

### Tabela cruzada com função

In [113]:
# porcentagem
perc_crosstab = pd.crosstab(df['sol'], df['chuva']).apply(lambda r: r/r.sum(), axis=1)
perc_crosstab

chuva,0,1
sol,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.5,0.5
1,1.0,0.0


### Tabela pivoteada

In [116]:
# mean 
mean_crosstab = pd.pivot_table(df, values='umidade', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)
mean_crosstab

  mean_crosstab = pd.pivot_table(df, values='umidade', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)


Unnamed: 0_level_0,joga,0,1
sol,chuva,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,,75.5
0,1,89.0,75.0
1,0,81.2,


In [118]:
# mean 
mean_crosstab = pd.pivot_table(df, values='temperatura', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)
mean_crosstab

  mean_crosstab = pd.pivot_table(df, values='temperatura', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)


Unnamed: 0_level_0,joga,0,1
sol,chuva,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,,88.5
0,1,84.0,70.0
1,0,85.0,


### Normalizando colunas

In [121]:
# função para normalizar temperatura
def normalize_temperatura(entrada):
    temp_min = df['temperatura'].min()
    temp_max = df['temperatura'].max()
    return (entrada - temp_min) / (temp_max - temp_min)

# normalizando temperatura
df['temperatura'] = df['temperatura'].map(normalize_temperatura)
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,0.541667,86.0,0,1
1,0,0,1.0,65.0,1,1
3,1,0,0.0,75.0,0,1
4,0,1,0.625,81.2,0,0
6,1,0,0.583333,89.0,1,0


In [123]:
# função para normalizar umidade
def normalize_umidade(entrada):
    umid_min = df['umidade'].min()
    umid_max = df['umidade'].max()

    return (entrada - umid_min) / (umid_max - umid_min)

# normalizando umidade
df['umidade'] = df['umidade'].map(normalize_umidade)
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,0.541667,0.875,0,1
1,0,0,1.0,0.0,1,1
3,1,0,0.0,0.416667,0,1
4,0,1,0.625,0.675,0,0
6,1,0,0.583333,1.0,1,0


### Lendo dados de planilhas .csv

Faça o download do train.csv em: https://www.kaggle.com/competitions/titanic/data

In [134]:
df = pd.read_csv('assets/titanic_train.csv')

In [136]:
# 3 primeiras linhas
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### Exercícios:

Para os exercícios a seguir considere o arquivo <i>train_titanic.csv</i>. Cada exercício deve ser feito numa célula do notebook. A saída deve ser a resposta para a questão.

Qual a porcentagem de passageiros sobreviveram ao titanic?

In [139]:
sobreviventes = df['Survived'].value_counts(normalize=True) * 100
print(f"Porcentagem de passageiros que sobreviveram: {sobreviventes[1]:.2f}%")

Porcentagem de passageiros que sobreviveram: 38.38%


Qual a porcentagem de passageiros que viajaram de terceira classe?

In [141]:
terceira_classe = df['Pclass'].value_counts(normalize=True) * 100
print(f"Porcentagem de passageiros que viajaram de 3ª classe: {terceira_classe[3]:.2f}%")

Porcentagem de passageiros que viajaram de 3ª classe: 55.11%


Quais as idades médias e medianas dos passageiros?

In [145]:
media_idade = df['Age'].mean()
mediana_idade = df['Age'].median()

print(f"Idade média dos passageiros: {media_idade:.2f} anos")
print(f"Idade mediana dos passageiros: {mediana_idade:.2f} anos")

Idade média dos passageiros: 29.70 anos
Idade mediana dos passageiros: 28.00 anos


Quais valores das tarifas médias e medianas foram pagos pelos passageiros?

In [147]:
media_tarifa = df['Fare'].mean()
mediana_tarifa = df['Fare'].median()

print(f"Tarifa média paga: ${media_tarifa:.2f}")
print(f"Tarifa mediana paga: ${mediana_tarifa:.2f}")

Tarifa média paga: $32.20
Tarifa mediana paga: $14.45


Quais cabines mais frequentes nos dados e qual a frequência?

In [149]:
cabines_frequentes = df['Cabin'].value_counts().head()
print(cabines_frequentes)

Cabin
B96 B98        4
G6             4
C23 C25 C27    4
C22 C26        3
F33            3
Name: count, dtype: int64


Quantos valores estão faltantes na coluna <i>Cabin</i>?

In [155]:
faltantes_cabin = df['Cabin'].isnull().sum()
print(f"Número de valores ausentes na coluna Cabin: {faltantes_cabin}")

Número de valores ausentes na coluna Cabin: 687


Sobreviveram mais mulheres ou homens?

In [157]:
sobreviventes_por_sexo = df[df['Survived'] == 1]['Sex'].value_counts()
print(sobreviventes_por_sexo)

Sex
female    233
male      109
Name: count, dtype: int64


Quais as porcentagens de sobreviventes em cada classe?

In [161]:
sobrevivencia_por_classe = df.groupby('Pclass')['Survived'].mean() * 100
print(sobrevivencia_por_classe)

Pclass
1    62.962963
2    47.282609
3    24.236253
Name: Survived, dtype: float64


Os nomes vem com os títulos. Qual é o título mais frequente e qual a frequência?

In [165]:
# extrair o título do nome usando regex
df['Title'] = df['Name'].str.extract(r',\s*([^\.]+)\.', expand=False)

# contar a frequência dos títulos
frequencia_titulos = df['Title'].value_counts()

print(frequencia_titulos.head(1))  # mostrar o título mais frequente e sua frequência

Title
Mr    517
Name: count, dtype: int64


Qual a taxa de sobreviventes considerando apenas menores de 12 anos?

In [173]:
menores_12 = df[df['Age'] < 12]

taxa_sobrevivencia = menores_12['Survived'].mean() * 100

print(f"Taxa de sobrevivência para menores de 12 anos: {taxa_sobrevivencia:.2f}%")

Taxa de sobrevivência para menores de 12 anos: 57.35%


A primeira letra da cabine representa o deck do barco. Desprezando os dados faltantes, qual porcertagem de sobreviventes por deck?

In [176]:
df_cabine = df[df['Cabin'].notnull()].copy()

df_cabine['Deck'] = df_cabine['Cabin'].str[0]

sobrevivencia_por_deck = df_cabine.groupby('Deck')['Survived'].mean() * 100

print(sobrevivencia_por_deck.sort_values(ascending=False))

Deck
D    75.757576
E    75.000000
B    74.468085
F    61.538462
C    59.322034
G    50.000000
A    46.666667
T     0.000000
Name: Survived, dtype: float64


Qual a porcentagem de sobreviventes considerando apenas os decks faltantes?

In [179]:
sem_cabine = df[df['Cabin'].isnull()]

taxa_sobrevivencia_sem_cabine = sem_cabine['Survived'].mean() * 100

print(f"Taxa de sobrevivência para passageiros sem cabine registrada: {taxa_sobrevivencia_sem_cabine:.2f}%")

Taxa de sobrevivência para passageiros sem cabine registrada: 29.99%


Qual porcentagem de mulheres da primeira classe sobreviveram? 

In [182]:
mulheres_1classe = df[(df['Sex'] == 'female') & (df['Pclass'] == 1)]
taxa_sobrevivencia_mulheres_1classe = mulheres_1classe['Survived'].mean() * 100

print(f"Porcentagem de mulheres da 1ª classe que sobreviveram: {taxa_sobrevivencia_mulheres_1classe:.2f}%")

Porcentagem de mulheres da 1ª classe que sobreviveram: 96.81%


Por qual portão os passageiros da primeira classe mais embarcaram?

In [184]:
primeira_classe = df[df['Pclass'] == 1]

portos_primeira_classe = primeira_classe['Embarked'].value_counts()

print(portos_primeira_classe)

Embarked
S    127
C     85
Q      2
Name: count, dtype: int64


Qual a idade média entre as mulheres sobreviventes? E entre as mulheres não sobreviventes?

In [186]:
mulheres = df[df['Sex'] == 'female']

media_idade_sobreviventes = mulheres[mulheres['Survived'] == 1]['Age'].mean()

media_idade_nao_sobreviventes = mulheres[mulheres['Survived'] == 0]['Age'].mean()

print(f"Idade média das mulheres sobreviventes: {media_idade_sobreviventes:.2f} anos")
print(f"Idade média das mulheres não sobreviventes: {media_idade_nao_sobreviventes:.2f} anos")

Idade média das mulheres sobreviventes: 28.85 anos
Idade média das mulheres não sobreviventes: 25.05 anos


Qual a idade mediana entre os homens da primeira classe que sobreviveram? Qual a idade mediana entre os homens da primeira classe que não sobreviveram?

In [188]:
homens_1classe = df[(df['Sex'] == 'male') & (df['Pclass'] == 1)]

mediana_sobreviventes = homens_1classe[homens_1classe['Survived'] == 1]['Age'].median()

mediana_nao_sobreviventes = homens_1classe[homens_1classe['Survived'] == 0]['Age'].median()

print(f"Idade mediana dos homens da 1ª classe que sobreviveram: {mediana_sobreviventes:.2f} anos")
print(f"Idade mediana dos homens da 1ª classe que não sobreviveram: {mediana_nao_sobreviventes:.2f} anos")

Idade mediana dos homens da 1ª classe que sobreviveram: 36.00 anos
Idade mediana dos homens da 1ª classe que não sobreviveram: 45.50 anos


Considerando as possíveis ternas (deck, local de embarque, sexo), qual terna teve maior porcentagem de não sobreviventes?

In [190]:
df_deck = df[df['Cabin'].notnull()].copy()

df_deck['Deck'] = df_deck['Cabin'].str[0]

taxa_nao_sobreviventes = df_deck.groupby(['Deck', 'Embarked', 'Sex'])['Survived'].apply(lambda x: (1 - x).mean()) * 100

max_nao_sobreviventes = taxa_nao_sobreviventes.idxmax()
max_valor = taxa_nao_sobreviventes.max()

print(f"Terna com maior % de não sobreviventes: Deck={max_nao_sobreviventes[0]}, Embarked={max_nao_sobreviventes[1]}, Sex={max_nao_sobreviventes[2]}")
print(f"Porcentagem de não sobreviventes: {max_valor:.2f}%")

Terna com maior % de não sobreviventes: Deck=C, Embarked=Q, Sex=male
Porcentagem de não sobreviventes: 100.00%


### Exercícios sobre Tidy Data

O artigo https://www.jstatsoft.org/article/view/v059i10/v59i10.pdf cita exemplos de tabelas que não estão no formato Tidy, por exemplo:

In [196]:
table01 = pd.DataFrame({
    "treatmenta": [np.NaN, 16, 3],
    "treatmentb": [2, 11, 1]
}, index = ["John Smith", "Jane Doe", "Mary Johnson"])
table01

Unnamed: 0,treatmenta,treatmentb
John Smith,,2
Jane Doe,16.0,11
Mary Johnson,3.0,1


Ele menciona como seria a Tabela 1 no formato Tidy:

In [199]:
table01.columns = ["a", "b"]
table01 = table01.stack(dropna=False).reset_index()
table01.columns = ['person', 'treatment', 'result']
table01

  table01 = table01.stack(dropna=False).reset_index()


Unnamed: 0,person,treatment,result
0,John Smith,a,
1,John Smith,b,2.0
2,Jane Doe,a,16.0
3,Jane Doe,b,11.0
4,Mary Johnson,a,3.0
5,Mary Johnson,b,1.0


Observe que para fazer a transformação para Tidy, fizemos algumas operações com Pandas. Agora é sua vez, faça o mesmo para os dados das tabelas 4 -> 6, 7->8 (no github tem o dataset para este), 9 (essa não tem resposta, mas você é capaz!), 10a -> 10b, 11->12 e 14a->14b.

Referências:
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
- https://www.kaggle.com/code/astandrik/journey-from-statistics-eda-to-prediction
- https://www.kaggle.com/code/ash316/eda-to-prediction-dietanic
- https://www.kaggle.com/code/demidova/titanic-eda-tutorial
- https://www.kaggle.com/code/prashant111/eda-is-fun
- https://www.kaggle.com/code/datafan07/titanic-eda-and-several-modelling-approaches
- https://www.kaggle.com/code/soham1024/titanic-data-science-eda-with-meme-solution
- https://www.kaggle.com/code/frankmollard/interactive-eda
- https://www.kaggle.com/code/andreshg/automatic-eda-libraries-comparisson