# Estrutura de dados e primeiros insights

Leitura recomendada:<br>
https://www.jstatsoft.org/article/view/v059i10/v59i10.pdf

# Conhecendo a biblioteca Pandas

In [6]:
# bibliotecas
import pandas as pd             # objetos DataFrame e Series 
import numpy as np              # objetos arrays e matrizes

### Criando um DataFrame a partir de um dicionário

In [43]:
# definindo o dicionário
golf_dict = {
    "ceu":["nuvem","nuvem","sol","chuva","sol","sol"],
    "temperatura":[83,94,70,70,85,80],
    "umidade":[86,65,90,75,None,90],
    "vento":[None,True,False,False,False,True],
    "joga":["sim","sim","sim","sim","nao","nao"]}

# usando o método DataFrame da biblioteca pandas
df = pd.DataFrame(golf_dict)
df

Unnamed: 0,ceu,temperatura,umidade,vento,joga
0,nuvem,83,86.0,,sim
1,nuvem,94,65.0,True,sim
2,sol,70,90.0,False,sim
3,chuva,70,75.0,False,sim
4,sol,85,,False,nao
5,sol,80,90.0,True,nao


### Característica de um objeto DataFrame

In [44]:
print("Características de um objeto pandas DataFrame:")
pd.DataFrame({
    "Característica":
        ["Tipo", "É iterável?", "É mutável?", "Quantos métodos?"],
    "Descrição":
        ["pandas.core.frame.DataFrame", "sim", "não", 217]
})

Características de um objeto pandas DataFrame:


Unnamed: 0,Característica,Descrição
0,Tipo,pandas.core.frame.DataFrame
1,É iterável?,sim
2,É mutável?,não
3,Quantos métodos?,217


Como são 217 métodos, veremos apenas alguns deles, a saber, os mais utilizados.

### Fatiamento DataFrames

In [45]:
# É possível com o método iloc fatiar um DataFrame por índices
ind_linha_inicial = 2
ind_linha_final = 5
ind_coluna_inicial = 1
ind_coluna_final = 4
df.iloc[ind_linha_inicial:ind_linha_final, ind_coluna_inicial:ind_coluna_final]

Unnamed: 0,temperatura,umidade,vento
2,70,90.0,False
3,70,75.0,False
4,85,,False


In [46]:
# Outra forma de fatiamento é através do método loc
# Neste caso passam-se índices das linhas e nomes das colunas
inds_linha = [2,3,4]
nomes_colunas = ["temperatura", "umidade","vento"]
df.loc[inds_linha, nomes_colunas]

Unnamed: 0,temperatura,umidade,vento
2,70,90.0,False
3,70,75.0,False
4,85,,False


In [47]:
# É possível selecionar apenas uma coluna
df["temperatura"]

0    83
1    94
2    70
3    70
4    85
5    80
Name: temperatura, dtype: int64

In [48]:
# nesse caso, a seleção retorna um objeto do tipo pandas Series
serie_temperatura = df["temperatura"]
type(serie_temperatura)

pandas.core.series.Series

In [49]:
print("Características de um objeto pandas Series:")
pd.DataFrame({
    "Característica":
        ["Tipo", "É iterável?", "É mutável?", "Quantos métodos?"],
    "Descrição":
        ["pandas.core.series.Series", "sim", "não", 207]
})

Características de um objeto pandas Series:


Unnamed: 0,Característica,Descrição
0,Tipo,pandas.core.series.Series
1,É iterável?,sim
2,É mutável?,não
3,Quantos métodos?,207


### Método info para DataFrames

In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ceu          6 non-null      object 
 1   temperatura  6 non-null      int64  
 2   umidade      5 non-null      float64
 3   vento        5 non-null      object 
 4   joga         6 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 368.0+ bytes


- Aplicações:
    - Ver o tipo de objeto armazenado em cada coluna;
    - Ver se há dados perdidos
    - Ver quantas colunas
    - Ver quanto de memória está gastando

### Método describe para DataFrames

In [51]:
# Estatísticas básicas de colunas numéricas
df.describe()

Unnamed: 0,temperatura,umidade
count,6.0,5.0
mean,80.333333,81.2
std,9.266427,10.94075
min,70.0,65.0
25%,72.5,75.0
50%,81.5,86.0
75%,84.5,90.0
max,94.0,90.0


- Aplicações:
    - Ver o número de linhas não nulas
    - Ver a média e o desvio padrão
    - Ver percentis 0%, 25%, 50%, 75% e 100%

In [52]:
# Passando o parâmetros include = ['O'] para variáveis categóricas
df.describe(include=['O'])

Unnamed: 0,ceu,vento,joga
count,6,5,6
unique,3,2,2
top,sol,False,sim
freq,3,3,4


- Aplicações:
    - Ver o número de linhas não nulas
    - Ver o número de dados duplicados
    - Ver os top mais frequentes bem como suas frequências

### Estatísticas para Séries

In [53]:
# média
serie_temperatura.mean()

80.33333333333333

In [54]:
# desvio padrão
serie_temperatura.std()

9.266426855410163

In [55]:
# mediana 
serie_temperatura.median()

81.5

In [56]:
# contagem de valores
serie_temperatura.value_counts()

70    2
83    1
94    1
85    1
80    1
Name: temperatura, dtype: int64

In [57]:
# contagem de valores em percentual
serie_temperatura.value_counts(normalize=True)

70    0.333333
83    0.166667
94    0.166667
85    0.166667
80    0.166667
Name: temperatura, dtype: float64

In [58]:
# moda
serie_temperatura.mode()

0    70
Name: temperatura, dtype: int64

### Preenchendo dados perdidos com a média

In [59]:
# calculando a umidade média
umidade_media = df['umidade'].mean()

# preenchendo umidade faltante com a média
df['umidade'].fillna(umidade_media, inplace=True)

### Preenchendo dados perdidos com a moda

In [60]:
# calculando a moda do vento
vento_moda = df['vento'].mode()

# preenchendo vento faltante com a moda
df['vento'].fillna(vento_moda, inplace=True)

### Método map para Séries

In [61]:
# transformando True em 1 e False em 0
df['vento'] = df['vento'].map({True: 1, False: 0})

In [62]:
# transformando 'sim' em 1 e 'nao' em 0
df['joga'] = df['joga'].map({'sim': 1, 'nao': 0})

In [63]:
# criando coluna chuva
df['chuva'] = df['ceu'].map(lambda x: 1 if x == 'chuva' else 0)

In [64]:
# criando coluna sol
df['sol'] = df['ceu'].map(lambda x: 1 if x == 'sol' else 0)

In [65]:
df

Unnamed: 0,ceu,temperatura,umidade,vento,joga,chuva,sol
0,nuvem,83,86.0,0,1,0,0
1,nuvem,94,65.0,1,1,0,0
2,sol,70,90.0,0,1,0,1
3,chuva,70,75.0,0,1,1,0
4,sol,85,81.2,0,0,0,1
5,sol,80,90.0,1,0,0,1


### Método drop para DataFrame

In [66]:
# removendo a coluna ceu
df.drop('ceu', axis=1, inplace=True)

In [67]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1


### Inserindo novas linhas

In [68]:
# inserindo 2 novas linhas na tabela
novas_linhas = pd.DataFrame(
    np.array([
        [84,89,1,0,1,0],
        [91,17,0,1,0,0]
     ]), columns=df.columns,)
df = pd.concat([df, novas_linhas])

In [69]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1
0,84,89.0,1,0,1,0
1,91,17.0,0,1,0,0


### Resetando os índices

In [70]:
# resetando os índices
df.reset_index(inplace=True)
df.drop('index', axis=1, inplace=True)
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
2,70,90.0,0,1,0,1
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
5,80,90.0,1,0,0,1
6,84,89.0,1,0,1,0
7,91,17.0,0,1,0,0


### Removendo linhas

In [71]:
# removendo as linhas 2, 5, 7
df.drop([2,5,7], axis=0, inplace=True)

In [72]:
df

Unnamed: 0,temperatura,umidade,vento,joga,chuva,sol
0,83,86.0,0,1,0,0
1,94,65.0,1,1,0,0
3,70,75.0,0,1,1,0
4,85,81.2,0,0,0,1
6,84,89.0,1,0,1,0


### Reordenando colunas

In [73]:
# reordenando colunas
df = df[['chuva', 'sol', 'temperatura', 'umidade','vento','joga']]
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
1,0,0,94,65.0,1,1
3,1,0,70,75.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


### Filtros

In [74]:
# duas linhas com maior temperatura
df.nlargest(2, 'temperatura')

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
1,0,0,94,65.0,1,1
4,0,1,85,81.2,0,0


In [75]:
# duas linhas com menor temperatura
df.nsmallest(2, 'temperatura')

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
3,1,0,70,75.0,0,1
0,0,0,83,86.0,0,1


In [76]:
# Linhas com umidade acima de 80
df[df['umidade'] > 80]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


In [77]:
# Linhas com umidade acima de 80 e sem vento
df[(df['umidade'] > 80) & (df['vento'] == 0)]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
4,0,1,85,81.2,0,0


In [78]:
# Linhas com umidade acima de 80 ou sem vento
df[(df['umidade'] > 80) | (df['vento'] == 0)]

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,83,86.0,0,1
3,1,0,70,75.0,0,1
4,0,1,85,81.2,0,0
6,1,0,84,89.0,1,0


### Agrupamentos e agregações

Quantas linhas que o jogador joga e quantas o jogador não joga? Além disso, qual a temperatua média para cada um desses grupos?

In [79]:
df.groupby(by='joga', as_index=False).agg({'temperatura': ['mean','count']})

Unnamed: 0_level_0,joga,temperatura,temperatura
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count
0,0,84.5,2
1,1,82.333333,3


In [80]:
df.groupby(by=['sol', 'vento', 'chuva']).agg({'joga': ['mean']})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,joga
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean
sol,vento,chuva,Unnamed: 3_level_2
0,0,0,1.0
0,0,1,1.0
0,1,0,1.0
0,1,1,0.0
1,0,0,0.0


<h3>Criando tabelas cruzadas</h3>

In [81]:
myCrosstable = pd.crosstab(df['sol'], df['chuva'])
myCrosstable

chuva,0,1
sol,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2,2
1,1,0


In [82]:
myCrosstable.values

array([[2, 2],
       [1, 0]], dtype=int64)

In [83]:
myCrosstable.index

Int64Index([0, 1], dtype='int64', name='sol')

In [84]:
myCrosstable.columns

Int64Index([0, 1], dtype='int64', name='chuva')

### Tabela cruzada com função

In [85]:
# porcentagem
perc_crosstab = pd.crosstab(df['sol'], df['chuva']).apply(lambda r: r/r.sum(), axis=1)
perc_crosstab

chuva,0,1
sol,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.5,0.5
1,1.0,0.0


### Tabela pivoteada

In [86]:
# mean 
mean_crosstab = pd.pivot_table(df, values='umidade', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)
mean_crosstab

Unnamed: 0_level_0,joga,0,1
sol,chuva,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,,75.5
0,1,89.0,75.0
1,0,81.2,


In [87]:
# mean 
mean_crosstab = pd.pivot_table(df, values='temperatura', index=['sol', 'chuva'],columns=['joga'], aggfunc=np.mean)
mean_crosstab

Unnamed: 0_level_0,joga,0,1
sol,chuva,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,,88.5
0,1,84.0,70.0
1,0,85.0,


### Normalizando colunas

In [40]:
# função para normalizar temperatura
def normalize_temperatura(entrada):
    temp_min = df['temperatura'].min()
    temp_max = df['temperatura'].max()
    return (entrada - temp_min) / (temp_max - temp_min)

# normalizando temperatura
df['temperatura'] = df['temperatura'].map(normalize_temperatura)
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,0.541667,86.0,0,1
1,0,0,1.0,65.0,1,1
3,1,0,0.0,75.0,0,1
4,0,1,0.625,81.2,0,0
6,1,0,0.583333,89.0,1,0


In [41]:
# função para normalizar umidade
def normalize_umidade(entrada):
    umid_min = df['umidade'].min()
    umid_max = df['umidade'].max()

    return (entrada - umid_min) / (umid_max - umid_min)

# normalizando umidade
df['umidade'] = df['umidade'].map(normalize_umidade)
df

Unnamed: 0,chuva,sol,temperatura,umidade,vento,joga
0,0,0,0.541667,0.875,0,1
1,0,0,1.0,0.0,1,1
3,1,0,0.0,0.416667,0,1
4,0,1,0.625,0.675,0,0
6,1,0,0.583333,1.0,1,0


### Lendo dados de planilhas .csv

Faça o download do train.csv em: https://www.kaggle.com/competitions/titanic/data

In [42]:
df = pd.read_csv('../datasets/train_titanic.csv')

In [43]:
# 3 primeiras linhas
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### Exercícios:

Para os exercícios a seguir considere o arquivo <i>train_titanic.csv</i>. Cada exercício deve ser feito numa célula do notebook. A saída deve ser a resposta para a questão.

Qual a porcentagem de passageiros sobreviveram ao titanic?

In [None]:
# TODO

Qual a porcentagem de passageiros que viajaram de terceira classe?

In [None]:
# TODO

Quais as idades médias e medianas dos passageiros?

In [None]:
# TODO

Quais valores das tarifas médias e medianas foram pagos pelos passageiros?

In [None]:
# TODO

Quais cabines mais frequentes nos dados e qual a frequência?

In [None]:
# TODO

Quantos valores estão faltantes na coluna <i>Cabin</i>?

In [None]:
# TODO

Sobreviveram mais mulheres ou homens?

In [None]:
# TODO

Quais as porcentagens de sobreviventes em cada classe?

In [None]:
# TODO

Os nomes vem com os títulos. Qual é o título mais frequente e qual a frequência?

In [None]:
# TODO

Qual a taxa de sobreviventes considerando apenas menores de 12 anos?

In [None]:
# TODO

A primeira letra da cabine representa o deck do barco. Desprezando os dados faltantes, qual porcertagem de sobreviventes por deck?

In [None]:
# TODO

Qual a porcentagem de sobreviventes considerando apenas os decks faltantes?

In [None]:
# TODO

Qual porcentagem de mulheres da primeira classe sobreviveram? 

In [None]:
# TODO

Por qual portão os passageiros da primeira classe mais embarcaram?

In [None]:
# TODO

Qual a idade média entre as mulheres sobreviventes? E entre as mulheres não sobreviventes?

In [None]:
# TODO

Qual a idade mediana entre os homens da primeira classe que sobreviveram? Qual a idade mediana entre os homens da primeira classe que não sobreviveram?

In [None]:
# TODO

Considerando as possíveis ternas (deck, local de embarque, sexo), qual terna teve maior porcentagem de não sobreviventes?

In [None]:
# TODO

### Exercícios sobre Tidy Data

O artigo https://www.jstatsoft.org/article/view/v059i10/v59i10.pdf cita exemplos de tabelas que não estão no formato Tidy, por exemplo:

In [34]:
table01 = pd.DataFrame({
    "treatmenta": [np.NaN, 16, 3],
    "treatmentb": [2, 11, 1]
}, index = ["John Smith", "Jane Doe", "Mary Johnson"])
table01

Unnamed: 0,treatmenta,treatmentb
John Smith,,2
Jane Doe,16.0,11
Mary Johnson,3.0,1


Ele menciona como seria a Tabela 1 no formato Tidy:

In [35]:
table01.columns = ["a", "b"]
table01 = table01.stack(dropna=False).reset_index()
table01.columns = ['person', 'treatment', 'result']
table01

Unnamed: 0,person,treatment,result
0,John Smith,a,
1,John Smith,b,2.0
2,Jane Doe,a,16.0
3,Jane Doe,b,11.0
4,Mary Johnson,a,3.0
5,Mary Johnson,b,1.0


Observe que para fazer a transformação para Tidy, fizemos algumas operações com Pandas. Agora é sua vez, faça o mesmo para os dados das tabelas 4 -> 6, 7->8 (no github tem o dataset para este), 9 (essa não tem resposta, mas você é capaz!), 10a -> 10b, 11->12 e 14a->14b.

Referências:
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
- https://www.kaggle.com/code/astandrik/journey-from-statistics-eda-to-prediction
- https://www.kaggle.com/code/ash316/eda-to-prediction-dietanic
- https://www.kaggle.com/code/demidova/titanic-eda-tutorial
- https://www.kaggle.com/code/prashant111/eda-is-fun
- https://www.kaggle.com/code/datafan07/titanic-eda-and-several-modelling-approaches
- https://www.kaggle.com/code/soham1024/titanic-data-science-eda-with-meme-solution
- https://www.kaggle.com/code/frankmollard/interactive-eda
- https://www.kaggle.com/code/andreshg/automatic-eda-libraries-comparisson