# Importação de Bibliotecas

Vamos começar importando a biblioteca **pandas**, que é uma das principais ferramentas para análise e manipulação de dados em Python. O pandas fornece estruturas de dados flexíveis e eficientes, principalmente DataFrames, que nos permitem trabalhar com dados tabulares de forma similar a planilhas ou bancos de dados.

In [3]:
import pandas as pd

# Carregamento e Primeiras Visualizações dos Dados

## Leitura do Dataset do Titanic

A função `pd.read_csv()` é utilizada para carregar dados de um arquivo CSV (Comma Separated Values) em um DataFrame do pandas. Estamos carregando o famoso dataset do Titanic, que contém informações sobre os passageiros do navio Titanic.

O método `head(3)` exibe as **primeiras 3 linhas** do dataset, permitindo uma visualização inicial da estrutura dos dados e dos tipos de informações disponíveis.

In [6]:
data = pd.read_csv('data/titanic.csv')

data.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## Visualização das Últimas Linhas

O método `tail(3)` exibe as **últimas 3 linhas** do dataset. Isso é útil para:
- Verificar se os dados foram carregados completamente
- Observar se há padrões diferentes no final do dataset
- Confirmar a consistência dos dados em diferentes partes do arquivo

In [8]:
data.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## Informações Estruturais do Dataset

O método `info()` fornece um **resumo abrangente** da estrutura do DataFrame:
- **Número total de linhas e colunas**
- **Nome de cada coluna**
- **Quantidade de valores não nulos** em cada coluna (útil para identificar dados faltantes)
- **Tipo de dados** de cada coluna (int64, float64, object, etc.)
- **Uso de memória** do DataFrame

Esta função é essencial para uma análise exploratória inicial, pois revela problemas como valores ausentes e tipos de dados incorretos.

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Estatísticas Descritivas para Dados Numéricos

O método `describe()` calcula **estatísticas descritivas** automaticamente para todas as colunas numéricas:
- **count**: Número de valores não nulos
- **mean**: Média aritmética
- **std**: Desvio padrão (medida de dispersão)
- **min**: Valor mínimo
- **25%**: Primeiro quartil (25% dos dados estão abaixo deste valor)
- **50%**: Mediana (segundo quartil)
- **75%**: Terceiro quartil (75% dos dados estão abaixo deste valor)
- **max**: Valor máximo

Essas estatísticas fornecem uma visão geral da distribuição e características dos dados numéricos.

In [10]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## Estatísticas Descritivas para Dados Categóricos

O método `describe(include='O')` calcula estatísticas específicas para colunas de **dados categóricos** (tipo 'object'):
- **count**: Número total de valores não nulos
- **unique**: Número de valores únicos/distintos
- **top**: Valor mais frequente (moda)
- **freq**: Frequência do valor mais comum

O parâmetro `include='O'` especifica que queremos incluir apenas colunas do tipo 'object', que geralmente contêm dados textuais ou categóricos.

In [16]:
data.describe(include='O')

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,B96 B98,S
freq,1,577,7,4,644


# Manipulação e Renomeação de Colunas

## Renomeação Individual de Coluna

O método `rename()` permite **renomear colunas específicas** do DataFrame:
- O primeiro parâmetro é um dicionário onde a chave é o nome atual e o valor é o novo nome
- `axis=1` especifica que estamos renomeando colunas (não linhas)
- `inplace=True` faz a modificação diretamente no DataFrame original, sem criar uma cópia

Aqui estamos renomeando a coluna 'Name' para 'Nome' (traduzindo para português).

In [20]:
data.rename({'Name': 'Nome'}, axis=1, inplace=True)

data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Visualização dos Nomes das Colunas

A propriedade `columns` retorna um **Index object** contendo todos os nomes das colunas do DataFrame. Isso é útil para:
- Verificar os nomes atuais das colunas
- Confirmar se as renomeações foram aplicadas corretamente
- Planejar futuras modificações nos nomes das colunas

In [21]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Nome', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

## Renomeação Completa das Colunas

Aqui fazemos uma **renomeação completa** de todas as colunas, atribuindo uma nova lista de nomes em português:
- `IdPassageiro`: ID único do passageiro
- `Sobreviventes`: Indica se sobreviveu (1) ou não (0)
- `Classe`: Classe do bilhete (1ª, 2ª ou 3ª classe)
- `Nome`: Nome completo do passageiro
- `Sexo`: Gênero do passageiro
- `Idade`: Idade em anos
- `IrmaoConjuge`: Número de irmãos/cônjuges a bordo
- `PaisFilhos`: Número de pais/filhos a bordo
- `Bilhete`: Número do bilhete
- `Tarifa`: Preço pago pela passagem
- `Cabine`: Número da cabine
- `Embarque`: Porto de embarque

In [22]:
data.columns = ['IdPassageiro', 'Sobreviventes', 'Classe', 'Nome', 'Sexo', 'Idade', 'IrmaoConjuge', 'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'Embarque']
data.head()

Unnamed: 0,IdPassageiro,Sobreviventes,Classe,Nome,Sexo,Idade,IrmaoConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Seleção e Análise de Dados Específicos

## Seleção de Múltiplas Colunas

A sintaxe `data[['col1', 'col2', 'col3']]` permite **selecionar múltiplas colunas específicas** do DataFrame:
- Os colchetes duplos `[[]]` indicam que estamos passando uma lista de nomes de colunas
- Retorna um novo DataFrame contendo apenas as colunas especificadas
- `head(5)` mostra as primeiras 5 linhas das colunas selecionadas

Isso é útil quando queremos focar em um subconjunto específico de dados para análise.

In [23]:
data[['Nome', 'Sexo', 'Idade', 'Tarifa']].head(5)

Unnamed: 0,Nome,Sexo,Idade,Tarifa
0,"Braund, Mr. Owen Harris",male,22.0,7.25
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833
2,"Heikkinen, Miss Laina",female,26.0,7.925
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1
4,"Allen, Mr. William Henry",male,35.0,8.05


## Seleção de Uma Única Coluna

A sintaxe `data['nome_coluna']` seleciona **uma única coluna** e retorna uma **Series** (não um DataFrame):
- `head(5)` mostra os primeiros 5 valores da coluna Tarifa
- Uma Series é uma estrutura unidimensional do pandas, similar a uma lista ou array
- Útil quando queremos trabalhar especificamente com uma variável

In [27]:
data['Tarifa'].head(5)

0     7.2500
1    71.2833
2     7.9250
3    53.1000
4     8.0500
Name: Tarifa, dtype: float64

# Análise Estatística Detalhada da Coluna Idade

## Valor Máximo

O método `max()` retorna o **maior valor** presente na coluna Idade. Isso nos ajuda a entender:
- A faixa etária dos passageiros
- Possíveis outliers (valores extremos)
- A idade da pessoa mais velha a bordo

In [28]:
data['Idade'].max()

np.float64(80.0)

## Média Aritmética

O método `mean()` calcula a **média aritmética** das idades:
- Soma todos os valores válidos (não nulos) e divide pela quantidade de valores
- Fornece uma medida de tendência central
- Útil para entender a idade "típica" dos passageiros
- Pode ser influenciada por valores extremos (outliers)

In [29]:
data['Idade'].mean()

np.float64(29.69911764705882)

## Mediana (Valor Central)

O método `median()` encontra o **valor central** quando os dados estão ordenados:
- Se há um número ímpar de valores, é o valor do meio
- Se há um número par de valores, é a média dos dois valores centrais
- **Menos sensível a outliers** que a média
- Melhor representação da idade "típica" quando há valores extremos
- 50% dos passageiros têm idade menor que a mediana e 50% têm idade maior

In [30]:
data['Idade'].median()

np.float64(28.0)

## Desvio Padrão (Medida de Dispersão)

O método `std()` calcula o **desvio padrão**, que mede a **dispersão** dos dados em relação à média:
- Valores baixos indicam que os dados estão próximos da média (pouca variação)
- Valores altos indicam que os dados estão espalhados (muita variação)
- Expresso na mesma unidade da variável original (anos, neste caso)
- Aproximadamente 68% dos valores estão dentro de 1 desvio padrão da média
- Útil para entender a variabilidade das idades dos passageiros

In [31]:
data['Idade'].std()

np.float64(14.526497332334042)

## Soma Total

O método `sum()` calcula a **soma de todos os valores** válidos (não nulos) da coluna Idade:
- Adiciona todas as idades dos passageiros
- Ignora valores NaN (Not a Number) ou nulos
- Pode ser usado para calcular totais agregados
- Útil em combinação com outras estatísticas para cálculos derivados

In [32]:
data['Idade'].sum()

np.float64(21205.17)

## Contagem de Valores Válidos

O método `count()` retorna o **número de valores não nulos** na coluna:
- Exclui valores NaN, None, ou outros valores ausentes
- Diferente de `len()`, que contaria todos os registros incluindo nulos
- Essencial para entender a completude dos dados
- Ajuda a identificar quantos passageiros têm informação de idade disponível

In [33]:
data['Idade'].count()

np.int64(714)

## Moda (Valor Mais Frequente)

O método `mode()` retorna o(s) **valor(es) mais frequente(s)** na coluna:
- Pode retornar múltiplos valores se houver empate na frequência
- Retorna uma Series, não um valor único
- Útil para identificar a idade mais comum entre os passageiros
- Importante para dados categóricos, mas também aplicável a numéricos
- Diferente da média e mediana, a moda pode não existir ou pode haver múltiplas modas

In [34]:
data['Idade'].mode()

0    24.0
Name: Idade, dtype: float64

## Valor Mínimo

O método `min()` retorna o **menor valor** presente na coluna Idade:
- Identifica a idade da pessoa mais nova a bordo
- Útil para entender a faixa etária completa
- Pode revelar a presença de bebês ou crianças muito pequenas
- Complementa o `max()` para definir o intervalo completo dos dados

In [35]:
data['Idade'].min()

np.float64(0.42)

## Índice do Valor Mínimo

O método `idxmin()` retorna o **índice (posição)** da linha que contém o valor mínimo:
- Não retorna o valor em si, mas sim sua localização no DataFrame
- Útil para identificar qual passageiro específico tem a menor idade
- Permite investigar outras características desse registro
- Se houver valores iguais ao mínimo, retorna o índice da primeira ocorrência

In [36]:
data['Idade'].idxmin()

803

## Índice do Valor Máximo

O método `idxmax()` retorna o **índice (posição)** da linha que contém o valor máximo:
- Similar ao `idxmin()`, mas para o maior valor
- Identifica qual passageiro específico tem a maior idade
- Permite análise detalhada do registro com a idade máxima
- Se houver múltiplos valores máximos iguais, retorna o índice da primeira ocorrência

In [37]:
data['Idade'].idxmax()

630

# Diferença Entre Métodos e Propriedades

## Propriedade vs Método - Exemplo com Mean

Aqui vemos `data.mean` **sem parênteses**, que retorna um **objeto método**:
- Não executa a função, apenas mostra que ela existe
- Retorna a referência do método, não o resultado
- Para executar e obter o resultado, seria necessário usar `data.mean()`
- Útil para entender que mean é um método disponível, mas não calcula nada ainda

In [39]:
data.mean

<bound method DataFrame.mean of      IdPassageiro  Sobreviventes  Classe  \
0               1              0       3   
1               2              1       1   
2               3              1       3   
3               4              1       1   
4               5              0       3   
..            ...            ...     ...   
886           887              0       2   
887           888              1       1   
888           889              0       3   
889           890              1       1   
890           891              0       3   

                                                  Nome    Sexo  Idade  \
0                              Braund, Mr. Owen Harris    male   22.0   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female   38.0   
2                                Heikkinen, Miss Laina  female   26.0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female   35.0   
4                             Allen, Mr. William Henry    male   35.0   
.

## Propriedade Sum (Sem Execução)

Similarmente, `data.sum` **sem parênteses** mostra apenas a **referência do método**:
- Não executa o cálculo da soma
- Apenas confirma que o método sum existe e está disponível
- Para obter as somas reais seria necessário `data.sum()`
- Demonstra a diferença fundamental entre referenciar um método e executá-lo

In [49]:
data.sum

<bound method DataFrame.sum of      IdPassageiro  Sobreviventes  Classe  \
0               1              0       3   
1               2              1       1   
2               3              1       3   
3               4              1       1   
4               5              0       3   
..            ...            ...     ...   
886           887              0       2   
887           888              1       1   
888           889              0       3   
889           890              1       1   
890           891              0       3   

                                                  Nome    Sexo  Idade  \
0                              Braund, Mr. Owen Harris    male   22.0   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female   38.0   
2                                Heikkinen, Miss Laina  female   26.0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female   35.0   
4                             Allen, Mr. William Henry    male   35.0   
..

# Seleção de Dados por Posição

## Seleção por Índice Numérico com iloc

O `iloc[803]` utiliza **seleção baseada em posição**:
- `iloc` significa "integer location" (localização inteira)
- Seleciona a linha na **posição 803** (índice baseado em zero)
- Retorna uma Series com todos os dados desse passageiro específico
- Útil quando queremos acessar dados por posição numérica, não por rótulo
- No contexto anterior, este pode ser o registro do passageiro mais velho (baseado no `idxmax()` anterior)

In [47]:
data.iloc[803]

IdPassageiro                                804
Sobreviventes                                 1
Classe                                        3
Nome             Thomas, Master Assad Alexander
Sexo                                       male
Idade                                      0.42
IrmaoConjuge                                  0
PaisFilhos                                    1
Bilhete                                    2625
Tarifa                                   8.5167
Cabine                                      NaN
Embarque                                      C
Name: 803, dtype: object