## Estudo de caso: Titanic

Você deve criar aqui um notebook para análise exploratória dos dados do Dataset Titanic.

Tenha como base as funções e métodos apresentados em sala de aula.

### Tratamento dos Dados

1 - Importe as bibliotecas pandas e matplotlib

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

2 - Crie um DataFrame a partir do arquivo titanic.csv

In [None]:
titanic = pd.read_csv('titanic.csv')
titanic

3 - Renomeie as colunas, de forma que os campos sejam melhor identificados (tenha como base o Dicionário de Dados)

In [None]:
titanic.columns = ['ID_Passageiro', 'Sobreviveu?', 'Classe', 'Nome', 'Sexo', 'Idade', 'Filhos',
       'Pais', 'Ticket', 'Valor Pago', 'Cabine', 'Embarcado em']

titanic['Sexo'].replace('female','feminino',inplace=True)
titanic['Sexo'].replace('male','masculino',inplace=True)

4 - Inspecione a quantidade de valores "missing" no Dataset (em quais campos estão localizados)?

In [None]:
titanic.isna().sum()

5 - Para tratar os dados faltantes, defina estratégias:

5.1 - Estratégia 1 (Campo Embarked):

In [None]:
titanic['Embarcado em'].fillna(titanic['Embarcado em'].mode()[0],inplace=True)

In [None]:
titanic['Embarcado em'].isna().sum()

5.2 - Estratégia 2 (Campo Age):

In [None]:
# Extrair titulo de tratamento do campo nome, criando uma nova coluna no dataset - campo Title
#print(titanic)

title = titanic['Nome'].str.split(',')

title = [title[1].strip().split('.')[0] for title in
                        titanic['Nome'].str.split(',')]

titanic['Titulo']=title


### ** Discutir sobre a função groupby**

In [None]:
# aqui

In [None]:
#Media da idade por titulo
AgebyTitle = titanic['Idade'].groupby(titanic['Titulo']).mean().reset_index()
titanic

In [None]:
#fazer outros agrupamentos
#Passageiros por sexo
#Passageiros por classe
#Passageiros por quantidade de filhos

In [None]:
#inclui coluna de idade por titulo
titanic = pd.merge(titanic,AgebyTitle,on='Titulo')
titanic

In [None]:
#Substituir idades faltantes
titanic['Idade_x'].fillna(titanic['Idade_y'],inplace=True)

5.3 - Estratégia 3 (Campo Cabin):

In [None]:
titanic['IsCabin'] = 1
titanic.loc[titanic['Cabine'].isna(),'IsCabin'] = 0

Verifica valores faltantes:

In [None]:
titanic.isna().sum()

** OBS: Não esqueça de persistir o tratamento realizado (utilize inplace = True nas modificações) **

6 - Salve o DataFrame tratado em uma arquivo .csv

In [None]:
titanic.to_csv('titanic2.csv',sep=',')

7 - Realize o pivoteamento dos dados de forma a apresentar a quantidade de passageiros que sobreviveram ou não, por sexo.

In [None]:
tabela_sobrevivencia = pd.pivot_table(titanic,'ID_Passageiro','Sexo','Sobreviveu?','count')
tabela_sobrevivencia

### Visualização de Dados

8 - Apresente a distribuição de passageiros por sexo.

In [None]:
%matplotlib inline
import numpy as np
num_mulheres = titanic[titanic['Sexo']=='feminino']['ID_Passageiro'].count()
num_homens = titanic[titanic['Sexo']=='masculino']['ID_Passageiro'].count()
x=np.arange(2)
plt.bar(x, [num_mulheres,num_homens])
plt.xticks(x, ('Feminino', 'Masculino'))

9 - Apresente a distribuição de passageiros por sexo e por status de sobrevivência (utilize o gráfico Barras)

In [None]:
tabela_sobrevivencia.plot.bar()

In [None]:
10 - Apresente o percentual de sobrevivência ou não por sexo (utilize o gráfico Pizza)

In [None]:
fig,eixos = plt.subplots(nrows=1,
                         ncols=2,
                         figsize=(8,4))

pizza_f =tabela_sobrevivencia.loc['feminino']
pizza_m =tabela_sobrevivencia.loc['masculino']

pizza_1 = eixos[0].pie(pizza_f,
                       labels=['Nao','Sim'],
                       autopct='%.1f',
                       colors=['blue','pink'])

pizza_2 = eixos[1].pie(pizza_m,
                       labels=['Nao','Sim'],
                       autopct='%.1f',
                       colors=['blue','pink'])

10 - Sabemos que durante desastres e situações emergênciais, mulheres e crianças são os primeiros a serem evacuados. 

Vale lembrar que a maioridade na Inglaterra no século XX — que persiste até hoje — é de 10 anos. 

Apresente resultados referentes aos prioritários (mulheres e crianças). Você está livre para a forma de apresentação, porém seja coerente.

11 - Aproveitando a análise anterior, você pode apresentar:
- dentre os sobreviventes qual a proporção de crianças?
- dentre as crianças sobreviventes, quantas são do sexo masculino e quantas do sexo feminino? Em qual classe estavam?

** 11 - Vamos analisar as classes em que os clientes estavam no Titanic.**

Será que aqueles que estavam em uma classe mais refinada tiveram maiores chances de sobrevivência do que quem estava na parte inferior do navio?

11.1 - Apresente, inicialmente, a proporção de sobreviventes por classe

In [None]:
import seaborn as sns
import pandas as pd

titanic = pd.read_csv('titanic.csv')
titanic

In [None]:

sobreviventes_classe = titanic[titanic['Survived']==1]
sobreviventes_classe

In [None]:
import matplotlib as plt
import numpy as np

classe1 = titanic[titanic['Pclass']==1]['PassengerId'].count()
classe2 = titanic[titanic['Pclass']==2]['PassengerId'].count()
classe3 = titanic[titanic['Pclass']==3]['PassengerId'].count()
x=np.arange(3)

plt.bar(x, [classe1,classe2,classe3])
plt.xticks(x, ('Classe 1', 'Classe 2','Classe 3'))
