In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Pandas
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Pandas é uma ferramenta de análise e manipulação de dados de código aberto, flexível, rápida, poderosa e fácil de usar, construída com base na linguagem de programação Python. <br>
Possui uma sofisticada funcionalidade de indexação que facilita a coleta dos dados, agregações, limpeza e a seleção de subconjuntos de dados. <br>
Pandas é uma excelente ferramenta para Data Munging ou Data Wrangling, ou simplesmente Análise dos Dados.<br>    
O pacote pandas possui duas estruturas de dados básicas:  <br>  
- **Series** é um array unidimensional capaz de conter qualquer tipo de dado (números inteiros, números do tipo float, strings, objetos Python, entre outros).  <br>
- **DataFrame** é uma estrutura de dados de duas dimensões, ou seja, possui linhas e colunas. Normalmente, cada coluna é de um determinado tipo de dado.

</details>

In [1]:
# Verificando a versão instalada do Pandas
!pip show pandas

Name: pandas
Version: 1.5.1
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: c:\users\usuario\anaconda3\lib\site-packages
Requires: numpy, python-dateutil, pytz
Required-by: datashader, holoviews, hvplot, seaborn, statsmodels, xarray


In [2]:
# Instalando uma versão específica de um módulo
!pip install pandas==2.0.2

Collecting pandas==2.0.2
  Using cached pandas-2.0.2-cp39-cp39-win_amd64.whl (10.7 MB)
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.5.1
    Uninstalling pandas-1.5.1:
      Successfully uninstalled pandas-1.5.1
Successfully installed pandas-2.0.2


In [2]:
# Importando o pacote Pandas
import pandas as pd

# Importando o pacote NumPy
import numpy as np

### Series
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Método para criar uma série:<br>
s = pd.Series(data, index=index) <br>
Os dados podem ser: <br>
- um dicionário Python; <br>
- um ndarray; <br>
- valores de qualquer tipo de dado. <br> 
    
</details>

In [7]:
# Criando uma Series com ndarray
# O índice deve ter o mesmo comprimento dos dados. 
# Se nenhum índice for passado, os índices serão atribuídos automaticamente com valores iniciando em zero até o tamanho do comprimento dos dados.

np.random.seed(13) # seed aqui, é igual a seed de um mundo de minecraft
s1 = pd.Series(np.random.randint(1, 100, size=5), index=["a", "b", "c", "d", "e"])
s1

a    83
b    49
c    75
d    17
e    99
dtype: int32

In [8]:
# Criando uma Series com ndarray sem especificar rótulos para os índices.
np.random.seed(13)
s2 = pd.Series(np.random.randint(1, 100, size=5))
s2

0    83
1    49
2    75
3    17
4    99
dtype: int32

In [9]:
# Criando um dicionário
dicionario = {"b": 1,
              "a": 3,
              "c": 2
             }

In [10]:
# Criando uma Series com dicionário.
# Quando o índice não é informado, o índice da série são as chaves do dicionário. 
s3 = pd.Series(dicionario)
s3

b    1
a    3
c    2
dtype: int64

In [11]:
# Criando uma Series com dicionário informando rótulos para os índices.
s4 = pd.Series(dicionario, index=["b", "a", "c","k"])
s4

b    1.0
a    3.0
c    2.0
k    NaN
dtype: float64

In [12]:
# Criando uma Series com dados do tipo String
s5 = pd.Series(["Daniel", "Jorge", "Rose", "Ana"])
s5

0    Daniel
1     Jorge
2      Rose
3       Ana
dtype: object

In [13]:
# Verificando o tipo de dado
type(s5)

pandas.core.series.Series

### Slicing de Series

In [14]:
# Imprimindo uma Series
s2

0    83
1    49
2    75
3    17
4    99
dtype: int32

In [15]:
# Retornando o primeiro elemento
s2[0]

83

In [16]:
# Retornando os elementos da posição de índice zero até a posição de índice três. A posição de índice 3 é exclusiva.
s2[:3]

0    83
1    49
2    75
dtype: int32

In [17]:
# Retornando elementos informando as posições
s2[[4, 2, 0]]

4    99
2    75
0    83
dtype: int32

In [18]:
# Imprimindo uma Series
s4

b    1.0
a    3.0
c    2.0
k    NaN
dtype: float64

In [19]:
# Retornando elemento a partir dos rótulos dos índices
s4["c"]

2.0

In [20]:
# Retornando elemento a partir do índice
s4[2]

2.0

In [24]:
# Retornando elementos a partir de uma lista de rótulos dos índices
s4[["k","c"]]

k    NaN
c    2.0
dtype: float64

In [25]:
# Retorna elementos de acordo o índice
# Notação de slicing
s4.iloc[2]    # utilizasse colchetes[] ao invés de parenteses

2.0

In [26]:
# Retorna elementos de acordo com o índice.
# Python mantém os índices mesmo definindo rótulos.
# Notação de slicing
s4.iloc[1:3] # dos indices: 1 ao 2

a    3.0
c    2.0
dtype: float64

In [27]:
# Retorna elementos de acordo o rótulo do índice
# Notação de slicing
s4.loc["a"] 

3.0

### Pesquisando elementos em uma Series

In [28]:
# Imprimindo uma Series
s1

a    83
b    49
c    75
d    17
e    99
dtype: int32

In [31]:
# Utilizando o operador in
"a" in s1

True

In [32]:
# Pesquisando valores maiores que 50
s1[s1 > 50]

a    83
c    75
e    99
dtype: int32

In [33]:
# Pesquisando valores maiores que 50 e menores que 90.
s1[(s1 > 50) & (s1 < 90)]

a    83
c    75
dtype: int32

### Métodos e atributos de uma Series

In [34]:
# Imprimindo uma Series
s4

b    1.0
a    3.0
c    2.0
k    NaN
dtype: float64

In [35]:
# Retornando os valores de uma Series
s4.values

array([ 1.,  3.,  2., nan])

In [36]:
# Retornando os índices de uma Series
s4.index

Index(['b', 'a', 'c', 'k'], dtype='object')

In [37]:
# Retornando o tipo de dado dos valores de uma Series
s4.dtype # dtype('float64') - o 64 é bits, por ser um dado float

dtype('float64')

In [38]:
# Atribuinto um nome a Series
s4.name = "Minha Série"

In [39]:
# Retornando o nome de uma Series
s4.name

'Minha Série'

In [40]:
# Calculando a média dos valores da Series
s4.mean()

2.0

In [41]:
# Concatenando Series
novaSerie = pd.concat([s4, s2])
novaSerie

b     1.0
a     3.0
c     2.0
k     NaN
0    83.0
1    49.0
2    75.0
3    17.0
4    99.0
dtype: float64

In [42]:
# Concatenando Series
novaSerie = pd.concat([s4, s2], ignore_index=True)
novaSerie

0     1.0
1     3.0
2     2.0
3     NaN
4    83.0
5    49.0
6    75.0
7    17.0
8    99.0
dtype: float64

In [43]:
# Resumo estatístico
s4.describe() # muito útil

count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
Name: Minha Série, dtype: float64

In [44]:
# Verificando se existem valores nulos na Series
pd.isna(s4)

b    False
a    False
c    False
k     True
Name: Minha Série, dtype: bool

In [45]:
# Utilizando o Help
help(pd.isna)

Help on function isna in module pandas.core.dtypes.missing:

isna(obj: 'object') -> 'bool | npt.NDArray[np.bool_] | NDFrame'
    Detect missing values for an array-like object.
    
    This function takes a scalar or array-like object and indicates
    whether values are missing (``NaN`` in numeric arrays, ``None`` or ``NaN``
    in object arrays, ``NaT`` in datetimelike).
    
    Parameters
    ----------
    obj : scalar or array-like
        Object to check for null or missing values.
    
    Returns
    -------
    bool or array-like of bool
        For scalar input, returns a scalar boolean.
        For array input, returns an array of boolean indicating whether each
        corresponding element is missing.
    
    See Also
    --------
    notna : Boolean inverse of pandas.isna.
    Series.isna : Detect missing values in a Series.
    DataFrame.isna : Detect missing values in a DataFrame.
    Index.isna : Detect missing values in an Index.
    
    Examples
    --------
    

### Operações com Series

In [46]:
# Imprimindo uma Series
s1

a    83
b    49
c    75
d    17
e    99
dtype: int32

In [47]:
# Somando uma Series
s1 + s1

a    166
b     98
c    150
d     34
e    198
dtype: int32

In [48]:
# Resultado igual a célula anterior
s1 * 2

a    166
b     98
c    150
d     34
e    198
dtype: int32

In [49]:
# Criando uma Series
np.random.seed(45)
s6 = pd.Series(np.random.randint(1, 100, size=8), index=["z", "b", "c", "d", "e", "f", "g", "h"])
s6

z    76
b    31
c     4
d    33
e    96
f    62
g    86
h    36
dtype: int32

In [50]:
# Imprimindo uma Series
s1

a    83
b    49
c    75
d    17
e    99
dtype: int32

In [51]:
# Somando Series. A operação é realizada entre os índices iguais.
# O interpretador gera valores nulos quando não encontra índices iguais nas duas Series.
# O mesmo se aplica para as operações de subtração, multiplicação e divisão. 
s1 + s6

a      NaN
b     80.0
c     79.0
d     50.0
e    195.0
f      NaN
g      NaN
h      NaN
z      NaN
dtype: float64

### DataFrame
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Método básico para criar um DataFrame:<br>
df = pd.DataFrame(data) <br>
Os dados podem ser: <br>
- Listas, Series e Dicionários Python; <br>
- ndarray de duas dimensões; <br>
- a partir de arquivos CSV, Excel, HTML, JSON entre outros. <br> 
    
</details>

In [3]:
# Criando um dicionário de Series
dicionario1 = {
    "Coluna1": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "Coluna2": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
    "Coluna3": pd.Series(np.random.randint(1, 100, size=5), index=["a", "b", "c", "d", "e"])
    }

In [4]:
# Criando um DataFrame a partir de um dicionário
df1 = pd.DataFrame(dicionario1)
df1

Unnamed: 0,Coluna1,Coluna2,Coluna3
a,1.0,1.0,77
b,2.0,2.0,22
c,3.0,3.0,94
d,,4.0,64
e,,,57


In [5]:
# Criando um dicionário de Listas
dicionario2 = {
    "Quantidade": [12, 3, 4, 16],
    "Valor": [100, 125, 75, 88]
    }

In [6]:
# Criando um DataFrame a partir de um dicionário
df2 = pd.DataFrame(dicionario2)
df2

Unnamed: 0,Quantidade,Valor
0,12,100
1,3,125
2,4,75
3,16,88


In [7]:
# Verificando o tipo de dado
type(df2)

pandas.core.frame.DataFrame

### Titanic Dataset
https://www.kaggle.com/c/titanic/data

In [8]:
# Criando um DataFrame a partir de um arquivo CSV
# ficar atento ao separador de colunas (atributo "sep") pode ser ";" "," "|"
# a sigla csv significa: valores separados por virgula (mas podem estar separados por outros simbolos: ';' ou '|')

df3 = pd.read_csv('Dados/Titanic/train.csv', sep = ',', encoding = 'latin-1')
df3

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
# Criando um DataFrame a partir de um arquivo Excel
# se caso o arquivo estiver em excel, é recomendável converter para csv, pra só depois criar o dataframe no jupyterlab

df = pd.read_excel("Dados/nomeDoArquivo.xlsx", sheet_name="nome da planilha")

### Slicing de DataFrames

In [9]:
# Retornando valores de uma coluna.
# Notação de slicing
df3["Name"]

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [None]:
# Exibindo todas as linhas do DataFrame
pd.set_option('display.max_rows', df3.shape[0])

In [11]:
# Retornando uma coluna.
# Coluna como um atributo do DataFrame
df3.Name

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [12]:
# Retornando várias colunas
df3[["Name", "Sex", "Age", "Survived"]]

Unnamed: 0,Name,Sex,Age,Survived
0,"Braund, Mr. Owen Harris",male,22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1
2,"Heikkinen, Miss. Laina",female,26.0,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1
4,"Allen, Mr. William Henry",male,35.0,0
...,...,...,...,...
886,"Montvila, Rev. Juozas",male,27.0,0
887,"Graham, Miss. Margaret Edith",female,19.0,1
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,,0
889,"Behr, Mr. Karl Howell",male,26.0,1


In [13]:
# Retornando um intervalo de linhas. A linha com índice 3 é exclusiva.
df3[0:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [14]:
# Retornando linhas e colunas específicas
df3[["Name", "Sex", "Age", "Survived"]][0:3]

Unnamed: 0,Name,Sex,Age,Survived
0,"Braund, Mr. Owen Harris",male,22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1
2,"Heikkinen, Miss. Laina",female,26.0,1


In [15]:
# Retornando um intervalo de linhas.
# Notação de slicing
df3.iloc[25:32]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
25,26,1,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,,S
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q
29,30,0,3,"Todoroff, Mr. Lalio",male,,0,0,349216,7.8958,,S
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C


In [19]:
# Imprimindo um DataFrame
df1

Unnamed: 0,Coluna1,Coluna2,Coluna3
a,1.0,1.0,77
b,2.0,2.0,22
c,3.0,3.0,94
d,,4.0,64
e,,,57


In [20]:
# Retornando um intervalo de linhas utilizando o rótulo dos índices
df1["b":"d"]

Unnamed: 0,Coluna1,Coluna2,Coluna3
b,2.0,2.0,22
c,3.0,3.0,94
d,,4.0,64


In [21]:
# Retornando linhas específicas
# Notação de slicing
df1.loc[["d","a"]]

Unnamed: 0,Coluna1,Coluna2,Coluna3
d,,4.0,64
a,1.0,1.0,77


### Pesquisando registros no DataFrame

In [22]:
# Pesquisando um nome específico
df3[df3.Name == "Todoroff, Mr. Lalio"]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
29,30,0,3,"Todoroff, Mr. Lalio",male,,0,0,349216,7.8958,,S


In [23]:
# Pesquisando registros em um intervalo da coluna Age.
df3[(df3.Age >= 70) & (df3.Age <= 75)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
672,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,C.A. 24580,10.5,,S
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0,B22,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


In [24]:
# Pesquisando registros utilizando o método Query
df3.query("Survived == 1 and Pclass == 1 and Sex == 'female'")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
...,...,...,...,...,...,...,...,...,...,...,...,...
856,857,1,1,"Wick, Mrs. George Dennick (Mary Hitchcock)",female,45.0,1,1,36928,164.8667,,S
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


### Métodos e atributos de um DataFrame

In [25]:
# Exibindo as primeiras linhas de um DataFrame
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [26]:
# Retornando os índices de um DataFrame.
df3.index

RangeIndex(start=0, stop=891, step=1)

In [27]:
# Retornando o nome das colunas de um DataFrame.
df3.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [28]:
# Retornando os valores das colunas de um DataFrame.
# Os valores são automaticamente convertidos para uma matriz NumPy. <- informação importante: os modelos de machine learning esperam receber uma matriz em numPy
valores = df3.values
valores

array([[1, 0, 3, ..., 7.25, nan, 'S'],
       [2, 1, 1, ..., 71.2833, 'C85', 'C'],
       [3, 1, 3, ..., 7.925, nan, 'S'],
       ...,
       [889, 0, 3, ..., 23.45, nan, 'S'],
       [890, 1, 1, ..., 30.0, 'C148', 'C'],
       [891, 0, 3, ..., 7.75, nan, 'Q']], dtype=object)

In [29]:
# Verificando o tipo de dado.
type(valores)

numpy.ndarray

In [30]:
# Verificando informações sobre cada coluna do DataFrame.
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [31]:
# Verifica o total de valores únicos por coluna.
df3.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
dtype: int64

In [32]:
# Verifica o total de valores únicos de um determinada coluna.
df3.Survived.nunique()

2

In [33]:
# Retorna os valores únicos de uma coluna. Os valores únicos da coluna Embarked são ['S', 'C', 'Q', nan]
df3.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [34]:
# Copiar um DataFrame.
df = df3.copy()
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [35]:
# Contando o número de linhas
quantidadeLinhas = df3.shape[0]
quantidadeLinhas

891

In [36]:
# Contando o número de colunas
quantidadeColunas = df3.shape[1]
quantidadeColunas

12

In [37]:
# Resumo estatístico das colunas.
df3.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [38]:
# Contando frequência dos valores de uma variável
df3.Survived.value_counts() 

Survived
0    549
1    342
Name: count, dtype: int64

In [41]:
# Renomeando as colunas
# É obrigatório informar todas as colunas
df3.columns = ['ID', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 'Quantidade de irmãos e esposas', 'Quantidade de pais e filhos', 'Bilhete', 'Tarifa', "Cabine", 'Porto de Embarque']
df3.head(3)

Unnamed: 0,ID,Sobreviveu,Classe,Nome,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [42]:
# Renomeando colunas específicas. "inplace = True" salva a alteração diretamente no DataFrame
df3.rename(columns = {"ID":"Código", "Nome":"Nome Completo"}, inplace = True)
df3.head(3)

Unnamed: 0,Código,Sobreviveu,Classe,Nome Completo,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [43]:
# Imprimindo um DataFrame
df2

Unnamed: 0,Quantidade,Valor
0,12,100
1,3,125
2,4,75
3,16,88


In [44]:
# Adicionando uma linha no final do DataFrame
df2.loc[len(df2.index)] = [30, 5]
df2

Unnamed: 0,Quantidade,Valor
0,12,100
1,3,125
2,4,75
3,16,88
4,30,5


In [45]:
# Criando uma nova coluna no DataFrame com valores nulos.
df2["Total"] = np.nan
df2

Unnamed: 0,Quantidade,Valor,Total
0,12,100,
1,3,125,
2,4,75,
3,16,88,
4,30,5,


In [46]:
# Multiplicando colunas.
df2["Total"] = df2["Quantidade"] * df2["Valor"]
df2

Unnamed: 0,Quantidade,Valor,Total
0,12,100,1200
1,3,125,375
2,4,75,300
3,16,88,1408
4,30,5,150


In [55]:
# Soma as LINHAS do DataFrame e adiciona uma COLUNA com o total.
# Ficar atento ao intervalo de linhas e colunas especificado no método iloc.
df2["Somatório"] = df2.iloc[:,0:3].sum(numeric_only=True, axis=1)
df2

Unnamed: 0,Quantidade,Valor,Total,Somatório
0,12,100,1200,1312
1,3,125,375,503
2,4,75,300,379
3,16,88,1408,1512
4,30,5,150,185
Total,35,388,3283,3706


In [48]:
# Soma as COLUNAS do DataFrame e adiciona uma linha com o total.
# Ficar atento ao intervalo de linhas e colunas especificado no método iloc.
df2.loc['Total'] = df2.iloc[0:4,:].sum(numeric_only=True, axis=0)
df2

Unnamed: 0,Quantidade,Valor,Total,Somatório
0,12,100,1200,1312
1,3,125,375,503
2,4,75,300,379
3,16,88,1408,1512
4,30,5,150,185
Total,35,388,3283,3706


In [56]:
# Excluir coluna pelo índice da mesma
df2 = df2.drop(df2.columns[3], axis=1) # coluna é axis=1 | linha é axis=0
df2

Unnamed: 0,Quantidade,Valor,Total
0,12,100,1200
1,3,125,375
2,4,75,300
3,16,88,1408
4,30,5,150
Total,35,388,3283


In [57]:
# Excluir colunas específicas
df2 = df2.drop(['Valor', 'Total'], axis=1)
df2

Unnamed: 0,Quantidade
0,12
1,3
2,4
3,16
4,30
Total,35


In [58]:
# Excluir linhas específicas
df2 = df2.drop([0,2,'Total'], axis=0)

# É importante reiniciar os índices após a exclusão de linhas
df2.reset_index(inplace = True)
df2

Unnamed: 0,index,Quantidade
0,1,3
1,3,16
2,4,30


In [59]:
# Excluir linhas baseado em uma condição
df2 = df2.drop(df2[df2.Quantidade <  10].index, axis=0)

# É importante reiniciar os índices após a exclusão de uma linha
df2.reset_index(inplace = True)
df2

Unnamed: 0,level_0,index,Quantidade
0,1,3,16
1,2,4,30


In [60]:
# Excluir colunas específicas
df2 = df2.drop(["level_0", "index"], axis=1)
df2

Unnamed: 0,Quantidade
0,16
1,30


In [61]:
# Definindo rótulos para os índices
df2.index = ["a", "b"]
df2

Unnamed: 0,Quantidade
a,16
b,30


In [62]:
# Criando um dicionário de Listas
dicionario = {
    "Unidade": ["pacote", "und", "cx", "peça"],
    "Valor": [100, 125, 75, 88]
    }

# Criando um DataFrame a partir de um dicionário
df4 = pd.DataFrame(dicionario)
df4

Unnamed: 0,Unidade,Valor
0,pacote,100
1,und,125
2,cx,75
3,peça,88


In [63]:
# Concatenando DataFrames 
# Atenção aos valores nulos 
dfConcatenados = pd.concat([df2, df4], axis="columns")
dfConcatenados

Unnamed: 0,Quantidade,Unidade,Valor
a,16.0,,
b,30.0,,
0,,pacote,100.0
1,,und,125.0
2,,cx,75.0
3,,peça,88.0


In [66]:
# Verificando se existem dados duplicados.
# Ocorrem dados duplicados quando uma linha inteira, é igual a outra
dfConcatenados.duplicated().sum()

1

In [65]:
# Adicionando uma linha no final do DataFrame
dfConcatenados.loc[len(dfConcatenados.index)] = [np.nan, "pacote", 100]
dfConcatenados

Unnamed: 0,Quantidade,Unidade,Valor
a,16.0,,
b,30.0,,
0,,pacote,100.0
1,,und,125.0
2,,cx,75.0
3,,peça,88.0
6,,pacote,100.0


In [67]:
# Excluindo as linhas duplicadas mantendo a primeira ocorrência da linha e criando novos indices direto no dataframe
dfConcatenados.drop_duplicates(ignore_index=True, inplace = True)
dfConcatenados

Unnamed: 0,Quantidade,Unidade,Valor
0,16.0,,
1,30.0,,
2,,pacote,100.0
3,,und,125.0
4,,cx,75.0
5,,peça,88.0


In [68]:
# Imprimindo um DataFrame
df2

Unnamed: 0,Quantidade
a,16
b,30


In [69]:
# Alterando um valor específico no DataFrame
# df['nome da coluna'] = df['nome da coluna'].replace(["valor atual 1", "valor atual 2", "valor atual 3"],["novo valor 1", "novo valor 2", "novo valor 3"])
df2['Quantidade'] = df2['Quantidade'].replace([16, 30],[5, 8])
df2

Unnamed: 0,Quantidade
a,5
b,8


In [70]:
# Alterando valores de uma coluna baseado em uma condição
df2.loc[(df2["Quantidade"] > 1) & (df2["Quantidade"] < 7), "Quantidade"] = 99
df2

Unnamed: 0,Quantidade
a,99
b,8


In [71]:
# Salvar o DataFrame em um arquivo EXCEL. A pasta onde o arquivo for salvo deve existir.
import os # usado para salvar arquivos

# Gerando um arquivo Excel a partir de um Dataframe - usando o to_excel
try:
    df2.to_excel('Dados/testeHenriky-df2.xlsx', sheet_name='Planilha1')
    print("Arquivo salvo!")

except OSError as mensagemOSError: # Erro de entrada e saída
    print(mensagemOSError)

Arquivo salvo!


In [72]:
# Criando um DataFrame a partir de um arquivo Excell
df4 = pd.read_excel("Dados/testeHenriky-df2.xlsx", sheet_name='Planilha1')
df4

Unnamed: 0.1,Unnamed: 0,Quantidade
0,a,99
1,b,8


In [73]:
# Gerando um arquivo CSV a partir de um Dataframe
df2.to_csv('Dados/teste-df2.csv')

In [74]:
# Criando um DataFrame a partir de um arquivo CSV
df5 = pd.read_csv('Dados/teste-df2.csv')
df5

Unnamed: 0.1,Unnamed: 0,Quantidade
0,a,99
1,b,8


### Coletando amostras de um DataFrame

In [83]:
# Selecionando aleatoriamente apenas uma linha 
df3.sample()

Unnamed: 0,Código,Sobreviveu,Classe,Nome Completo,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
427,428,1,2,"Phillips, Miss. Kate Florence (""Mrs Kate Louis...",female,19.0,0,0,250655,26.0,,S


In [84]:
# Selecionando aleatoriamente um número especificado de linhas. Por exemplo, para selecionar 3 linhas aleatórias, defina n = 3
df3.sample(n=3)

Unnamed: 0,Código,Sobreviveu,Classe,Nome Completo,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
139,140,0,1,"Giglio, Mr. Victor",male,24.0,0,0,PC 17593,79.2,B86,C
445,446,1,1,"Dodge, Master. Washington",male,4.0,0,2,33638,81.8583,A34,S
168,169,0,1,"Baumann, Mr. John D",male,,0,0,PC 17318,25.925,,S


In [85]:
# Permitir uma seleção aleatória da mesma linha mais de uma vez informando replace=True
df3.sample(n=3,replace=True)

Unnamed: 0,Código,Sobreviveu,Classe,Nome Completo,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
163,164,0,3,"Calic, Mr. Jovo",male,17.0,0,0,315093,8.6625,,S
764,765,0,3,"Eklund, Mr. Hans Linus",male,16.0,0,0,347074,7.775,,S
415,416,0,3,"Meek, Mrs. Thomas (Annie Louise Rowley)",female,,0,0,343095,8.05,,S


In [86]:
# Selecione aleatoriamente uma fração específica do número total de linhas. Por exemplo, se você tiver 100 linhas e definir frac = 0,50, 
# obterá uma seleção aleatória de 50% do total de linhas, o que significa que 50 linhas serão selecionadas.
df3.sample(frac=0.50)

Unnamed: 0,Código,Sobreviveu,Classe,Nome Completo,Sexo,Idade,Quantidade de irmãos e esposas,Quantidade de pais e filhos,Bilhete,Tarifa,Cabine,Porto de Embarque
617,618,0,3,"Lobb, Mrs. William Arthur (Cordelia K Stanlick)",female,26.0,1,0,A/5. 3336,16.1000,,S
750,751,1,2,"Wells, Miss. Joan",female,4.0,1,1,29103,23.0000,,S
574,575,0,3,"Rush, Mr. Alfred George John",male,16.0,0,0,A/4. 20589,8.0500,,S
109,110,1,3,"Moran, Miss. Bertha",female,,1,0,371110,24.1500,,Q
60,61,0,3,"Sirayanian, Mr. Orsen",male,22.0,0,0,2669,7.2292,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
459,460,0,3,"O'Connor, Mr. Maurice",male,,0,0,371060,7.7500,,Q
262,263,0,1,"Taussig, Mr. Emil",male,52.0,1,1,110413,79.6500,E67,S
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
391,392,1,3,"Jansson, Mr. Carl Olof",male,21.0,0,0,350034,7.7958,,S


### Exercícios

Utilize o dataset Titanic para responder o que se pede.

1 - Colete os dados do dataset Titanic e carregue em um DataFrame.

In [108]:
import pandas as pd

dataFrame = pd.read_csv('Dados/Titanic/train.csv')
dataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [107]:
# Coletando os dados
import pandas as pd

df = pd.read_csv('Dados/Titanic/train.csv')

2 - Exiba as primeiras linhas do DataFrame.

In [89]:
dataFrame.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [2]:
# Visualizando as primeiras linhas
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


3 - Exiba as dimensões do DataFrame.

In [90]:
dataFrame.shape

(891, 12)

In [3]:
# Visualizando as dimensões
df.shape

(891, 12)

4 - Exiba informações sobre as colunas.

In [95]:
dataFrame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [4]:
# Informações sobre as variáveis
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


5 - Exiba um resumo estatístico dos dados.

In [5]:
# Resumo estatístico.
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


6 - Verifique se a coluna Survived está balanceada. Ou seja, se tem a mesma quantidade para passageiros que sobreviveram e para passageiros que não sobreviveram. 

In [6]:
# Contando a frequência dos valores de uma variável.
df.Survived.value_counts() 

Survived
0    549
1    342
Name: count, dtype: int64

7 - Verifique o total de valores únicos por coluna.

In [7]:
# Total de valors únicos por coluna.
df.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
dtype: int64

8 - Exclua as seguintes colunas: Name, PassengerId, SibSp, Parch, Ticket, Cabin.<br>
Obs.: Crie um novo DataFrame para preservar os dados originais.

In [8]:
# Excluindo colunas
df1 = df.drop(["Name", "PassengerId", "SibSp", "Parch", "Ticket", "Cabin"], axis=1)
df1.head(4)

Unnamed: 0,Survived,Pclass,Sex,Age,Fare,Embarked
0,0,3,male,22.0,7.25,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.925,S
3,1,1,female,35.0,53.1,S


9 - Verifique quantos sobreviventes são do sexo masculino e quantos são do sexo feminino. Depois calcule o percentual de cada em relação ao total de sobreviventes.

In [109]:
# sobreviventes do sexo masculino:
sobrevMasc = dataFrame.query("Survived == 1 and Sex == 'male'").shape[0]
sobrevMasc

109

In [110]:
# sobreviventes do sexo feminino:
sobrevFem = dataFrame.query("Survived == 1 and Sex == 'female'").shape[0]
sobrevFem

233

In [111]:
# percentual de sobreviventes do sexo masculino
(sobrevMasc / len(df1.query("Survived == 1")))*100

UndefinedVariableError: name 'Survived' is not defined

In [None]:
# --------------------------------------------------------------------------------------------------------------- #
# --------------------------------------------------------------------------------------------------------------- #
# --------------------------------------------------------------------------------------------------------------- #
# --------------------------------------------------------------------------------------------------------------- #
# --------------------------------------------------------------------------------------------------------------- #

In [106]:
# Sobreviventes do sexo masculino
sobreviventesMasculino = df1.query("Survived == 1 and Sex == 'male'").shape[0]
sobreviventesMasculino

UndefinedVariableError: name 'Survived' is not defined

In [10]:
# Sobreviventes do sexo feminino
sobreviventesFeminino = df1.query("Survived == 1 and Sex == 'female'").shape[0]
sobreviventesFeminino

233

In [11]:
# Percentual de sobreviventes do sexo masculino
(sobreviventesMasculino / len(df1.query("Survived == 1")))*100

31.871345029239766

In [12]:
# Percentual de sobreviventes do sexo feminino
(sobreviventesFeminino / len(df1.query("Survived == 1")))*100

68.12865497076024

In [13]:
# NÃO Sobreviventes do sexo masculino
naoSobreviventesMasculino = df1.query("Survived == 0 and Sex == 'male'").shape[0]
naoSobreviventesMasculino

468

In [14]:
# NÃO Sobreviventes do sexo feminino
naoSobreviventesFeminino = df1.query("Survived == 0 and Sex == 'female'").shape[0]
naoSobreviventesFeminino

81

In [15]:
# Percentual de NÃO sobreviventes do sexo masculino
(naoSobreviventesMasculino / len(df1.query("Survived == 0")))*100

85.24590163934425

In [16]:
# Percentual de NÃO sobreviventes do sexo feminino
(naoSobreviventesFeminino / len(df1.query("Survived == 0")))*100

14.754098360655737