In [2]:
import pandas as pd
import seaborn as sns # uma biblioteca gráfica que contém alguns dados

In [24]:
df = sns.load_dataset('titanic')

In [4]:
# Quantas observações existem no dataset?
df.shape

(891, 15)

In [5]:
# Quais são as cinco primeiras linhas?
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
# Vamos eliminar colunas que não interessam (agora)
# drop() - apaga linhas ou colunas com base no eixo (axis)

# Temos duas formas, ou apagamos colunas ou criamos um novo DataFrame com as
# colunas que desejamos

In [7]:
df.head(1)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False


In [11]:
# Criar um novo DataFrame a partir do existente
df_novo = df[['pclass', 'sex', 'age', 'alone', 'survived']]
df_novo.head()

Unnamed: 0,pclass,sex,age,alone,survived
0,3,male,22.0,False,0
1,1,female,38.0,False,1
2,3,female,26.0,True,1
3,1,female,35.0,False,1
4,3,male,35.0,True,0


In [12]:
df_novo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   pclass    891 non-null    int64  
 1   sex       891 non-null    object 
 2   age       714 non-null    float64
 3   alone     891 non-null    bool   
 4   survived  891 non-null    int64  
dtypes: bool(1), float64(1), int64(2), object(1)
memory usage: 28.8+ KB


In [22]:
# Apagando colunas
# axis=0 (linhas)
# axisi1 (colunas)
# inplace altera o DataFrame atual (sobrescreve-o)
df.drop(['adult_male', 'deck'], axis=1, inplace=True)

In [23]:
df.head(1)

Unnamed: 0,survived,pclass,sex,age,alone
0,0,3,male,22.0,False


In [30]:
df_novo

Unnamed: 0,pclass,sex,age,alone,survived
0,3,male,22.0,False,0
1,1,female,38.0,False,1
2,3,female,26.0,True,1
3,1,female,35.0,False,1
4,3,male,35.0,True,0
...,...,...,...,...,...
886,2,male,27.0,True,0
887,1,female,19.0,True,1
888,3,female,,False,0
889,1,male,26.0,True,1


In [34]:
# Renomeando colunas
# pclass	sex	age	alone	survived
df_novo = df_novo.rename(
    columns={
        'pclass': 'classe',
        'sex': 'sexo',
        'age': 'idade',
        'acompanhado': 'sozinho',
        'sobreviveu': 'sobrevivente'
    }
    )
df_novo.head()

Unnamed: 0,classe,sexo,idade,sozinho,sobrevivente
0,3,male,22.0,False,0
1,1,female,38.0,False,1
2,3,female,26.0,True,1
3,1,female,35.0,False,1
4,3,male,35.0,True,0


In [35]:
# Vamos salvar esse dataset tratado em um arquivo (csv)
df_novo.to_csv('titanic_filtrado.csv')

In [36]:
# Abrir o arquivo filtrado
df = pd.read_csv('titanic_filtrado.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,classe,sexo,idade,sozinho,sobrevivente
0,0,3,male,22.0,False,0
1,1,1,female,38.0,False,1
2,2,3,female,26.0,True,1
3,3,1,female,35.0,False,1
4,4,3,male,35.0,True,0


In [37]:
# Salvando em Excel
df_novo.to_excel('titanic_filtrado.xlsx')

In [38]:
# Quantos valores existem no campo sexo?
df['sexo'].count()

891

In [39]:
# Quantos registros existem "por sexo"?
df['sexo'].value_counts()

male      577
female    314
Name: sexo, dtype: int64

In [40]:
df['idade'].value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: idade, Length: 88, dtype: int64

In [41]:
# Qual idade mais aparece nos dados?
df['idade'].mode()

0    24.0
dtype: float64

In [42]:
df.head()

Unnamed: 0.1,Unnamed: 0,classe,sexo,idade,sozinho,sobrevivente
0,0,3,male,22.0,False,0
1,1,1,female,38.0,False,1
2,2,3,female,26.0,True,1
3,3,1,female,35.0,False,1
4,4,3,male,35.0,True,0


In [52]:
# Vamos ordenar
# ascending = false ordena decrescente
df.sort_values(by=['idade'], ascending=False)

Unnamed: 0.1,Unnamed: 0,classe,sexo,idade,sozinho,sobrevivente
630,630,1,male,80.0,True,1
851,851,3,male,74.0,True,0
493,493,1,male,71.0,True,0
96,96,1,male,71.0,True,0
116,116,3,male,70.5,True,0
...,...,...,...,...,...,...
859,859,3,male,,True,0
863,863,3,female,,False,0
868,868,3,male,,True,0
878,878,3,male,,True,0


In [54]:
# Quantos bebês estavam a bordo (menores de 2 anos)?
df.query('idade > 60')

Unnamed: 0.1,Unnamed: 0,classe,sexo,idade,sozinho,sobrevivente
33,33,2,male,66.0,True,0
54,54,1,male,65.0,False,0
96,96,1,male,71.0,True,0
116,116,3,male,70.5,True,0
170,170,1,male,61.0,True,0
252,252,1,male,62.0,True,0
275,275,1,female,63.0,False,1
280,280,3,male,65.0,True,0
326,326,3,male,61.0,True,0
438,438,1,male,64.0,False,0


In [None]:
df_covid = pd.read_csv("https://edsonmelo.com.br/dados_csv/covid_19.csv")
df_mtcars = pd.read_csv("https://edsonmelo.com.br/dados_csv/mtcars.csv")
df_alunos = pd.read_csv("https://edsonmelo.com.br/dados_csv/notas_alunos.csv")

# Mostrar, para cada um deles o seguinte:

# 1 - Quantos registros existem em "covid_19"?
# 2 - Qual o nome do 18º país da lista do "covid_19"?
# 3 - Quais são as variáveis do "mtcars"?
# 4 - Qual a média de "hp" dos carros "mtcars"?
# 5 - Mostre 20 notas aleatórias para o "notas_alunos".
# 6 - Qual é a nota dos últimos cinco alunos de "notas_alunos"?

# Tempo: 15 minutos (11:20)

In [55]:
# 1
df_covid.shape
# 2
df_covid.head(18)
# 3
df_mtcars.info()
# 4
df_mtcars.describe()
# 5
df_alunos.sample(20)
# 6
df_alunos.tail(5)

NameError: ignored

In [57]:
dados = ['Edson', 50, 'Ciências da Computação']
pd.DataFrame([dados], columns={'nome', 'idade', 'curso'})

Unnamed: 0,curso,nome,idade
0,Edson,50,Ciências da Computação
