## DataFrames Pandas

Vamos explorar algumas funcionalidades básicas relacionadas aos DataFrames no Pandas.

In [1]:
import pandas as pd

### Criando um DataFrame simples

In [2]:
x = [[1,2],[3,4],[5,6]]

x

[[1, 2], [3, 4], [5, 6]]

In [3]:
y = pd.DataFrame(x)  # 3 linhas, 2 colunas

y

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


### Criando um DataFrame com índices e colunas nomeadas

In [9]:
# Dataframe criado sem índice e sem nomes de colunas
# O pandas, que não é bobo, cria pra você
df = pd.DataFrame(data=[['costela', 30.], ['camarão', 60.]])
df

Unnamed: 0,0,1
0,costela,30.0
1,camarão,60.0


In [10]:
# Passando índices e nomes de colunas como parâmetros
df = pd.DataFrame(data=[['costela', 30.], ['camarão', 60.]], 
                  index=['linha1', 'linha2'], 
                  columns=['prato', 'preço'])
df

Unnamed: 0,prato,preço
linha1,costela,30.0
linha2,camarão,60.0


### Criando um DataFrame a partir de um dicionário

In [12]:
dados = {"nome": ['Maria', 'Joao', 'Jose'], "idade": [20, 34, 18], "sexo": ['F', 'M', 'M']}
alunos = pd.DataFrame(data=dados)

alunos

Unnamed: 0,nome,idade,sexo
0,Maria,20,F
1,Joao,34,M
2,Jose,18,M


In [13]:
dados = {"nome": ['Maria', 'Joao', 'Jose'], "idade": [20, 34, 18]}
alunos = pd.DataFrame(data=dados)

alunos

Unnamed: 0,nome,idade
0,Maria,20
1,Joao,34
2,Jose,18


### Propriedades do DataFrame

In [14]:
print("Valores:")

df.values

Valores:


array([['costela', 30.0],
       ['camarão', 60.0]], dtype=object)

In [15]:
print("Índices:")

df.index

Índices:


Index(['linha1', 'linha2'], dtype='object')

In [16]:
print("Nomes das colunas:")

df.columns

Nomes das colunas:


Index(['prato', 'preço'], dtype='object')

In [17]:
df.dtypes

prato     object
preço    float64
dtype: object

In [18]:
df['prato']

linha1    costela
linha2    camarão
Name: prato, dtype: object

In [19]:
df['preço']

linha1    30.0
linha2    60.0
Name: preço, dtype: float64

In [20]:
print("Tipos:")

display(df['prato'].dtype)
display(df['preço'].dtype)

Tipos:


dtype('O')

dtype('float64')

### Acessando colunas do DataFrame

In [21]:
print("Coluna 'prato':")

df['prato']

Coluna 'prato':


linha1    costela
linha2    camarão
Name: prato, dtype: object

In [22]:
print("Coluna 'preço':")

df['preço']

Coluna 'preço':


linha1    30.0
linha2    60.0
Name: preço, dtype: float64

In [23]:
type(df['preço'])

pandas.core.series.Series

### Importando um DataFrame da Web

In [24]:
# Fazendo duas coisas: buscando da internet e 
# fazer importação do arquivo csv (comma separated values)
df_medalhas = pd.read_csv("https://raw.githubusercontent.com/letsdata/arquivos-jcd/main/medals.csv")

# Mostrar as 5 primeiras linhas
df_medalhas.head()

Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
0,1924,Chamonix,Skating,Figure skating,AUT,individual,M,Silver
1,1924,Chamonix,Skating,Figure skating,AUT,individual,W,Gold
2,1924,Chamonix,Skating,Figure skating,AUT,pairs,X,Gold
3,1924,Chamonix,Bobsleigh,Bobsleigh,BEL,four-man,M,Bronze
4,1924,Chamonix,Ice Hockey,Ice Hockey,CAN,ice hockey,M,Gold


In [29]:
df_medalhas.head(10)

Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
0,1924,Chamonix,Skating,Figure skating,AUT,individual,M,Silver
1,1924,Chamonix,Skating,Figure skating,AUT,individual,W,Gold
2,1924,Chamonix,Skating,Figure skating,AUT,pairs,X,Gold
3,1924,Chamonix,Bobsleigh,Bobsleigh,BEL,four-man,M,Bronze
4,1924,Chamonix,Ice Hockey,Ice Hockey,CAN,ice hockey,M,Gold
5,1924,Chamonix,Biathlon,Biathlon,FIN,military patrol,M,Silver
6,1924,Chamonix,Skating,Figure skating,FIN,pairs,X,Silver
7,1924,Chamonix,Skating,Speed skating,FIN,10000m,M,Gold
8,1924,Chamonix,Skating,Speed skating,FIN,10000m,M,Silver
9,1924,Chamonix,Skating,Speed skating,FIN,1500m,M,Gold


In [31]:
df_medalhas.tail(10)

Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
2301,2006,Turin,Skiing,Alpine Skiing,USA,Alpine combined,M,Gold
2302,2006,Turin,Skiing,Alpine Skiing,USA,giant slalom,W,Gold
2303,2006,Turin,Skiing,Freestyle Ski.,USA,moguls,M,Bronze
2304,2006,Turin,Skiing,Snowboard,USA,Giant parallel slalom,W,Bronze
2305,2006,Turin,Skiing,Snowboard,USA,Half-pipe,M,Gold
2306,2006,Turin,Skiing,Snowboard,USA,Half-pipe,M,Silver
2307,2006,Turin,Skiing,Snowboard,USA,Half-pipe,W,Gold
2308,2006,Turin,Skiing,Snowboard,USA,Half-pipe,W,Silver
2309,2006,Turin,Skiing,Snowboard,USA,Snowboard Cross,M,Gold
2310,2006,Turin,Skiing,Snowboard,USA,Snowboard Cross,W,Silver


### Propriedades e métodos adicionais do DataFrame

In [25]:
print("Tipos de Dados das Colunas:")

df_medalhas.dtypes

Tipos de Dados das Colunas:


Year             int64
City            object
Sport           object
Discipline      object
NOC             object
Event           object
Event gender    object
Medal           object
dtype: object

In [32]:
print("Dimensões:")

df_medalhas.shape

Dimensões:


(2311, 8)

In [33]:
print("Informações Gerais:")

df_medalhas.info()

Informações Gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2311 entries, 0 to 2310
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Year          2311 non-null   int64 
 1   City          2311 non-null   object
 2   Sport         2311 non-null   object
 3   Discipline    2311 non-null   object
 4   NOC           2311 non-null   object
 5   Event         2311 non-null   object
 6   Event gender  2311 non-null   object
 7   Medal         2311 non-null   object
dtypes: int64(1), object(7)
memory usage: 144.6+ KB


In [34]:
print("Descrição Estatística:")

df_medalhas.describe()

Descrição Estatística:


Unnamed: 0,Year
count,2311.0
mean,1980.361748
std,22.089091
min,1924.0
25%,1968.0
50%,1988.0
75%,1998.0
max,2006.0


In [35]:
df.describe()

Unnamed: 0,preço
count,2.0
mean,45.0
std,21.213203
min,30.0
25%,37.5
50%,45.0
75%,52.5
max,60.0
