# Dataframes

Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode conter diferentes tipos de valores (número, string, etc). Os Dataframes possuem index e linhas. Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

In [1]:
# Importações
from pandas import DataFrame
from pandas import Series
import numpy as np

### Dimensões
* 1D - Serie
* 2D - DataFrame
* 3D - Panel
* 4D - Numpy Array

### Dataframe a partir de Numpy array

In [6]:
arr = np.random.randint(10,50, size=(5,5)); arr

array([[19, 30, 33, 16, 31],
       [20, 42, 31, 35, 19],
       [21, 49, 17, 45, 10],
       [15, 16, 26, 45, 44],
       [28, 49, 14, 45, 13]])

In [7]:
df = DataFrame(arr); df

Unnamed: 0,0,1,2,3,4
0,19,30,33,16,31
1,20,42,31,35,19
2,21,49,17,45,10
3,15,16,26,45,44
4,28,49,14,45,13


In [8]:
# Tipo
type(df)

pandas.core.frame.DataFrame

In [9]:
# Alterando os indices das linhas
indices = ['A', 'B', 'C', 'D', 'E']

In [10]:
df1 = DataFrame(arr, index=indices); df1

Unnamed: 0,0,1,2,3,4
A,19,30,33,16,31
B,20,42,31,35,19
C,21,49,17,45,10
D,15,16,26,45,44
E,28,49,14,45,13


In [11]:
# Alterando os indices das colunas
indices = [1, 2, 3, 4, 5]

In [12]:
df3 = DataFrame(arr, columns=indices); df3

Unnamed: 0,1,2,3,4,5
0,19,30,33,16,31
1,20,42,31,35,19
2,21,49,17,45,10
3,15,16,26,45,44
4,28,49,14,45,13


### Dataframe a partir de listas

In [13]:
dados = [[4,6,7,4], [8,9,3,4]]

In [14]:
df4 = DataFrame(dados); df4

Unnamed: 0,0,1,2,3
0,4,6,7,4
1,8,9,3,4


In [15]:
# Pode passar uma String dividida ou dividir no DataFrame
lin = '01 02 03'
col = 'Dia Mes Ano'
df4 = DataFrame(np.random.rand(3,3), index=lin.split(), columns=col.split()); df4

Unnamed: 0,Dia,Mes,Ano
1,0.91821,0.659146,0.854867
2,0.639743,0.100291,0.529061
3,0.22411,0.429269,0.145559


In [16]:
df4 = DataFrame(np.random.randn(5,5), index='01 02 03 04 05 '.split(), columns='Dia Mes Ano Hora Minuto '.split()); df4

Unnamed: 0,Dia,Mes,Ano,Hora,Minuto
1,-0.184161,-0.393994,-0.569124,-0.34851,0.469453
2,1.473015,1.663555,0.540011,1.181572,0.303994
3,-0.853815,-1.325034,0.365061,0.315955,1.276291
4,-0.627655,-0.983858,-0.193386,0.208539,0.173117
5,1.578326,-0.295265,0.708683,0.978609,-1.0221


### Dataframe a partir de dicionários

In [17]:
# Dicionário com produto, valor e quantidade
dados = {'Produto': ['Smartphone', 'Óculos3D', 'SmartTV', 'Raspberry', 'Impressora3D', 'Câmera'], 
        'Preços': [1990, 299, 1900, 239, 1399, 799],
        'Quantidade': [10, 70, 68, 63, 36, 42]}

In [18]:
df5 = DataFrame(dados); df5

Unnamed: 0,Produto,Preços,Quantidade
0,Smartphone,1990,10
1,Óculos3D,299,70
2,SmartTV,1900,68
3,Raspberry,239,63
4,Impressora3D,1399,36
5,Câmera,799,42


In [19]:
# Nova coluna com calculo
df5['ValorTotal'] = df5['Preços'] * df5['Quantidade']; df5

Unnamed: 0,Produto,Preços,Quantidade,ValorTotal
0,Smartphone,1990,10,19900
1,Óculos3D,299,70,20930
2,SmartTV,1900,68,129200
3,Raspberry,239,63,15057
4,Impressora3D,1399,36,50364
5,Câmera,799,42,33558


In [20]:
# Alterando a ordem de apresentação dos dados
df6 = DataFrame(dados, columns=['Preços', 'Produto', 'Quantidade']); df6

Unnamed: 0,Preços,Produto,Quantidade
0,1990,Smartphone,10
1,299,Óculos3D,70
2,1900,SmartTV,68
3,239,Raspberry,63
4,1399,Impressora3D,36
5,799,Câmera,42


In [22]:
# Renomeando linhas e colunas - Passa um dicionário {atual:novo}
df6.rename({'Preços':'Preço'}, axis=1, inplace=True); df6

Unnamed: 0,Preço,Produto,Quantidade
0,1990,Smartphone,10
1,299,Óculos3D,70
2,1900,SmartTV,68
3,239,Raspberry,63
4,1399,Impressora3D,36
5,799,Câmera,42


### Dataframe a partir de Dicionário com Séries

In [23]:
serie = {'Vendas': Series([100, 230, 490, 129, 359], index=['Jan', 'Fev', 'Mar', 'Abr', 'Mai'])}

In [24]:
df7 = DataFrame(serie); df7

Unnamed: 0,Vendas
Jan,100
Fev,230
Mar,490
Abr,129
Mai,359


In [26]:
# Dicionário aninhado - Usuários, músicas e nota
musicas_usuarios = {
         'Aline': {'Hear now':5.0, 'Love never fails':4.2, 'Sultans Of Swing':3.5},
          'João': {'Hear now':3.0, 'Love never fails':5.0, 'Sultans Of Swing':5.0},
          'Lucas': {'Hear now':2.0, 'Love never fails':3.5, 'Sultans Of Swing':4.5},
          'Mateus': {'Hear now':4.5, 'Love never fails':2.5, 'Sultans Of Swing':5.0},
          'Renata': {'Hear now':3.5, 'Love never fails':4.5, 'Sultans Of Swing':3.5}}

In [28]:
musicas = DataFrame.from_dict(musicas_usuarios); musicas

Unnamed: 0,Aline,João,Lucas,Mateus,Renata
Hear now,5.0,3.0,2.0,4.5,3.5
Love never fails,4.2,5.0,3.5,2.5,4.5
Sultans Of Swing,3.5,5.0,4.5,5.0,3.5


### Manipulando a estrutura do DataFrame

In [75]:
# Dicionário agencia de modelo (com nome, idade e altura)
dados = {'Nome': ['Veronica', 'Luiza', 'Aline', 'Beatriz', 'Luana', 'Leticia'], 
        'Idade': [21, 23, 19, 18, 24, 19],
        'Altura': [1.65, 1.70, 1.68, 1.63, 1.76, 1.66]}

In [76]:
df = DataFrame(dados); df

Unnamed: 0,Nome,Idade,Altura
0,Veronica,21,1.65
1,Luiza,23,1.7
2,Aline,19,1.68
3,Beatriz,18,1.63
4,Luana,24,1.76
5,Leticia,19,1.66


In [77]:
# Usando o NumPy para alimentar uma nova coluna
df['Pontos'] = np.arange(6.); df

Unnamed: 0,Nome,Idade,Altura,Pontos
0,Veronica,21,1.65,0.0
1,Luiza,23,1.7,1.0
2,Aline,19,1.68,2.0
3,Beatriz,18,1.63,3.0
4,Luana,24,1.76,4.0
5,Leticia,19,1.66,5.0


In [78]:
# Adiciona coluna
df['Olhos'] = ['Verdes', 'Castanhos', 'Pretos', 'Azuis', 'Castanhos', 'Pretos'];df

Unnamed: 0,Nome,Idade,Altura,Pontos,Olhos
0,Veronica,21,1.65,0.0,Verdes
1,Luiza,23,1.7,1.0,Castanhos
2,Aline,19,1.68,2.0,Pretos
3,Beatriz,18,1.63,3.0,Azuis
4,Luana,24,1.76,4.0,Castanhos
5,Leticia,19,1.66,5.0,Pretos


In [79]:
# Insere Coluna em posição específica
df.insert(0, 'Id', (1,2,3,4,5,6)); df

Unnamed: 0,Id,Nome,Idade,Altura,Pontos,Olhos
0,1,Veronica,21,1.65,0.0,Verdes
1,2,Luiza,23,1.7,1.0,Castanhos
2,3,Aline,19,1.68,2.0,Pretos
3,4,Beatriz,18,1.63,3.0,Azuis
4,5,Luana,24,1.76,4.0,Castanhos
5,6,Leticia,19,1.66,5.0,Pretos


Deletando a coluna (df.drop('Pontos') # Vai retornar erro <br>
axis especifica o eixo a ser deletado(0-linha, 1-coluna), senão ele considera o indice padrão(linhas) que é o eixo 0

In [108]:
df.drop('Pontos', axis=1)

Unnamed: 0,Nome,Idade,Altura,Olhos
0,Veronica,21,1.65,Verdes
1,Luiza,23,1.7,Castanhos
2,Aline,19,1.68,Pretos
3,Beatriz,18,1.63,Azuis
4,Luana,24,1.76,Castanhos
5,Leticia,19,1.66,Pretos


In [None]:
# Inserir linha
df.

In [None]:
# Apagar linha
df.drop(0, inplace=True)

In [109]:
# Resetar index - volta ao padrão que é numeral cardinal, mas sem remover o atual
df1 = df.reset_index(inplace=True); df1

In [110]:
# Cria nova coluna e seta como indice
df['Id'] = range(100, 106); df

Unnamed: 0,index,Nome,Idade,Altura,Pontos,Olhos,Id
0,0,Veronica,21,1.65,0.0,Verdes,100
1,1,Luiza,23,1.7,1.0,Castanhos,101
2,2,Aline,19,1.68,2.0,Pretos,102
3,3,Beatriz,18,1.63,3.0,Azuis,103
4,4,Luana,24,1.76,4.0,Castanhos,104
5,5,Leticia,19,1.66,5.0,Pretos,105


In [111]:
# Configurando coluna Estado como  indice
df.set_index('Id', inplace=True); df

Unnamed: 0_level_0,index,Nome,Idade,Altura,Pontos,Olhos
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
100,0,Veronica,21,1.65,0.0,Verdes
101,1,Luiza,23,1.7,1.0,Castanhos
102,2,Aline,19,1.68,2.0,Pretos
103,3,Beatriz,18,1.63,3.0,Azuis
104,4,Luana,24,1.76,4.0,Castanhos
105,5,Leticia,19,1.66,5.0,Pretos


In [80]:
# Deleta coluna permanentemente
del df['Id']; df

Unnamed: 0,Nome,Idade,Altura,Pontos,Olhos
0,Veronica,21,1.65,0.0,Verdes
1,Luiza,23,1.7,1.0,Castanhos
2,Aline,19,1.68,2.0,Pretos
3,Beatriz,18,1.63,3.0,Azuis
4,Luana,24,1.76,4.0,Castanhos
5,Leticia,19,1.66,5.0,Pretos


### Informações sobre o DataFrame

In [29]:
# Dataframe Vendas por dia da semana
df = DataFrame(np.random.randint(10, 20, size=(7,5)), columns=["Segunda", "Terça", "Quarta", "Quinta", "Sexta"]); df

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,10,17,17,18,15
1,18,12,10,10,18
2,14,13,12,16,13
3,10,11,15,11,10
4,17,11,13,15,12
5,15,15,10,11,13
6,18,19,11,16,11


In [30]:
# Cabeçalho, os 5 primeiros registros
df.head()

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,10,17,17,18,15
1,18,12,10,10,18
2,14,13,12,16,13
3,10,11,15,11,10
4,17,11,13,15,12


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   Segunda  7 non-null      int64
 1   Terça    7 non-null      int64
 2   Quarta   7 non-null      int64
 3   Quinta   7 non-null      int64
 4   Sexta    7 non-null      int64
dtypes: int64(5)
memory usage: 408.0 bytes


In [32]:
# Lista os index (Linhas)
df.index

RangeIndex(start=0, stop=7, step=1)

In [33]:
# Lista colunas
df.columns

Index(['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta'], dtype='object')

In [34]:
# Lista apenas os valores
df.values

array([[10, 17, 17, 18, 15],
       [18, 12, 10, 10, 18],
       [14, 13, 12, 16, 13],
       [10, 11, 15, 11, 10],
       [17, 11, 13, 15, 12],
       [15, 15, 10, 11, 13],
       [18, 19, 11, 16, 11]])

In [35]:
# Valores únicos de uma coluna
df['Segunda'].unique()

array([10, 18, 14, 17, 15])

In [36]:
# De outra forma, usando numpy
np.unique(df['Segunda'])

array([10, 14, 15, 17, 18])

In [37]:
# Total de valores unicos
df['Segunda'].nunique()

5

In [38]:
# Tipos de dados
df.dtypes

Segunda    int64
Terça      int64
Quarta     int64
Quinta     int64
Sexta      int64
dtype: object

In [39]:
# Resumo
df.describe()

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
count,7.0,7.0,7.0,7.0,7.0
mean,14.571429,14.0,12.571429,13.857143,13.142857
std,3.457222,3.109126,2.636737,3.132016,2.672612
min,10.0,11.0,10.0,10.0,10.0
25%,12.0,11.5,10.5,11.0,11.5
50%,15.0,13.0,12.0,15.0,13.0
75%,17.5,16.0,14.0,16.0,14.0
max,18.0,19.0,17.0,18.0,18.0


In [40]:
# A quantidade de vezes que cada um aparece
df['Segunda'].value_counts() 

18    2
10    2
15    1
14    1
17    1
Name: Segunda, dtype: int64

### Seleção e fatiamento

In [81]:
colunas = ["Janeiro", "Fevereiro", "Março", "Abril", "Maio", "Junho", "Julho", "Agosto", "Setembro", "Outubro","Novembro", "Dezembro"]

In [82]:
linhas = np.arange(1, 11)

In [83]:
dados = np.random.randint(492, 2000, size=(10, 12)); dados

array([[1518, 1313, 1511,  558, 1002,  495, 1581, 1348,  769, 1255,  858,
        1164],
       [1675,  787,  577, 1745, 1922,  560, 1895, 1902,  755, 1678, 1281,
         506],
       [1760, 1310,  767,  798, 1183, 1775,  892, 1795, 1837,  671, 1151,
         510],
       [ 547, 1968, 1198, 1693,  532,  957,  533, 1308, 1508, 1809, 1191,
        1860],
       [1677, 1198,  991, 1386,  781, 1956,  677,  553, 1244, 1953,  755,
        1852],
       [1640, 1393, 1748, 1449,  650, 1725, 1986,  850,  668, 1751, 1854,
        1966],
       [1261, 1715, 1806, 1991,  726, 1213, 1448, 1553, 1837, 1154, 1588,
        1265],
       [ 676, 1273,  863, 1170, 1499, 1888, 1040, 1449, 1761, 1558, 1925,
        1156],
       [ 549, 1768, 1228, 1472,  528, 1034, 1565, 1325, 1899, 1994,  602,
        1194],
       [1546, 1019, 1087, 1462, 1177, 1939, 1682, 1385, 1150, 1656, 1232,
        1166]])

In [84]:
df = DataFrame(dados, index=linhas, columns=colunas); df

Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
1,1518,1313,1511,558,1002,495,1581,1348,769,1255,858,1164
2,1675,787,577,1745,1922,560,1895,1902,755,1678,1281,506
3,1760,1310,767,798,1183,1775,892,1795,1837,671,1151,510
4,547,1968,1198,1693,532,957,533,1308,1508,1809,1191,1860
5,1677,1198,991,1386,781,1956,677,553,1244,1953,755,1852
6,1640,1393,1748,1449,650,1725,1986,850,668,1751,1854,1966
7,1261,1715,1806,1991,726,1213,1448,1553,1837,1154,1588,1265
8,676,1273,863,1170,1499,1888,1040,1449,1761,1558,1925,1156
9,549,1768,1228,1472,528,1034,1565,1325,1899,1994,602,1194
10,1546,1019,1087,1462,1177,1939,1682,1385,1150,1656,1232,1166


### Fatiamento

### Notações
df[coluna]<br>
df[[col1, col2, col3]]<br>
df[coluna][linha]<br>
df[linha1:linha2][2:][2:5]<br>
df.loc[indice linha, indice coluna] df.loc[1, 'Junho']<br>
df.iloc[indice numer linha, indice numer coluna]<br>
df.iloc[ind1, ind2, ind3][col1, col2, col3]

In [85]:
# Seleciona mês de janeiro
df['Janeiro']

1     1518
2     1675
3     1760
4      547
5     1677
6     1640
7     1261
8      676
9      549
10    1546
Name: Janeiro, dtype: int64

In [86]:
# Outra forma
df.Janeiro

1     1518
2     1675
3     1760
4      547
5     1677
6     1640
7     1261
8      676
9      549
10    1546
Name: Janeiro, dtype: int64

In [87]:
# Mais uma
df.get('Janeiro')

1     1518
2     1675
3     1760
4      547
5     1677
6     1640
7     1261
8      676
9      549
10    1546
Name: Janeiro, dtype: int64

In [51]:
# Fatia por colunas - Janeiro a Março
df[["Janeiro", "Fevereiro", "Março"]]

Unnamed: 0,Janeiro,Fevereiro,Março
1,1700,1672,659
2,1284,1838,810
3,1961,1361,1285
4,1583,1299,1524
5,1470,1572,1559
6,1680,1546,1169
7,1965,1070,868
8,996,1653,1682
9,1138,1498,691
10,1776,1831,499


In [52]:
df['Janeiro'][1:10]

2     1284
3     1961
4     1583
5     1470
6     1680
7     1965
8      996
9     1138
10    1776
Name: Janeiro, dtype: int64

In [53]:
# Fatia - 2 primeiras linhas
df[:2]

Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
1,1700,1672,659,1297,1590,1799,610,497,1164,1534,1490,1881
2,1284,1838,810,829,1543,1497,805,1520,1909,573,583,1892


In [54]:
# A partir da linha 2
df[2:]

Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
3,1961,1361,1285,761,1985,1749,1329,652,1466,804,1164,1643
4,1583,1299,1524,1370,1112,1962,922,891,1577,1384,1483,1558
5,1470,1572,1559,720,1028,1425,764,993,1417,1491,1639,919
6,1680,1546,1169,1129,843,722,1560,810,576,1115,1871,651
7,1965,1070,868,1269,905,1411,1767,616,1331,985,1290,1293
8,996,1653,1682,1706,803,755,1919,719,1316,1742,546,1819
9,1138,1498,691,1453,1676,1843,1305,937,675,898,1939,1204
10,1776,1831,499,854,1688,1420,1094,794,1338,1511,722,561


In [55]:
# Linha 1
df.loc[1]

Janeiro      1700
Fevereiro    1672
Março         659
Abril        1297
Maio         1590
Junho        1799
Julho         610
Agosto        497
Setembro     1164
Outubro      1534
Novembro     1490
Dezembro     1881
Name: 1, dtype: int64

In [56]:
# Apenas um valor
df.loc[1, 'Junho']

1799

In [57]:
# Apenas um valor
df.iloc[1, 1]

1838

In [58]:
df.iloc[[1,2,3],[1,2,3]]

Unnamed: 0,Fevereiro,Março,Abril
2,1838,810,829
3,1361,1285,761
4,1299,1524,1370


In [59]:
df.iloc[1:4, 2:]

Unnamed: 0,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
2,810,829,1543,1497,805,1520,1909,573,583,1892
3,1285,761,1985,1749,1329,652,1466,804,1164,1643
4,1524,1370,1112,1962,922,891,1577,1384,1483,1558


In [66]:
# Colunas na qual os elementos possuem indice 1 (Linha1)
df.loc[:,:].loc[1]

Janeiro      1700
Fevereiro    1672
Março         659
Abril        1297
Maio         1590
Junho        1799
Julho         610
Agosto        497
Setembro     1164
Outubro      1534
Novembro     1490
Dezembro     1881
Name: 1, dtype: int64

### Condicional

In [5]:
df_cond = DataFrame(np.random.randint(10, 20, size=(7,5)), columns=["Segunda", "Terça", "Quarta", "Quinta", "Sexta"]); df_cond.head()

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,13,17,18,10,16
1,12,13,18,14,16
2,13,18,17,12,16
3,10,16,12,19,16
4,15,11,18,16,13


In [6]:
# Valores maiores que 10 em Booleano
df_cond > 10

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,True,True,True,False,True
1,True,True,True,True,True
2,True,True,True,True,True
3,False,True,True,True,True
4,True,True,True,True,True
5,True,True,True,True,True
6,True,True,True,True,True


In [7]:
# Valores maiores que 10 em Números
df_cond[df_cond > 10]

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,13.0,17,18,,16
1,12.0,13,18,14.0,16
2,13.0,18,17,12.0,16
3,,16,12,19.0,16
4,15.0,11,18,16.0,13
5,17.0,14,16,15.0,17
6,16.0,12,12,18.0,19


In [8]:
# Preencher valores nulos - Mais detalhes no proximo Notebook
df_cond[df_cond > 10].fillna('-')

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,13,17,18,-,16
1,12,13,18,14,16
2,13,18,17,12,16
3,-,16,12,19,16
4,15,11,18,16,13
5,17,14,16,15,17
6,16,12,12,18,19


In [9]:
# Segunda a Quarta - maiores que 100
df_cond[df_cond > 10][['Segunda', 'Terça', 'Quarta']]

Unnamed: 0,Segunda,Terça,Quarta
0,13.0,17,18
1,12.0,13,18
2,13.0,18,17
3,,16,12
4,15.0,11,18
5,17.0,14,16
6,16.0,12,12


In [10]:
# Segunda a Quarta maiores que 10, apenas 5 primeiros registros
df_cond[df_cond > 10][['Segunda', 'Terça', 'Quarta']]

Unnamed: 0,Segunda,Terça,Quarta
0,13.0,17,18
1,12.0,13,18
2,13.0,18,17
3,,16,12
4,15.0,11,18
5,17.0,14,16
6,16.0,12,12


In [12]:
# Mais de 1 condição - passe tuplas (And)
df_cond[(df_cond['Segunda'] > 10) & (df_cond['Quarta'] < 15)]

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
6,16,12,12,18,19


In [14]:
# Or 
df_cond[(df_cond['Terça'] > 10) | (df_cond['Sexta'] < 15)]

Unnamed: 0,Segunda,Terça,Quarta,Quinta,Sexta
0,13,17,18,10,16
1,12,13,18,14,16
2,13,18,17,12,16
3,10,16,12,19,16
4,15,11,18,16,13
5,17,14,16,15,17
6,16,12,12,18,19


## Continua...