**Autor** : Seu nome

**e-mail**: seu.email@semantix.com

#  <a name="resumo"> RESUMO </a>

Este notebook tem o objetivo de apresentar a biblioteca **pandas** e seu uso para manipulação e análise de dados. A pandas oferece estruturas e operações para manipular tabelas numéricas e séries temporais. É uma biblioteca relativamente rápida e bem flexivel.

#  <a name="indice">  Índice </a>

* [Resumo](#resumo)
* [Índice](#indice)
* [Seção 1 - Series e DataFrames](#secao_1)
* [Seção 2 - Funcionalidades Básicas](#secao_2)
* [Seção 3 - Indexação](#secao_3)
* [Seção 4 - Leitura e Escrita em arquivos](#secao_4)
* [Seção 5 - Algumas Dicas](#secao_5)
* [Conclusão](#conclusao)

#  <a name="secao_1"> Seção 1 - Series e DataFrames</a>
[Voltar ao índice](#indice)

Ref: https://pandas.pydata.org/

In [2]:
import pandas as pd

In [3]:
pd.__version__

'1.2.4'

In [4]:
pd.Series([1,2,3,4], index= ['a','b','c','d'])

a    1
b    2
c    3
d    4
dtype: int64

In [5]:
df = pd.DataFrame([[1,2,3],[4,5,6]],columns=['Coluna 1','Coluna 2','Coluna 3'], index=['a','b'])

In [6]:
type(df['Coluna 1'])

pandas.core.series.Series

In [7]:
type(df)

pandas.core.frame.DataFrame

#  <a name="secao_2"> Seção 2 - Funcionalidades Básicas</a>
[Voltar ao índice](#indice)

In [8]:
from numpy.random import randint

dados = [randint(10,size=3) for a in range(20)]

df = pd.DataFrame(dados,columns=['Coluna 1','Coluna 2','Coluna 3'])

In [9]:
df.head(2)

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,7,7,7
1,1,7,2


In [10]:
df.tail(7)

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
13,8,1,2
14,9,2,9
15,6,8,0
16,7,2,5
17,2,2,6
18,6,2,6
19,8,3,1


In [11]:
df.index

RangeIndex(start=0, stop=20, step=1)

In [12]:
df.columns

Index(['Coluna 1', 'Coluna 2', 'Coluna 3'], dtype='object')

In [13]:
df[df['Coluna 1'] > df['Coluna 2']]

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
4,8,3,9
6,5,4,5
7,7,2,2
9,8,1,1
13,8,1,2
14,9,2,9
16,7,2,5
18,6,2,6
19,8,3,1


In [14]:
(df['Coluna 1'] > df['Coluna 2']).empty

False

In [15]:
(df[df['Coluna 1']>11]).empty

True

In [16]:
df1 = df.copy()

In [17]:
%%timeit
(df1 == df).all().all()

1.22 ms ± 10.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [18]:
%%timeit
df1.equals(df)

73.6 µs ± 7 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [19]:
df.head()

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,7,7,7
1,1,7,2
2,6,8,1
3,0,9,3
4,8,3,9


In [20]:
def multiplica(a,x=2):
    return a*x

In [21]:
df.apply(multiplica)

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,14,14,14
1,2,14,4
2,12,16,2
3,0,18,6
4,16,6,18
5,18,18,2
6,10,8,10
7,14,4,4
8,6,8,2
9,16,2,2


#  <a name="secao_3"> Seção 3 - Indexação </a>
[Voltar ao índice](#indice)

In [22]:
df.head()

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,7,7,7
1,1,7,2
2,6,8,1
3,0,9,3
4,8,3,9


In [23]:
df.loc[2:5,['Coluna 1','Coluna 3']]

Unnamed: 0,Coluna 1,Coluna 3
2,6,1
3,0,3
4,8,9
5,9,1


In [24]:
dados = [randint(10,size=3) for a in range(4)]

df = pd.DataFrame(dados,columns=['Coluna 1','Coluna 2','Coluna 3'],index=['a','b','c','d'])

In [25]:
df

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
a,5,4,8
b,8,1,5
c,9,8,8
d,7,3,4


In [26]:
df.loc['b','Coluna 2']

1

In [27]:
df.iloc[1]['Coluna 2']

1

In [28]:
df['Coluna 2'].iloc[1]

1

In [29]:
df['Coluna 2']

a    4
b    1
c    8
d    3
Name: Coluna 2, dtype: int64

In [30]:
df = pd.DataFrame(dados,columns=['Coluna 1','Coluna 2','Coluna 3'],index=['2021-2-1','2021-3-1','2021-4-1','2021-5-1'])

In [31]:
df

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
2021-2-1,5,4,8
2021-3-1,8,1,5
2021-4-1,9,8,8
2021-5-1,7,3,4


In [32]:
df.loc['2021-3-1']

Coluna 1    8
Coluna 2    1
Coluna 3    5
Name: 2021-3-1, dtype: int64

In [33]:
type(df.index[0])

str

#  <a name="secao_4"> Seção 4  - Leitura e Escrita em arquivos</a>
[Voltar ao índice](#indice)

In [34]:
atletas = pd.read_excel('./archive/Athletes.xlsx')

In [35]:
medalhas = pd.read_excel('./archive/Medals.xlsx')

  warn("Workbook contains no default style, apply openpyxl's default")


In [36]:
medalhas[medalhas['Team/NOC']=='Brazil']

Unnamed: 0,Rank,Team/NOC,Gold,Silver,Bronze,Total,Rank by Total
11,12,Brazil,7,6,8,21,12


In [37]:
medalhas[medalhas['Silver']>5]

Unnamed: 0,Rank,Team/NOC,Gold,Silver,Bronze,Total,Rank by Total
0,1,United States of America,39,41,33,113,1
1,2,People's Republic of China,38,32,18,88,2
2,3,Japan,27,14,17,58,5
3,4,Great Britain,22,21,22,65,4
4,5,ROC,20,28,23,71,3
5,6,Australia,17,7,22,46,6
6,7,Netherlands,10,12,14,36,9
7,8,France,10,12,11,33,10
8,9,Germany,10,11,16,37,8
9,10,Italy,10,10,20,40,7


In [39]:
df_cinquenta = medalhas[medalhas['Total']>50]

In [40]:
df_cinquenta.to_csv('.\outputs\ciquenta_medalhes.csv')

In [43]:
df_cinquenta.to_excel('.\outputs\ciquenta_medalhes.xlsx', index=False)

In [44]:
dir(df_cinquenta)

['Bronze',
 'Gold',
 'Rank',
 'Silver',
 'T',
 'Total',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__ran

#  <a name="secao_5"> Seção 5 - Algumas Dicas </a>
[Voltar ao índice](#indice)

### NUNCA FAÇA FOR EM PANDAS!

In [47]:
%%timeit
for i in range(len(medalhas)):
    if medalhas.iloc[i]['Gold']>15:
        print('Mais do que 15 medalhas de ouro!')
    

Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do qu

Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do qu

In [48]:
%%timeit

for index,row in medalhas.iterrows():
    if row['Gold']>15:
        print('Mais do que 15 medalhas de ouro!')
    

Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do qu

Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do que 15 medalhas de ouro!
Mais do qu

In [49]:
%%timeit
medalhas[medalhas['Gold']>50]

2.87 ms ± 371 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [50]:
%%timeit
medalhas.query('Gold > 50')

16.1 ms ± 3.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [52]:
medalhas.describe()

Unnamed: 0,Rank,Gold,Silver,Bronze,Total,Rank by Total
count,93.0,93.0,93.0,93.0,93.0,93.0
mean,46.333333,3.655914,3.634409,4.322581,11.612903,43.494624
std,26.219116,7.022471,6.626339,6.210372,19.091332,24.171769
min,1.0,0.0,0.0,0.0,1.0,1.0
25%,24.0,0.0,0.0,1.0,2.0,23.0
50%,46.0,1.0,1.0,2.0,4.0,47.0
75%,70.0,3.0,4.0,5.0,11.0,66.0
max,86.0,39.0,41.0,33.0,113.0,77.0


In [53]:
pd.crosstab(medalhas['Gold'],medalhas['Silver'])

Silver,0,1,2,3,4,5,6,7,8,10,11,12,14,21,28,32,41
Gold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
0,11,12,2,2,1,0,0,0,0,0,0,0,0,0,0,0,0
1,7,6,5,3,0,0,1,0,0,0,0,0,0,0,0,0,0
2,5,3,1,0,1,1,0,0,0,0,0,0,0,0,0,0,0
3,1,4,1,1,2,0,1,0,1,0,0,0,0,0,0,0,0
4,0,1,1,0,2,1,0,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0
7,0,0,0,1,0,0,3,0,0,0,0,0,0,0,0,0,0
10,0,0,0,0,0,0,0,0,0,1,1,2,0,0,0,0,0
17,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
20,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0


#  <a name="conclusao"> Conclusão </a>
[Voltar ao índice](#indice)

Vimos como usar a biblioteca pandas para a manipulação de dados. A pandas é relativamente rápida e tem várias funcionalidades que aceleram o desenvolvimento