# Conhecendo a biblioteca **pandas**

Pandas é uma biblioteca Python construida com base na Numpy que busca facilitar a análise e manipulação de dados de forma mais rápida e fácil.

|                    | Python puro        | biblioteca |
|--------------------|--------------------|------------|
| vetores e matrizes | listas (de listas) | numpy      |
| bases de dados     | dicionários        | pandas     |

In [2]:
import numpy as np
import pandas as pd

In [3]:
l = [ [1, 2, 3], [4, 5, 6] ]
print(l[0][1])

A = np.array(l)
print(A[0, 1])

2
2


In [4]:
notas = {'aluno': ['Luis', 'Olga', 'Anita'], 'N1': [9, 9, 10], 'N2': [8, 10, 9], 'N3': [10, 9, 9]}
print(notas)

df = pd.DataFrame(notas)
print(df)

{'aluno': ['Luis', 'Olga', 'Anita'], 'N1': [9, 9, 10], 'N2': [8, 10, 9], 'N3': [10, 9, 9]}
   aluno  N1  N2  N3
0   Luis   9   8  10
1   Olga   9  10   9
2  Anita  10   9   9


## Carregando datasets padrões

In [5]:
import seaborn as sns

iris = sns.load_dataset('iris')

print(type(iris))

<class 'pandas.core.frame.DataFrame'>


# DataFrame vs ndarray

Perceba que o DataFrame é mais genérico que o ndarray, pois não precisa ter todas as colunas do mesmo tipo
* cada uma das colunas pode ter um tipo diferente
* cada coluna do DataFrame é uma Series
  * uma Series é como um vetor unidimensional de dados + um vetor unidimensional de índices

In [6]:
print(df['aluno'][0])

Luis


## Indexação

In [7]:
# print( df.iloc[1] )

df2 = df.set_index(['aluno'])
print(df2.loc['Olga'])

N1     9
N2    10
N3     9
Name: Olga, dtype: int64


## Criação de Colunas

In [10]:
df['NF'] = [(n1*2 + n2*3 + n3*5)/10 for n1, n2, n3 in df[['N1', 'N2', 'N3']].values]

print(df)

   aluno  N1  N2  N3   NF
0   Luis   9   8  10  9.2
1   Olga   9  10   9  9.3
2  Anita  10   9   9  9.2


## DataFrame vs ndarray (a revanche)

In [24]:
iris['classe'] = [list(np.unique(iris['species'])).index(c) for c in iris['species']]

print(iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'classe']].to_numpy())

[[5.1 3.5 1.4 0.2 0. ]
 [4.9 3.  1.4 0.2 0. ]
 [4.7 3.2 1.3 0.2 0. ]
 [4.6 3.1 1.5 0.2 0. ]
 [5.  3.6 1.4 0.2 0. ]
 [5.4 3.9 1.7 0.4 0. ]
 [4.6 3.4 1.4 0.3 0. ]
 [5.  3.4 1.5 0.2 0. ]
 [4.4 2.9 1.4 0.2 0. ]
 [4.9 3.1 1.5 0.1 0. ]
 [5.4 3.7 1.5 0.2 0. ]
 [4.8 3.4 1.6 0.2 0. ]
 [4.8 3.  1.4 0.1 0. ]
 [4.3 3.  1.1 0.1 0. ]
 [5.8 4.  1.2 0.2 0. ]
 [5.7 4.4 1.5 0.4 0. ]
 [5.4 3.9 1.3 0.4 0. ]
 [5.1 3.5 1.4 0.3 0. ]
 [5.7 3.8 1.7 0.3 0. ]
 [5.1 3.8 1.5 0.3 0. ]
 [5.4 3.4 1.7 0.2 0. ]
 [5.1 3.7 1.5 0.4 0. ]
 [4.6 3.6 1.  0.2 0. ]
 [5.1 3.3 1.7 0.5 0. ]
 [4.8 3.4 1.9 0.2 0. ]
 [5.  3.  1.6 0.2 0. ]
 [5.  3.4 1.6 0.4 0. ]
 [5.2 3.5 1.5 0.2 0. ]
 [5.2 3.4 1.4 0.2 0. ]
 [4.7 3.2 1.6 0.2 0. ]
 [4.8 3.1 1.6 0.2 0. ]
 [5.4 3.4 1.5 0.4 0. ]
 [5.2 4.1 1.5 0.1 0. ]
 [5.5 4.2 1.4 0.2 0. ]
 [4.9 3.1 1.5 0.2 0. ]
 [5.  3.2 1.2 0.2 0. ]
 [5.5 3.5 1.3 0.2 0. ]
 [4.9 3.6 1.4 0.1 0. ]
 [4.4 3.  1.3 0.2 0. ]
 [5.1 3.4 1.5 0.2 0. ]
 [5.  3.5 1.3 0.3 0. ]
 [4.5 2.3 1.3 0.3 0. ]
 [4.4 3.2 1.3 0.2 0. ]
 [5.  3.5 1