# Pandas

É uma biblioteca open source de análise e manipulação de dados.

- <a href='#l1'>Series</a>
- <a href='#l2'>Dataframes</a>

### Instalação

```shell
$ pip install pandas
```

### Importar biblioteca

In [1]:
import pandas as pd
pd.__version__

'1.4.1'

In [22]:
import numpy as np

<a id='l1'></a>

---

### Series

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

In [8]:
labels = ['a','b','c']
minha_lista = [10,20,30]

In [17]:
# Criando uma serie sem rótulos

serie1 = pd.Series(data=minha_lista)
serie1

0    10
1    20
2    30
dtype: int64

In [19]:
# Vendo o tipo do dado

type(serie1)

pandas.core.series.Series

In [11]:
# Criando uma serie com rótulos

serie2 = pd.Series(data=minha_lista, index=labels)
serie2

a    10
b    20
c    30
dtype: int64

Criando uma serie a partir de dois arrays.

In [24]:
serie3 = pd.Series(data = np.array([1,2,3,4]), 
                   index = np.array(['EUA', 'Alemanha','USSR', 'Japão']))
serie3

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int32

Criando uma série a partir de uma tupla.

In [35]:
serie4 = pd.Series((1, 4, 6, 5, 7, 10, 6))
serie4

0     1
1     4
2     6
3     5
4     7
5    10
6     6
dtype: int64

Nas séries é possível também recolher informações estatísticas.

In [26]:
serie4.describe()

count     7.000000
mean      5.571429
std       2.760262
min       1.000000
25%       4.500000
50%       6.000000
75%       6.500000
max      10.000000
dtype: float64

Aqui podemos selecionar apenas uma delas.

In [27]:
serie4.describe()['count']

7.0

Ou aplicar algumas funções para fazer a mesma coisa.

In [30]:
print("Média:", serie4.mean())
print("Mínimo", serie4.min())
print("Máximo", serie4.max())
print("Contagem", serie4.count())
print("Desvio padrão", serie4.std())
print("Mediana", serie4.median())

Média: 5.571428571428571
Mínimo 1
Máximo 10
Contagem 7
Desvio padrão 2.760262237369417
Mediana 6.0


<a id='l2'></a>

---

### Dataframes

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice.

In [36]:
dados = {
  'carros': ["Uno", "Celta", "Gol"],
  'ano': [1990, 2003, 1998]
}

df = pd.DataFrame(dados)

df

Unnamed: 0,carros,ano
0,Uno,1990
1,Celta,2003
2,Gol,1998


In [37]:
import pydataset

In [39]:
df_titanic = pydataset.data('titanic')

A função `head` seleciona os primeiros elementos do dataframe, se nenhum valor for passado, ele pega os 5 primeiros. A `tail` pega os últimos, respeitando o mesmo critério.

In [41]:
df_titanic.head(6)

Unnamed: 0,class,age,sex,survived
1,1st class,adults,man,yes
2,1st class,adults,man,yes
3,1st class,adults,man,yes
4,1st class,adults,man,yes
5,1st class,adults,man,yes
6,1st class,adults,man,yes


In [47]:
df_titanic.shape # formato

(1316, 4)

In [48]:
df_titanic.ndim # n dimensões

2

Selecionar colunas específicas.

In [45]:
df_titanic[['class', 'age']].head()

Unnamed: 0,class,age
1,1st class,adults
2,1st class,adults
3,1st class,adults
4,1st class,adults
5,1st class,adults


---

### Referências

https://pandas.pydata.org/