# Pandas

![image.png](attachment:image.png)

- Documentação: https://pandas.pydata.org/docs/user_guide/index.html
- Python framework/biblioteca
- Biblioteca utilizada para carga, filtro e manipulação de dados
- Pandas trata dados no formato tabular, semelhante à banco de dados relacional
- Esse formato de dados são chamados de Dataframes
- DataFrames são compostos por uma sequência de Series
- Uma Serie é uma coluna de dados, relacionando nome e dados

In [2]:
# Como toda biblioteca, primeiro a gente precisa importar (uma abreviação bem comum é importar pandas como pd)
import pandas as pd

#### Criando uma Series

In [3]:
data = {'a': 1, 'b': 2, 'c': 3}
serie = pd.Series(data=data, index=['a', 'b', 'c'])

In [4]:
serie

a    1
b    2
c    3
dtype: int64

In [4]:
# index não exisente
serie_vazia = pd.Series(data=data, index=['x', 'y', 'z'])

In [5]:
serie_vazia

x   NaN
y   NaN
z   NaN
dtype: float64

In [5]:
# sem passar index
serie = pd.Series(data=data)

In [6]:
serie

a    1
b    2
c    3
dtype: int64

In [9]:
data = {'a': '1', 'b': '2', 'c': '3'}
serie = pd.Series(data=data)

In [10]:
serie

a    1
b    2
c    3
dtype: object

In [9]:
serie.dtype

# data type 'o' em Pandas significa objeto

dtype('O')

In [10]:
serie = pd.Series(data=data, dtype='int')

  return bool(asarray(a1 == a2).all())


In [11]:
serie.dtype

dtype('int64')

In [7]:
serie

a    1
b    2
c    3
dtype: int64

#### Criando um DataFrame

Parâmetros importantes:
- data (não exigido): pode ser um array, dicionário ou até mesmo um DataFrame
- index (não exigido): um array com os valores para index 
- columns (não exigido): um array com os nomes para colunas
- dtypes (não exigido): dtype para forçar que um tipo de dados

In [11]:
df = pd.DataFrame()

In [12]:
# Como podemos ver acima, nenhum parâmetro é necessário na criação de um DataFrame
# Isso significa que podemos criar um dataFrame vazio
df

In [14]:
df = pd.DataFrame(columns=['a', 'b', 'c'])

In [15]:
# Este DataFrame conta com apenas os valores de coluna, mas nenhum dado relacionado
# a cada coluna em si
df

Unnamed: 0,a,b,c


In [17]:
df = pd.DataFrame(data=[[1, 2, 3], [2, 8, 7], [9, 4, 1]], columns=['a', 'b', 'c'])

In [18]:
# Agora sim vemos que cada coluna possui valores
# Passamos para o parâmetro `data` uma lista de listas
# cada sub lista será relacionada à uma coluna referente à ordem
# em que foram declaradas. i.e coluna "a": [1, 2, 3]
df

Unnamed: 0,a,b,c
0,1,2,3
1,2,8,7
2,9,4,1


In [19]:
df = pd.DataFrame(data={'b': [1, 2, 3], 'c': [2, 8, 7], 'a': [9, 4, 1]})

In [19]:
# quando queremos que os dados estejam relacionados à outra coluna
# pode-se utilizar a estrutura de dados "dicionário" para a criação do dataFrame

# Agora, cada chave do dicionário é uma coluna, e cada valor (lista) são os valores daquela coluna
df

Unnamed: 0,b,c,a
0,1,2,9
1,2,8,4
2,3,7,1


In [20]:
# retorna os index do dataFrame. Valor de início, fim e steps
df.index

RangeIndex(start=0, stop=3, step=1)

In [21]:
# retorna uma lista com as colunas
df.columns

Index(['b', 'c', 'a'], dtype='object')

In [22]:
# uma lista de listas com os valores do DataFrame
df.values

array([[1, 2, 9],
       [2, 8, 4],
       [3, 7, 1]])

In [21]:
df.info

<bound method DataFrame.info of    b  c  a
0  1  2  9
1  2  8  4
2  3  7  1>

In [22]:
df.shape

(3, 3)