# Pandas

#### Importando a biblioteca

In [2]:
import pandas as pd

## Dataframes

- Estrutura semelhante a uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...).
- Possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma estrutura de array.

#### Criando um dataframe

In [12]:
dataframe_1 = pd.DataFrame({'coluna1':[2,4,5],'coluna2':[10,20,2],'coluna3':[1,4,5]})
dataframe_1

Unnamed: 0,coluna1,coluna2,coluna3
0,2,10,1
1,4,20,4
2,5,2,5


#### Criando um dataframe com um dicionário de dados em variável

In [13]:
dicionario_1 = {'coluna1':[2,4,5],'coluna2':[10,20,2],'coluna3':[1,4,5]}
dataframe_2 = pd.DataFrame(dicionario_1)
dataframe_2

Unnamed: 0,coluna1,coluna2,coluna3
0,2,10,1
1,4,20,4
2,5,2,5


#### Criando um dataframe e alterando os índices

In [16]:
dataframe_3 = pd.DataFrame(dicionario_1, index=['a','b','c'])
dataframe_3

Unnamed: 0,coluna1,coluna2,coluna3
a,2,10,1
b,4,20,4
c,5,2,5


#### Alterando os nomes das colunas

In [17]:
dataframe_3.columns = ['col1', 'col2', 'col3']
dataframe_3

Unnamed: 0,col1,col2,col3
a,2,10,1
b,4,20,4
c,5,2,5


#### Criando um dataframe através de uma lista de duas dimensões e informando colunas e índices

In [19]:
lista_1 = [[1,4,2],[6,23,1],[22,33,11]]
dataframe_4 = pd.DataFrame(lista_1,index=[1,2,3],columns=['coluna1','coluna2','coluna3'])
dataframe_4

Unnamed: 0,coluna1,coluna2,coluna3
1,1,4,2
2,6,23,1
3,22,33,11


#### Criando um dataframe com tipos de dados diferentes

In [31]:
dicionario_2 = {'Disciplinas':['POO','Análise'],
                'CH':[160,80],
                'Aulas':[4,2]}
dataframe_5 = pd.DataFrame(dicionario_2)
dataframe_5

Unnamed: 0,Disciplinas,CH,Aulas
0,POO,160,4
1,Análise,80,2


#### Retornar uma coluna inteira

In [32]:
dataframe_5['Disciplinas']

0        POO
1    Análise
Name: Disciplinas, dtype: object

In [33]:
dataframe_5.Disciplinas

0        POO
1    Análise
Name: Disciplinas, dtype: object

#### Retornar colunas

In [34]:
dataframe_5.columns

Index(['Disciplinas', 'CH', 'Aulas'], dtype='object')

#### Retornar os índices

In [35]:
dataframe_5.index

RangeIndex(start=0, stop=2, step=1)

#### Retornar os valores

In [36]:
dataframe_5.values

array([['POO', 160, 4],
       ['Análise', 80, 2]], dtype=object)

#### Retornar tipos de dados de cada coluna

In [38]:
dataframe_5.dtypes

Disciplinas    object
CH              int64
Aulas           int64
dtype: object

## Funções para Dataframes

#### head()

Exibe apenas as primeiras linhas do dataframe (cabeçalho)

In [39]:
dataframe_1.head()

Unnamed: 0,coluna1,coluna2,coluna3
0,2,10,1
1,4,20,4
2,5,2,5


#### describe()

Retorna alguns dados estatísticos descritivos das colunas numéricas

In [40]:
dataframe_5.describe()

Unnamed: 0,CH,Aulas
count,2.0,2.0
mean,120.0,3.0
std,56.568542,1.414214
min,80.0,2.0
25%,100.0,2.5
50%,120.0,3.0
75%,140.0,3.5
max,160.0,4.0


#### isnull()

Retorna True se o valor é nulo, False se não for

In [41]:
dataframe_5.isnull()

Unnamed: 0,Disciplinas,CH,Aulas
0,False,False,False
1,False,False,False


#### notnull()

Retorna True se o valor não é, False se for

In [42]:
dataframe_5.notnull()

Unnamed: 0,Disciplinas,CH,Aulas
0,True,True,True
1,True,True,True


#### max()

Retorna o maior valor de cada coluna

In [43]:
dataframe_5.max()

Disciplinas    POO
CH             160
Aulas            4
dtype: object

#### min()

Retorna o menor valor de cada coluna

In [44]:
dataframe_5.min()

Disciplinas    Análise
CH                  80
Aulas                2
dtype: object