# 2. Introdução ao Pandas

## Importando a Biblioteca Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python .

https://pandas.pydata.org/


In [1]:
import pandas as pd

## Criando Series

In [2]:
# Criando uma Série formada por nomes de alunos
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

alunos_1 = pd.Series(['Diego  Alecsander', 'Giulia', 'Willian', 'Leonardo', 'Rodrigo', 'João Pedro', 'Flavia  Luize', 'Thales Vinicius'])
alunos_1

0    Diego  Alecsander
1               Giulia
2              Willian
3             Leonardo
4              Rodrigo
5           João Pedro
6        Flavia  Luize
7      Thales Vinicius
dtype: object

In [3]:
# Acessando um valor com índice de posição

alunos_1[2]

'Willian'

In [4]:
# Criando uma Série formada por nomes de alunos
# Especificando os índices para cada tipo: mestrando ou doutorando

alunos_2 = pd.Series(['Diego  Alecsander', 'Giulia', 'Willian', 'Leonardo', 'Rodrigo', 'João Pedro', 'Flavia  Luize', 'Thales Vinicius'],
                     index=['Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Mestrando'])
alunos_2

Mestrando     Diego  Alecsander
Doutorando               Giulia
Mestrando               Willian
Mestrando              Leonardo
Doutorando              Rodrigo
Mestrando            João Pedro
Mestrando         Flavia  Luize
Mestrando       Thales Vinicius
dtype: object

In [5]:
# Como utilizamos índices não exclusivos, 
# para acessar os valores de todos os 'mestrando' contidos na série:

alunos_2['Mestrando']

Mestrando    Diego  Alecsander
Mestrando              Willian
Mestrando             Leonardo
Mestrando           João Pedro
Mestrando        Flavia  Luize
Mestrando      Thales Vinicius
dtype: object

## Criando Dataframes

In [6]:
# Construindo um dataframe a partir de uma lista de elementos

df = pd.DataFrame([['Diego  Alecsander', 'Mestrando'],['Giulia', 'Doutorando'], ['Willian', 'Mestrando'], ['Leonardo', 'Mestrando'], ['Rodrigo', 'Doutorando'], ['João Pedro', 'Mestrando'], ['Flavia  Luize', 'Mestrando'], ['Thales Vinicius', 'Mestrando']])
df

Unnamed: 0,0,1
0,Diego Alecsander,Mestrando
1,Giulia,Doutorando
2,Willian,Mestrando
3,Leonardo,Mestrando
4,Rodrigo,Doutorando
5,João Pedro,Mestrando
6,Flavia Luize,Mestrando
7,Thales Vinicius,Mestrando


In [7]:
# Construindo um dataframe a partir de um dicionário

data = {'Alunos': ['Diego  Alecsander', 'Giulia', 'Willian', 'Leonardo', 'Rodrigo', 'João Pedro', 'Flavia  Luize', 'Thales Vinicius'], 'Situação': ['Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Mestrando']}
df = pd.DataFrame(data)
df

Unnamed: 0,Alunos,Situação
0,Diego Alecsander,Mestrando
1,Giulia,Doutorando
2,Willian,Mestrando
3,Leonardo,Mestrando
4,Rodrigo,Doutorando
5,João Pedro,Mestrando
6,Flavia Luize,Mestrando
7,Thales Vinicius,Mestrando


## Manipulando Series e Dataframes

### Manipulando estruturas

In [8]:
# Removendo linhas de uma Serie
# Para remover, basta especificar o índice que deseja remover
# Seja o índice numérico ou textual

alunos_1.drop([3])

0    Diego  Alecsander
1               Giulia
2              Willian
4              Rodrigo
5           João Pedro
6        Flavia  Luize
7      Thales Vinicius
dtype: object

In [9]:
# Adicionando nova coluna no dataframe

data = {'Alunos': ['Diego  Alecsander', 'Giulia', 'Willian', 'Leonardo', 'Rodrigo', 'João Pedro', 'Flavia  Luize', 'Thales Vinicius'], 'Situação': ['Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Mestrando']}
df = pd.DataFrame(data)

df['Tipo de matrícula'] =  ['Especial', 'Regular', 'Especial', 'Especial', 'Regular', 'Especial', 'Especial', 'Especial']
df

Unnamed: 0,Alunos,Situação,Tipo de matrícula
0,Diego Alecsander,Mestrando,Especial
1,Giulia,Doutorando,Regular
2,Willian,Mestrando,Especial
3,Leonardo,Mestrando,Especial
4,Rodrigo,Doutorando,Regular
5,João Pedro,Mestrando,Especial
6,Flavia Luize,Mestrando,Especial
7,Thales Vinicius,Mestrando,Especial


In [10]:
# Renomeando n colunas do dataframe

df.columns = ['Nomes', 'Situação', 'Matrícula']
df

Unnamed: 0,Nomes,Situação,Matrícula
0,Diego Alecsander,Mestrando,Especial
1,Giulia,Doutorando,Regular
2,Willian,Mestrando,Especial
3,Leonardo,Mestrando,Especial
4,Rodrigo,Doutorando,Regular
5,João Pedro,Mestrando,Especial
6,Flavia Luize,Mestrando,Especial
7,Thales Vinicius,Mestrando,Especial


In [11]:
# Concatenando séries

a2 = pd.Series(['Camila'],
               index=['Doutoranda'])

alunos_2 = alunos_2.append(a2)
alunos_2

Mestrando     Diego  Alecsander
Doutorando               Giulia
Mestrando               Willian
Mestrando              Leonardo
Doutorando              Rodrigo
Mestrando            João Pedro
Mestrando         Flavia  Luize
Mestrando       Thales Vinicius
Doutoranda               Camila
dtype: object

In [12]:
# Concatenando dataframes
# Neste caso, o dataframe 'df1'será adicionado ao final do 'df'
# Logo, as colunas com dados ausentes ficam com o 'NaN'

df_copy = df

df1 = pd.DataFrame(
    {
        'Disciplina': ['BD', 'BD', 'BD'],
        'Nota': [9.5, 8.75, 9.0]
    },
    index=[0, 1, 2])

# O parâmetro ignore_index=True faz a concatenação dando sequencia do índice do
# dataframe que sofre a concatenação (no caso, 3, 4 e 5)
df = df.append(df1, ignore_index=True)
df

Unnamed: 0,Nomes,Situação,Matrícula,Disciplina,Nota
0,Diego Alecsander,Mestrando,Especial,,
1,Giulia,Doutorando,Regular,,
2,Willian,Mestrando,Especial,,
3,Leonardo,Mestrando,Especial,,
4,Rodrigo,Doutorando,Regular,,
5,João Pedro,Mestrando,Especial,,
6,Flavia Luize,Mestrando,Especial,,
7,Thales Vinicius,Mestrando,Especial,,
8,,,,BD,9.5
9,,,,BD,8.75


In [13]:
# Uma opção para juntar varias colunas é utilizando o Merge
# Neste caso, utilizamos os índices de ambos dataframes
# para realizar tal junção

df_merge_col = pd.merge(df_copy, df1, left_index=True, right_index=True)

df_merge_col

Unnamed: 0,Nomes,Situação,Matrícula,Disciplina,Nota
0,Diego Alecsander,Mestrando,Especial,BD,9.5
1,Giulia,Doutorando,Regular,BD,8.75
2,Willian,Mestrando,Especial,BD,9.0


In [14]:
# Ordenando os dados da série 'alunos_2'

alunos_2.sort_values()

Doutoranda               Camila
Mestrando     Diego  Alecsander
Mestrando         Flavia  Luize
Doutorando               Giulia
Mestrando            João Pedro
Mestrando              Leonardo
Doutorando              Rodrigo
Mestrando       Thales Vinicius
Mestrando               Willian
dtype: object

In [15]:
# Ordenando os dados  do dataframe df

df.sort_values(by=['Nomes'], ascending=True, inplace=True)
df

Unnamed: 0,Nomes,Situação,Matrícula,Disciplina,Nota
0,Diego Alecsander,Mestrando,Especial,,
6,Flavia Luize,Mestrando,Especial,,
1,Giulia,Doutorando,Regular,,
5,João Pedro,Mestrando,Especial,,
3,Leonardo,Mestrando,Especial,,
4,Rodrigo,Doutorando,Regular,,
7,Thales Vinicius,Mestrando,Especial,,
2,Willian,Mestrando,Especial,,
8,,,,BD,9.5
9,,,,BD,8.75


### Informações sobre os objetos (series e dataframes)

In [16]:
# Numero de linhas da série 'alunos_2'

alunos_2.shape

(9,)

In [17]:
# Número de linhas e colunas do dataframe 'df'

df.shape

(11, 5)

In [18]:
# Índices da série 'alunos_2'

alunos_2.index

Index(['Mestrando', 'Doutorando', 'Mestrando', 'Mestrando', 'Doutorando',
       'Mestrando', 'Mestrando', 'Mestrando', 'Doutoranda'],
      dtype='object')

In [19]:
# Índices do dataframe 'df'

df.index

Int64Index([0, 6, 1, 5, 3, 4, 7, 2, 8, 9, 10], dtype='int64')

In [20]:
# Series não tem colunas, logo este comando nao funciona 

#alunos_2.columns

In [21]:
# Nomes das colunas do dataframe 'df'

df.columns

Index(['Nomes', 'Situação', 'Matrícula', 'Disciplina', 'Nota'], dtype='object')

In [22]:
# Tipo dos dados na série 'alunos_2'

alunos_2.dtypes

dtype('O')

In [23]:
# Tipos dos dados no dataframe 'df'

df.dtypes

Nomes          object
Situação       object
Matrícula      object
Disciplina     object
Nota          float64
dtype: object

### Resumo dos dados

In [24]:
# Exibindo os n (=2) primeiros elementos da série 'alunos_2'

alunos_2.head(2)

Mestrando     Diego  Alecsander
Doutorando               Giulia
dtype: object

In [25]:
# Exibindo os n (=2) primeiros elementos do dataframe 'df'

df.head(2)

Unnamed: 0,Nomes,Situação,Matrícula,Disciplina,Nota
0,Diego Alecsander,Mestrando,Especial,,
6,Flavia Luize,Mestrando,Especial,,


In [26]:
# Exibindo os n (=2) últimos elementos da série 'alunos_2'

alunos_2.tail(2)

Mestrando     Thales Vinicius
Doutoranda             Camila
dtype: object

In [27]:
alunos_2

Mestrando     Diego  Alecsander
Doutorando               Giulia
Mestrando               Willian
Mestrando              Leonardo
Doutorando              Rodrigo
Mestrando            João Pedro
Mestrando         Flavia  Luize
Mestrando       Thales Vinicius
Doutoranda               Camila
dtype: object

In [28]:
# Exibindo os n (=2) últimos elementos do dataframe 'df'

df.tail(2)

Unnamed: 0,Nomes,Situação,Matrícula,Disciplina,Nota
9,,,,BD,8.75
10,,,,BD,9.0


In [29]:
# SOMA dos valores do índice 'alunos_2' da série alunos
# Como nesta série não possuimos valores, a soma se dá pela
# concatenação de strings

alunos_2['Mestrando'].sum()

'Diego  AlecsanderWillianLeonardoJoão PedroFlavia  LuizeThales Vinicius'

In [30]:
# SOMA dos valores da coluna 'Nota' do dataframe 'df'

df['Nota'].sum()

27.25

In [31]:
# Valor MÍNIMO da série 'alunos_2'
# Como é uma série de strings, o valor mínimo é o primeiro elemento

alunos_2.min()

'Camila'

In [32]:
# Valores MÍNIMOS do dataframe 'df'
# Como não foi especificado nenhuma coluna, todas as colunas numéricas
# foram retornadas com seus respectivos valores mínimos

df.min()

Nota    8.75
dtype: float64

In [33]:
# Valores MÁXIMOS da serie 'alunos_2'
# Como é uma série de strings, o valor máximo é o último elemento


alunos_2.max()

'Willian'

In [34]:
# Valores MÁXIMOS da coluna 'Nota' do dataframe 'df'
# se não especificarmos uma coluna, todas as colunas numéricas
# serão retornadas

df['Nota'].max()

9.5

In [35]:
# MÉDIA de valores da série 'alunos_2'
# como não possui valores numéricos, esta função não se aplica a esta série

#alunos_2.mean()

In [36]:
# MÉDIA de valores do dataframe 'df'
# Se quiser a média de uma única coluna, basta especificá-la

df.mean()

Nota    9.083333
dtype: float64

In [37]:
# MEDIANA dos valores da série 'alunos_2'
#como não possui valores numéricos, esta função não se aplica a esta série

#alunos_2.median()

In [38]:
# MEDIANA dos valores do dataframe 'df'
# Se quiser a mediana de uma única coluna, basta especificá-la

df.median()

Nota    9.0
dtype: float64

In [39]:
# CONTAGEM de elementos da série 'alunos_2'

alunos_2.count()

9

In [40]:
# CONTAGEM de elementos de cada coluna do dataframe 'df'
# Se quiser a contagem de uma única coluna, basta especificá-la

df.count()

Nomes         8
Situação      8
Matrícula     8
Disciplina    3
Nota          3
dtype: int64

In [41]:
# Resumo dos dados da série 'alunos_2'
# Note que as informações retornadas variam de acordo com
# os dados disponíveis

alunos_2.describe()

count          9
unique         9
top       Giulia
freq           1
dtype: object

In [42]:
# Resumo dos dados d0 dataframe 'df'
# Note que as informações retornadas variam de acordo com
# os dados disponíveis

df.describe()

Unnamed: 0,Nota
count,3.0
mean,9.083333
std,0.381881
min,8.75
25%,8.875
50%,9.0
75%,9.25
max,9.5


## Fim da Parte 2. Introducao ao Pandas

Introdução à biblioteca pandas, apresentando como criar e manipular objetos do tipo series e dataframes.

O próximo notebook será a **Parte 3. Machine Learning Exemplo_1**.



