## Pandas I

**Nesta aula:**
- Pandas: por que e como usar?
- O que é um _pandas.Dataframe_, por que importa?
- O que é um _pandas.Series_, por que importa?
- Operações básicas: _describe, meam, sum_
- Acessando e manipulando dados: índices e _labels_
- Acessando e manipulando dados: colunas, _masks_ e _slices_
- Dados ausentes e duplicados
- Operações com colunas e vetorização
- Conclusão e recursos adicionais

### Panda: por que e como usar?
O Pandas é uma biblioteca que permite a organização, análise e manipulação de dados tabulares com ótimo desempenho.

É bastante intuitivo, fácil de usar e dialoga com diversas outras biblitoecas do Python, como **Numpy** e **Matplotlib**, ou programas de planilhas.

Sua versatilidade e eficiência o têm tornado uma ferramenta essencial para Análise de Dados.

No Pnadas, essa tabela ou planilha é chamada de ***Dataframe***.

|Nome|Sexo|P1|P2|Frequência|
|---|---|---|---|---|
|Aluno 1|Masculino|1,6|4,5|50%|
|Aluno 2|Feminino|7,5|6,5|80%|
|Aluno 3|Masculino|9|8|90%|

In [4]:
# Instalar o pandas

!pip install pandas



In [5]:
# Importar o pandas
# Deve ser feita a importação toda vez que for utilizar

import pandas as pd 

### _Series_ e _Dataframes_: a estrutura geral do Pandas

In [6]:
# Analisando a organização dos dados
# Estrutura de um dataframe

ex_dict = {'Nome': ['Aluno 1', 'Aluno 2', 'Aluno 3', 'Aluno 4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}

print(ex_dict)

{'Nome': ['Aluno 1', 'Aluno 2', 'Aluno 3', 'Aluno 4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}


In [8]:
# É possível gerar Dataframes a partir de dicionários
df = pd.DataFrame.from_dict(ex_dict)
print(df)

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8


In [9]:
# É possível gerar Dataframes a partir de uma lista de listas

ex_lista = [['Aluno 1', 1.6, '-'], ['Aluno 2', 7.5, 6.5], ['Aluno 3', 9, 8], ['Aluno 4', 5.5, 8]]

df2 = pd.DataFrame(ex_lista, columns=['Nome', 'P1', 'P2'])
print(df2)

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8


In [13]:
print(f"Dataframe gerado a partir de dicionários:\n\n{df}\n\nDataframe gerado a partir de listas:\n\n{df2}\n")

Dataframe gerado a partir de dicionários:

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8

Dataframe gerado a partir de listas:

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8



**Series**: é um conjunto unidimensional contendo dados em diversas formas (int, float, objetos, etc.). É bastante similar ao array do numpy.

**Dataframes**: é um conjunto bidimensional de dados. Pode ser entendido como um conjunto de _Series_.

In [14]:
# Series - Estrutura semelhante a um array. Uma unica coluna
series = pd.Series(ex_dict['Nome'])
print(series)

0    Aluno 1
1    Aluno 2
2    Aluno 3
3    Aluno 4
dtype: object


### Entendendo a estrutura e organização dos dados: operações básicas

In [15]:
# Importar arquivo
df = pd.read_csv('expandascsv.csv', sep=';')

In [18]:
# shape - Retornar o número de coluns e linhas
print(df.shape)

(16, 5)


In [19]:
# head - Retornar para leitura apenas as 5 primeiras linhas
df.head

<bound method NDFrame.head of        Nome       Sexo   P1   P2 Frequência
0    Aluno1  Masculino  1,6    -        50%
1    Aluno2   Feminino  7,5  6,5        80%
2    Aluno3  Masculino    9    8        90%
3    Aluno4  Masculino  5,5    8        70%
4    Aluno5  Masculino    7    8       100%
5    Aluno6   Feminino    8    7        80%
6    Aluno7  Masculino    5  5,5        90%
7    Aluno8  Masculino    4  3,5        90%
8    Aluno9   Feminino    5    4        70%
9   Aluno10   Feminino    7  7,5        80%
10  Aluno11  Masculino    8    9        70%
11  Aluno12   Feminino   10    -        70%
12  Aluno13  Masculino  9,5    9       100%
13  Aluno14   Feminino    8    9        80%
14  Aluno15   Feminino    7    7        80%
15  Aluno15   Feminino    7    7        80%>