<a href="https://colab.research.google.com/github/inesarruda/python_table/blob/master/Copy_of_Aula_04_Pandas_(Parte_I).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 04 - Pandas (Parte I)

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

Nesta primeira aula, avaliaremos:
- o que são Séries e DataFrames;
- alguns dos principais métodos para operar com Séries;
- leitura e gravação de conjuntos de dados com pandas.

**Importando a biblioteca**

In [None]:
import pandas as pd

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

Vamos avaliar algumas particularidades das pd.Series a seguir.

In [None]:
# lista
lista = [4, 6, 3, 7, 25]
lista

[4, 6, 3, 7, 25]

In [None]:
# array numpy
import numpy as np
arr = np.array(lista)
arr

array([ 4,  6,  3,  7, 25])

[pd.Series()](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [None]:
# Série a partir de uma lista
# os índices são automaticamente definidos
serie = pd.Series(lista)

In [None]:
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [None]:
# Acessando os valores
serie.values

array([ 4,  6,  3,  7, 25], dtype=int64)

In [None]:
# Acessando índices
serie.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
[i for i in range(0,5,1)]

[0, 1, 2, 3, 4]

In [None]:
lista = []
for i in range(0,5,1):
    lista.append(i)
lista

[0, 1, 2, 3, 4]

**Indexação da série**

A indexação de uma série com pandas é muito similar à maneira que fazemos com listas e numpy arrays.

In [None]:
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [None]:
serie[2]

3

In [None]:
# Outra forma de indexar usando o .values
serie.values[2]

3

Podemos fazer uma analogia da série em pandas com os dicionários do Python:

In [None]:
# exemplo de um dicionário
dic = {0: 10, 1:20}

In [None]:
dic

{0: 10, 1: 20}

In [None]:
# Acessamos o dicionário pelas chaves
dic[0]

10

In [None]:
# Também podemos acessar os valores, apenas, assim como para as séries
dic.values()

dict_values([10, 20])

In [None]:
dic.keys()

dict_keys([0, 1])

**Slicing de séries**

Também é feito da maneira como estamos acostumados a trabalhar com listas e numpy arrays.

In [None]:
# slicing
serie[2:]

2     3
3     7
4    25
dtype: int64

**Índices**

Apesar de termos visto a opção padrão de criação de índices, acima, sequencial, podemos defini-los da maneira que quisermos.

In [None]:
lista = [4, 6, 3, 7, 25]

In [None]:
serie = pd.Series(lista)
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [None]:
# vamos usar outros índices quaisquer
indices = ['a', 'b', 'c', 'd', 'e']

In [None]:
serie = pd.Series(data = lista,
         index = indices,
         name = "coluna1")
serie

a     4
b     6
c     3
d     7
e    25
Name: coluna1, dtype: int64

Podemos acessar os valores indexando tanto com o número da posição na série, ou com o próprio índice.

In [None]:
serie[2]

3

In [None]:
serie["c"]

3

In [None]:
# também conseguimos fazer slicing com os índices
serie["c":]

c     3
d     7
e    25
Name: coluna1, dtype: int64

In [None]:
serie[['a', 'c', 'e']]

a     4
c     3
e    25
Name: coluna1, dtype: int64

Também conseguimos construir séries a partir de **dicionários**. Neste caso, as **chaves** se tornam os índices da série.

In [None]:
dic = {'a': 50, 'b': 40}
dic

{'a': 50, 'b': 40}

In [None]:
# Série a partir de dicionário
pd.Series(dic)

a    50
b    40
dtype: int64

**Operações com séries**

Assim como vimos para os numpy arrays, operações com séries são realizadas elemento a elemento.

In [None]:
serie

a     4
b     6
c     3
d     7
e    25
Name: coluna1, dtype: int64

In [None]:
# No caso de arrays
arr

array([ 4,  6,  3,  7, 25])

In [None]:
arr + 5

array([ 9, 11,  8, 12, 30])

In [None]:
# Operações aritméticas básicas funcionam elemento a elemento
serie + 5

a     9
b    11
c     8
d    12
e    30
Name: coluna1, dtype: int64

In [None]:
serie*5

a     20
b     30
c     15
d     35
e    125
Name: coluna1, dtype: int64

In [None]:
serie/5

a    0.8
b    1.2
c    0.6
d    1.4
e    5.0
Name: coluna1, dtype: float64

O mesmo vale para **operações lógicas**.

In [None]:
# apenas elementos divisíveis por 2
serie % 2 == 0

a     True
b     True
c    False
d    False
e    False
Name: coluna1, dtype: bool

In [None]:
serie > 10

a    False
b    False
c    False
d    False
e     True
Name: coluna1, dtype: bool

Também conseguimos operar entre séries.

In [None]:
lista1 = [4, 6, 3, 7, 25]
lista2 = [34, 42, 2, 1, -40]

In [None]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [None]:
s1

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [None]:
s2

0    34
1    42
2     2
3     1
4   -40
dtype: int64

In [None]:
s3 = s1 + s2
s3

0    38
1    48
2     5
3     8
4   -15
dtype: int64

In [None]:
# Usando a condição lógica como indexação
s3 = s2[s2 % 2 == 0]
s3

0    34
1    42
2     2
4   -40
dtype: int64

In [None]:
# Conseguimos "resetar o index"
s3 = s2[s2 % 2 == 0].reset_index(drop=True)
s3

0    34
1    42
2     2
3   -40
dtype: int64

NaN = *not a number*; dado vazio

In [None]:
np.random.seed(1)
a1 = np.random.randint(0,100,5)
a2 = np.random.randint(20,60,7)
print(a1,a2)

[37 12 72  9 75] [25 35 20 36 21 32 27]


In [None]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [None]:
s1

0    37
1    12
2    72
3     9
4    75
dtype: int32

In [None]:
s2

0    25
1    35
2    20
3    36
4    21
5    32
6    27
dtype: int32

In [None]:
a1 + a2

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

In [None]:
s1 + s2

0    62.0
1    47.0
2    92.0
3    45.0
4    96.0
5     NaN
6     NaN
dtype: float64

In [None]:
# opção para preencher valores nulos: fill_value
# preenche com 0, porque 0 é o elemento neutro da soma
s1.add(s2, fill_value = 0) # outra maneira de somar

0    62.0
1    47.0
2    92.0
3    45.0
4    96.0
5    32.0
6    27.0
dtype: float64

In [None]:
s1*s2

0     925.0
1     420.0
2    1440.0
3     324.0
4    1575.0
5       NaN
6       NaN
dtype: float64

In [None]:
# elemento neutro é 1
s1.multiply(s2, fill_value = 1)

0     925.0
1     420.0
2    1440.0
3     324.0
4    1575.0
5      32.0
6      27.0
dtype: float64

E com dados de formatos diferentes?

In [None]:
s_texto = pd.Series(["a", "b", "c"])
s_numero = pd.Series([1,2,3])

In [None]:
s_texto

0    a
1    b
2    c
dtype: object

In [None]:
s_numero

0    1
1    2
2    3
dtype: int64

In [None]:
# Com strings
print("a"*1)
print("b"*2)
print("c"*3)

a
bb
ccc


In [None]:
# Mesmo efeito para as séries
s_texto * s_numero

0      a
1     bb
2    ccc
dtype: object

In [None]:
# Strings
"a" + 1

TypeError: can only concatenate str (not "int") to str

In [None]:
# Séries
s_texto + s_numero

TypeError: can only concatenate str (not "int") to str

**Filtrando séries**

Filtros de séries seguem a mesma lógica de numpy arrays.

In [None]:
s1

0    37
1    12
2    72
3     9
4    75
dtype: int32

In [None]:
# filtro da série: quais são os valores da série que satisfazem uma dada condição?
s1[s1 > 15]

0    37
2    72
4    75
dtype: int32

In [None]:
s1[(s1 > 15) & (s1 % 2 != 0)]

0    37
4    75
dtype: int32

In [None]:
type(s1)

pandas.core.series.Series

**Outros métodos úteis para séries**

In [None]:
np.random.seed(1)

notas = pd.Series(np.random.randint(3,12,30))
notas

0      8
1     11
2      8
3      3
4      3
5      4
6     10
7      9
8      5
9      7
10     8
11     5
12     7
13     5
14     7
15    10
16    10
17     4
18    10
19     3
20     9
21    10
22     9
23     4
24     3
25     4
26    11
27    11
28     6
29    11
dtype: int32

In [None]:
# .apply()
notas.apply(lambda x: "par" if x % 2 == 0 else "ímpar")

0       par
1     ímpar
2       par
3     ímpar
4     ímpar
5       par
6       par
7     ímpar
8     ímpar
9     ímpar
10      par
11    ímpar
12    ímpar
13    ímpar
14    ímpar
15      par
16      par
17      par
18      par
19    ímpar
20    ímpar
21      par
22    ímpar
23      par
24    ímpar
25      par
26    ímpar
27    ímpar
28      par
29    ímpar
dtype: object

In [None]:
notas_check = notas.apply(lambda x: True if x >=0 and x <= 10 else False)
notas_check

0      True
1     False
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
26    False
27    False
28     True
29    False
dtype: bool

In [None]:
lista_notas_check = []

for nota in notas:
    if nota >= 0 and nota <= 10:
        lista_notas_check.append(True)
    else:
        lista_notas_check.append(False)
pd.Series(lista_notas_check)

0      True
1     False
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
26    False
27    False
28     True
29    False
dtype: bool

In [None]:
# max(), min() etc
notas.min()

3

In [None]:
notas.shape

(30,)

In [None]:
notas.size

30

In [None]:
# Ordenação dos valores
notas.sort_values(ascending = False)

29    11
1     11
27    11
26    11
21    10
18    10
16    10
15    10
6     10
7      9
22     9
20     9
0      8
10     8
2      8
9      7
12     7
14     7
28     6
8      5
13     5
11     5
5      4
17     4
23     4
25     4
4      3
24     3
3      3
19     3
dtype: int32

In [None]:
# valores únicos
notas.unique()

array([ 8, 11,  3,  4, 10,  9,  5,  7,  6])

In [None]:
# número de ocorrências
notas.value_counts()

10    5
11    4
3     4
4     4
8     3
9     3
5     3
7     3
6     1
dtype: int64

In [None]:
# frequência relativa de cada valor
notas.value_counts()/notas.size

10    0.166667
11    0.133333
3     0.133333
4     0.133333
8     0.100000
9     0.100000
5     0.100000
7     0.100000
6     0.033333
dtype: float64

In [None]:
# Outra forma de fazer a frequência relativa
notas.value_counts(normalize = True)

10    0.166667
11    0.133333
3     0.133333
4     0.133333
8     0.100000
9     0.100000
5     0.100000
7     0.100000
6     0.033333
dtype: float64

In [None]:
# soma cumulativa
notas.cumsum()

0       8
1      19
2      27
3      30
4      33
5      37
6      47
7      56
8      61
9      68
10     76
11     81
12     88
13     93
14    100
15    110
16    120
17    124
18    134
19    137
20    146
21    156
22    165
23    169
24    172
25    176
26    187
27    198
28    204
29    215
dtype: int32

In [None]:
notas

0      8
1     11
2      8
3      3
4      3
5      4
6     10
7      9
8      5
9      7
10     8
11     5
12     7
13     5
14     7
15    10
16    10
17     4
18    10
19     3
20     9
21    10
22     9
23     4
24     3
25     4
26    11
27    11
28     6
29    11
dtype: int32

In [None]:
# Estatísticas básicas todas juntas
notas.describe()

count    30.000000
mean      7.166667
std       2.853713
min       3.000000
25%       4.250000
50%       7.500000
75%      10.000000
max      11.000000
dtype: float64

In [None]:
# Podemos aplicar após filtrar também
notas[notas >= 5].describe()

count    22.000000
mean      8.500000
std       2.041241
min       5.000000
25%       7.000000
50%       9.000000
75%      10.000000
max      11.000000
dtype: float64

# Voltamos às 20h45

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

Selecionando colunas específicas

As colunas do dataframes são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
# Gerando uma matriz (5,3) de números inteiros
np.random.seed(20)

matriz = np.random.randint(-100,100,(5,3))
matriz

array([[ -1, -85,  56],
       [ 37,  48, -25],
       [-78, -29,  62],
       [ 18, -60, -74],
       [-84,  90,  44]])

In [None]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,-1,-85,56
1,37,48,-25
2,-78,-29,62
3,18,-60,-74
4,-84,90,44


In [None]:
# Conseguimos definir nomes pros índices e colunas
df_nome_linhas = pd.DataFrame(matriz,
                             index = ["obs1", "obs2", "obs3", "obs4", "obs5"],
                             columns = ["Variável1", "Variável2","Variável3"])

In [None]:
df_nome_linhas

Unnamed: 0,Variável1,Variável2,Variável3
obs1,-1,-85,56
obs2,37,48,-25
obs3,-78,-29,62
obs4,18,-60,-74
obs5,-84,90,44


Acessando posições do dataframe: .loc() e .iloc()

In [None]:
# .loc(): especificamos "labels"/rótulos (nomes de índices e de colunas)

In [None]:
df_nome_linhas.loc["obs4","Variável2"]

-60

In [None]:
# .iloc(): especificamos índices numéricos
df_nome_linhas.iloc[3,1]

-60

Selecionamos colunas específicas

In [None]:
df_nome_linhas["Variável3"]

obs1    56
obs2   -25
obs3    62
obs4   -74
obs5    44
Name: Variável3, dtype: int32

In [None]:
df_nome_linhas.loc[:,"Variável3"]

obs1    56
obs2   -25
obs3    62
obs4   -74
obs5    44
Name: Variável3, dtype: int32

In [None]:
# Atribuição de valores
df_nome_linhas["Variável3"][1] = 42

In [None]:
df_nome_linhas

Unnamed: 0,Variável1,Variável2,Variável3
obs1,-1,-85,56
obs2,37,48,42
obs3,-78,-29,62
obs4,18,-60,-74
obs5,-84,90,44


As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
df_nome_linhas["Variável1"]

obs1    -1
obs2    37
obs3   -78
obs4    18
obs5   -84
Name: Variável1, dtype: int32

In [None]:
resultado = df_nome_linhas["Variável1"] + 10
resultado

obs1     9
obs2    47
obs3   -68
obs4    28
obs5   -74
Name: Variável1, dtype: int32

## Lendo e escrevendo conjuntos de dados com pandas

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [None]:
# não é recomendado usar caminhos absolutos
df = pd.read_csv("../../dados/alunos.csv")

In [None]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [None]:
df[df["Frequencia"] > 18][['RA', 'Nome', 'Prova_1']]

Unnamed: 0,RA,Nome,Prova_1
0,110201,Antonio Carlos,6.5
1,110212,Ana Beatriz,7.0
3,110307,Francisco Cunha,9.0
6,110301,Joao Galo,5.0
7,110263,José Valente,10.0
8,110271,Maria Ferreira,9.5
9,110236,Adriana Tavares,8.0


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [None]:
pd.read_csv("../../dados/alunos2.csv")

Unnamed: 0,RA;Nome;Frequencia;Prova_1;Prova_2;Prova_3;Prova_4
0,110201;Antonio Carlos;20;6.5;8.5;7.0;6
1,110212;Ana Beatriz;20;7.0;7.0;7.0;8
2,110218;Carlos Vernes;17;7.0;7.0;7.0;7
3,110307;Francisco Cunha;20;9.0;8.5;8.5;10
4,110275;Sandra Rosa;15;6.5;7.5;7.0;7
5,110281;Juliana Arruda;18;7.5;7.0;7.5;8
6,110301;Joao Galo;20;5.0;6.5;7.0;5
7,110263;José Valente;20;10.0;10.0;10.0;10
8,110271;Maria Ferreira;19;9.5;8.0;7.0;10
9,110236;Adriana Tavares;20;8.0;8.0;8.0;8


In [None]:
df = pd.read_csv("../../dados/alunos2.csv", sep = ';')

In [None]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Ou seja: é preciso estarmos sempre atentos ao separador dos dados!

#### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html


Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [None]:
df = pd.read_excel('../../dados/sample.xlsx')

In [None]:
df

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

In [None]:
df = pd.read_excel('../../dados/sample.xlsx', 'p2')

In [None]:
df

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


In [None]:
df = pd.read_excel('../../dados/sample.xlsx', 'p3')

In [None]:
df

Unnamed: 0,Cabeçalho inútil,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
1,0.9,24,60,110,70,820,54,1,1,49,13.7
2,0.91,60,135,110,60,830,57,1,0,30,9
3,0.89,135,165,100,120,780,57,1,0,18,7.3
4,0.83,165,192,110,80,810,59,1,0,13,6
5,1.53,15,40,840,10,150,46,1,2,18,3.5
6,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [None]:
df = pd.read_excel(io = '../../dados/sample.xlsx',
                   sheet_name='p3',
                   header = 1)

In [None]:
df

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [None]:
df = pd.read_excel(io = '../../dados/sample.xlsx',
                   sheet_name='p3',
                   header = 1,
                  names = ['densidade', 'hzdepup', 'hzdeplow', 'area', 'slite',
                          'argila', 'phh20', 'antimonio', 'aluminio', 'hidrogenio',
                          'corg'])

In [None]:
df

Unnamed: 0,densidade,hzdepup,hzdeplow,area,slite,argila,phh20,antimonio,aluminio,hidrogenio,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [None]:
df = pd.read_excel(
        io='https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx'
)

In [None]:
df

Unnamed: 0,Nº DO PEDIDO,DIVISÃO TÉCNICA DE ORIGEM,DATA DO DEPÓSITO,DESPACHO DE ENTRADA NA 2ª INSTÂNCIA,DATA DO DESPACHO,ATUALIZAÇÃO
0,PI0200936,DITEM,2002-03-07,17.1,2011-08-23,2022-07-20
1,PI9816506,DIMEC,1998-02-20,17.1,2016-03-15,NaT
2,MU8800678,DIMUT,2008-03-26,17.1,2017-11-21,NaT
3,PI0610654,DIALP,2006-05-26,17.1,2017-11-21,NaT
4,MU8900777,DIMUT,2009-05-28,17.1,2017-11-28,NaT
...,...,...,...,...,...,...
6843,BR102015011767,DITEX,2015-05-21,2022-02-12 00:00:00,2022-06-28,NaT
6844,BR112016009929,DITEX,2014-11-10,2022-02-12 00:00:00,2022-07-05,NaT
6845,BR112016012529,DITEX,2014-12-09,2022-02-12 00:00:00,2022-07-12,NaT
6846,BR112015026098,DITEX,2014-04-11,2022-02-12 00:00:00,2022-07-12,NaT


#### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

In [None]:
df = pd.read_json(
    path_or_buf='../../dados/selic.json'
)

In [None]:
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
411,01/09/2020,0.16
412,01/10/2020,0.16
413,01/11/2020,0.15
414,01/12/2020,0.16


Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
df = pd.read_json(
    path_or_buf='https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json'
)

In [None]:
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
436,01/10/2022,1.02
437,01/11/2022,1.02
438,01/12/2022,1.12
439,01/01/2023,1.12


#### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [None]:
df = pd.read_fwf(
    filepath_or_buffer='https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT',
    widths=[1, 6, 8, 1, 8, 1, 8]
)

In [None]:
df

Unnamed: 0,0,ASPB00,04202302,0.1,32023020,2,1820
0,1,210100,20230301.0,0.0,1278.0,3.0,9105683.0
1,1,210100,20230901.0,0.0,1277.0,7.0,26915027.0
2,1,210100,20240301.0,0.0,1277.0,2.0,13270196.0
3,1,210100,20240901.0,0.0,1276.0,6.0,32631453.0
4,1,210100,20250301.0,0.0,1275.0,8.0,9192336.0
...,...,...,...,...,...,...,...
171,1,950199,20270101.0,0.0,90.0,8.0,42304559.0
172,1,950199,20290101.0,0.0,86.0,8.0,44061605.0
173,1,950199,20310101.0,0.0,83.0,6.0,19838052.0
174,1,950199,20330101.0,0.0,81.0,1.0,35601254.0


_________
### Escrevendo dados de um arquivo

In [None]:
df = pd.read_json(
    path_or_buf='https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json'
)

In [None]:
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
436,01/10/2022,1.02
437,01/11/2022,1.02
438,01/12/2022,1.12
439,01/01/2023,1.12


#### CSV

Separado por virgula

In [None]:
df.to_csv('selic.csv')

Separado por ponto e virgula

In [None]:
df.to_csv('selic2.csv', sep = ';')

#### XLSX

In [None]:
df.to_excel('selic.xlsx', sheet_name = 'selic')

___
### Vamos praticar?

Leia o arquivo `aluno3.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a média das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.

In [None]:
df

Unnamed: 0,RA,Prova_1,Prova_2,Prova_3,Prova_4,Media
0,110201,6.5,8.5,7.0,6,7.0
1,110212,7.0,7.0,7.0,8,7.25
2,110218,7.0,7.0,7.0,7,7.0
3,110307,9.0,8.5,8.5,10,9.0
4,110275,6.5,7.5,7.0,7,7.0
5,110281,7.5,7.0,7.5,8,7.5
6,110301,5.0,6.5,7.0,5,5.875
7,110263,10.0,10.0,10.0,10,10.0
8,110271,9.5,8.0,7.0,10,8.625
9,110236,8.0,8.0,8.0,8,8.0


In [None]:
df = pd.read_csv('/content/alunos3.csv', sep =",")
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,65,85,70,6
1,110212,Ana Beatriz,20,70,70,70,8
2,110218,Carlos Vernes,17,70,70,70,7
3,110307,Francisco Cunha,20,90,85,85,10
4,110275,Sandra Rosa,15,65,75,70,7
5,110281,Juliana Arruda,18,75,70,75,8
6,110301,Joao Galo,20,50,65,70,5
7,110263,José Valente,20,100,100,100,10
8,110271,Maria Ferreira,19,95,80,70,10
9,110236,Adriana Tavares,20,80,80,80,8


In [None]:
df.dtypes

RA             int64
Nome          object
Frequencia     int64
Prova_1       object
Prova_2       object
Prova_3       object
Prova_4        int64
dtype: object

In [None]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,65,85,70,6
1,110212,Ana Beatriz,20,70,70,70,8
2,110218,Carlos Vernes,17,70,70,70,7
3,110307,Francisco Cunha,20,90,85,85,10
4,110275,Sandra Rosa,15,65,75,70,7
5,110281,Juliana Arruda,18,75,70,75,8
6,110301,Joao Galo,20,50,65,70,5
7,110263,José Valente,20,100,100,100,10
8,110271,Maria Ferreira,19,95,80,70,10
9,110236,Adriana Tavares,20,80,80,80,8


In [None]:
#Convertendo as colunas de prova para float
df['Prova_2'] = df['Prova_2'].str.replace(',','.')
df['Prova_3'] = df['Prova_3'].str.replace(',','.')
print(df)
df['Prova_2'] =df['Prova_2'].astype(float)
df['Prova_3'] =df['Prova_3'].astype(float)
df.dtypes

       RA             Nome  Frequencia  Prova_1 Prova_2 Prova_3  Prova_4
0  110201   Antonio Carlos          20      6.5     8.5     7.0        6
1  110212      Ana Beatriz          20      7.0     7.0     7.0        8
2  110218    Carlos Vernes          17      7.0     7.0     7.0        7
3  110307  Francisco Cunha          20      9.0     8.5     8.5       10
4  110275      Sandra Rosa          15      6.5     7.5     7.0        7
5  110281   Juliana Arruda          18      7.5     7.0     7.5        8
6  110301        Joao Galo          20      5.0     6.5     7.0        5
7  110263     José Valente          20     10.0    10.0    10.0       10
8  110271   Maria Ferreira          19      9.5     8.0     7.0       10
9  110236  Adriana Tavares          20      8.0     8.0     8.0        8


RA              int64
Nome           object
Frequencia      int64
Prova_1       float64
Prova_2       float64
Prova_3       float64
Prova_4         int64
dtype: object

In [None]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [None]:
df.dtypes

RA              int64
Nome           object
Frequencia      int64
Prova_1       float64
Prova_2       float64
Prova_3       float64
Prova_4         int64
dtype: object

In [None]:
#Adcionando a coluna com as médias
df['Media'] = (df.loc[0:9,['Prova_1',	'Prova_2',	'Prova_3',	'Prova_4']].sum(axis = 1))/4
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [None]:
df1 = df[['RA', 'Media']]
df1

Unnamed: 0,RA,Media
0,110201,7.0
1,110212,7.25
2,110218,7.0
3,110307,9.0
4,110275,7.0
5,110281,7.5
6,110301,5.875
7,110263,10.0
8,110271,8.625
9,110236,8.0


In [None]:
df1.to_excel('alunos3.xlsx', sheet_name = 'alunos3')