# Aula 04 - Pandas (Parte I)

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

Nesta primeira aula, avaliaremos:
- o que são Séries e DataFrames;
- alguns dos principais métodos para operar com Séries;
- leitura e gravação de conjuntos de dados com pandas.

**Importando a biblioteca**

In [2]:
import pandas as pd

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

Vamos avaliar algumas particularidades das pd.Series a seguir.

In [3]:
# lista
lista = [4, 5, 6, 29]

In [4]:
# array numpy
import numpy as np
arr = np.array(lista)
arr

array([ 4,  5,  6, 29])

[pd.Series()](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [5]:
# séries a partir de lista
serie = pd.Series(lista)

In [7]:
lista

[4, 5, 6, 29]

In [6]:
serie # os índices são definidos automaticamente nesse caso

0     4
1     5
2     6
3    29
dtype: int64

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [9]:
# Acessando os valores
serie.values

array([ 4,  5,  6, 29], dtype=int64)

In [10]:
# Acessando índices
serie.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
list(serie.index)

[0, 1, 2, 3]

In [12]:
serie.index.to_list()

[0, 1, 2, 3]

**Indexação da série**

A indexação de uma série com pandas é muito similar à maneira que fazemos com listas e numpy arrays.

In [13]:
serie

0     4
1     5
2     6
3    29
dtype: int64

In [14]:
serie[2] # valor correspondente ao índice 2

6

In [16]:
serie.values[2] # equivalente ao que fizemos acima

6

Podemos fazer uma analogia da série em pandas com os dicionários do Python:

In [17]:
# dicionário
dic = {0 : 10, 1: 20}

In [18]:
dic[0]

10

In [19]:
dic[1]

20

In [21]:
dic.values()

dict_values([10, 20])

In [22]:
dic.keys()

dict_keys([0, 1])

In [23]:
pd.Series(data = dic)

0    10
1    20
dtype: int64

In [29]:
pd.Series([2, 2.0])

0    2.0
1    2.0
dtype: float64

In [36]:
s = pd.Series([True, 'true', 2])
s

0    True
1    true
2       2
dtype: object

In [34]:
type(s[0])

bool

In [37]:
type(s[1])

str

In [38]:
type(s[2])

int

**Slicing de séries**

Também é feito da maneira como estamos acostumados a trabalhar com listas e numpy arrays.

In [40]:
serie[2:]

2     6
3    29
dtype: int64

In [41]:
serie[0:2]

0    4
1    5
dtype: int64

**Índices**

Apesar de termos visto a opção padrão de criação de índices, acima, sequencial, podemos defini-los da maneira que quisermos.

In [42]:
serie = pd.Series(lista)
serie

0     4
1     5
2     6
3    29
dtype: int64

In [44]:
# vamos usar outros índices
indices = ["01/02/24", "02/02/24", "03/02/24", "04/02/24"]
pd.Series(data = lista,
         index = indices,
         name = "Valores diários")

01/02/24     4
02/02/24     5
03/02/24     6
04/02/24    29
Name: Valores diários, dtype: int64

In [45]:
s = pd.Series(data = lista,
         index = indices,
         name = "Valores diários")

In [48]:
s[3]

29

In [47]:
s["04/02/24"]

29

In [49]:
s[["02/02/24", "04/02/24"]]

02/02/24     5
04/02/24    29
Name: Valores diários, dtype: int64

Podemos acessar os valores indexando tanto com o número da posição na série, ou com o próprio índice.

Também conseguimos construir séries a partir de **dicionários**. Neste caso, as **chaves** se tornam os índices da série.

In [50]:
dic = {"01/02/24": 2, "02/02/24": 300}

In [51]:
pd.Series(dic)

01/02/24      2
02/02/24    300
dtype: int64

**Operações com séries**

Assim como vimos para os numpy arrays, operações com séries são realizadas elemento a elemento.

In [52]:
serie

0     4
1     5
2     6
3    29
dtype: int64

In [53]:
arr

array([ 4,  5,  6, 29])

In [54]:
arr + 5

array([ 9, 10, 11, 34])

In [57]:
serie

0     4
1     5
2     6
3    29
dtype: int64

In [56]:
serie + 5 # também funciona elemento a elemento para as operações aritméticas básicas

0     9
1    10
2    11
3    34
dtype: int64

In [58]:
serie*5

0     20
1     25
2     30
3    145
dtype: int64

In [59]:
serie/5

0    0.8
1    1.0
2    1.2
3    5.8
dtype: float64

O mesmo vale para **operações lógicas**.

In [60]:
serie %2 == 0 # elementos pares da série
# retorna uma série de booleanos

0     True
1    False
2     True
3    False
dtype: bool

In [61]:
serie > 5

0    False
1    False
2     True
3     True
dtype: bool

Também conseguimos operar entre séries.

In [62]:
lista1 = [4, 5, 6, 3, 25]
lista2 = [34, 42, 2, 1, -40]

In [63]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [64]:
s1

0     4
1     5
2     6
3     3
4    25
dtype: int64

In [65]:
s2

0    34
1    42
2     2
3     1
4   -40
dtype: int64

In [66]:
s1 + s2

0    38
1    47
2     8
3     4
4   -15
dtype: int64

In [67]:
a1 = np.random.randint(0, 100, 5)
a2 = np.random.randint(20,60,7)

In [68]:
a1

array([ 1, 67, 83, 91, 24])

In [69]:
a2

array([55, 44, 57, 37, 54, 27, 37])

In [70]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [71]:
a1 + a2 # tentando somar os arrays

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

NaN = *not a number*; dado vazio

In [72]:
s1 + s2

0     56.0
1    111.0
2    140.0
3    128.0
4     78.0
5      NaN
6      NaN
dtype: float64

In [76]:
# opção para preencher valores nulos: fill_value
s1.add(s2, fill_value = 0) # na hora de somar, preencha NaN com zero

0     56.0
1    111.0
2    140.0
3    128.0
4     78.0
5     27.0
6     37.0
dtype: float64

In [78]:
(s1 + s2).fillna(0) # fillna preenche os valores nulos

0     56.0
1    111.0
2    140.0
3    128.0
4     78.0
5      0.0
6      0.0
dtype: float64

In [79]:
s1 * s2

0      55.0
1    2948.0
2    4731.0
3    3367.0
4    1296.0
5       NaN
6       NaN
dtype: float64

In [84]:
# preencher com 1, por exemplo (elemento neutro na multiplicação)
s1.multiply(s2, fill_value = 1)

0      55.0
1    2948.0
2    4731.0
3    3367.0
4    1296.0
5      27.0
6      37.0
dtype: float64

In [91]:
s_text = pd.Series(["a", "b", "c"])
s_numero = pd.Series([1, 2, 3])

In [92]:
s_text

0    a
1    b
2    c
dtype: object

In [93]:
s_numero

0    1
1    2
2    3
dtype: int64

In [97]:
# com strings
'abc' * 20

'abcabcabcabcabcabcabcabcabcabcabcabcabcabcabcabcabcabcabcabc'

In [94]:
# com as séries, multiplicamos elemento a elemento
s_text * s_numero

0      a
1     bb
2    ccc
dtype: object

E com dados de formatos diferentes?

In [98]:
# Com string
"a" + 2

TypeError: can only concatenate str (not "int") to str

In [99]:
s_text + s_numero

TypeError: can only concatenate str (not "int") to str

**Filtrando séries**

Filtros de séries seguem a mesma lógica de numpy arrays.

In [100]:
s1

0     1
1    67
2    83
3    91
4    24
dtype: int32

In [101]:
s1 > 50

0    False
1     True
2     True
3     True
4    False
dtype: bool

In [102]:
# filtrando as séries: mesma lógica do numpy
s1[s1 > 50]

1    67
2    83
3    91
dtype: int32

**Outros métodos úteis para séries**

In [103]:
notas = pd.Series(np.random.randint(0, 11, 30))

In [104]:
notas

0      0
1      5
2      7
3      5
4      9
5      8
6      7
7      1
8      5
9      3
10     0
11    10
12     7
13     3
14     6
15     6
16     6
17     3
18     2
19     5
20     4
21     0
22     4
23     3
24     3
25     1
26     5
27     9
28     7
29     9
dtype: int32

In [105]:
notas.mean()

4.766666666666667

In [106]:
notas.max()

10

In [107]:
notas.std()

2.860953944275295

In [108]:
notas > 5

0     False
1     False
2      True
3     False
4      True
5      True
6      True
7     False
8     False
9     False
10    False
11     True
12     True
13    False
14     True
15     True
16     True
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27     True
28     True
29     True
dtype: bool

In [110]:
# .apply()
notas.apply(lambda x: "Aprovado" if x > 5 else "Reprovado")

0     Reprovado
1     Reprovado
2      Aprovado
3     Reprovado
4      Aprovado
5      Aprovado
6      Aprovado
7     Reprovado
8     Reprovado
9     Reprovado
10    Reprovado
11     Aprovado
12     Aprovado
13    Reprovado
14     Aprovado
15     Aprovado
16     Aprovado
17    Reprovado
18    Reprovado
19    Reprovado
20    Reprovado
21    Reprovado
22    Reprovado
23    Reprovado
24    Reprovado
25    Reprovado
26    Reprovado
27     Aprovado
28     Aprovado
29     Aprovado
dtype: object

In [111]:
notas.shape

(30,)

In [112]:
notas.size

30

In [120]:
notas_ordenadas = notas.sort_values(ascending = False)
notas_ordenadas.iloc[0:5] # top 5 maiores notas

11    10
29     9
4      9
27     9
5      8
dtype: int32

In [123]:
notas_ordenadas.head(5)

11    10
29     9
4      9
27     9
5      8
dtype: int32

In [115]:
# apenas os valores únicos
notas.unique()

array([ 0,  5,  7,  9,  8,  1,  3, 10,  6,  2,  4])

In [126]:
# número de ocorrências
notas.value_counts() # frequência absoluta

5     5
3     5
7     4
0     3
9     3
6     3
1     2
4     2
8     1
10    1
2     1
dtype: int64

In [128]:
100*(notas.value_counts()/notas.size)

5     16.666667
3     16.666667
7     13.333333
0     10.000000
9     10.000000
6     10.000000
1      6.666667
4      6.666667
8      3.333333
10     3.333333
2      3.333333
dtype: float64

In [130]:
100*notas.value_counts(normalize = True) # frequência relativa

5     16.666667
3     16.666667
7     13.333333
0     10.000000
9     10.000000
6     10.000000
1      6.666667
4      6.666667
8      3.333333
10     3.333333
2      3.333333
dtype: float64

In [131]:
# estatística descritiva básicas da série
notas.describe()

count    30.000000
mean      4.766667
std       2.860954
min       0.000000
25%       3.000000
50%       5.000000
75%       7.000000
max      10.000000
dtype: float64

In [132]:
notas[notas >= 5].describe()

count    17.000000
mean      6.823529
std       1.667157
min       5.000000
25%       5.000000
50%       7.000000
75%       8.000000
max      10.000000
dtype: float64

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

Selecionando colunas específicas

As colunas do dataframes são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [133]:
# gerando uma matriz (5,3) de números inteiros

m = np.random.randint(-100,100, (5,3))

In [134]:
m

array([[-22,  43,  82],
       [-73,  40,  29],
       [-16,  -6, -58],
       [ 92,  80,  92],
       [ 60,  -8, -41]])

In [135]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,-22,43,82
1,-73,40,29
2,-16,-6,-58
3,92,80,92
4,60,-8,-41


In [141]:
df = pd.DataFrame(m,
                 index = ["Dia " + str(i) for i in range(1,6)],
                 columns = ["Variável " + str(i) for i in range(1,4)])

In [142]:
df

Unnamed: 0,Variável 1,Variável 2,Variável 3
Dia 1,-22,43,82
Dia 2,-73,40,29
Dia 3,-16,-6,-58
Dia 4,92,80,92
Dia 5,60,-8,-41


Acessando posições do dataframe: .loc() e .iloc()

In [144]:
# .loc() -> especificamos os nomes dos índices e colunas
df.loc["Dia 1", "Variável 3"]

82

In [145]:
# .iloc() -> especificamos os índices (numéricos) em si
df.iloc[0,2]

82

In [150]:
df.columns # pega as colunas do dataframe

Index(['Variável 1', 'Variável 2', 'Variável 3'], dtype='object')

In [151]:
df.index # pega os índices do dataframe

Index(['Dia 1', 'Dia 2', 'Dia 3', 'Dia 4', 'Dia 5'], dtype='object')

Selecionamos colunas específicas

In [156]:
df

Unnamed: 0,Variável 1,Variável 2,Variável 3
Dia 1,-22,43,82
Dia 2,-73,40,29
Dia 3,-16,-6,-58
Dia 4,92,80,92
Dia 5,60,-8,-41


In [157]:
df["Variável 2"]

Dia 1    43
Dia 2    40
Dia 3    -6
Dia 4    80
Dia 5    -8
Name: Variável 2, dtype: int32

In [159]:
df.loc[:, "Variável 2"]

Dia 1    43
Dia 2    40
Dia 3    -6
Dia 4    80
Dia 5    -8
Name: Variável 2, dtype: int32

In [165]:
"Variável 2" > 20

TypeError: '>' not supported between instances of 'str' and 'int'

In [163]:
df["Variável 2"] > 20

Dia 1     True
Dia 2     True
Dia 3    False
Dia 4     True
Dia 5    False
Name: Variável 2, dtype: bool

In [164]:
df.loc[df["Variável 2"] > 20]

Unnamed: 0,Variável 1,Variável 2,Variável 3
Dia 1,-22,43,82
Dia 2,-73,40,29
Dia 4,92,80,92


In [166]:
df

Unnamed: 0,Variável 1,Variável 2,Variável 3
Dia 1,-22,43,82
Dia 2,-73,40,29
Dia 3,-16,-6,-58
Dia 4,92,80,92
Dia 5,60,-8,-41


In [167]:
df.loc["Dia 5", "Variável 2"] = 10

In [168]:
df

Unnamed: 0,Variável 1,Variável 2,Variável 3
Dia 1,-22,43,82
Dia 2,-73,40,29
Dia 3,-16,-6,-58
Dia 4,92,80,92
Dia 5,60,10,-41


As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [169]:
df["Variável 1"] + df["Variável 2"]

Dia 1     21
Dia 2    -33
Dia 3    -22
Dia 4    172
Dia 5     70
dtype: int32

In [170]:
type(df["Variável 1"] + df["Variável 2"])

pandas.core.series.Series

In [171]:
df["Média"] = (df["Variável 1"] + df["Variável 2"] + df["Variável 3"])/3

In [172]:
df

Unnamed: 0,Variável 1,Variável 2,Variável 3,Média
Dia 1,-22,43,82,34.333333
Dia 2,-73,40,29,-1.333333
Dia 3,-16,-6,-58,-26.666667
Dia 4,92,80,92,88.0
Dia 5,60,10,-41,9.666667


## Lendo e escrevendo conjuntos de dados com pandas

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [173]:
df = pd.read_csv("../../dados/alunos.csv")

In [174]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [176]:
df["Média"] = (df["Prova_1"] + df["Prova_2"] + df["Prova_3"] + df["Prova_4"])/4

In [177]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Média
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [187]:
df["Resultado"] = df.apply(lambda x: "Aprovado" if (x["Média"] >= 7) and (x["Frequencia"] > 14)
                           else "Reprovado", axis = 0)

KeyError: 'Média'

In [186]:
df["Resultado"] = df.apply(lambda x: "Aprovado" if (x["Média"] >= 7) and (x["Frequencia"] > 14)
                           else "Reprovado", axis = 1)

In [184]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Média,Resultado
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Aprovado
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Aprovado
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Aprovado
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5,Aprovado
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875,Reprovado
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0,Aprovado
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625,Aprovado
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0,Aprovado


In [189]:
df.groupby("Resultado")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002CE1C857FD0>

In [191]:
df.groupby("Resultado").count()

Unnamed: 0_level_0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Média
Resultado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Aprovado,9,9,9,9,9,9,9,9
Reprovado,1,1,1,1,1,1,1,1


In [193]:
df.groupby("Resultado").count().reset_index()

Unnamed: 0,Resultado,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Média
0,Aprovado,9,9,9,9,9,9,9,9
1,Reprovado,1,1,1,1,1,1,1,1


In [192]:
df.groupby("Resultado")["Resultado"].count()

Resultado
Aprovado     9
Reprovado    1
Name: Resultado, dtype: int64

In [203]:
df.groupby("Resultado")[["Resultado", "Prova_1", "Frequencia"]]\
.agg({"Resultado": "count","Prova_1": "mean", "Frequencia": "min"})\
.rename(columns = {"Resultado": "Contagem", "Prova_1": "Média P1", "Frequencia": "Mínimo da frequência"})

Unnamed: 0_level_0,Contagem,Média P1,Mínimo da frequência
Resultado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aprovado,9,7.888889,15
Reprovado,1,5.0,20


In [194]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Média,Resultado
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Aprovado
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Aprovado
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Aprovado
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5,Aprovado
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875,Reprovado
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0,Aprovado
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625,Aprovado
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0,Aprovado


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [204]:
df2 = pd.read_csv("../../dados/alunos2.csv")

In [205]:
df2

Unnamed: 0,RA;Nome;Frequencia;Prova_1;Prova_2;Prova_3;Prova_4
0,110201;Antonio Carlos;20;6.5;8.5;7.0;6
1,110212;Ana Beatriz;20;7.0;7.0;7.0;8
2,110218;Carlos Vernes;17;7.0;7.0;7.0;7
3,110307;Francisco Cunha;20;9.0;8.5;8.5;10
4,110275;Sandra Rosa;15;6.5;7.5;7.0;7
5,110281;Juliana Arruda;18;7.5;7.0;7.5;8
6,110301;Joao Galo;20;5.0;6.5;7.0;5
7,110263;José Valente;20;10.0;10.0;10.0;10
8,110271;Maria Ferreira;19;9.5;8.0;7.0;10
9,110236;Adriana Tavares;20;8.0;8.0;8.0;8


In [206]:
df2.shape

(10, 1)

In [207]:
df.shape

(10, 9)

In [208]:
df2 = pd.read_csv("../../dados/alunos2.csv", sep = ";")

In [209]:
df2

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Ou seja: é preciso estarmos sempre atentos ao separador dos dados!

#### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html


Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

#### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

#### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

_________
### Escrevendo dados de um arquivo

#### CSV

Separado por virgula

Separado por ponto e virgula

#### XLSX

___
### Vamos praticar?

Leia o arquivo `aluno3.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a média das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.