# Tabelas I

Uma das formas mais comuns de se representar um conjunto de dados é por meio de **tabelas**. Conforme já sabemos, as tabelas são organizadas em linhas e colunas.

As linhas de uma tabela representam um **indivíduos** (pode ser uma pessoa ou não). E cada indivíduo apresenta **atributos (ou qualidades)** (também chamados de *variáveis*) associados a eles. Esses atributos são representados nas colunas.

|RA   |Curso                       |Horas Complementares Completas|
|:---:|:--------------------------:|:----------------------------:|
|18860|Engenharia Química          |3.5                           |
|17566|Sistemas de Computadores    |9.7                           |
|11115|Enfermagem                  |7.25                          |
|14939|Psicologia                  |1.8                           |
|13339|Engenharia Mecânica         |3.69                          |
|13547|Engenharia da Computação    |10.5                          |
|12067|Sistemas de Telecomunicações|3.89                          |
|17298|Letras                      |10.25                         |
|16030|Enfermagem                  |5.0                           |
|18346|Direito                     |2.98                          |

Na tabela acima, observe que cada linha representa um estudante de alguma Instituição de Ensino Superior. Cada coluna apresenta algum atributo desse indivíduo. Em Estatística, os atributos também são chamados de **variáveis**.

No exemplo acima, a variável **RA** (Registro Acadêmico) apresentam valores cuja classificação é *integer*; o atributo **Curso** apresentam valores do tipo *string*; A variável **Horas Complementares Completas** contém valores do tipo *float*.

## Trabalhando Com Tabelas: Módulo Pandas

Em Python, a biblioteca mais utilizada para se trabalhar com tabelas é o **pandas**, cujo *alias* mundialmente conhecido é *pd*.

Para invocar esse módulo, portanto, deve ser executado a seguinte declaração:

<br/>

``` python
import pandas as pd
```
<br/>

Na célula abaixo, execute a declaração acima:

In [1]:
import pandas as pd

Em *pandas*, as tabelas são classificadas como *DataFrame*. Execute a célula abaixo. Será criada e mostrada uma tabela com as informações de alguns estudantes.

In [2]:
# Não se preocupe com as declarações abaixo. Apenas execute esta célula.

ra = [18860, 17566, 11115, 14939, 13339, 13547, 12067, 17298, 16030, 18346]

curso = ['Engenharia Química', 'Sistemas de Computadores', 'Enfermagem',
         'Psicologia', 'Engenharia Mecânica', 'Engenharia da Computação',
         'Sistemas de Telecomunicações', 'Letras', 'Enfermagem', 'Direito']

hc = [3.5, 9.7, 7.25, 1.8, 3.69, 10.5, 3.89, 10.25, 5.0, 2.98]

data = {
    'RA': ra,
    'Curso': curso,
    'Horas Complementares': hc
}

alunos = pd.DataFrame(data)

alunos

Unnamed: 0,RA,Curso,Horas Complementares
0,18860,Engenharia Química,3.5
1,17566,Sistemas de Computadores,9.7
2,11115,Enfermagem,7.25
3,14939,Psicologia,1.8
4,13339,Engenharia Mecânica,3.69
5,13547,Engenharia da Computação,10.5
6,12067,Sistemas de Telecomunicações,3.89
7,17298,Letras,10.25
8,16030,Enfermagem,5.0
9,18346,Direito,2.98


In [4]:
# Verificando a classificação de uma tabela em pandas: ########################

print('Classificação da tabela:',type(alunos) )

Classificação da tabela: <class 'pandas.core.frame.DataFrame'>


Observe na tabela acima que a "1 ª coluna" apresentam números crescentes de 0 a 9. Esses números são os índices (número das linhas). Em Python, muitas estruturas <ins>ordenadas começam com o número zero, não com o número 1</ins>. Os índices das linhas e colunas das tabelas em *pandas* também utilizam o número zero como o primeiro valor dos índices.

Foi escrito entre aspas 1 ª coluna porque para o *pandas*, a coluna de índices **não é considerada como uma coluna**.

De forma análoga, a 1 ª linha contém o nome (rótulo) de cada coluna; essa linha também **não é considerada como uma linha**.

A tabela acima foi criada inserindo manualmente cada valor. É possível perceber, portanto, que montar uma tabela manualmente não é um trabalho muito fácil de ser feito. Por esse motivo, neste primeiro momento, iremos aprender a **importar** tabelas prontas.

## Armazenando Dados

Após serem coletados, os dados são armazenados em algum tipo de arquivo. Alguns exemplos mais utilizados atualmente são:

* json
* csv
* xlsx

entre muitos outros. Desses, iremos trabalhar com um dos mais utilizados: csv (*Comma-Separated Values*)

Essa é uma estrutura bem simples, no qual cada linha desse arquivo representa uma linha da tabela e as colunas são delimitadas por vírgulas. (Contudo, existem casos em que os dados podem estar separados por ponto e vírgula ou *tab*.)

> vehicle,year,acceleration,mpg,class
>
> Prius (1st Gen),1997,7.46,41.26,Compact
>
> Tino,2000,8.2,54.1,Compact
>
> Prius (2nd Gen),2000,7.97,45.23,Compact

O exemplo acima é parte de um conjunto de dados sobre os carros comercializados nos Estados Unidos.

A 1ª linha são os nomes das colunas da tabela (Cada coluna representa um atributo ou variável).

A partir da 2ª linha em diante, cada linha é um indivíduo (um carro) desse conjunto de dados.

In [None]:
# Apenas execute esta célula. #################################################
cars = ['Prius (1st Gen)', 'Tino', 'Prius (2nd Gen)']
years = [1997, 2000, 2000]
accel = [7.46, 8.2, 7.97]
mpgs = [41.26, 54.1, 45.23]
classes = ['Compact', 'Compact', 'Compact']

data = {'vehicle': cars,
        'year': years,
        'acceleration': accel,
        'mpg': mpgs,
        'class': classes}

pd.DataFrame(data)

## Importando Arquivos Para o *Colab*

Existem diversas formas de importar arquivos para o *colab*. A forma mais fácil é

1. Clique no ícone de pasta na barra lateral esquerda;

2. Clique no ícone de *upload* (Parece uma folha de papel com uma seta para cima);

3. Selecione o arquivo presente no seu computador e clique em "abrir" (Open)

4. Feito isso, será feito o *upload* do arquivo no ambiente *Colab*. Clique com o botão direito em cima do arquivo e clique em "Copiar caminho" (Copy path).

Usando a função

<br/>

``` python
pd.read_csv( )
```
<br/>

iremos ler o arquivo. O parâmetro dessa função é o nome do arquivo com sua extensão.

Assim como já fizemos antes, atribuímos o arquivo lido a um nome. Neste caso iremos atribuir o arquivo ao nome *napoleão*.

O arquivo com os dados esteja na nuvem, podemos inserir o link como argumento.

In [None]:
# https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv


Também podemos associar o link a um nome para depois atribuir como argumento para a função:

In [None]:
# https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv


Também podemos "concatenar" o link para que fique menor em extensão:

In [None]:
# https://raw.githubusercontent.com/nightlySnoopy/database/main/napoleon.csv


A tabela acima são dados da campanha de Napoleão na Rússia.

## Trabalhando Com Tabelas ##

Nesta seção veremos alguns métodos e algumas manipulações que podemos realizar numa tabela.

### Visualizando os Primeiros Elementos de Uma Tabela ###

Após realizar o *upload* de uma tabela, queremos dar uma olhada nos dados contidos nela. Um método que é utilizado para isso é o

<br/>

``` python
.head( )
```
<br/>

Esse método, quando não recebe argumentos, mostra as 5 primeiras linhas de uma tabela.

Execute a célula abaixo com os dados da campanha de Napoleão.

In [None]:
# Apenas execute esta célula ##################################################
print('Tabela completa:\n')
print(napoleão)
print('''

Usando o método .head( ) sem argumentos:

''')
napoleão.head()

Mas, caso você queira ver mais ou menos linhas, basta acrescentar o número de linhas desejados como argumento. Assim, para ver apenas as **2 primeiras linhas**, basta colocar o número 2 como argumento:

<br/>

``` python
napoleão.head(2)
```
<br/>

Execute a declaração acima na célula abaixo.

### Visualizando os Últimos Elementos de Uma Tabela

Em outros casos, podemos estar interessados em ver os últimos elementos de uma tabela. Para isso utilizamos o método

<br/>

``` python
.tail()
```
<br/>


que, caso não seja fornecido um argumento, irá mostrar as 5 últimas linhas da tabela.

Assim, para vermos as últimas 5 linhas da tabela *napoleão*:

In [None]:
print('Tabela completa:\n')
print(napoleão)
print()
print('Usando o método .tail():\n')
napoleão.tail()

Suponha que você queira ver apenas as **3 últimas linhas** da tabela. Para isso, basta utilizar o argumento 3 ao método:

<br/>

``` python
napoleão.tail(3)
```
<br/>

Execute a declaração acima na célula abaixo:

### Classificação Dos Valores de Uma Tabela

Logo após ler um arquivo de dados, é comum querermos conhecer a classificação  dos valores presentes nele. Para isso usamos o método

<br/>

``` python
.info()
```
<br/>

Para o *pandas*, existem as seguintes classificações para os valores:

* int64: São números inteiros, ou seja o *int*

* float64: São os números flutuantes, ou seja, *float*

* object: Para o *pandas*, os *strings* são considerados como *object*. Mas, caso uma coluna tenha uma **mistura de classes de valores** (por exemplo, *str* e *int*, por exemplo, o *pandas* irá considerar essa coluna como *object*).

* datatime64: São valores associados a datas e horas.

Os dados a seguir são dos passageiros do navio Titanic. Atribua esses dados ao nome titanic:

[https://raw.githubusercontent.com/nightlySnoopy/database/main/titanic.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/titanic.csv)

Agora verifique a classe dos valores presentes nessa tabela usando o método *.dtype*:

<br/>

``` python
titanic.info()
```

Usando o método *.head( )*, veja as 5 primeiras linhas:

Usando o método *.tail( )*, veja as 5 últimas linhas:

Observe a linha 888. Na coluna *Age* (idade), está escrito **NaN** (Not A Number). Quando isso aparece significa que aquela célula está vazia.

### Dimensão de Uma Tabela

Uma forma rápida de sabermos quantas linhas e colunas uma tabela apresenta é utilizando o método

<br/>

``` python
.shape
```
<br/>

Execute as seguintes declarações na célula abaixo

<br/>

``` python
print(napoleão)
print(napoleão.shape)
```
<br/>

O método retorna uma **tupla** cujo primeiro elemento é o número de linhas e o segundo é ao número de colunas:

> $(\text{linhas}, \text{colunas})$

Tupla é uma outra classe de objeto em Python que permite armazenar coleções.

Perceba que a "linha" com os nomes das colunas e a coluna com o número das linhas **não participam** dessa contagem.

Na célula abaixo verifique quantas linhas e colunas estão presentes na tabela *titanic*:

Caso nos interesse apenas saber o número de linhas (quantidade de indivíduos), podemos usar a função interna do Python denominada

<br/>

```python
len( )
```
<br/>

Como argumento, ela recebe o objeto que desejamos analisar.

Essa função é uma abreviação de *length*, que significa extensão, comprimento ou quantidade.

Na célula abaixo, verifique quantos passageiros estavam no navio Titanic executando a seguinte comando

<br/>

```python
len(titanic)
```
<br/>

### Visualizando os Rótulos Das Colunas

Em nosso exemplo, estamos trabalhando com uma pequena tabela, por isso é fácil visualizar o rótulo de cada coluna.

Mas suponha que você tenha que trabalhar com uma tabela com 100 colunas. Veja que agora fica um pouco mais difícil de ver o nome de todas elas.

Para facilitar essa visualização, existe o método

<br/>

``` python
.columns
```
<br/>

Verifique o rótulo das colunas da tabela *napoleão* usando o método *.columns* na célula abaixo:

A tabela a seguir é a projeção da população brasileira por grupo etário de 2010 a 2060 disponível no site do [IBGE](https://www.ibge.gov.br/estatisticas/sociais/populacao/9109-projecao-da-populacao.html?=&t=resultados):

[https://raw.githubusercontent.com/nightlySnoopy/database/main/projections.csv](https://raw.githubusercontent.com/nightlySnoopy/database/main/projections.csv)

faça o download dessa tabela e associe ao nome *proj*. Visualize essa tabela.

Verifique os rótulos dessa tabela

### Visualizando os Valores Das Colunas

É possível acontecer de querermos analisar apenas 1 coluna ou algumas colunas em particular de uma tabela. Para isso:

1. Digitaremos o nome da tabela;
2. Entre colchetes, colocaremos uma <ins>lista</ins> com os nomes das colunas de interesse

> Lista é uma estrutura de dados em que os valores ficam entre colchetes:

<br/>

``` python
lista1 = [1, 'casa', 2.5, True]
```
<br/>

Por exemplo, a tabela de napoleão tem a coluna **City**. Se quisermos ver apenas essa coluna:

<br/>

``` python
napoleão[ ['City'] ]
```
<br/>

Execute a declaração acima na célula abaixo:

Caso quiséssemos ver a cidade, a longitude e a latitude:

<br/>

``` python
napoleão[ ['City', 'Longitude', 'Latitude'] ]
```
<br/>

Execute a declaração acima na célula abaixo:

Observe que a ordem em que colocamos na lista é a ordem em que será mostrada a subtabela.

Perceba que os procedimentos que executamos (e muitos outros que ainda iremos executar) <ins>**não alteraram a tabela original**</ins>. Na célula abaixo veja como está a tabela *napoleão*.

### Excluindo Colunas

Para excluir colunas, utilizamos o método
<br/>

``` python
.drop( )
```
 <br/>

cujo principal parâmetro que utilizaremos é *columns=*. A esse argumento iremos fornecer uma lista com o nome das colunas que desejamos eliminar. Caso seja apenas 1 coluna não há necessidade de inseri-la numa lista.

Assim, suponha que queiramos eliminar a coluna **Direction** (Direção) da tabela *napoleão*. Para isso, basta executar

<br/>

``` python
napoleão.drop(columns=['Direction'])
```
<br/>

Execute a declaração acima na célula abaixo:

Suponha que queiramos eliminar as colunas **Longitude** e **Latitude**. Na célula abaixo, digite e execute a declaração para isso:

Veja que coisa interessante! A coluna **Direction** voltou!

Conforme já dissemos, de forma geral, as declarações, funções e métodos não alteram os dados originais: eles nos apresentam uma **cópia dos dados com as modificações realizadas**.

Assim se quisermos salvar essas modificações, temos 2 opções:

1. Salvar a tabela modificada com outro nome (**recomendado**);
2. Atualizar a tabela com essas modificações (**menos recomendado**)

Uma prática muito comum em análise de dados é, a cada modificação feita numa tabela, salvar essa nova tabela com outro nome. O motivo para isso é evitar que os dados sejam perdidos caso façamos alguma manipulação errada com eles.

Com base nisso, atribua ao nome **napoleão2** a tabela napoleão sem a coluna **Direction**

Verifique na célula abaixo como está a tabela **napoleão**.

Atualize a tabela *napoleão* excluindo as colunas <ins>**Longitude, Latitude,** e **Direction**</ins>. Em seguida, visualize a tabela.