<a href="https://colab.research.google.com/github/NelsonSSoares/AulasPython-u9/blob/main/CienciadeDadoa/_aula_sex_m_24092021.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao Pandas

**Objetivos**: Apresentar a biblioteca pandas, importação de dados e DataFrame.

**Documentação Oficial**: [https://pandas.pydata.org/pandas-docs/stable/](https://pandas.pydata.org/pandas-docs/stable/)

# Dados Tabulares

* Primeira linha: Cabeçalho (**Header**)
* Cada coluna: uma variável (**Variable**)
* Cada linha: uma observação (**Observation**)
* Cada tabela (arquivo): um nível de observação (**Level**)

![dados-tabulares](https://github.com/storopoli/ciencia-de-dados/raw/43404ae05468c2985b19a92fe97bd05da1418d93/notebooks/images/dados-tabulares.png)

# Elementos do Pandas

* DataFrame: Tabela de dados
    * Conjunto de *Series*
    * Todas compartilhando do mesmo índice (*index*)

* Series: Coluna do DataFrame
    * *arrays* em 1-D
    * Composta por:
        * Sequência de valores
            * *numeric*
            * *string*
            * *bool*
        * Sequência de *index*

![series](https://camo.githubusercontent.com/9b477fd8465dd28bd62e464d871af5339b68f0ac/68747470733a2f2f6d656469612e6765656b73666f726765656b732e6f72672f77702d636f6e74656e742f75706c6f6164732f32303230303232353137303530362f70616e6461732d7365726965732e706e67)

![pandas](https://raw.githubusercontent.com/storopoli/ciencia-de-dados/43404ae05468c2985b19a92fe97bd05da1418d93/notebooks/images/pandas-df.svg)



# Tipos de Dados

| Pandas dtype    | Python type    | NumPy type                                | Uso                                                   |
|-----------------|----------------|-------------------------------------------|-------------------------------------------------------|
| `object`        | `str` ou misto | *string_*, *unicode_*, misto              | Texto ou misto de valores `numeric` and `non-numeric` |
| `int64`         | `int`          | *int_*, `int8`, `int16`, `int32`, `int64` | Número Inteiros                                       |
| `float64`       | `float`        | *float_*, `float16`, `float32`, `float64` | Número Reais                                          |
| `bool`          | `bool`         | `bool`                                    | Verdadeiro ou Falso                                   |
| `datetime64`    | NA             | `datetime64[ns]`                          | Data e Hora                                           |
| `timedelta[ns]` | NA             | NA                                        | Diferença entre duas `datetimes`                      |
| `category`      | NA             | NA                                        | Lista Finita de Valores em Texto                      |

# Importação da biblioteca

`import pandas as pd`

Observação: `as pd` significa atribuir um **apelido** para a biblioteca. Neste caso, `pd` é o apelido e vem depois da palavra `as`.

In [None]:
import pandas as pd

# Importação de dados

![i-o](https://github.com/storopoli/ciencia-de-dados/raw/43404ae05468c2985b19a92fe97bd05da1418d93/notebooks/images/pandas-io.svg)


| Formato   | Input                 | Output            | Observação                     |
| --------- | --------------------- | ----------------- | ------------------------------ |
| CSV       | `pd.read_csv()`       | `.to_csv()`       | Arquivo Texto CSV, TSV, etc    |
| XLS/XLSX  | `pd.read_excel()`     | `.to_excel()`     | Planilha                       |
| HDF       | `pd.read_hdf()`       | `.to_hdf()`       | HDF5 database                  |
| SQL       | `pd.read_sql()`       | `.to_sql()`       | SQL table                      |
| JSON      | `pd.read_json()`      | `.to_json()`      | JavaScript Object Notation     |
| MSGPACK   | `pd.read_msgpack()`   | `.to_msgpack()`   | Portable binary format         |
| HTML      | `pd.read_html()`      | `.to_html()`      | código HTML                    |
| GBQ       | `pd.read_gbq()`       | `.to_gbq()`       | Google Big Query format        |
| DTA       | `pd.read_stata()`     | `.to_stata()`     | Stata                          |
| Parquet   | `pd.read_parquet()`   | `.to_parquet()`   | Apache Parquet                 |
| Feather   | `pd.read_feather()`   | `.to_feather()`   | Apache Arrow                   |
| Qualquer  | `pd.read_clipboard()` | `.to_clipboard()` | Ex., de pág HTML               |
| Qualquer  | `pd.read_pickle()`    | `.to_pickle()`    | (Structured) Python object     |

# Importando arquivos CSV (dados separados por vírgulas)

Se atentar com os seguintes argumentos de [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):

* Caminho (`path`)
* `sep`: `','`, para europeu/brasileiro use `';'`
* `decimal`: `'.'`, para europeu/brasileiro use `','`
* `header`: `pandas` tenta adivinhar
* `index_col`: `None`, mas pode ser uma coluna do arquivo (ex: 2ª coluna use `index_col=2`)
* `names`: `None`, mas pode ser uma lista dos nomes das variáveis (colunas)
* `skip_rows`: `None` (pular linhas)
* `na_values`: `None`, mas pode ser qualquer string (ex: `'NA'`)
* `thousands`: `None` mas pode ser `','` ou `'.'`
* `encoding`
    - `'utf8'`: padrão
    - `'latin1'`: ç à é î ã

## Importando Planilhas `Excel`

Se atentar com os seguintes argumentos de [`pd.read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html):
* Caminho (`path`)
* `sheet_name`: `0`, mas pode ser qualquer `string` ou `int`
    - `sheet_name=0`: Primeira aba da planilha
    - `sheet_name=2`: Terceira aba da planilha
    - `sheet_name='Plan1'`: Primeira aba da planilha
    - `sheet_name='nome_que_usuário_colocou'`

___
# Praticando...

## Carregando um `dataset`

In [None]:
df_exemplo = pd.read_csv('/content/dataset_exemplo.csv', sep=',')

## Mostrando os dados do DataFrame

* `head()` - mostra as cinco primiras linhas
* `head(n_linhas)` - mostra as `n_linhas` informadas

In [None]:
df_exemplo.head()

Unnamed: 0,ra,nome,av1,av2
0,123,Edson,4.5,8.5
1,321,Patinhas,5.5,9.0
2,159,Donald,7.7,7.8
3,753,Maria,6.5,6.5
4,789,José,9.5,10.0


In [None]:
df_exemplo.head(2)

Unnamed: 0,ra,nome,av1,av2
0,123,Edson,4.5,8.5
1,321,Patinhas,5.5,9.0


In [None]:
# Mostra o final do arquivo: tail() - mostra os cinco útlimos
df_exemplo.tail(2)

Unnamed: 0,ra,nome,av1,av2
3,753,Maria,6.5,6.5
4,789,José,9.5,10.0


## Quantos registros?

* `.shape`
    * (`linhas`, `colunas`)
* Os elementos podem ser acessados como listas:
    * `.shape[indice]`

In [None]:
df_exemplo.shape

(5, 4)

In [None]:
df_exemplo.shape[1]

4

## Mas de que tipos são os dados?
`.info()`

In [None]:
df_exemplo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ra      5 non-null      int64  
 1   nome    5 non-null      object 
 2   av1     5 non-null      float64
 3   av2     5 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 288.0+ bytes


## Obtendo dados estatísticos sobre o DataFrame

* `.describe()`

In [None]:
###

In [None]:
###