## **Aula 8** - Biblioteca Pandas
**Objetivo**: Apresentar a biblioteca pandas, importação de dados, DataFrame e funções aritméticas.

Fonte: Adaptado de [Storopoli/2020](https://github.com/storopoli/ciencia-de-dados/blob/master/notebooks/Aula_7_pandas.ipynb)
<p align="center" style="text-align: center;">
    <img src="introducao.jpg" />
</p>

## Conceito
* A biblioteca Pandas é uma das ferramentas preferidas para análise e manipulação de dados.
* As estruturas de dados são rápidas e flexíveis, tornando fácil a análise dos dados.

Dados: https://drive.google.com/file/d/1qVWR5SpbUoIIkUEA3GfhTa0o-JP9fw_G/view?usp=sharing

## Dados Tabulares

* Primeira linha: Cabeçalho (*Header*)
* Cada coluna: uma variável
* Cada linha: uma observação
* Cada Tabela/arquivo: um nível de observação

![dados-tabulares](https://miro.medium.com/max/3840/1*7jjzhy4KknPz9hJVnC_w7w.png)

## Documentação do `pandas`

+ https://pandas.pydata.org/pandas-docs/stable/

## Elementos do `pandas`

* *DataFrame*: Tabela Retangular de Dados
    - Conjunto de *Series*
    - Todas compartilhando o mesmo índice (*index*)
* *Series*: Coluna do *DataFrame*
    - *arrays* em 1-D
    - Composta por:
        - Sequência de Valores
            - *numeric*
            - *string*
            - *bool*
        - Sequencia de *index*

| Pandas dtype    | Python type    | NumPy type                                | Uso                                                   |
|-----------------|----------------|-------------------------------------------|-------------------------------------------------------|
| object        | `str` ou misto | *string_*, *unicode_*, misto              | Texto ou misto de valores `numeric` and `non-numeric` |
| int64         | `int`          | *int_*, `int8`, `int16`, `int32`, `int64` | Número Inteiros                                       |
| float64       | `float`        | *float_*, `float16`, `float32`, `float64` | Número Reais                                          |
| bool          | `bool`         | `bool`                                    | Verdadeiro ou Falso                                   |
| datetime64    | NA             | `datetime64[ns]`                          | Data e Hora                                           |
| timedelta[ns] | NA             | NA                                        | Diferença entre duas `datetimes`                      |
| category      | NA             | NA                                        | Lista Finita de Valores em Texto                      |

## Importando Dados no `pandas`

| Formato   | Input                 | Output            | Observação                     |
| --------- | --------------------- | ----------------- | ------------------------------ |
| CSV       | `pd.read_csv()`       | `.to_csv()`       | arquivo Texto                  |
| XLS/XLSX  | `pd.read_excel()`     | `.to_excel()`     | Planilha                       |
| HDF       | `pd.read_hdf`()       | `.to_hdf()`       | HDF5 database                  |
| SQL       | `pd.read_sql()`       | `.to_sql()`       | SQL table                      |
| JSON      | `pd.read_json()`      | `.to_json()`      | JavaScript Object Notation     |
| MSGPACK   | `pd.read_msgpack()`   | `.to_msgpack()`   | Portable binary format         |
| HTML      | `pd.read_html()`      | `.to_html()`      | código HTML                    |
| GBQ       | `pd.read_gbq()`       | `.to_gbq()`       | Google Big Query format        |
| DTA       | `pd.read_stata()`     | `.to_stata()`     | Stata                          |
| Qualquer  | `pd.read_clipboard()` | `.to_clipboard()` | Ex., de pág HTML               |
| Qualquer  | `pd.read_pickle()`    | `.to_pickle()`    | (Structured) Python object     |

## Importando `CSV`

Se atentar com os seguintes argumentos de [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):

* Caminho (`path`)
* `sep`: `','`, para europeu/brasileiro use `';'`
* `decimal`: `'.'`, para europeu/brasileiro use `','`
* `header`: `pandas` tenta adivinhar
* `index_col`: `None`, mas pode ser uma coluna do arquivo (ex: 2ª coluna use `index_col=2`)
* `names`: `None`, mas pode ser uma lista dos nomes das variáveis (colunas)
* `skip_rows`: `None` (pular linhas)
* `na_values`: `None`, mas pode ser qualquer string (ex: `'NA'`)
* `thousands`: `None` mas pode ser `','` ou `'.'`
* `encoding`
    - `'utf8'`: padrão
    - `'latin1'`: ç à é î ã

## Exportando dados

* `CSV`: [`.to_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
* `Excel`: [`.to_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

# Pandas é Vida!!!!!!
## Conceito
* A biblioteca Pandas é uma das ferramentas preferidas para análise e manipulação de dados.
* As estruturas de dados são rápidas e flexíveis, tornando fácil a análise dos dados.


In [1]:
import pandas as pd

In [3]:
# O resultado de um conjunto de dados
# com Pandas é um DataFrame

In [5]:
# 1: carregamos a biblioteca
# 2: carregamos os dados para uma variável
# 3: Verificamos alguns dados dentro do DataFrame

In [6]:
import pandas as pd # carregando a biblioteca

In [7]:
# 2: carregamos os dados para uma variável
dataset = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# df é uma abreviação para DataFrame
df = pd.read_csv(dataset)


In [8]:
# Obtendo informações sobre o conjunto de dados
df.head() # são as primeira linhas dos dados

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [9]:
# Quantas variáveis e seus tipos existem?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [10]:
import pandas as pd
dataset = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(dataset)

In [11]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [12]:
# Quantas variáveis e seus tipos existem?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
# Quantos abservações tem nesse conjunto?
df.shape

(891, 12)

In [14]:
# Vamos ver as colunas isoladamente
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [17]:
# Vamos ver as estatísticas dos dados
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [18]:
df.describe

<bound method NDFrame.describe of      PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0              1         0       3  ...   7.2500   NaN         S
1              2         1       1  ...  71.2833   C85         C
2              3         1       3  ...   7.9250   NaN         S
3              4         1       1  ...  53.1000  C123         S
4              5         0       3  ...   8.0500   NaN         S
..           ...       ...     ...  ...      ...   ...       ...
886          887         0       2  ...  13.0000   NaN         S
887          888         1       1  ...  30.0000   B42         S
888          889         0       3  ...  23.4500   NaN         S
889          890         1       1  ...  30.0000  C148         C
890          891         0       3  ...   7.7500   NaN         Q

[891 rows x 12 columns]>

In [19]:
df.index

RangeIndex(start=0, stop=891, step=1)

In [20]:
# Definir o PassengerId como índice
df.set_index('PassengerId', inplace=True)
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [21]:
# Consultando dados....
# loc()
# Quem é o primeiro passageiro?
df.loc[1]

Survived                          0
Pclass                            3
Name        Braund, Mr. Owen Harris
Sex                            male
Age                              22
SibSp                             1
Parch                             0
Ticket                    A/5 21171
Fare                           7.25
Cabin                           NaN
Embarked                          S
Name: 1, dtype: object

In [22]:
# Quem são os três primeiros?
df.loc[[1,2,3]]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [24]:
# Vamos ser mais específicos com os dados (detalhes)
# Vamos ver o "nome, sexo, idade" dos três primeiros (filtro)
df.loc[[1,2,3], ['Name', 'Sex', 'Age']]

Unnamed: 0_level_0,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,"Braund, Mr. Owen Harris",male,22.0
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,"Heikkinen, Miss. Laina",female,26.0


In [26]:
# Qual a média de idade entre os cinco primeiros passageiros?
df.loc[[1,2,3,4,5], ['Name', 'Sex', 'Age']].mean()

Age    31.2
dtype: float64

In [28]:
df.loc[0:10, ['Name', 'Sex', 'Age']]

Unnamed: 0_level_0,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,"Braund, Mr. Owen Harris",male,22.0
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,"Heikkinen, Miss. Laina",female,26.0
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,"Allen, Mr. William Henry",male,35.0
6,"Moran, Mr. James",male,
7,"McCarthy, Mr. Timothy J",male,54.0
8,"Palsson, Master. Gosta Leonard",male,2.0
9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0
10,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0


In [32]:
# Está legal, mas vai ficar mais legal!!!!!
# Consultando dados....
df.query('Age > 20').head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [33]:
df.query('Age > 20 & Sex=="male"').head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S


In [34]:
# Vamos praticar
# Mostrar apenas as mulheres (qtd) que sobreviveram e são maiores de idade (159)
# Mostrar apenas as mulheres (qtd)  que sobreviveram e são menores de idade (38)
# Existia algum passageiro com idade inferior a 10 anos? (64)
# Quantas mulheres estavam na terceira classe? (144)

In [36]:
# Mostrar apenas as mulheres (qtd) que sobreviveram e são maiores de idade
df.query('Age > 17 & Sex=="female" & Survived==1').shape

(159, 11)

In [37]:
# Mostrar apenas as mulheres (qtd) que sobreviveram e são menores de idade
df.query('Age < 18 & Sex=="female" & Survived==1').shape

(38, 11)

In [42]:
# Existia algum passageiro com idade inferior a 10 anos?
df.query('Age < 10').shape

(62, 11)

In [39]:
# Quantas mulheres estavam na terceira classe?
df.query('Sex=="female" & Pclass==3').shape

(144, 11)