## **Introdução a Pandas**

- [Pandas](https://pandas.pydata.org/) é uma ferramenta *open source* contruída em cima do python, para manipular com dados de forma rápida, poderosa, flexível e fácil.

- Seu nome vem de uma brincadeira com a frase *Python data analysis*.

- Esse projeto foi criado por um pesquisador (Wes McKinney) enquanto ele trabalhava na [AQR Capital](https://www.aqr.com/) (Uma empresa de investimentos).


- [Pandas vs Outras ferramentas](https://pandas.pydata.org/docs/getting_started/comparison/index.html).

- [Documentação - versão - 1.3.4 em PDF](https://pandas.pydata.org/pandas-docs/version/1.3.4/pandas.pdf).

---

[Começando com o Pandas](https://pandas.pydata.org/docs/getting_started/index.html)

Exemplo por Wes McKinney de como utilizar a ferramenta/biblioteca/projeto/API: [Vídeo](https://www.youtube.com/watch?v=_T8LGqJtuGc) 

In [1]:
from time import time

import numpy as np
import pandas as pd
from IPython.display import display

# **Objeto DataFrame**

<center><img src="figures/dataframe.png" align="center" width=220/></center>


In [2]:
tabela = [[2,2,3],
           [7,5,1],
           [9,3,4]]

df = pd.DataFrame(tabela)
display(df)

Unnamed: 0,0,1,2
0,2,2,3
1,7,5,1
2,9,3,4


In [3]:
tabela = {"limao":[1,2,3], 
          "feijao":[5,8,0],
          "batata":[7,6,9]}

df = pd.DataFrame(tabela)
display(df)

Unnamed: 0,limao,feijao,batata
0,1,5,7
1,2,8,6
2,3,0,9


In [4]:
tabela = [[2,2,3],
           [7,5,1],
           [9,3,4]]

df = pd.DataFrame(tabela, columns=["a", "b", "c"], index=["00", "01", "10"])
display(df)

Unnamed: 0,a,b,c
0,2,2,3
1,7,5,1
10,9,3,4


# **Objeto Series**

<center><img src="figures/series.png" align="center" width=100/></center>

In [5]:
a = [1,2,3,4]

pd.Series(a)

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
b = {1:1,2:2,3:7,9:4}

pd.Series(b)

1    1
2    2
3    7
9    4
dtype: int64

<font color="orange">**LEMBRAR!**</font>
> - Para importar o pacote utilize - import pandas as pd
> - Uma tabela de dados é denominada DataFrame
>  - Cada coluna em um DataFrame é denominada Series
>  - DataFrame e Series são os principais **OBJETOS** da biblioteca.
  

## **Formatos de leitura e escrita** 

<center><img src="figures/read_dataframe_formats.png" align="center" width=550/></center>

In [7]:
df = pd.read_csv("data/data_sample2.csv")
df

Unnamed: 0,5,7,3,4
0,5,6,7,8
1,8,10,11,24


Kaggle dataset: [Open food Facts](https://www.kaggle.com/openfoodfacts/world-food-facts/data)

O formato salvo impacta na performance do arquivo. Como podemos ver a seguir:

In [8]:
from time import time

tick = time()
df = pd.read_csv("data/en.openfoodfacts.org.products.tsv", sep="\t", low_memory=False)
tock = time()
print(tock - tick)

9.412795066833496


In [9]:
tick = time()
df = pd.read_parquet("data/en.openfoodfacts.org.products.parquet")
tock = time()
print(tock - tick)

1.9434428215026855


Vamos entender mais sobre isso nas próximas aulas.

## **Explicando os tipos de dados**

| Pandas dtype   | Python type   | NumPy type   | Usage  |
|---|---|---|---|
| object     | str or mixed  | string_, unicode_, mixed types   |  Text or mixed numeric and non-numeric values |
| int64      | int |  int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers  |
| float64    | float  | float64 	float 	float_, float16, float32, float64  | Floating point numbers  |
| bool       |  bool |  bool_ |  True/False values |
| datetime64 | --  | datetime64[ns]  | Date and time values |
| timedelta[ns] | --  | NA  | Differences between two datetimes  |
| category   | -- | NA |  Finite list of text values |

--- 
Capacity:

- Int16: (-32,768 to +32,767)

- Int32: (-2,147,483,648 to +2,147,483,647)

- Int64: (-9,223,372,036,854,775,808 to +9,223,372,036,854,775,807)

Suponha que você tem um DataFrame com uma coluna idade:

In [10]:
aux = [np.random.randint(200) for i in range(10000)]
col_idades = pd.DataFrame(aux)
col_idades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int64
dtypes: int64(1)
memory usage: 78.2 KB


Por default o pandas resolveu utilizar int64 para representar essa coluna, isso significa que podemos representar do número ```-9,223,372,036,854,775,808``` ao ```+9,223,372,036,854,775,80```. Entretanto sabemos que não deve ter ninguém com mais de 200 anos de vida atualmente... logo poderíamos utilizar um tipo de dado da coluna mais ótimo como exemplo ```Int16``` que vai de ```-32,768``` a ```+32,767```.

Então vamos dimunir a quantidade de memória utilizada por esse objeto.

In [11]:
col_idades.astype({0:"int16"}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int16
dtypes: int16(1)
memory usage: 19.7 KB


Estamos utilizando praticamente 3x menos memória para armazenar o mesmo dado. Então não podemos ir adiante? Sera que não podemos utilizar o int8 para representar essa coluna?

In [12]:
col_idades.astype({0:"int8"}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int8 
dtypes: int8(1)
memory usage: 9.9 KB


Nossa! Ficou ainda melhor.... <font color="orange">Cuidado!!!</font> olhe o que aconteceu com a coluna.

In [13]:
col_idades.astype({0:"int8"}).describe()

Unnamed: 0,0
count,10000.0
mean,6.8871
std,82.045826
min,-128.0
25%,-79.0
50%,27.0
75%,78.0
max,127.0


Está dizendo aqui que o minimo é -128??? mas como assim oq aconteceu??? Vamos lá...


```int8``` significa que temos 8 bits para representar algo... isso significa que temos $2^8 = 256$ combinações. Intuitivamente podemos pensarque o range seria então de 0 a 255. Entretanto, esse tipo de dado no python também considera os negativos, logo a representação correta contém -128 a 127 elementos, conforme o describe mostra. Dizemos que ocorreu overflow ... e queremos evitar isso. Cada caso é um caso escolha o tipo de dado mais coerente para sua aplicação.

## **Descrevendo o DataFrame**

- head $\rightarrow$ mostras as ```n``` primeiras linhas de um DataFrame.
- tail $\rightarrow$ mostras as ```n``` últimas linhas de um DataFrame.
- info $\rightarrow$ mostra quando de memória o DataFrame ocupa.
- astype $\rightarrow$ permite mudar o tipo de dado de uma coluna.
- describe $\rightarrow$ gera estatisticas básicas de um DataFrame.

# **Exercicios** 

1. Leia o arquivo ```exercise_1.csv``` e responda as seguintes questões.

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? 

In [14]:
df = pd.read_csv("data_exercise/exercise1.csv", sep = ";")
# on progress

2. Lei o arquivo ```exercise2.csv``` [Ref](https://dados.gov.br/dataset/cursos-de-graduacao5)

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [15]:
df = pd.read_csv("data_exercise/exercise2.csv", encoding="latin1")
# on progress

3. Lei o arquivo ```exercise3.json``` [Ref](http://landpage-h.cgu.gov.br/dadosabertos/index.php?url=http://repositorio.dados.gov.br/seges/raio-x/cargos-funcoes-perfil.csv)

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [16]:
df = pd.read_json("data_exercise/exercise3.json", orient="records")
# on progress

4. Lei o arquivo ```exercise4.json``` em um pandas DataFrame [Ref](http://landpage-h.cgu.gov.br/dadosabertos/index.php?url=http://repositorio.dados.gov.br/seges/raio-x/cargos-funcoes-perfil.csv)


- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [17]:
df = pd.read_json("data_exercise/exercise4.json", orient="split")
# on progress

5. Crie um DataFrame para cadastro de funcionarios com as colunas nome, idade e sexo baseado em listas e baseado em dicionários. Os dados você pode inventar.


In [18]:
# on progress

6. Leia o arquivo x e salve a cada 100 mil linhas um novo arquivo até o número de linhas da arquivo x terminar

In [19]:
# on progress

Extra:

Você consegue transformar as tabelas do Wikipidia em um DataFrame?

- Dica: Talvez precise instalar algumas bibliotecas extras, como exemplo, lxml, html5lib, bs4 ...

[TABELA](https://en.wikipedia.org/wiki/Minnesota)

In [20]:
dfs_internet = pd.read_html("https://en.wikipedia.org/wiki/Minnesota")

In [21]:
dfs_internet[1].head()

Unnamed: 0_level_0,Minnesota state symbols,Minnesota state symbols
Unnamed: 0_level_1,Living insignia,Living insignia.1
0,Bird,Common loon
1,Butterfly,Monarch
2,Fish,Walleye
3,Flower,Pink-and-white lady's slipper
4,Mushroom,Common morel (Morchella esculenta)


<font color="orange">**LEMBRAR!**</font>
> - csv é um formato bastante comum, fiquem esperto com o separador.
> - Muitas vezes é necessário saber encoding do nosso dado.
> - Independente do formato (json, ..., html) precisa ser uma tabela para transformar em um DataFrame. 

## **Onde posso aprender mais?** 



[Comnuidade Pandas](https://pandas.pydata.org/docs/getting_started/tutorials.html). Aqui tem livros, palestras, tutoriais entre outros.

Livro indicado pela própria biblioteca:
<center><img src="figures/livro_pandas.png" align="center" width=100/></center>

Youtube:

- <font color="orange">(Avançado)</font>: [Pandas by Matt Harrison](https://www.youtube.com/watch?v=UURvPeczxJI&t=3395s) - 19 de agosto de 2021
