## **Introdução a Pandas**

- [Pandas](https://pandas.pydata.org/) é uma ferramenta *open source* contruída em cima do python, para manipular com dados de forma rápida, poderosa, flexível e fácil.

- Seu nome vem de uma brincadeira com a frase *Python data analysis*.

- Esse projeto foi criado por um pesquisador (Wes McKinney) enquanto ele trabalhava na [AQR Capital](https://www.aqr.com/) (Uma empresa de investimentos).


- [Pandas vs Outras ferramentas](https://pandas.pydata.org/docs/getting_started/comparison/index.html).

- [Documentação - versão - 1.3.4 em PDF](https://pandas.pydata.org/pandas-docs/version/1.3.4/pandas.pdf).

---

[Começando com o Pandas](https://pandas.pydata.org/docs/getting_started/index.html)

Exemplo por Wes McKinney de como utilizar a ferramenta/biblioteca/projeto/API: [Vídeo](https://www.youtube.com/watch?v=_T8LGqJtuGc) 

In [1]:
import numpy as np
import pandas as pd

from time import time

from IPython.display import display

## **Objeto DataFrame**

<center><img src="figures/dataframe.png" align="center" width=220/></center>


In [2]:
tabela = [[2,2,3],
           [7,5,1],
           [9,3,4]]

df = pd.DataFrame(tabela)
display(df)

Unnamed: 0,0,1,2
0,2,2,3
1,7,5,1
2,9,3,4


In [3]:
tabela = {"limao":[1,2,3], 
          "feijao":[5,8,0],
          "batata":[7,6,9]}

df = pd.DataFrame(tabela)
display(df)

Unnamed: 0,limao,feijao,batata
0,1,5,7
1,2,8,6
2,3,0,9


In [4]:
tabela = [[2,2,3],
           [7,5,1],
           [9,3,4]]

df = pd.DataFrame(tabela, columns=["a", "b", "c"], index=["00", "01", "10"])
display(df)

Unnamed: 0,a,b,c
0,2,2,3
1,7,5,1
10,9,3,4


## **Objeto Series**

<center><img src="figures/series.png" align="center" width=100/></center>

In [5]:
a = [1,2,3,4]

pd.Series(a)

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
b = {1:1,2:2,3:7,9:4}

pd.Series(b)

1    1
2    2
3    7
9    4
dtype: int64

<font color="orange">**LEMBRAR!**</font>
> - Para importar o pacote utilize - import pandas as pd
> - Uma tabela de dados é denominada DataFrame
>  - Cada coluna em um DataFrame é denominada Series
>  - DataFrame e Series são os principais **OBJETOS** da biblioteca.
  

## **Explicando os tipos de dados**

| Pandas dtype   | Python type   | NumPy type   | Usage  |
|---|---|---|---|
| object     | str or mixed  | string_, unicode_, mixed types   |  Text or mixed numeric and non-numeric values |
| int64      | int |  int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers  |
| float64    | float  | float64 	float 	float_, float16, float32, float64  | Floating point numbers  |
| bool       |  bool |  bool_ |  True/False values |
| datetime64 | --  | datetime64[ns]  | Date and time values |
| timedelta[ns] | --  | NA  | Differences between two datetimes  |
| category   | -- | NA |  Finite list of text values |

--- 
Capacity:

- Int16: (-32,768 to +32,767)

- Int32: (-2,147,483,648 to +2,147,483,647)

- Int64: (-9,223,372,036,854,775,808 to +9,223,372,036,854,775,807)

Suponha que você tem um DataFrame com uma coluna idade:

In [7]:
aux = [np.random.randint(200) for i in range(10000)]
col_idades = pd.DataFrame(aux)
col_idades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int64
dtypes: int64(1)
memory usage: 78.2 KB


Por *default* o pandas resolveu utilizar o tipo de dado ```int64``` para representar essa coluna, isso significa que podemos representar do número ```-9,223,372,036,854,775,808``` ao ```+9,223,372,036,854,775,80```.

Entretanto sabemos que não deve ter ninguém com mais de 200 anos de vida atualmente, logo não precisamos conseguir representar todos esses número. Dessa forma, podemos utilizar um tipo de dado mais coerente como exemplo ```Int16``` que vai de ```-32,768``` a ```+32,767```, dimunindo a quantidade de memória utilizada por esse objeto.

In [8]:
col_idades.astype({0:"int16"}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int16
dtypes: int16(1)
memory usage: 19.7 KB


Estamos utilizando praticamente 3x menos memória para armazenar o mesmo dado. Então não podemos ir adiante? Sera que não podemos utilizar o int8 para representar essa coluna?

In [9]:
col_idades.astype({0:"int8"}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       10000 non-null  int8 
dtypes: int8(1)
memory usage: 9.9 KB


Nossa! Ficou ainda melhor.... <font color="orange"><b>Cuidado!!!</b></font> olhe o que aconteceu com a coluna.

In [10]:
col_idades.astype({0:"int8"}).describe()

Unnamed: 0,0
count,10000.0
mean,7.3204
std,81.765403
min,-128.0
25%,-79.0
50%,28.0
75%,77.0
max,127.0


Está dizendo aqui que o minimo é -128??? mas como assim oq aconteceu??? Vamos lá...


```int8``` significa que temos 8 bits, isso significa que temos $2^8 = 256$ números que podem ser representados.

Intuitivamente podemos pensar que o range seria então de 0 a 255. 

Entretanto, o tipo de dado ```int8``` no python também considera os negativos, logo a representação correta é de -128 a 127, conforme a função describe nos mostra. 

Dizemos que ocorreu overflow... e queremos evitar isso. Cada caso é um caso escolha o tipo de dado mais coerente para sua aplicação.

## **Formatos de leitura e escrita** 

<center><img src="figures/read_dataframe_formats.png" align="center" width=550/></center>

In [11]:
df = pd.read_csv("data/data_sample2.csv")
df

Unnamed: 0,5,7,3,4
0,5,6,7,8
1,8,10,11,24


Kaggle dataset: [Open food Facts](https://www.kaggle.com/openfoodfacts/world-food-facts/data)

O formato salvo impacta na performance do arquivo. Como podemos ver a seguir:

In [12]:
from time import time

tick = time()
df = pd.read_csv("data/en.openfoodfacts.org.products.tsv", sep="\t", low_memory=False)
tock = time()
print(tock - tick)

9.848143577575684


In [13]:
tick = time()
df = pd.read_parquet("data/en.openfoodfacts.org.products.parquet")
tock = time()
print(tock - tick)

1.9781653881072998


Vamos entender mais sobre isso nas próximas aulas.

## **Descrevendo o DataFrame**

- head 
- tail 
- info
- astype
- describe

In [14]:
# mostras as ```n``` primeiras linhas de um DataFrame.
df.head(1)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
0,3087,http://world-en.openfoodfacts.org/product/0000...,openfoodfacts-contributors,1474103866,2016-09-17T09:17:46Z,1474103893,2016-09-17T09:18:13Z,Farine de blé noir,,1kg,...,,,,,,,,,,


In [15]:
# mostras as ```n``` últimas linhas de um DataFrame.
df.tail(1)

Unnamed: 0,code,url,creator,created_t,created_datetime,last_modified_t,last_modified_datetime,product_name,generic_name,quantity,...,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
356026,999990026839,http://world-en.openfoodfacts.org/product/9999...,usda-ndb-import,1489072709,2017-03-09T15:18:29Z,1491244499,2017-04-03T18:34:59Z,"Sugar Free Drink Mix, Peach Tea",,,...,,,,,,,,,,


In [16]:
# Retorna algumas informações, dentre elas a quantidade de memória que é ocupado no DataFrame.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 356027 entries, 0 to 356026
Columns: 163 entries, code to water-hardness_100g
dtypes: float64(107), object(56)
memory usage: 442.8+ MB


In [17]:
# Retorna estatisticas básicas do DataFrame.
df.describe()

Unnamed: 0,no_nutriments,additives_n,ingredients_from_palm_oil_n,ingredients_from_palm_oil,ingredients_that_may_be_from_palm_oil_n,ingredients_that_may_be_from_palm_oil,nutrition_grade_uk,energy_100g,energy-from-fat_100g,fat_100g,...,fruits-vegetables-nuts_100g,fruits-vegetables-nuts-estimate_100g,collagen-meat-protein-ratio_100g,cocoa_100g,chlorophyl_100g,carbon-footprint_100g,nutrition-score-fr_100g,nutrition-score-uk_100g,glycemic-index_100g,water-hardness_100g
count,0.0,283867.0,283867.0,0.0,283867.0,0.0,0.0,295367.0,869.0,279497.0,...,3228.0,404.0,182.0,1383.0,0.0,278.0,254856.0,254856.0,0.0,0.0
mean,,1.876851,0.02343,,0.059736,,,1125.45332,587.216617,56065.87,...,33.39268,60.360124,15.362637,52.102675,,335.790664,9.166137,8.980656,,
std,,2.501022,0.153094,,0.28066,,,936.825952,713.255708,29633850.0,...,32.906834,29.26235,3.692658,19.028361,,423.244817,8.99987,9.151757,,
min,,0.0,0.0,,0.0,,,0.0,0.0,0.0,...,0.0,0.0,8.0,6.0,,0.0,-15.0,-15.0,,
25%,,0.0,0.0,,0.0,,,382.0,49.4,0.1,...,0.0,45.0,12.0,33.0,,82.65,1.0,1.0,,
50%,,1.0,0.0,,0.0,,,1092.0,300.0,5.29,...,25.0,58.0,15.0,52.0,,190.95,10.0,9.0,,
75%,,3.0,0.0,,0.0,,,1674.0,900.0,20.0,...,55.0,93.0,15.0,70.0,,378.7,16.0,16.0,,
max,,30.0,2.0,,6.0,,,231199.0,3830.0,15666670000.0,...,100.0,100.0,25.0,100.0,,2842.0,40.0,40.0,,


# **Exercicios** 

1. Leia o arquivo ```exercise_1.csv``` e responda as seguintes questões.

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? 

In [18]:
df = pd.read_csv("data_exercise/exercise1.csv", sep = ";")
# on progress

qtd_rows, qtd_columns = df.shape
print(f"Quantidade de linhas desse DataFrame é {qtd_rows}")
print("Segue os Tipos de dados de cada coluna.")
print(df.dtypes)
print("Quantidade de memória ocupada pelo DataFrame.")
print(df.info())

Quantidade de linhas desse DataFrame é 10000
Segue os Tipos de dados de cada coluna.
0    float64
1    float64
dtype: object
Quantidade de memória ocupada pelo DataFrame.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       10000 non-null  float64
 1   1       10000 non-null  float64
dtypes: float64(2)
memory usage: 156.4 KB
None


2. Lei o arquivo ```exercise2.csv``` [Ref](https://dados.gov.br/dataset/cursos-de-graduacao5)

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [19]:
df = pd.read_csv("data_exercise/exercise2.csv", encoding="latin1")

qtd_rows, qtd_columns = df.shape
print(f"Quantidade de linhas desse DataFrame é {qtd_rows}")
print("Segue os Tipos de dados de cada coluna.")
print(df.dtypes)
print("Quantidade de memória ocupada pelo DataFrame.")
print(df.info())
print("A quantidade de memória utilizada depende da aplicação.")

Quantidade de linhas desse DataFrame é 166
Segue os Tipos de dados de cada coluna.
IDCURSO                    int64
NOMEDIPLOMA               object
MODALIDADE                object
LOCALIDADE                object
IDLOCALIDADEPRINCIPAL      int64
GRAU                      object
GRAU_IDGRAU                int64
STATUS                    object
IDTURNO                  float64
TURNO                     object
DATAVIGENCIA              object
DURACAO                    int64
TITULACAO                 object
RECONHECIMENTO            object
ATOADMINISTRATIVO         object
DATARECONHECIMENTO        object
DATADIARIOOFICIAL         object
UNIDADE_IDUNIDADE          int64
IDORGAO                    int64
DESCRICAO                 object
SIGLA                     object
CODIGOEMEC                 int64
dtype: object
Quantidade de memória ocupada pelo DataFrame.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 166 entries, 0 to 165
Data columns (total 22 columns):
 #   Column               

3. Lei o arquivo ```exercise3.json``` [Ref](http://landpage-h.cgu.gov.br/dadosabertos/index.php?url=http://repositorio.dados.gov.br/seges/raio-x/cargos-funcoes-perfil.csv)

- Quantas linhas e colunas ele tem? 

- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [20]:
df = pd.read_json("data_exercise/exercise3.json", orient="records")

qtd_rows, qtd_columns = df.shape
print(f"Quantidade de linhas desse DataFrame é {qtd_rows}")
print("Segue os Tipos de dados de cada coluna.")
print(df.dtypes)
print("Quantidade de memória ocupada pelo DataFrame.")
print(df.info())
print("A quantidade de memória utilizada depende da aplicação.")

Quantidade de linhas desse DataFrame é 37356
Segue os Tipos de dados de cada coluna.
orgao_superior_codigo_siorg     int64
orgao_superior_nome            object
orgao_superior_sigla           object
orgao_codigo_siorg              int64
orgao_nome                     object
orgao_sigla                    object
orgao_como_no_raiox_nome       object
orgao_como_no_raiox_sigla      object
ano_mes_referencia              int64
sigla_codigo_cargo_comissao    object
denominacao_cargo_comissao     object
sexo                           object
faixa_etaria                   object
escolaridade                   object
regime_juridico                object
situacao_vinculo_servidor      object
possui_vinculo                 object
quantidade                      int64
dtype: object
Quantidade de memória ocupada pelo DataFrame.
<class 'pandas.core.frame.DataFrame'>
Int64Index: 37356 entries, 0 to 37355
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype 
---  

4. Lei o arquivo ```exercise4.json``` em um pandas DataFrame [Ref](http://landpage-h.cgu.gov.br/dadosabertos/index.php?url=http://repositorio.dados.gov.br/seges/raio-x/cargos-funcoes-perfil.csv)


- Quais são os tipos de dados de cada coluna? 

- Quanto ocupa esse objeto em memória? Você acha que precisa de tudo isso?

In [21]:
df = pd.read_json("data_exercise/exercise4.json", orient="split")
qtd_rows, qtd_columns = df.shape
print(f"Quantidade de linhas desse DataFrame é {qtd_rows}")
print("Segue os Tipos de dados de cada coluna.")
print(df.dtypes)
print("Quantidade de memória ocupada pelo DataFrame.")
print(df.info())
print("A quantidade de memória utilizada depende da aplicação.")

Quantidade de linhas desse DataFrame é 37356
Segue os Tipos de dados de cada coluna.
orgao_superior_codigo_siorg     int64
orgao_superior_nome            object
orgao_superior_sigla           object
orgao_codigo_siorg              int64
orgao_nome                     object
orgao_sigla                    object
orgao_como_no_raiox_nome       object
orgao_como_no_raiox_sigla      object
ano_mes_referencia              int64
sigla_codigo_cargo_comissao    object
denominacao_cargo_comissao     object
sexo                           object
faixa_etaria                   object
escolaridade                   object
regime_juridico                object
situacao_vinculo_servidor      object
possui_vinculo                 object
quantidade                      int64
dtype: object
Quantidade de memória ocupada pelo DataFrame.
<class 'pandas.core.frame.DataFrame'>
Int64Index: 37356 entries, 0 to 37355
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype 
---  

5. Crie um DataFrame para cadastro de funcionarios com as colunas nome, idade e sexo baseado em listas e baseado em dicionários. Os dados você pode inventar.


In [22]:
# baseado em lista
columns = ["nome", "idade", "sexo"]
data = [["Rodrigo", 25, "M"],
        ["Isabela", 22, "F"],
        ["Samuel", 19, "M"]]
pd.DataFrame(data, columns=columns)

Unnamed: 0,nome,idade,sexo
0,Rodrigo,25,M
1,Isabela,22,F
2,Samuel,19,M


In [23]:
# baseado em dicionario
# baseado em lista
data = {
        "nome":  ["Rodrigo", "Isabela", "Samuel"],
        "idade": [25, 19, 22],
        "sexo":  ["M", "F", "M"]
       }
pd.DataFrame(data)

Unnamed: 0,nome,idade,sexo
0,Rodrigo,25,M
1,Isabela,19,F
2,Samuel,22,M


6. Leia o arquivo x e salve a cada 100 mil linhas um novo arquivo até o número de linhas da arquivo x terminar

In [24]:
df = pd.read_csv("data_exercise/exercise_huge_file.csv")

In [25]:
nrows_per_file = 100_000
nrows = df.shape[0]
iter_number = int(np.ceil(nrows / nrows_per_file))

for i in range(iter_number):
    lower_limit = i*nrows_per_file
    upper_limit = nrows_per_file*(i+1)
    filtered_df = df.iloc[lower_limit:upper_limit,:]
    filtered_df.to_csv(f"exercise6/new_file{(i+1)}.csv", index = False)

Depois de um processamento é interessante checar os limites.

In [26]:
pd.read_csv("exercise6/new_file1.csv").shape

(100000, 2)

In [27]:
pd.read_csv("exercise6/new_file18.csv").shape

(24100, 2)

Extra:

Você consegue transformar as tabelas do Wikipidia em um DataFrame?

- Dica: Talvez precise instalar algumas bibliotecas extras, como exemplo, lxml, html5lib, bs4 ...

[TABELA](https://en.wikipedia.org/wiki/Minnesota)

In [28]:
dfs_internet = pd.read_html("https://en.wikipedia.org/wiki/Minnesota")

In [29]:
dfs_internet[1].head()

Unnamed: 0_level_0,Minnesota state symbols,Minnesota state symbols
Unnamed: 0_level_1,Living insignia,Living insignia.1
0,Bird,Common loon
1,Butterfly,Monarch
2,Fish,Walleye
3,Flower,Pink-and-white lady's slipper
4,Mushroom,Common morel (Morchella esculenta)


<font color="orange">**LEMBRAR!**</font>
> - csv é um formato bastante comum, fiquem esperto com o separador.
> - Muitas vezes é necessário saber encoding do nosso dado.
> - Independente do formato (json, ..., html) precisa ser uma tabela para transformar em um DataFrame. 

## **Onde posso aprender mais?** 



[Comnuidade Pandas](https://pandas.pydata.org/docs/getting_started/tutorials.html). Aqui tem livros, palestras, tutoriais entre outros.

Livro indicado pela própria biblioteca:
<center><img src="figures/livro_pandas.png" align="center" width=100/></center>

Youtube:

- <font color="orange">(Avançado)</font>: [Pandas by Matt Harrison](https://www.youtube.com/watch?v=UURvPeczxJI&t=3395s) - 19 de agosto de 2021
