<a href="https://colab.research.google.com/github/EddyGiusepe/Repasso_Python/blob/main/Pandas_Library_with_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <h2 align="center">Usando a biblioteca Pandas com Python</h2>


Data scientist.: Dr.Eddy Giusepe Chirinos Isidro

Python tem a biblioteca ``Pandas`` para poder trabalhar com Dados tabulares.

Depois de estudar este tutorial, você haverá aprendido:

* o que a biblioteca de ``Pandas`` oferece
* o que é um ``DataFrame`` e uma série em pandas
* como manipular DataFrame e Series além das operações triviais de array.


Este tutorial, está baseado no tutorial de [Machine Learning Mastery  - Jason Brownlee PhD](https://machinelearningmastery.com/massaging-data-using-pandas/?utm_source=drip&utm_medium=email&utm_campaign=Massaging+data+using+pandas&utm_content=Massaging+data+using+pandas) e  está dividido em cinco partes:

* DataFrame e Série
* Funções essenciais no DataFrame
* Manipulando DataFrames e Séries
* Agregação em DataFrames
* Manipulando dados de série temporal em pandas

# DataFrame e Série

Vamos começar com um conjunto de dados de exemplo. Vamos importar ``Pandas`` e ler os [Dados de emissão de poluentes atmosféricos dos EUA](https://www.epa.gov/air-emissions-inventories/air-pollutant-emissions-trends-data) em um ``DataFrame``:

In [2]:
# Importamos as bibliotecas mais comuns

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


In [5]:
# Criamos o DataFrame
 
URL = "https://www.epa.gov/sites/default/files/2021-03/state_tier1_caps.xlsx"
 
df = pd.read_excel(URL, sheet_name="State_Trends", header=1)
df.sample(5)

Unnamed: 0,State FIPS,State,Tier 1 Code,Tier 1 Description,Pollutant,emissions90,emissions96,emissions97,emissions98,emissions99,...,emissions12,emissions13,emissions14,emissions15,emissions16,emissions17,emissions18,emissions19,emissions20,emissions21
2955,32,NV,7,OTHER INDUSTRIAL PROCESSES,NH3,0.00318,0.00471,0.00501,0.00508,,...,0.009669,0.013883,0.018097,0.020094,0.022091,0.024088,0.018606,0.018202,0.018202,0.018202
5181,55,WI,11,HIGHWAY VEHICLES,NOX,193.13515,199.5739,200.89964,196.97018,190.62891,...,119.454122,111.739452,104.024783,94.120636,80.086339,64.769636,50.211574,51.89086,47.195324,42.499788
5233,56,WY,3,FUEL COMB. OTHER,SO2,2.21788,2.97879,3.08639,3.15722,2.594941,...,5.144715,2.671697,0.19868,0.169708,0.140737,0.111766,0.107402,0.054938,0.054938,0.054938
1415,17,IL,12,OFF-HIGHWAY,CO,897.92407,1020.20807,992.29468,993.17626,1003.23172,...,587.031378,563.457668,539.883959,519.337749,481.383678,465.95744,464.883327,462.357384,462.556022,462.754659
3711,39,OH,11,HIGHWAY VEHICLES,NH3,6.13786,9.79876,10.82467,10.28715,10.45974,...,4.680957,4.22793,3.774903,3.57258,3.736018,3.606464,3.553007,3.601172,3.529279,3.457386


In [6]:
# Shape

df.shape

(5319, 32)

O objeto ``pandas`` criado acima é um DataFrame, apresentado como uma tabela. Semelhante ao ``NumPy``, os dados no Pandas são organizados em matrizes. Mas os Pandas atribuem um tipo de dados a colunas em vez de uma matriz inteira. Isso permite que dados de diferentes tipos sejam incluídos na mesma estrutura de dados. 

Podemos verificar o tipo de dados chamando a o método (ou função) ``.info()`` do DataFrame:

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5319 entries, 0 to 5318
Data columns (total 32 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   State FIPS          5319 non-null   int64  
 1   State               5319 non-null   object 
 2   Tier 1 Code         5319 non-null   int64  
 3   Tier 1 Description  5319 non-null   object 
 4   Pollutant           5319 non-null   object 
 5   emissions90         3926 non-null   float64
 6   emissions96         4163 non-null   float64
 7   emissions97         4163 non-null   float64
 8   emissions98         4164 non-null   float64
 9   emissions99         4281 non-null   float64
 10  emissions00         4280 non-null   float64
 11  emissions01         4277 non-null   float64
 12  emissions02         4720 non-null   float64
 13  emissions03         4939 non-null   float64
 14  emissions04         4939 non-null   float64
 15  emissions05         4561 non-null   float64
 16  emissi

In [10]:
# Também podemos obter o tipo como uma série de pandas:

df.dtypes


State FIPS              int64
State                  object
Tier 1 Code             int64
Tier 1 Description     object
Pollutant              object
emissions90           float64
emissions96           float64
emissions97           float64
emissions98           float64
emissions99           float64
emissions00           float64
emissions01           float64
emissions02           float64
emissions03           float64
emissions04           float64
emissions05           float64
emissions06           float64
emissions07           float64
emissions08           float64
emissions09           float64
emissions10           float64
emissions11           float64
emissions12           float64
emissions13           float64
emissions14           float64
emissions15           float64
emissions16           float64
emissions17           float64
emissions18           float64
emissions19           float64
emissions20           float64
emissions21           float64
dtype: object

No ``Pandas``, um ``DataFrame`` é uma tabela, enquanto uma **série é uma coluna da tabela**. Essa distinção é importante porque os dados por trás de um ``DataFrame são uma matriz 2D``, enquanto uma ``série é uma matriz 1D``.

Semelhante à indexação sofisticada no ``NumPy``, podemos extrair colunas de um DataFrame para criar outro:

In [14]:
cols = ["State", "Pollutant", "emissions19", "emissions20", "emissions21"]

# DataFrame dos três últimos anos
last3years = df[cols] 
last3years.head(7)


Unnamed: 0,State,Pollutant,emissions19,emissions20,emissions21
0,AL,CO,8.243679,8.243679,8.243679
1,AL,NH3,0.417551,0.417551,0.417551
2,AL,NOX,19.59248,13.75279,11.1621
3,AL,PM10-PRI,2.868642,2.868642,2.868642
4,AL,PM25-PRI,2.659792,2.659792,2.659792
5,AL,SO2,6.416268,3.277997,4.223016
6,AL,VOC,1.183584,1.183584,1.183584


Ou, se passarmos um nome de coluna como uma string em vez de uma lista de nomes de coluna, extraímos uma coluna de um ``DataFrame como uma série``:

In [15]:
data2021 = df['emissions21']
data2021.head(6)

0     8.243679
1     0.417551
2    11.162100
3     2.868642
4     2.659792
5     4.223016
Name: emissions21, dtype: float64

# Funções essenciais no DataFrame