<a href="https://colab.research.google.com/github/EddyGiusepe/Repasso_Python/blob/main/Pandas_Library_with_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <h2 align="center">Usando a biblioteca Pandas com Python</h2>


Data scientist.: Dr.Eddy Giusepe Chirinos Isidro

Python tem a biblioteca ``Pandas`` para poder trabalhar com Dados tabulares.

Depois de estudar este tutorial, você haverá aprendido:

* o que a biblioteca de ``Pandas`` oferece
* o que é um ``DataFrame`` e uma série em pandas
* como manipular DataFrame e Séries além das operações triviais de array.


Este tutorial, está baseado no tutorial de [Machine Learning Mastery  - Jason Brownlee PhD](https://machinelearningmastery.com/massaging-data-using-pandas/?utm_source=drip&utm_medium=email&utm_campaign=Massaging+data+using+pandas&utm_content=Massaging+data+using+pandas) e  está dividido em cinco partes:

* DataFrame e Série
* Funções essenciais no DataFrame
* Manipulando DataFrames e Séries
* Agregação em DataFrames
* Manipulando dados de série temporal em pandas

# DataFrame e Série

Vamos começar com um conjunto de dados de exemplo. Vamos importar ``Pandas`` e ler os [Dados de emissão de poluentes atmosféricos dos EUA](https://www.epa.gov/air-emissions-inventories/air-pollutant-emissions-trends-data) em um ``DataFrame``:

In [1]:
# Importamos as bibliotecas mais comuns

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


In [2]:
# Criamos o DataFrame
 
URL = "https://www.epa.gov/sites/default/files/2021-03/state_tier1_caps.xlsx"
 
df = pd.read_excel(URL, sheet_name="State_Trends", header=1)
df.sample(5)

Unnamed: 0,State FIPS,State,Tier 1 Code,Tier 1 Description,Pollutant,emissions90,emissions96,emissions97,emissions98,emissions99,...,emissions12,emissions13,emissions14,emissions15,emissions16,emissions17,emissions18,emissions19,emissions20,emissions21
2152,24,MD,12,OFF-HIGHWAY,PM10-PRI,3.96545,4.28628,4.2602,4.22467,4.10048,...,3.000399,2.757796,2.515193,2.249714,1.807983,1.703173,1.647509,1.599205,1.559634,1.520064
2916,32,NV,1,FUEL COMB. ELEC. UTIL.,PM25-PRI,0.88436,2.13528,2.01437,1.31182,2.875148,...,0.813606,0.868857,0.924108,0.876719,0.82933,0.781941,0.77774,0.8565,0.8565,0.8565
1004,12,FL,12,OFF-HIGHWAY,PM25-PRI,13.1145,14.47053,14.41898,14.34295,14.35586,...,12.320374,11.459421,10.598468,9.625535,8.034261,7.572559,7.207512,6.940719,6.695607,6.450495
3235,35,NM,2,FUEL COMB. INDUSTRIAL,NH3,0.09657,0.10067,0.09928,0.09799,0.093809,...,0.127093,0.18379,0.240488,0.258195,0.275901,0.293608,0.254648,0.294761,0.294761,0.294761
3524,37,NC,14,MISCELLANEOUS,PM10-PRI,336.93395,255.06376,273.1745,273.80409,278.0774,...,164.055766,159.933915,155.812064,165.990754,176.169443,186.434976,163.720645,171.788732,171.788732,171.788732


In [3]:
# Shape

df.shape

(5319, 32)

O objeto ``pandas`` criado acima é um DataFrame, apresentado como uma tabela. Semelhante ao ``NumPy``, os dados no Pandas são organizados em matrizes. Mas os Pandas atribuem um tipo de dados a colunas em vez de uma matriz inteira. Isso permite que dados de diferentes tipos sejam incluídos na mesma estrutura de dados. 

Podemos verificar o tipo de dados chamando a o método (ou função) ``.info()`` do DataFrame:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5319 entries, 0 to 5318
Data columns (total 32 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   State FIPS          5319 non-null   int64  
 1   State               5319 non-null   object 
 2   Tier 1 Code         5319 non-null   int64  
 3   Tier 1 Description  5319 non-null   object 
 4   Pollutant           5319 non-null   object 
 5   emissions90         3926 non-null   float64
 6   emissions96         4163 non-null   float64
 7   emissions97         4163 non-null   float64
 8   emissions98         4164 non-null   float64
 9   emissions99         4281 non-null   float64
 10  emissions00         4280 non-null   float64
 11  emissions01         4277 non-null   float64
 12  emissions02         4720 non-null   float64
 13  emissions03         4939 non-null   float64
 14  emissions04         4939 non-null   float64
 15  emissions05         4561 non-null   float64
 16  emissi

In [5]:
# Também podemos obter o tipo como uma série de pandas:

df.dtypes


State FIPS              int64
State                  object
Tier 1 Code             int64
Tier 1 Description     object
Pollutant              object
emissions90           float64
emissions96           float64
emissions97           float64
emissions98           float64
emissions99           float64
emissions00           float64
emissions01           float64
emissions02           float64
emissions03           float64
emissions04           float64
emissions05           float64
emissions06           float64
emissions07           float64
emissions08           float64
emissions09           float64
emissions10           float64
emissions11           float64
emissions12           float64
emissions13           float64
emissions14           float64
emissions15           float64
emissions16           float64
emissions17           float64
emissions18           float64
emissions19           float64
emissions20           float64
emissions21           float64
dtype: object

No ``Pandas``, um ``DataFrame`` é uma tabela, enquanto uma **série é uma coluna da tabela**. Essa distinção é importante porque os dados por trás de um ``DataFrame são uma matriz 2D``, enquanto uma ``série é uma matriz 1D``.

Semelhante à indexação sofisticada no ``NumPy``, podemos extrair colunas de um DataFrame para criar outro:

In [6]:
cols = ["State", "Pollutant", "emissions19", "emissions20", "emissions21"]

# DataFrame dos três últimos anos
last3years = df[cols] 
last3years.head(7)


Unnamed: 0,State,Pollutant,emissions19,emissions20,emissions21
0,AL,CO,8.243679,8.243679,8.243679
1,AL,NH3,0.417551,0.417551,0.417551
2,AL,NOX,19.59248,13.75279,11.1621
3,AL,PM10-PRI,2.868642,2.868642,2.868642
4,AL,PM25-PRI,2.659792,2.659792,2.659792
5,AL,SO2,6.416268,3.277997,4.223016
6,AL,VOC,1.183584,1.183584,1.183584


Ou, se passarmos um nome de coluna como uma string em vez de uma lista de nomes de coluna, extraímos uma coluna de um ``DataFrame como uma série``:

In [7]:
data2021 = df['emissions21']
data2021.head(6)

0     8.243679
1     0.417551
2    11.162100
3     2.868642
4     2.659792
5     4.223016
Name: emissions21, dtype: float64

# Funções essenciais no DataFrame

``Pandas`` é rico em recursos. Muitas operações essenciais em uma tabela ou coluna são fornecidas como funções definidas no **DataFrame** ou **Séries**. Por exemplo, podemos ver uma lista de poluentes cobertos na tabela acima usando:

In [8]:
print(df['Pollutant'].unique())

['CO' 'NH3' 'NOX' 'PM10-PRI' 'PM25-PRI' 'SO2' 'VOC']


E podemos encontrar a média (``.mean()``), desvio padrão (``.std()``), mínimo (``.min()``) e máximo (``.max()``) de uma série de forma semelhante:

In [9]:
# Por exemplo: a média do ano 2021

df['emissions21'].mean()

19.26453203565005

Mas, na verdade, é mais provável que usemos a função ``.describe()`` para explorar um novo DataFrame. Como o DataFrame neste exemplo tem muitas colunas, é melhor transpor o DataFrame resultante de ``.describe()``:

In [10]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
State FIPS,5319.0,29.039481,15.667352,1.0,16.0,29.0,42.0,56.0
Tier 1 Code,5319.0,8.213198,4.61097,1.0,4.0,8.0,12.0,16.0
emissions90,3926.0,67.885173,373.308888,0.0,0.47433,4.042665,20.61005,11893.76489
emissions96,4163.0,54.576353,264.951584,1e-05,0.33842,3.35186,16.80454,6890.96906
emissions97,4163.0,51.635867,249.057529,1e-05,0.33583,3.33982,16.679675,6547.79103
emissions98,4164.0,50.801607,240.583301,1e-05,0.344537,3.33394,16.579365,6187.7924
emissions99,4281.0,48.574331,224.351639,0.0,0.29828,3.198574,16.993275,5701.03797
emissions00,4280.0,48.331283,228.045136,0.0,0.301689,3.19161,16.240101,5828.31951
emissions01,4277.0,45.379913,208.045773,0.0,0.306105,3.19457,16.091365,4600.09352
emissions02,4720.0,40.620586,211.845254,0.0,0.132365,1.898117,12.613465,8402.863427


De fato, o DataFrame produzido por ``.describe()`` pode nos ajudar a ter uma noção dos dados. A partir daí, podemos dizer quantos dados faltantes existem (observando a contagem), como os dados são distribuídos, se há discrepâncias e assim por diante.

# Manipulando DataFrame e Séries

Semelhante à indexação booleana no NumPy, podemos extrair um subconjunto de linhas de um DataFrame. Por exemplo, é assim que podemos selecionar os dados apenas para **emissões de monóxido de carbono**:

In [12]:
df_CO = df[df["Pollutant"] == "CO"]
df_CO.head(7)

Unnamed: 0,State FIPS,State,Tier 1 Code,Tier 1 Description,Pollutant,emissions90,emissions96,emissions97,emissions98,emissions99,...,emissions12,emissions13,emissions14,emissions15,emissions16,emissions17,emissions18,emissions19,emissions20,emissions21
0,1,AL,1,FUEL COMB. ELEC. UTIL.,CO,6.86859,8.06884,8.04705,8.12158,11.51526,...,9.642311,9.326977,9.011643,9.125182,9.238721,9.323161,10.050146,8.243679,8.243679,8.243679
7,1,AL,2,FUEL COMB. INDUSTRIAL,CO,25.73799,49.77487,48.15407,48.41578,43.88043,...,66.747109,61.629518,56.511926,43.656232,30.800538,17.973944,19.148024,17.291741,17.291741,17.291741
14,1,AL,3,FUEL COMB. OTHER,CO,89.93378,34.23424,34.29082,34.15163,65.515923,...,14.997904,17.892071,20.786239,23.581487,26.376736,29.171984,29.207209,29.201838,29.201838,29.201838
21,1,AL,4,CHEMICAL & ALLIED PRODUCT MFG,CO,54.70092,44.2331,45.59779,46.96713,7.85382,...,3.133778,3.1446,3.155423,3.214001,3.272579,3.331158,2.774257,2.626484,2.626484,2.626484
28,1,AL,5,METALS PROCESSING,CO,6.61641,36.1217,37.64911,36.8687,31.76794,...,11.173101,11.354717,11.536333,11.766012,11.995691,12.225369,12.534726,12.167189,12.167189,12.167189
35,1,AL,6,PETROLEUM & RELATED INDUSTRIES,CO,16.21475,1.1564,1.15842,1.15944,10.46912,...,14.444104,14.005973,13.567842,11.02953,8.491219,5.952907,5.804215,6.25416,6.25416,6.25416
42,1,AL,7,OTHER INDUSTRIAL PROCESSES,CO,68.68642,64.08936,66.39766,67.06835,61.0597,...,24.596882,29.485416,34.37395,33.146481,31.919012,30.691313,31.686766,31.040208,31.040208,31.040208


Como você pode esperar, o operador ``==`` compara cada elemento de uma série  ``df["Pollutant"]``, resultando em uma **série de valores booleanos**. Se os comprimentos corresponderem, o DataFrame entende que é para selecionar as linhas com base no valor booleano. Na verdade, podemos combinar booleanos usando operadores bit a bit (bitwise). Por exemplo, é assim que selecionamos as linhas de <font color='yellow'>emissões de monóxido de carbono devido aos veículos rodoviários</font>:

In [15]:
# Aqui: HIGHWAY VEHICLES --> VEÍCULOS RODOVIÁRIOS

df_CO_HW = df[ (df['Pollutant']=='CO') & (df['Tier 1 Description']=='HIGHWAY VEHICLES') ]
df_CO_HW.head(3)

Unnamed: 0,State FIPS,State,Tier 1 Code,Tier 1 Description,Pollutant,emissions90,emissions96,emissions97,emissions98,emissions99,...,emissions12,emissions13,emissions14,emissions15,emissions16,emissions17,emissions18,emissions19,emissions20,emissions21
70,1,AL,11,HIGHWAY VEHICLES,CO,2340.75406,1674.01395,1602.25032,1534.27815,1412.34247,...,706.703031,711.62837,716.55371,682.596952,588.54574,556.784903,532.140445,518.259811,492.182583,466.105354
171,2,AK,11,HIGHWAY VEHICLES,CO,262.3887,173.25628,173.86574,175.12039,169.92004,...,85.189732,78.699239,72.208745,70.614685,60.100755,67.426567,70.674008,70.674008,63.883471,57.092934
276,4,AZ,11,HIGHWAY VEHICLES,CO,1616.75178,1084.92615,1065.99933,1049.76456,1017.64515,...,560.612368,557.832176,555.051985,549.795535,468.667272,487.903594,433.685363,413.347655,398.958109,384.568563
