Nota: Adaptado e traduzido de `stefmolin`, para ter acesso ao workshop completo de pandas em inglês basta [clicar aqui](https://github.com/stefmolin/pandas-workshop/tree/main)

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/stefmolin/pandas-workshop/main?urlpath=lab/tree/notebooks/1-getting_started_with_pandas.ipynb) [![View slides in browser](https://img.shields.io/badge/view-slides-orange?logo=reveal.js&logoColor=white)](https://stefmolin.github.io/pandas-workshop/slides/html/workshop.slides.html#/section-1)

---



# Seção 1: Introdução ao Pandas

Vamos começar introduzindo as classes `Series`, `DataFrame` e `Index`, que são os blocos básicos da biblioteca pandas, e mostrando como trabalhar com elas. Ao final desta seção, você será capaz de criar DataFrames e realizar operações neles para inspecionar e filtrar os dados.

## O que é um DataFrame

Um **DataFrame** é composto por uma ou mais **Series**. Os nomes das **Series** formam os nomes das colunas, e os rótulos das linhas formam o **Index**.

In [1]:
import pandas as pd

meteorites = pd.read_csv('../data/Meteorite_Landings.csv', nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


*Fonte: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh)*

#### Series:

In [2]:
meteorites.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

#### Colunas:

In [3]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Index:

In [4]:
meteorites.index

RangeIndex(start=0, stop=5, step=1)

## Criando u, DataFrames

Podemos criar DataFrames a partir de várias fontes, como outros objetos Python, arquivos planos, web scraping e solicitações de API. Aqui, veremos apenas alguns exemplos, mas certifique-se de verificar [esta página](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) na documentação para uma lista completa.

### Usando um arquivo

In [5]:
import pandas as pd

meteorites = pd.read_csv('../data/Meteorite_Landings.csv')

*Dica: Existem muitos parâmetros nesta função para lidar com algum processamento inicial ao ler o arquivo - certifique-se de consultar a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).*

### Usando uma API para obter os dados

Coletar os dados do [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh) usando a Socrata Open Data API (SODA) com a biblioteca `requests`:

In [6]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

Crie o DataFrame com o que foi carregado dos dados resultantes:

In [7]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,geolocation,:@computed_region_cbhk_fwbd,:@computed_region_nnqa_25f4
0,Aachen,1,Valid,L5,21,Fell,1880-01-01T00:00:00.000,50.775,6.08333,"{'latitude': '50.775', 'longitude': '6.08333'}",,
1,Aarhus,2,Valid,H6,720,Fell,1951-01-01T00:00:00.000,56.18333,10.23333,"{'latitude': '56.18333', 'longitude': '10.23333'}",,
2,Abee,6,Valid,EH4,107000,Fell,1952-01-01T00:00:00.000,54.21667,-113.0,"{'latitude': '54.21667', 'longitude': '-113.0'}",,


*Dica: `df.to_csv('data.csv')` escreve esses dados em um novo arquivo chamado `data.csv`.*

## Inspecionando os dados
Agora que temos alguns dados, precisamos realizar uma inspeção inicial deles. Isso nos fornece informações sobre como os dados estão estruturados, quantas linhas/colunas existem e quanto dados temos.

Vamos inspecionar os dados `meteorites`.

#### Quantas linhas e colunas temos?

In [8]:
meteorites.shape

(45716, 10)

#### Quais são os nomes das colunas?

In [9]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Qual o tipo de dados temos em cada coluna?

In [10]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

#### Como os dados se parecem?

In [11]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


Às vezes, pode haver dados supérfluos no final do arquivo, portanto, verificar as últimas poucas linhas também é importante:

In [12]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


#### Vendo algumas informações sobre o DataFrame

In [13]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


### [Exercício 1.1](./Exercícios.ipynb#Exercício-1.1)

##### Crie um DataFrame lendo o arquivo `2019_Yellow_Taxi_Trip_Data.csv`. Examine as primeiras 5 linhas.

In [1]:
# Faça esse exercício dentro do notebook Exercícios.ipynb
# Clique no `Exercício 1.1` acima para abrir o arquivo.

### [Exercício 1.2](./Exercícios.ipynb#Exercício-1.2)

##### Descubra as dimenções (número de linhas e colunas) nos dados.

In [2]:
# Faça esse exercício dentro do notebook Exercícios.ipynb
# Clique no `Exercício 1.2` acima para abrir o arquivo.

## Extraindo Subconjuntos

Uma parte crucial do trabalho com DataFrames é extrair subconjuntos dos dados: encontrar linhas que atendam a um determinado conjunto de critérios, isolar colunas/linhas de interesse, etc. Após reduzir nossos dados, estaremos mais próximos de descobrir insights. Esta seção será o alicerce de muitas tarefas de análise.

#### Selecionando Colunas

Podemos selecionar atributos das colunas se os nomes são variáveis válidas em Python:

In [14]:
meteorites.name

0            Aachen
1            Aarhus
2              Abee
3          Acapulco
4           Achiras
            ...    
45711    Zillah 002
45712        Zinder
45713          Zlin
45714     Zubkovsky
45715    Zulu Queen
Name: name, Length: 45716, dtype: object

Se não forem, podemos usar 'Keys'. Portanto, podemos selecionar multiplas colunas em um único código:

In [15]:
meteorites[['name', 'mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


#### Selecionando linhas

In [16]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


#### Index

Podemos usar o `iloc[]` para selecionar as linhas e colunas pela posição:

In [17]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


Podemos usar `loc[]` para selecionar por nome:

In [18]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


#### Filtrando com máscaras Booleanas

Uma **máscara booleana** é uma estrutura semelhante a um array de valores booleanos - é uma maneira de especificar quais linhas/colunas queremos selecionar (`True`) e quais não queremos (`False`).

Aqui está um exemplo de uma máscara booleana para meteoritos com peso superior a 50 gramas que foram encontrados na Terra (ou seja, não foram observados caindo):

In [19]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

0        False
1        False
2        False
3        False
4        False
         ...  
45711     True
45712    False
45713    False
45714     True
45715     True
Length: 45716, dtype: bool

**Importante**: Observe a sintaxe aqui. Colocamos cada condição entre parênteses e usamos operadores bitwise (`&`, `|`, `~`) em vez de operadores lógicos (`and`, `or`, `not`).

Podemos usar uma máscara booleana para selecionar o subconjunto de meteoritos que pesam mais de 1 milhão de gramas (1.000 quilogramas) e que foram observados caindo da seguinte forma:

In [22]:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Dica: máscaras booleanas podem ser usadas com `loc[]` e `iloc[]`.*

Uma alternativa é usar o método `query()`:

In [23]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Dica: Aqui, podemos usar tanto operadores lógicos quanto operadores bitwise.*

## Cálculo de Estatísticas

Na próxima seção deste workshop, discutiremos a limpeza de dados para uma análise mais significativa de nossos conjuntos de dados; no entanto, já podemos extrair alguns insights interessantes dos dados dos `meteoritos` calculando estatísticas resumidas.

#### Quantos meteoritos encontramos versus observados?

In [24]:
meteorites.fall.value_counts()

fall
Found    44609
Fell      1107
Name: count, dtype: int64

*Dica: Passando o código `normalize=True` para ver os resultados em porcentagem. Veja a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) para mais detalhes.*

#### Qual a massa média dos meteoritos?

In [25]:
meteorites['mass (g)'].mean()

13278.078548601512

**Importante**: A média nem sempre é a melhor medida de tendência central. Se houver valores discrepantes na distribuição, a média será distorcida. Neste caso, a média está sendo puxada para cima por alguns meteoritos muito pesados - a distribuição está [desequilibrada à direita](https://www.analyticsvidhya.com/blog/2020/07/what-is-skewness-statistics/).

Olhando para alguns quantis nos extremos da distribuição, percebemos que a média está entre o 95º e o 99º percentil da distribuição, portanto, não é uma boa medida de tendência central aqui:

In [26]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

0.01        0.44
0.05        1.10
0.50       32.60
0.95     4000.00
0.99    50600.00
Name: mass (g), dtype: float64

Uma medida melhor neste caso é a mediana (percentil 50), pois ela é robusta em relação a valores discrepantes:

In [27]:
meteorites['mass (g)'].median()

32.6

#### Qual a massa do meteorito mais pesado?

In [28]:
meteorites['mass (g)'].max()

60000000.0

Vamos extrair as informações desse meteorito:

In [29]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

name                             Hoba
id                              11890
nametype                        Valid
recclass                    Iron, IVB
mass (g)                   60000000.0
fall                            Found
year           01/01/1920 12:00:00 AM
reclat                      -19.58333
reclong                      17.91667
GeoLocation     (-19.58333, 17.91667)
Name: 16392, dtype: object

#### Qual a quantidade de tipos diferentes de classes são representadas nesse dataset?


In [30]:
meteorites.recclass.nunique()

466

Exemplos:

In [31]:
meteorites.recclass.unique()[:14]

array(['L5', 'H6', 'EH4', 'Acapulcoite', 'L6', 'LL3-6', 'H5', 'L',
       'Diogenite-pm', 'Unknown', 'H4', 'H', 'Iron, IVA', 'CR2-an'],
      dtype=object)

*Nota: Todos os campos que contém o "rec" são recomendadas pelo The Meteoritical Society. Veja nesse [Artigo Wikipedia](https://en.wikipedia.org/wiki/Meteorite_classification).*

#### Resumo de algumas estatísticas dos dados
Nós podemos obter algumas estatísticas de todas as colunas numéricas de uma única vez:

In [32]:
meteorites.describe(include='all')

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
count,45716,45716.0,45716,45716,45585.0,45716,45425,38401.0,38401.0,38401
unique,45716,,2,466,,2,266,,,17100
top,Aachen,,Valid,L6,,Found,01/01/2003 12:00:00 AM,,,"(0.0, 0.0)"
freq,1,,45641,8285,,44609,3323,,,6214
mean,,26889.735104,,,13278.08,,,-39.12258,61.074319,
std,,16860.68303,,,574988.9,,,46.378511,80.647298,
min,,1.0,,,0.0,,,-87.36667,-165.43333,
25%,,12688.75,,,7.2,,,-76.71424,0.0,
50%,,24261.5,,,32.6,,,-71.5,35.66667,
75%,,40656.75,,,202.6,,,0.0,157.16667,


**Importante**: Valores `NaN` significam dados faltantes. Como sabemos, a coluna `fall` contém strings, então não temos valores para média (`mean`); Por outro lado a coluna, `mass (g)` é numérica, então não temos entradas categóricas para as informações (`unique`, `top`, `freq`).

#### Veja a documentação para a função describe:

- [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)

### [Exercício 1.3](./Exercícios.ipynb#Exercício-1.3)

##### Usando os dados `2019_Yellow_Taxi_Trip_Data.csv`, calcule as estatísticas gerais para as colunas `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount`.

In [3]:
# Faça esse exercício dentro do notebook Exercícios.ipynb
# Clique no `Exercício 1.3` acima para abrir o arquivo.

### [Exercício 1.4](./Exercícios.ipynb#Exercício-1.4)

##### Isole `fare_amount`, `tip_amount`, `tolls_amount` e `total_amount` para a viagem mais longa por distância (`trip_distance`).

In [4]:
# Faça esse exercício dentro do notebook Exercícios.ipynb
# Clique no `Exercício 1.4` acima para abrir o arquivo.

## A seguir: [Tratamento de Dados](./2-Tratamento_de_Dados.ipynb)