# Seção 1: Começando com Pandas

Vamos começar introduzindo as classes `Series`, `DataFrame` e `Index`, que são a base principal da biblioteca Pandas, e como trabalhar com elas. Ao final dessa seção, você será capaz de criar DataFrames e utilizar operações neles para inspecioná-los e filtrar dados.

## Anatomia de um DataFrame

Um **DataFrame** é composto de uma ou mais **Series**. Os nomes das **Series** formam a coluna de nomes, e os números das linhas formam os **Indíces(Index)**.

In [2]:
import pandas as pd

# Carrego o dataset a partir do GitHub
url = 'https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/Meteorite_Landings.csv'

meteorites = pd.read_csv(url, nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


*Source: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh)*

#### Series:

In [None]:
meteorites.name

#### Colunas:

In [None]:
meteorites.columns

#### Indíce:

In [None]:
meteorites.index

## Criando um DataFrames

Podemos criar DataFrames a partir de diversas fontes, como outro objeto em Python, flat files, webscraping ou requisições de API's. Veremos apenas alguns exemplos desses casos, mas para uma lista completa acesse [essa página](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) da documentação.


### Usando um flat file

In [None]:
import pandas as pd

#meteorites = pd.read_csv('/content/sample_data/Meteorite_Landings.csv')

Obs: Esse código só funcionará caso o dataset esteja presente nos arquivos locais do colab

*Dica: Existem vários parâmetros dessa função para lidar com processos inicias enquanto é feita a leitura do arquivo &ndash; olhe a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) para mais informações.*

### Usando dados de uma API

Dados coletados do [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh) usando a Socrata Open Data API (SODA) com a biblioteca `requests`:

In [None]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

Criação do DataFrame com o payload resultante:

In [None]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

*Dica: `df.to_csv('data.csv')` escreve os dados em um novo arquivo chamado `data.csv`.*

## Inspecionando os dados
Agora que temos alguns dados, precisamos começar uma inspeção inicial deles. Essa inspeção vai nos informar sobre como esses dados se parecem, quantas linhas e colunas existem e qual a quantidade de dados que nós temos.

Vamos inspecionar os dados de `meteoritos`.

#### Quantas colunas tem?

In [None]:
meteorites.shape

#### Quais são os nomes das colunas?

In [None]:
meteorites.columns

#### Que tipo de dados cada coluna possui atualmente?

In [None]:
meteorites.dtypes

#### Como os dados se parecem?

In [None]:
meteorites.head()

As vezes podem existir dados estranhos no final do arquivo, então checar as linhas mais de baixo também é importante:

In [None]:
meteorites.tail()

#### Conseguir algumas informações sobre o DataFrame

In [None]:
meteorites.info()

## Extraindo subsets

Uma parte crucial ao trabalhar com DataFrames é extrair subsets dos dados: achando linhas que se parecem por algum critério, isolando colunas/linhas de interesse, etc. Depois de estreitar os nossos dados, estamos mais perto de descobrir insights. Essa seção vai ser essencial para muitas tarefas de análises.

#### Selecionando colunas

Podemos selecionar colunas como atributos se os seus nomes forem válidos como variáveis em Python:

In [None]:
meteorites.name

Se elas não forem, as selecionamos como chaves. No entanto, podemos selecionar múltiplas colunas por vez dessa maneira:

In [None]:
meteorites[['name', 'mass (g)']]

#### Selecionando linhas

In [None]:
meteorites[100:104]

#### Indexando

Usamos `iloc[]` para selecionar linhas e colunas pelas suas posições:

In [None]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Usamos `loc[]` para selecionar por nome:

In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

#### Filtragem com máscaras booleanas

Uma **Máscara Booleana** é uma estrutura parecida com uma lista de valores boobleanos &ndash; é uma forma de especificar quais linhas/colunas queremos selecionar (`True`) e quais não queremos (`False`).

Abaixo um exemplo de uma máscara booleana para meteoritos que pesam mais de 50 gramas que foram achados na Terra e que não foram observados quando estavam caindo:

In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

**Importante**: Tome cuidado com a sintaxe. As condições são fechadas por parênteses, e usamos operadores bitwise (`&`, `|`, `~`) ao invés de operadores lógicos (`and`, `or`, `not`).

Podemos usar uma máscara booleana para selecionar subsets de meteoritos pesando mais de 1 milhão de gramas (1.000 kilogramas) e que foram observados quando estavam caindo:

In [None]:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]

*Dica: Máscaras booleanas podem ser usadas com `loc[]` e `iloc[]`.*

Uma alternativa para isso seria o método `query()`: 

In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

*Dica: Nesse caso, podemos usar tanto operadors lógicos quanto bitwise.*

## Calculando estatísticas sumarizadas

Na próxima seção desse workshop, discutiremos limpeza de dados para uma análise mais significativa dos nossos datasets; porém, já podemos extrair alguns insights interessantes dos dados sobre `meteoritos` através de calculos de sumarização estatística.

#### Quantos dos meteoritos foram achados contra quantos foram observados caindo?

In [None]:
meteorites.fall.value_counts()

*Dica: Utilize `normalize=True` para ver os resultados em porcentagem. Cheque a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) para mais funcionalidades*

#### Qual é a massa média entre os meteoritos?

In [None]:
meteorites['mass (g)'].median()

Podemos ir um passo a frente e olhar os quantis:

In [None]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.95, 0.99])

#### Qual é a massa do meteorito mais pesado?

In [None]:
meteorites['mass (g)'].max()

Vamos extrair as informações sobre esse meteorito:

In [None]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

#### Quantos tipos diferentes da classe mateorito estão representados neste dataset?

In [None]:
meteorites.recclass.nunique()

Alguns exemplos:

In [None]:
meteorites.recclass.unique()[:14]

*Nota: Todos os campos precedidos por "rec" são valores recomendados pela Sociedade Meteorítica. Olhe esta [página da Wikipedia](https://en.wikipedia.org/wiki/Meteorite_classification) para mais informações sobre classes de meteoritos.*

#### Faça a sumarização estatística nos próprios dados
Conseguimos pegar as estatísticas sumarizadas de todas as colunas de uma vez. Por padrão, serão apenas colunas numéricas, mas aqui, faremos a síntese de tudo:

In [None]:
meteorites.describe(include='all')

**Importante**: Valores `NaN` significam dados faltando. Por exemplo, a coluna `fall` contém strings, logo não temos valor para `mean`; do mesmo jeito, `mass (g)` é numérico, por isso não temos entrada para a sumarização estatística categórica (`unique`, `top`, `freq`).

#### Cheque a documentação para mais descrições estatísticas:

- [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)

## Próxima seção: Data Wrangling

Vamos tirar um tempo para alguns exercícios para checar o seu entendimento:

1. Crie um DataFrame fazendo a leitura do arquivo `2019_Yellow_Taxi_Trip_Data.csv`.
2. Ache as dimensões (número de linhas e colunas) dos dados.
3. Faça a sumarização estatística das colunas `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount`.
4. Isole `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount` para a viagem mais longa (`trip_distance`).

### Exercícios

##### 1. Crie um DataFrame fazendo a leitura do arquivo `2019_Yellow_Taxi_Trip_Data.csv`:

In [None]:
# Url do Github para acessar o arquivo: 
# https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/2019_Yellow_Taxi_Trip_Data.csv

import pandas as pd

url = 'https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/2019_Yellow_Taxi_Trip_Data.csv'

taxi = pd.read_csv(url)
taxi

Unnamed: 0,vendorid,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,ratecodeid,store_and_fwd_flag,pulocationid,dolocationid,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,N,138,170,1,29.5,1.0,0.5,7.98,6.12,0.3,47.90,2.5
1,1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.00,1,N,11,26,1,10.5,1.0,0.5,0.00,0.00,0.3,12.30,0.0
2,2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,N,163,162,1,9.5,1.0,0.5,2.00,0.00,0.3,15.80,2.5
3,2,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.00,1,N,170,163,1,13.0,1.0,0.5,4.32,0.00,0.3,21.62,2.5
4,2,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,N,163,236,1,10.5,1.0,0.5,0.50,0.00,0.3,15.30,2.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,1,2019-10-23T17:39:59.000,2019-10-23T17:49:26.000,2,1.30,1,N,238,239,1,8.0,3.5,0.5,2.46,0.00,0.3,14.76,2.5
9996,1,2019-10-23T17:53:02.000,2019-10-23T18:00:45.000,1,1.40,1,N,239,166,2,8.0,3.5,0.5,0.00,0.00,0.3,12.30,2.5
9997,1,2019-10-23T17:07:16.000,2019-10-23T17:11:35.000,1,0.70,1,N,166,152,2,5.0,1.0,0.5,0.00,0.00,0.3,6.80,0.0
9998,1,2019-10-23T17:38:26.000,2019-10-23T17:49:28.000,2,2.50,1,N,151,42,1,10.0,1.0,0.5,0.00,0.00,0.3,11.80,0.0


##### 2. Ache as dimensões (número de linhas e colunas) dos dados:

In [None]:
taxi.shape  # Retorna uma tupla com o número de linhas e colunas respectivamente

(10000, 18)

##### 3. Faça a sumarização estatística das colunas `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount`:

In [None]:
taxi[['fare_amount', 'tip_amount', 'tolls_amount', 'total_amount']].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
fare_amount,10000.0,15.106313,13.954762,-52.0,7.0,10.0,16.0,176.0
tip_amount,10000.0,2.634494,3.4098,0.0,0.0,2.0,3.25,43.0
tolls_amount,10000.0,0.623447,6.437507,-6.12,0.0,0.0,0.0,612.0
total_amount,10000.0,22.564659,19.209255,-65.92,12.375,16.3,22.88,671.8


##### 4. Isole `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount` para a viagem mais longa (`trip_distance`):

In [None]:
taxi.loc[taxi['trip_distance'].idxmax(), ['fare_amount', 'tip_amount', 'tolls_amount', 'total_amount']]

fare_amount      176.0
tip_amount       18.29
tolls_amount      6.12
total_amount    201.21
Name: 8338, dtype: object

# Referências

Link do repositório original - Git: https://github.com/stefmolin/pandas-workshop

Notebook original - https://github.com/stefmolin/pandas-workshop/blob/main/notebooks/1-getting_started_with_pandas.ipynb