# Seção 1: Começando com Pandas

Vamos começar introduzindo as classes `Series`, `DataFrame` e `Index`, que são a base principal da biblioteca Pandas, e como trabalhar com elas. Ao final dessa seção, você será capaz de criar DataFrames e utilizar operações neles para inspecioná-los e filtrar dados.

## Anatomia de um DataFrame

Um **DataFrame** é composto de uma ou mais **Series**. Os nomes das **Series** formam a coluna de nomes, e os números das linhas formam os **Indíces(Index)**.

In [None]:
import pandas as pd

# Carrego o dataset a partir do GitHub
url = 'https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/Meteorite_Landings.csv'

meteorites = pd.read_csv(url, nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


*Source: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh)*

#### Series:

In [None]:
meteorites.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

#### Colunas:

In [None]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Indíce:

In [None]:
meteorites.index

RangeIndex(start=0, stop=5, step=1)

## Criando um DataFrames

Podemos criar DataFrames a partir de diversas fontes, como outro objeto em Python, flat files, webscraping ou requisições de API's. Veremos apenas alguns exemplos desses casos, mas para uma lista completa acesse [essa página](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) da documentação.


### Usando um flat file

In [None]:
import pandas as pd

meteorites = pd.read_csv('/content/sample_data/Meteorite_Landings.csv')

FileNotFoundError: ignored

Obs: Esse código só funcionará caso o dataset esteja presente nos arquivos locais do colab

*Dica: Existem vários parâmetros dessa função para lidar com processos inicias enquanto é feita a leitura do arquivo &ndash; olhe a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) para mais informações.*

### Usando dados de uma API

Dados coletados do [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh) usando a Socrata Open Data API (SODA) com a biblioteca `requests`:

In [None]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

Criação do DataFrame com o payload resultante:

In [None]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,geolocation,:@computed_region_cbhk_fwbd,:@computed_region_nnqa_25f4
0,Aachen,1,Valid,L5,21,Fell,1880-01-01T00:00:00.000,50.775,6.08333,"{'latitude': '50.775', 'longitude': '6.08333'}",,
1,Aarhus,2,Valid,H6,720,Fell,1951-01-01T00:00:00.000,56.18333,10.23333,"{'latitude': '56.18333', 'longitude': '10.23333'}",,
2,Abee,6,Valid,EH4,107000,Fell,1952-01-01T00:00:00.000,54.21667,-113.0,"{'latitude': '54.21667', 'longitude': '-113.0'}",,


*Dica: `df.to_csv('data.csv')` escreve os dados em um novo arquivo chamado `data.csv`.*

## Inspecionando os dados
Agora que temos alguns dados, precisamos começar uma inspeção inicial deles. Essa inspeção vai nos informar sobre como esses dados se parecem, quantas linhas e colunas existem e qual a quantidade de dados que nós temos.

Vamos inspecionar os dados de `meteoritos`.

#### Quantas colunas tem?

In [None]:
meteorites.shape

(45716, 10)

#### Quais são os nomes das colunas?

In [None]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Que tipo de dados cada coluna possui atualmente?

In [None]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

#### Como os dados se parecem?

In [None]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


As vezes podem existir dados estranhos no final do arquivo, então checar as linhas mais de baixo também é importante:

In [None]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


#### Conseguir algumas informações sobre o DataFrame

In [None]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


## Extraindo subsets

Uma parte crucial ao trabalhar com DataFrames é extrair subsets dos dados: achando linhas que se parecem por algum critério, isolando colunas/linhas de interesse, etc. Depois de estreitar os nossos dados, estamos mais perto de descobrir insights. Essa seção vai ser essencial para muitas tarefas de análises.

#### Selecionando colunas

Podemos selecionar colunas como atributos se os seus nomes forem válidos como variáveis em Python:

In [None]:
meteorites.name

0            Aachen
1            Aarhus
2              Abee
3          Acapulco
4           Achiras
            ...    
45711    Zillah 002
45712        Zinder
45713          Zlin
45714     Zubkovsky
45715    Zulu Queen
Name: name, Length: 45716, dtype: object

Se elas não forem, as selecionamos como chaves. No entanto, podemos selecionar múltiplas colunas por vez dessa maneira:

In [None]:
meteorites[['name', 'mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


#### Selecionando linhas

In [None]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


#### Indexando

Usamos `iloc[]` para selecionar linhas e colunas pelas suas posições:

In [None]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


Usamos `loc[]` para selecionar por nome:

In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


#### Filtragem com máscaras booleanas

Uma **Máscara Booleana** é uma estrutura parecida com uma lista de valores boobleanos &ndash; é uma forma de especificar quais linhas/colunas queremos selecionar (`True`) e quais não queremos (`False`).

Abaixo um exemplo de uma máscara booleana para meteoritos que pesam mais de 50 gramas que foram achados na Terra e que não foram observados quando estavam caindo:

In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

0        False
1        False
2        False
3        False
4        False
         ...  
45711     True
45712    False
45713    False
45714     True
45715     True
Length: 45716, dtype: bool

**Importante**: Tome cuidado com a sintaxe. As condições são fechadas por parênteses, e usamos operadores bitwise (`&`, `|`, `~`) ao invés de operadores lógicos (`and`, `or`, `not`).

Podemos usar uma máscara booleana para selecionar subsets de meteoritos pesando mais de 1 milhão de gramas (1.000 kilogramas) e que foram observados quando estavam caindo:

In [None]:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Dica: Máscaras booleanas podem ser usadas com `loc[]` e `iloc[]`.*

Uma alternativa para isso seria o método `query()`: 

In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Dica: Nesse caso, podemos usar tanto operadors lógicos quanto bitwise.*

## Calculando estatísticas sumarizadas

Na próxima seção desse workshop, discutiremos limpeza de dados para uma análise mais significativa dos nossos datasets; porém, já podemos extrair alguns insights interessantes dos dados sobre `meteoritos` através de calculos de sumarização estatística.

#### Quantos dos meteoritos foram achados contra quantos foram observados caindo?

In [None]:
meteorites.fall.value_counts()

*Dica: Utilize `normalize=True` para ver os resultados em porcentagem. Cheque a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) para mais funcionalidades*

#### Qual é a massa média entre os meteoritos?

In [None]:
meteorites['mass (g)'].median()

32.6

Podemos ir um passo a frente e olhar os quantis:

In [None]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.95, 0.99])

0.01        0.44
0.05        1.10
0.95     4000.00
0.99    50600.00
Name: mass (g), dtype: float64

#### Qual é a massa do meteorito mais pesado?

In [None]:
meteorites['mass (g)'].max()

60000000.0

Vamos extrair as informações sobre esse meteorito:

In [None]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

name                             Hoba
id                              11890
nametype                        Valid
recclass                    Iron, IVB
mass (g)                   60000000.0
fall                            Found
year           01/01/1920 12:00:00 AM
reclat                      -19.58333
reclong                      17.91667
GeoLocation     (-19.58333, 17.91667)
Name: 16392, dtype: object

#### Quantos tipos diferentes da classe mateorito estão representados neste dataset?

In [None]:
meteorites.recclass.nunique()

466

Alguns exemplos:

In [None]:
meteorites.recclass.unique()[:14]

array(['L5', 'H6', 'EH4', 'Acapulcoite', 'L6', 'LL3-6', 'H5', 'L',
       'Diogenite-pm', 'Unknown', 'H4', 'H', 'Iron, IVA', 'CR2-an'],
      dtype=object)

*Nota: Todos os campos precedidos por "rec" são valores recomendados pela Sociedade Meteorítica. Olhe esta [página da Wikipedia](https://en.wikipedia.org/wiki/Meteorite_classification) para mais informações sobre classes de meteoritos.*

#### Faça a sumarização estatística nos próprios dados
Conseguimos pegar as estatísticas sumarizadas de todas as colunas de uma vez. Por padrão, serão apenas colunas numéricas, mas aqui, faremos a síntese de tudo:

In [None]:
meteorites.describe(include='all')

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
count,45716,45716.0,45716,45716,45585.0,45716,45425,38401.0,38401.0,38401
unique,45716,,2,466,,2,266,,,17100
top,Aachen,,Valid,L6,,Found,01/01/2003 12:00:00 AM,,,"(0.0, 0.0)"
freq,1,,45641,8285,,44609,3323,,,6214
mean,,26889.735104,,,13278.08,,,-39.12258,61.074319,
std,,16860.68303,,,574988.9,,,46.378511,80.647298,
min,,1.0,,,0.0,,,-87.36667,-165.43333,
25%,,12688.75,,,7.2,,,-76.71424,0.0,
50%,,24261.5,,,32.6,,,-71.5,35.66667,
75%,,40656.75,,,202.6,,,0.0,157.16667,


**Importante**: Valores `NaN` significam dados faltando. Por exemplo, a coluna `fall` contém strings, logo não temos valor para `mean`; do mesmo jeito, `mass (g)` é numérico, por isso não temos entrada para a sumarização estatística categórica (`unique`, `top`, `freq`).

#### Cheque a documentação para mais descrições estatísticas:

- [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)

## Próxima seção: Data Wrangling

Vamos tirar um tempo para alguns exercícios para checar o seu entendimento:

1. Crie um DataFrame fazendo a leitura do arquivo `2019_Yellow_Taxi_Trip_Data.csv`.
2. Ache as dimensões (número de linhas e colunas) dos dados.
3. Faça a sumarização estatística das colunas `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount`.
4. Isole `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount` para a viagem mais longa (`trip_distance`).

### Exercícios

##### 1. Crie um DataFrame fazendo a leitura do arquivo `2019_Yellow_Taxi_Trip_Data.csv`:

In [1]:
# Url do Github para acessar o arquivo: 
# https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/2019_Yellow_Taxi_Trip_Data.csv

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/stefmolin/pandas-workshop/main/data/2019_Yellow_Taxi_Trip_Data.csv')


##### 2. Ache as dimensões (número de linhas e colunas) dos dados:

In [28]:
df.shape

(10000, 18)

##### 3. Faça a síntese estatística das colunas `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount`:

In [26]:
df.describe()[['fare_amount', 'tip_amount', 'tolls_amount', 'total_amount']]

Unnamed: 0,fare_amount,tip_amount,tolls_amount,total_amount
count,10000.0,10000.0,10000.0,10000.0
mean,15.106313,2.634494,0.623447,22.564659
std,13.954762,3.4098,6.437507,19.209255
min,-52.0,0.0,-6.12,-65.92
25%,7.0,0.0,0.0,12.375
50%,10.0,2.0,0.0,16.3
75%,16.0,3.25,0.0,22.88
max,176.0,43.0,612.0,671.8


##### 4. Isole `fare_amount`, `tip_amount`, `tolls_amount`, e `total_amount` para a viagem mais longa (`trip_distance`):

In [25]:
df.loc[df['trip_distance'].idxmax()][['fare_amount', 'tip_amount', 'tolls_amount', 'total_amount']]

fare_amount      176.0
tip_amount       18.29
tolls_amount      6.12
total_amount    201.21
Name: 8338, dtype: object

# Referências

Link do repositório original - Git: https://github.com/stefmolin/pandas-workshop

Notebook original - https://github.com/stefmolin/pandas-workshop/blob/main/notebooks/1-getting_started_with_pandas.ipynb