# <font color='red'>1) Getting Started With Pandas</font>


## <font color='blue'>Anatomia de um DataFrame</font>
Um __DataFrame__ é composto por uma ou mais __Series__. Os nomes das series formam os nomes das __colunas__ e os rótulos das linhas formam o __Index__.

In [1]:
import pandas as pd

#Vizualização menor com rows = 5
meteoritos = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv', nrows=5)
#Vizualização completa
meteorites = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv')

meteoritos

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


Este comando acaba de utilizar o módulo __pandas__ para fazer a criação da tabela de Meteoritos utilizando o comando __pd.read_csv__. Com isso podemos fazer algumas análises utilizando a variável meteoritos:

In [2]:
meteoritos.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

In [3]:
meteoritos.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

In [4]:
meteoritos.index

RangeIndex(start=0, stop=5, step=1)

## <font color='blue'>Criando DataFrames</font>
Podemos criar DataFrames a partir de uma variedade de fontes, como outros __objetos Python__. Veremos apenas alguns exemplos, mas podemos conferir a página da documentação para obter uma lista completa.

### Usando apenas uma linha

Do mesmo formato no qual fizemos anteriormente, utilizando o comando __pd.read__.

### Usando dados de uma API

In [5]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

ConnectionError: HTTPSConnectionPool(host='data.nasa.gov', port=443): Max retries exceeded with url: /resource/gh4g-9sfh.json?%24limit=50000 (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f890e205be0>: Failed to establish a new connection: [Errno 101] Network is unreachable'))

Esse código está utilizando a biblioteca __requests__ para fazer uma solicitação __GET__ a uma API da NASA, pedindo um parâmetro com um __limite__ de __50.000__ registros. Se a resposta for bem-sucedida (status OK), os dados JSON são __armazenados em payload__; caso contrário, uma mensagem de erro é exibida e payload é __definido como None__.

Criaremos agora o DataFrame com os resultados de payload, sendo o comando __df.head(n)__ responsável pelo __número de rows__ que teremos:

In [None]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(2)

## <font color='blue'>Inspecionando dados</font>
Agora que temos alguns dados, precisamos realizar uma inspeção inicial deles. Isso nos dá informações sobre a aparência dos dados, quantas linhas/colunas existem e quantos dados temos.

### Verificação da quantidade de rows e colunas

In [None]:
meteorites.shape

### Verificação do nome das colunas

In [None]:
meteorites.columns

### Verificação do tipo de dado que cada coluna informa

In [None]:
meteorites.dtypes

### Vizualização dos primeiros e últimos row de dados

In [None]:
meteorites.head()

In [None]:
meteorites.tail()

### Pegando informações

In [None]:
meteorites.info()

## <font color='blue'>Extraindo subconjuntos</font>
Uma parte crucial do trabalho com DataFrames é extrair subconjuntos de dados: encontrar linhas que atendam a um determinado conjunto de critérios, isolar colunas elinhas de interesse, etc. Esta seção será muito importante para muitas tarefas de análise.

### Selecionando colunas

In [None]:
meteorites.name

Podemos selecionar múltiplas colunas de uma vez:

In [None]:
meteorites[['name','mass (g)']]

### Selecionando linhas

In [None]:
meteorites[100:104]

### Indexando
Usamos __iloc[]__ para selecionar linhas e colunas por suas posições

In [None]:
meteorites.iloc[100:104,[0,3,4,6]]

E usamos __loc[]__ para selecionar por nome

In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

### Filtros com máscaras booleanas

Uma máscara booleana é uma estrutura semelhante a um array de valores booleanos – é uma forma de __especificar__ quais linhas/colunas queremos __selecionar (True)__ e quais __não queremos (False)__.

Aqui está um exemplo de uma máscara booleana para meteoritos pesando mais de 50 gramas e que foram encontrados na Terra (podemos também identificar duas formas de fazer esta análise):

In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

Um meio alternativo é usar o comando `query()` (tomar cuidado para utilizar os caracteres especiais corretamente):

In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

## <font color='blue'>Calculando estatísticas resumidas</font>
Na próxima seção, discutiremos a limpeza de dados para uma análise mais significativa de nossos conjuntos de dados; no entanto, já podemos extrair alguns insights interessantes dos dados dos meteoritos calculando estatísticas resumidas.

### Um parâmetro x outro

In [None]:
meteorites.fall.value_counts()

### Qual é a massa do meteorito médio?

In [None]:
meteorites['mass (g)'].mean()

### Analisando médias e quantis

In [None]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

In [None]:
meteorites['mass (g)'].median()

### Qual é o meteorito mais pesado e o mais leve
E como __mostrá-los__

In [None]:
meteorites['mass (g)'].min()

In [None]:
#Formato padrão de filtro para mostrara apenas os elementos filtrados com a condição booleana que queremos
meteorites[meteorites['mass (g)'] == 0]

In [None]:
meteorites['mass (g)'].max()

In [None]:
Maior = meteorites[meteorites['mass (g)'] == 60000000.0]
Maior

### Extraindo informações de um meteorito específico

In [None]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

### Quantos tipos diferentes de classes de meteoritos estão representados neste conjunto de dados?

In [None]:
meteorites.recclass.nunique()

Como por exemplo:

In [None]:
meteorites.recclass.unique()[:10]

### Obtendo algumas estatísticas resumidas sobre os próprios dados
Podemos obter estatísticas resumidas comuns para todas as colunas de uma só vez. Por padrão, serão apenas colunas numéricas, mas aqui resumiremos tudo junto:

In [None]:
meteorites.describe(include='all')

Valores NaN significam __dados ausentes__. Por exemplo, a coluna de queda contém __strings__, portanto não há valor para __média__; da mesma forma, a massa (g) é numérica, portanto não temos entradas para as estatísticas de resumo categóricas (única, superior, frequência).

# <font color='red'>2) Data Wrangling</font>

Para preparar nossos dados para análise, precisamos realizar a __Data Wrangling__. Nesta seção, aprenderemos como limpar e reformatar dados (por exemplo: renomear colunas e corrigir incompatibilidades de tipos de dados), reestruturá-los/remodelá-los e enriquecê-los (por exemplo: discretizar colunas, calcular agregações e combinar fontes de dados)

## <font color='blue'>Limpeza de dados</font>
Nesta seção, veremos como: criar renomear e eliminar colunas; conversão de tipo; e classificação. Trabalharemos com os dados de viagem de táxi de 2019 fornecidos pela NYC Open Data.

In [None]:
import pandas as pd

taxis = pd.read_csv('../data/2019_Yellow_Taxi_Trip_Data.csv')
taxis.head()

### Descartando colunas
Iremos utilizar como exemplo a coluna __store_and_fwd_flag__ e as colunas de ID:

In [None]:
mask = taxis.columns.str.contains('id$|store_and_fwd_flag', regex=True)
columns_to_drop = taxis.columns[mask]
columns_to_drop

In [None]:
taxis = taxis.drop(columns=columns_to_drop)
taxis.head()

Criamos uma mascara chamada __mask__ utilizando os comandos e selecionando apenas as colunas que queriamos descartar. Após isso salvamos em `columns_to_drop` para depois assumir que __columns=columns_to_drop__ utilizando o comando `drop` para descartar as colunas.

### Renomeando colunas

In [None]:
taxis = taxis.rename(
    columns={
        'tpep_pickup_datetime': 'pickup', 
        'tpep_dropoff_datetime': 'dropoff'
    }
)
taxis.columns

### Convertendo tipos

In [None]:
taxis.dtypes

Neste caso, queremos que __pickup__ e __dropoff__ sejam __datetimes__. Podemos arrumar isto:

In [None]:
taxis[['pickup', 'dropoff']] = \
    taxis[['pickup', 'dropoff']].apply(pd.to_datetime)
taxis.dtypes

### Criando novas colunas

In [None]:
taxis = taxis.assign(
    elapsed_time=lambda x: x.dropoff - x.pickup, # 1
    cost_before_tip=lambda x: x.total_amount - x.tip_amount,
    tip_pct=lambda x: x.tip_amount / x.cost_before_tip, # 2
    fees=lambda x: x.cost_before_tip - x.fare_amount, # 3
    avg_speed=lambda x: x.trip_distance.div(
        x.elapsed_time.dt.total_seconds() / 60 / 60
    ) # 4
)

Essas __funções lambdas__ são funções pequenas e anônimas que podem receber vários argumentos, mas só podem conter uma expressão (o valor de retorno).

No caso temos algo do tipo:

`coluna_nova = lambda x: x.coluna1 operação x.coluna2`

In [None]:
taxis.head(2)

### Ordenando por valores
Podemos usar o método `sort_values()` 

In [None]:
taxis.sort_values(['passenger_count', 'pickup'], ascending=[False, True]).head()

Para escolher as linhas maiores e menores, usamos `nlargest()` e `nsmallest()`. Vejamos um exemplo olhando para as 3 viagens com maior tempo decorrido:

In [None]:
taxis.nlargest(4, 'elapsed_time')

In [None]:
taxis.nsmallest(4, 'total_amount')

## <font color='blue'>Trabalhando com índices</font>

Até agora, não trabalhamos realmente com índices porque eles são apenas os números de linhas; entretanto, podemos alterar os valores que temos no índice para acessar recursos adicionais da biblioteca pandas.

### Setando e ordenando índices

Atualmente, temos um RangeIndex, mas podemos mudar para um DatetimeIndex especificando uma coluna de data e hora ao chamar set_index():

In [None]:
taxis = taxis.set_index('pickup')
taxis.head(3)

_Obs:_ Neste modo, após colocarmos uma coluna como linha, ela não volta a ser coluna depois.

Como temos uma amostra do conjunto de dados completo, vamos classificar o índice por __ordem de horário de coleta__:

In [None]:
taxis = taxis.sort_index()

Agora podemos selecionar intervalos de nossos dados com base na data e hora da mesma forma que fizemos com os números das linhas:

In [None]:
taxis['2019-10-23 07:45':'2019-10-23 08']

Quando nao especificamos o range, usamos o comando `loc[]:`

In [None]:
taxis.loc['2019-10-23 08']

### Resetando os índices

Iremos estar trabalhando com time series depois desta seção, porém, as vezes queremos resetar nosso índice para números de linhas e recolocar as colunas novamente. Podemos fazer isso utilizando o comando `reset_index()`: 

In [None]:
taxis = taxis.reset_index()
taxis.head()


## <font color='blue'>Dados remodelados</font>

O taxi dataset que estamos trabalhando está em um formato propício para uma análise. Mas isto não é sempre o caso. Vamos agora ver o TSA traveler throughput data, no qual compara as taxas de transferencia de 2021 em um mesmo dia para os anos de 2020 e 2019:

In [None]:
tsa = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/tsa_passenger_throughput.csv', parse_dates=['Date'])
tsa

Agora iremos renomear as colunas para poder trabalhar com a remodelagem:

In [None]:
tsa = tsa.rename(columns=lambda x: x.lower().split()[0])
tsa

### Melting

Melting nos ajuda a converter os dados em um formato longo, podendo ter todos os dados de taxas de transferência do viajante em uma única coluna em linhas diferentes para cada ano:

In [None]:
tsa_melted = tsa.melt(
    id_vars='date', # column that uniquely identifies a row (can be multiple)
    var_name='year', # name for the new column created by melting
    value_name='travelers' # name for new column containing values from melted columns
)
tsa_melted

_Obs:_ Podemos usar o comando `.sample(n)` caso queiramos em uma ordem aleatória.

Basicamente isso fez com que agora tenhamos mais linhas, pois temos o número de viajantes relacionados a cada ano para cada data, ao invés de várias colunas referente a cada ano para a data específica em uma só linha.

Para converter isso em uma série temporal de produtividade de viajantes, precisamos substituir o ano na __coluna de data__ pelo ano na __coluna de ano__. Caso contrário, estaremos marcando os números dos anos anteriores com o ano errado.

In [None]:
tsa_melted = tsa_melted.assign(
    date=lambda x: pd.to_datetime(x.year + x.date.dt.strftime('-%m-%d'))
)
tsa_melted

Isso nos leva a alguns __valores nulos__:

In [None]:
tsa_melted.sort_values('date').tail(3)

Eles podem ser retirados utilizando o método `dropna()`:

In [None]:
tsa_melted = tsa_melted.dropna()
tsa_melted.sort_values('date').tail(3)

### Pivô

Usando o melted data, podemos pivotar os dados para compará-los em dias específicos durantes os diferentes anos:

In [None]:
tsa_pivoted = tsa_melted\
    .query('date.dt.month == 3 and date.dt.day <= 10')\
    .assign(day_in_march=lambda x: x.date.dt.day)\
    .pivot(index='year', columns='day_in_march', values='travelers')
tsa_pivoted

### Transposição

O atributo de transposição `T` prove uma maneira rapida de inverter linhas e colunas.

In [None]:
tsa_pivoted.T

### Mesclando

Tipicamente observamos mudanças em viagens aéreas durantes os feriados, então podemos adicionar mais informações sobre as datas em nosso dataset provendo um maior contexto. O arquivo __holidays.csv__ contém alguns feriados importantes nos Estados Unidos.

In [None]:
holidays = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/holidays.csv', parse_dates=True, index_col='date')
holidays.loc['2019']

Podemos agora mesclar os feriados com o dataset de viagens providenciando mais informação para nossa análise:

In [None]:
tsa_melted_holidays = tsa_melted\
    .merge(holidays, left_on='date', right_index=True, how='left')\
    
tsa_melted_holidays.head()

Podemos agora procurar estes feriados pelos índices ou pelas datas:

In [None]:
result = tsa_melted_holidays.loc[[863]]
result

In [None]:
date_to_find = '2019-07-04'
result = tsa_melted_holidays.loc[tsa_melted_holidays['date'] == date_to_find]
result

_Obs:_ Quando você usa um único par de colchetes `[]` com `.loc` ou `.iloc`, o resultado é uma Série __(pd.Series)__ se você está selecionando uma única linha ou coluna.

_Obs:_ Quando você usa um duplo par de colchetes `[[]]`, você está criando uma lista de rótulos (mesmo que seja um único rótulo) e isso garante que o resultado seja um DataFrame __(pd.DataFrame)__, não importa quantas linhas ou colunas você esteja selecionando.

Podemos dar um passo adiante, marcando alguns dias antes e depois de cada feriado como parte do feriado. Isso tornaria mais fácil comparar as viagens de férias ao longo dos anos e procurar qualquer aumento nas viagens durante os feriados:

In [None]:
tsa_melted_holiday_travel = tsa_melted_holidays.assign(
    holiday=lambda x:
        x.holiday\
            .fillna(method='ffill', limit=1)\
            .fillna(method='bfill', limit=2)
)

In [None]:
tsa_melted_holiday_travel.query(
    'year == "2019" and '
    '(holiday == "Thanksgiving" or holiday.str.contains("Christmas"))'
)


## <font color='blue'>Agrupamentos e agregações</font>

Após reformatar e limpar nossos dados, podemos fazer agregações para resumi-los de várias maneiras. Nesta seção, iremos explorar isso utilizando tabelas dinâmicas, crosstabs, e agrupamentos por operações para agregar os dados.

### Tabelas dinâmicas

Podemos construir uma tabela dinâmica para comparar as viagens de feriado durante os anos em nosso dataset:

In [None]:
tsa_melted_holiday_travel.pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum'
)

Os valores `NaN` na tabela dinâmica ocorrem porque __não há dados__ disponíveis para esses feriados em certos anos. 

Podemos usar o comando `pct_change()` neste resultado para ver quais períodos de viagens de férias tiveram a maior mudança nas viagens, ou seja, o comando é uma função que calcula a mudança percentual entre os __elementos consecutivos__ ao longo de uma determinada dimensão do DataFrame.

__Primeiro, um exemplo prático para entender:__

In [None]:
import pandas as pd

# Exemplo de dados
data = {
    'day': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04'],
    'travelers': [1000, 1100, 1050, 1150]
}
df = pd.DataFrame(data)
df['day'] = pd.to_datetime(df['day'])
df.set_index('day', inplace=True)

# Calculando a mudança percentual
df['pct_change'] = df['travelers'].pct_change()
print(df)


Cálculos Detalhados

_2024-01-01: Não há valor anterior, então o resultado é NaN._

_2024-01-02: (1100-1000)/1000_

_2024-01-03: (1050-1100)/1100_

_2024-01-04: (1150-1050)/1050_

__Agora, vamos utilizar o DataFrame que possuímos para fazer nossas análises:__

In [None]:
tsa_melted_holiday_travel.pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum'
).pct_change()

Vamos fazer uma última tabela dinâmica com subtotais de colunas e linhas, junto com algumas melhorias de formatação. Primeiro, definimos uma opção de exibição para todos os carros alegóricos:

In [None]:
pd.set_option('display.float_format', '{:,.0f}'.format)

A seguir, agrupamos a véspera de Natal e o dia do Natal, e da mesma forma para a véspera e o dia do Ano Novo, e criamos a tabela dinâmica:

In [None]:
import numpy as np

tsa_melted_holiday_travel.assign(
    holiday=lambda x: np.where(
        x.holiday.str.contains('Christmas|New Year', regex=True), 
        x.holiday.str.replace('Day|Eve', '', regex=True).str.strip(), 
        x.holiday
    )
).pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum', 
    margins=True, margins_name='Total'
)

In [None]:
#Reset para prosseguir

pd.reset_option('display.float_format')

### Crosstabs

O comando `pd.crosstab()` nos da uma maneira fácil de criar uma tabela de frequência. Aqui, contamos o número de dias de viagem de baixo, médio e alto volume por ano, usando a função `pd.cut()` para criar três compartimentos de volume de viagem de largura igual:

In [None]:
pd.crosstab(
    index=pd.cut(
        tsa_melted_holiday_travel.travelers, 
        bins=3, labels=['low', 'medium', 'high']
    ),
    columns=tsa_melted_holiday_travel.year,
    rownames=['travel_volume']
)

Podemos notar que o comando `pd.crosstab()` suporta outras agregações, desde que você passe os dados para agregar como valores e especifique a agregação com `aggfunc`. Podemos também adicionar subtotais e normalizar os dados.


### Grupo por operações

Ao invés de ter agrupamentos utilizando `mean()` ou `describe()` em nosso dataset tudo de uma vez, podemos realizar estes cálculos __por grupo__ primeiro chamando o comando `groupby()`:

In [None]:
tsa_melted_holiday_travel.groupby('year').describe(include=np.number)

Exemplo utilizando o método `describe()` anteriormente citado:

In [None]:
tsa_melted_holiday_travel.describe(include=np.number)

Podemos perceber que se somarmos todos os os valores em cada coluna no primeiro exemplo que estão separados por agrupamentos dos anos, irá dar o mesmo valor que temos referente a cada linha do segundo exemplo.

Os grupos também podem ser usados para realizar cálculos separados por subconjunto de dados. Por exemplo, podemos __encontrar os dias de viagem com maior e menor volume por ano__ usando `rank()`:

In [None]:
tsa_melted_holiday_travel_ranked = tsa_melted_holiday_travel.assign(
    travel_volume_rank=lambda x: x.groupby('year').travelers.rank(ascending=False)
).sort_values(['travel_volume_rank', 'year'])

tsa_melted_holiday_travel_ranked

Para saber outros rankings podemos definir o __range__ do nosso row de dados:

In [None]:
tsa_melted_holiday_travel_ranked[96:99]

Os exemplos de grupo anteriores chamaram um único método nos dados agrupados, mas usando o método `agg()` podemos especificar qualquer número deles:

In [None]:
tsa_melted_holiday_travel.assign(
    holiday_travelers=lambda x: np.where(~x.holiday.isna(), x.travelers, np.nan),
    non_holiday_travelers=lambda x: np.where(x.holiday.isna(), x.travelers, np.nan),
    year=lambda x: pd.to_numeric(x.year)
).select_dtypes(include='number').groupby('year').agg(['mean', 'std'])

In [None]:
# Além disso, podemos especificar quais agregações realizar em cada coluna:

tsa_melted_holiday_travel.assign(
    holiday_travelers=lambda x: np.where(~x.holiday.isna(), x.travelers, np.nan),
    non_holiday_travelers=lambda x: np.where(x.holiday.isna(), x.travelers, np.nan)
).groupby('year').agg({
    'holiday_travelers': ['mean', 'std'], 
    'holiday': ['nunique', 'count']
})