# <font color='red'>1) Getting Started With Pandas</font>


## <font color='blue'>Anatomia de um DataFrame</font>
Um __DataFrame__ é composto por uma ou mais __Series__. Os nomes das series formam os nomes das __colunas__ e os rótulos das linhas formam o __Index__.

In [1]:
import pandas as pd

#Vizualização menor com rows = 5
meteoritos = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv', nrows=5)
#Vizualização completa
meteorites = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv')

meteoritos

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


Este comando acaba de utilizar o módulo __pandas__ para fazer a criação da tabela de Meteoritos utilizando o comando __pd.read_csv__. Com isso podemos fazer algumas análises utilizando a variável meteoritos:

In [2]:
meteoritos.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

In [3]:
meteoritos.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

In [4]:
meteoritos.index

RangeIndex(start=0, stop=5, step=1)

## <font color='blue'>Criando DataFrames</font>
Podemos criar DataFrames a partir de uma variedade de fontes, como outros __objetos Python__. Veremos apenas alguns exemplos, mas podemos conferir a página da documentação para obter uma lista completa.

### Usando apenas uma linha

Do mesmo formato no qual fizemos anteriormente, utilizando o comando __pd.read__.

### Usando dados de uma API

In [5]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

ConnectionError: HTTPSConnectionPool(host='data.nasa.gov', port=443): Max retries exceeded with url: /resource/gh4g-9sfh.json?%24limit=50000 (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7fc6869abc10>: Failed to establish a new connection: [Errno 101] Network is unreachable'))

Esse código está utilizando a biblioteca __requests__ para fazer uma solicitação __GET__ a uma API da NASA, pedindo um parâmetro com um __limite__ de __50.000__ registros. Se a resposta for bem-sucedida (status OK), os dados JSON são __armazenados em payload__; caso contrário, uma mensagem de erro é exibida e payload é __definido como None__.

Criaremos agora o DataFrame com os resultados de payload, sendo o comando __df.head(n)__ responsável pelo __número de rows__ que teremos:

In [None]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(2)

## <font color='blue'>Inspecionando dados</font>
Agora que temos alguns dados, precisamos realizar uma inspeção inicial deles. Isso nos dá informações sobre a aparência dos dados, quantas linhas/colunas existem e quantos dados temos.

### Verificação da quantidade de rows e colunas

In [None]:
meteorites.shape

### Verificação do nome das colunas

In [None]:
meteorites.columns

### Verificação do tipo de dado que cada coluna informa

In [None]:
meteorites.dtypes

### Vizualização dos primeiros e últimos row de dados

In [None]:
meteorites.head()

In [None]:
meteorites.tail()

### Pegando informações

In [None]:
meteorites.info()

## <font color='blue'>Extraindo subconjuntos</font>
Uma parte crucial do trabalho com DataFrames é extrair subconjuntos de dados: encontrar linhas que atendam a um determinado conjunto de critérios, isolar colunas elinhas de interesse, etc. Esta seção será muito importante para muitas tarefas de análise.

### Selecionando colunas

In [None]:
meteorites.name

Podemos selecionar múltiplas colunas de uma vez:

In [None]:
meteorites[['name','mass (g)']]

### Selecionando linhas

In [None]:
meteorites[100:104]

### Indexando
Usamos __iloc[]__ para selecionar linhas e colunas por suas posições

In [None]:
meteorites.iloc[100:104,[0,3,4,6]]

E usamos __loc[]__ para selecionar por nome

In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

### Filtros com máscaras booleanas

Uma máscara booleana é uma estrutura semelhante a um array de valores booleanos – é uma forma de __especificar__ quais linhas/colunas queremos __selecionar (True)__ e quais __não queremos (False)__.

Aqui está um exemplo de uma máscara booleana para meteoritos pesando mais de 50 gramas e que foram encontrados na Terra (podemos também identificar duas formas de fazer esta análise):

In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

Um meio alternativo é usar o comando `query()` (tomar cuidado para utilizar os caracteres especiais corretamente):

In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

## <font color='blue'>Calculando estatísticas resumidas</font>
Na próxima seção, discutiremos a limpeza de dados para uma análise mais significativa de nossos conjuntos de dados; no entanto, já podemos extrair alguns insights interessantes dos dados dos meteoritos calculando estatísticas resumidas.

### Um parâmetro x outro

In [None]:
meteorites.fall.value_counts()

### Qual é a massa do meteorito médio?

In [None]:
meteorites['mass (g)'].mean()

### Analisando médias e quantis

In [None]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

In [None]:
meteorites['mass (g)'].median()

### Qual é o meteorito mais pesado e o mais leve
E como __mostrá-los__

In [None]:
meteorites['mass (g)'].min()

In [None]:
#Formato padrão de filtro para mostrara apenas os elementos filtrados com a condição booleana que queremos
meteorites[meteorites['mass (g)'] == 0]

In [None]:
meteorites['mass (g)'].max()

In [None]:
Maior = meteorites[meteorites['mass (g)'] == 60000000.0]
Maior

### Extraindo informações de um meteorito específico

In [None]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

### Quantos tipos diferentes de classes de meteoritos estão representados neste conjunto de dados?

In [None]:
meteorites.recclass.nunique()

Como por exemplo:

In [None]:
meteorites.recclass.unique()[:10]

### Obtendo algumas estatísticas resumidas sobre os próprios dados
Podemos obter estatísticas resumidas comuns para todas as colunas de uma só vez. Por padrão, serão apenas colunas numéricas, mas aqui resumiremos tudo junto:

In [None]:
meteorites.describe(include='all')

Valores NaN significam __dados ausentes__. Por exemplo, a coluna de queda contém __strings__, portanto não há valor para __média__; da mesma forma, a massa (g) é numérica, portanto não temos entradas para as estatísticas de resumo categóricas (única, superior, frequência).

# <font color='red'>2) Data Wrangling</font>

Para preparar nossos dados para análise, precisamos realizar a __Data Wrangling__. Nesta seção, aprenderemos como limpar e reformatar dados (por exemplo: renomear colunas e corrigir incompatibilidades de tipos de dados), reestruturá-los/remodelá-los e enriquecê-los (por exemplo: discretizar colunas, calcular agregações e combinar fontes de dados)

## <font color='blue'>Limpeza de dados</font>
Nesta seção, veremos como: criar renomear e eliminar colunas; conversão de tipo; e classificação. Trabalharemos com os dados de viagem de táxi de 2019 fornecidos pela NYC Open Data.

In [None]:
import pandas as pd

taxis = pd.read_csv('../data/2019_Yellow_Taxi_Trip_Data.csv')
taxis.head()

### Descartando colunas
Iremos utilizar como exemplo a coluna __store_and_fwd_flag__ e as colunas de ID:

In [None]:
mask = taxis.columns.str.contains('id$|store_and_fwd_flag', regex=True)
columns_to_drop = taxis.columns[mask]
columns_to_drop

In [None]:
taxis = taxis.drop(columns=columns_to_drop)
taxis.head()

Criamos uma mascara chamada __mask__ utilizando os comandos e selecionando apenas as colunas que queriamos descartar. Após isso salvamos em `columns_to_drop` para depois assumir que __columns=columns_to_drop__ utilizando o comando `drop` para descartar as colunas.

### Renomeando colunas

In [None]:
taxis = taxis.rename(
    columns={
        'tpep_pickup_datetime': 'pickup', 
        'tpep_dropoff_datetime': 'dropoff'
    }
)
taxis.columns

### Convertendo tipos

In [None]:
taxis.dtypes

Neste caso, queremos que __pickup__ e __dropoff__ sejam __datetimes__. Podemos arrumar isto:

In [None]:
taxis[['pickup', 'dropoff']] = \
    taxis[['pickup', 'dropoff']].apply(pd.to_datetime)
taxis.dtypes

### Criando novas colunas

In [None]:
taxis = taxis.assign(
    elapsed_time=lambda x: x.dropoff - x.pickup, # 1
    cost_before_tip=lambda x: x.total_amount - x.tip_amount,
    tip_pct=lambda x: x.tip_amount / x.cost_before_tip, # 2
    fees=lambda x: x.cost_before_tip - x.fare_amount, # 3
    avg_speed=lambda x: x.trip_distance.div(
        x.elapsed_time.dt.total_seconds() / 60 / 60
    ) # 4
)

Essas __funções lambdas__ são funções pequenas e anônimas que podem receber vários argumentos, mas só podem conter uma expressão (o valor de retorno).

No caso temos algo do tipo:

`coluna_nova = lambda x: x.coluna1 operação x.coluna2`

In [None]:
taxis.head(2)

### Ordenando por valores
Podemos usar o método `sort_values()` 

In [None]:
taxis.sort_values(['passenger_count', 'pickup'], ascending=[False, True]).head()

Para escolher as linhas maiores e menores, usamos `nlargest()` e `nsmallest()`. Vejamos um exemplo olhando para as 3 viagens com maior tempo decorrido:

In [None]:
taxis.nlargest(4, 'elapsed_time')

In [None]:
taxis.nsmallest(4, 'total_amount')

## <font color='blue'>Trabalhando com índices</font>

Até agora, não trabalhamos realmente com índices porque eles são apenas os números de linhas; entretanto, podemos alterar os valores que temos no índice para acessar recursos adicionais da biblioteca pandas.

### Setando e ordenando índices

Atualmente, temos um RangeIndex, mas podemos mudar para um DatetimeIndex especificando uma coluna de data e hora ao chamar set_index():

In [None]:
taxis = taxis.set_index('pickup')
taxis.head(3)

_Obs:_ Neste modo, após colocarmos uma coluna como linha, ela não volta a ser coluna depois.

Como temos uma amostra do conjunto de dados completo, vamos classificar o índice por __ordem de horário de coleta__:

In [None]:
taxis = taxis.sort_index()

Agora podemos selecionar intervalos de nossos dados com base na data e hora da mesma forma que fizemos com os números das linhas:

In [None]:
taxis['2019-10-23 07:45':'2019-10-23 08']

Quando nao especificamos o range, usamos o comando `loc[]:`

In [None]:
taxis.loc['2019-10-23 08']

### Resetando os índices

Iremos estar trabalhando com time series depois desta seção, porém, as vezes queremos resetar nosso índice para números de linhas e recolocar as colunas novamente. Podemos fazer isso utilizando o comando `reset_index()`: 

In [None]:
taxis = taxis.reset_index()
taxis.head()


## <font color='blue'>Dados remodelados</font>

O taxi dataset que estamos trabalhando está em um formato propício para uma análise. Mas isto não é sempre o caso. Vamos agora ver o TSA traveler throughput data, no qual compara as taxas de transferencia de 2021 em um mesmo dia para os anos de 2020 e 2019:

In [6]:
tsa = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/tsa_passenger_throughput.csv', parse_dates=['Date'])
tsa

Unnamed: 0,Date,2021 Traveler Throughput,2020 Traveler Throughput,2019 Traveler Throughput
0,2021-05-14,1716561.0,250467,2664549
1,2021-05-13,1743515.0,234928,2611324
2,2021-05-12,1424664.0,176667,2343675
3,2021-05-11,1315493.0,163205,2191387
4,2021-05-10,1657722.0,215645,2512315
...,...,...,...,...
360,2020-05-19,,190477,2312727
361,2020-05-18,,244176,2615691
362,2020-05-17,,253807,2620276
363,2020-05-16,,193340,2091116


Agora iremos renomear as colunas para poder trabalhar com a remodelagem:

In [7]:
tsa = tsa.rename(columns=lambda x: x.lower().split()[0])
tsa

Unnamed: 0,date,2021,2020,2019
0,2021-05-14,1716561.0,250467,2664549
1,2021-05-13,1743515.0,234928,2611324
2,2021-05-12,1424664.0,176667,2343675
3,2021-05-11,1315493.0,163205,2191387
4,2021-05-10,1657722.0,215645,2512315
...,...,...,...,...
360,2020-05-19,,190477,2312727
361,2020-05-18,,244176,2615691
362,2020-05-17,,253807,2620276
363,2020-05-16,,193340,2091116


### Melting

Melting nos ajuda a converter os dados em um formato longo, podendo ter todos os dados de taxas de transferência do viajante em uma única coluna em linhas diferentes para cada ano:

In [8]:
tsa_melted = tsa.melt(
    id_vars='date', # column that uniquely identifies a row (can be multiple)
    var_name='year', # name for the new column created by melting
    value_name='travelers' # name for new column containing values from melted columns
)
tsa_melted

Unnamed: 0,date,year,travelers
0,2021-05-14,2021,1716561.0
1,2021-05-13,2021,1743515.0
2,2021-05-12,2021,1424664.0
3,2021-05-11,2021,1315493.0
4,2021-05-10,2021,1657722.0
...,...,...,...
1090,2020-05-19,2019,2312727.0
1091,2020-05-18,2019,2615691.0
1092,2020-05-17,2019,2620276.0
1093,2020-05-16,2019,2091116.0


_Obs:_ Podemos usar o comando `.sample(n)` caso queiramos em uma ordem aleatória.

Basicamente isso fez com que agora tenhamos mais linhas, pois temos o número de viajantes relacionados a cada ano para cada data, ao invés de várias colunas referente a cada ano para a data específica em uma só linha.

Para converter isso em uma série temporal de produtividade de viajantes, precisamos substituir o ano na __coluna de data__ pelo ano na __coluna de ano__. Caso contrário, estaremos marcando os números dos anos anteriores com o ano errado.

In [9]:
tsa_melted = tsa_melted.assign(
    date=lambda x: pd.to_datetime(x.year + x.date.dt.strftime('-%m-%d'))
)
tsa_melted

Unnamed: 0,date,year,travelers
0,2021-05-14,2021,1716561.0
1,2021-05-13,2021,1743515.0
2,2021-05-12,2021,1424664.0
3,2021-05-11,2021,1315493.0
4,2021-05-10,2021,1657722.0
...,...,...,...
1090,2019-05-19,2019,2312727.0
1091,2019-05-18,2019,2615691.0
1092,2019-05-17,2019,2620276.0
1093,2019-05-16,2019,2091116.0


Isso nos leva a alguns __valores nulos__:

In [10]:
tsa_melted.sort_values('date').tail(3)

Unnamed: 0,date,year,travelers
136,2021-12-29,2021,
135,2021-12-30,2021,
134,2021-12-31,2021,


Eles podem ser retirados utilizando o método `dropna()`:

In [11]:
tsa_melted = tsa_melted.dropna()
tsa_melted.sort_values('date').tail(3)

Unnamed: 0,date,year,travelers
2,2021-05-12,2021,1424664.0
1,2021-05-13,2021,1743515.0
0,2021-05-14,2021,1716561.0


### Pivô

Usando o melted data, podemos pivotar os dados para compará-los em dias específicos durantes os diferentes anos:

In [13]:
tsa_pivoted = tsa_melted\
    .query('date.dt.month == 3 and date.dt.day <= 10')\
    .assign(day_in_march=lambda x: x.date.dt.day)\
    .pivot(index='year', columns='day_in_march', values='travelers')
tsa_pivoted

day_in_march,1,2,3,4,5,6,7,8,9,10
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2019,2257920.0,1979558.0,2143619.0,2402692.0,2543689.0,2156262.0,2485430.0,2378673.0,2122898.0,2187298.0
2020,2089641.0,1736393.0,1877401.0,2130015.0,2198517.0,1844811.0,2119867.0,1909363.0,1617220.0,1702686.0
2021,1049692.0,744812.0,826924.0,1107534.0,1168734.0,992406.0,1278557.0,1119303.0,825745.0,974221.0


### Transposição

O atributo de transposição `T` prove uma maneira rapida de inverter linhas e colunas.

In [14]:
tsa_pivoted.T

year,2019,2020,2021
day_in_march,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2257920.0,2089641.0,1049692.0
2,1979558.0,1736393.0,744812.0
3,2143619.0,1877401.0,826924.0
4,2402692.0,2130015.0,1107534.0
5,2543689.0,2198517.0,1168734.0
6,2156262.0,1844811.0,992406.0
7,2485430.0,2119867.0,1278557.0
8,2378673.0,1909363.0,1119303.0
9,2122898.0,1617220.0,825745.0
10,2187298.0,1702686.0,974221.0


### Mesclando

Tipicamente observamos mudanças em viagens aéreas durantes os feriados, então podemos adicionar mais informações sobre as datas em nosso dataset provendo um maior contexto. O arquivo __holidays.csv__ contém alguns feriados importantes nos Estados Unidos.

In [15]:
holidays = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/holidays.csv', parse_dates=True, index_col='date')
holidays.loc['2019']

Unnamed: 0_level_0,holiday
date,Unnamed: 1_level_1
2019-01-01,New Year's Day
2019-05-27,Memorial Day
2019-07-04,July 4th
2019-09-02,Labor Day
2019-11-28,Thanksgiving
2019-12-24,Christmas Eve
2019-12-25,Christmas Day
2019-12-31,New Year's Eve


Podemos agora mesclar os feriados com o dataset de viagens providenciando mais informação para nossa análise:

In [18]:
tsa_melted_holidays = tsa_melted\
    .merge(holidays, left_on='date', right_index=True, how='left')\
    
tsa_melted_holidays.head()

Unnamed: 0,date,year,travelers,holiday
0,2021-05-14,2021,1716561.0,
1,2021-05-13,2021,1743515.0,
2,2021-05-12,2021,1424664.0,
3,2021-05-11,2021,1315493.0,
4,2021-05-10,2021,1657722.0,


Podemos agora procurar estes feriados pelos índices ou pelas datas:

In [26]:
result = tsa_melted_holidays.loc[[863]]
result

Unnamed: 0,date,year,travelers,holiday
863,2019-01-01,2019,2126398.0,New Year's Day


In [21]:
date_to_find = '2019-07-04'
result = tsa_melted_holidays.loc[tsa_melted_holidays['date'] == date_to_find]
result

Unnamed: 0,date,year,travelers,holiday
1044,2019-07-04,2019,2345846.0,July 4th


_Obs:_ Quando você usa um único par de colchetes `[]` com `.loc` ou `.iloc`, o resultado é uma Série __(pd.Series)__ se você está selecionando uma única linha ou coluna.

_Obs:_ Quando você usa um duplo par de colchetes `[[]]`, você está criando uma lista de rótulos (mesmo que seja um único rótulo) e isso garante que o resultado seja um DataFrame __(pd.DataFrame)__, não importa quantas linhas ou colunas você esteja selecionando.

Podemos dar um passo adiante, marcando alguns dias antes e depois de cada feriado como parte do feriado. Isso tornaria mais fácil comparar as viagens de férias ao longo dos anos e procurar qualquer aumento nas viagens durante os feriados:

In [28]:
tsa_melted_holiday_travel = tsa_melted_holidays.assign(
    holiday=lambda x:
        x.holiday\
            .fillna(method='ffill', limit=1)\
            .fillna(method='bfill', limit=2)
)

In [29]:
tsa_melted_holiday_travel.query(
    'year == "2019" and '
    '(holiday == "Thanksgiving" or holiday.str.contains("Christmas"))'
)

Unnamed: 0,date,year,travelers,holiday
868,2019-12-27,2019,2575985.0,Christmas Day
869,2019-12-26,2019,2470786.0,Christmas Day
870,2019-12-25,2019,2582580.0,Christmas Day
871,2019-12-24,2019,2552194.0,Christmas Eve
872,2019-12-23,2019,1937235.0,Christmas Eve
895,2019-11-30,2019,2591470.0,Thanksgiving
896,2019-11-29,2019,2882915.0,Thanksgiving
897,2019-11-28,2019,2648268.0,Thanksgiving
898,2019-11-27,2019,1968137.0,Thanksgiving



## <font color='blue'>Agrupamentos e agregações</font>

Após reformatar e limpar nossos dados, podemos fazer agregações para resumi-los de várias maneiras. Nesta seção, iremos explorar isso utilizando tabelas dinâmicas, crosstabs, e agrupamentos por operações para agregar os dados.