# 1) Getting Started With Pandas

## Anatomia de um DataFrame

Um __DataFrame__ é composto por uma ou mais __Series__. Os nomes das series formam os nomes das __colunas__ e os rótulos das linhas formam o __Index__.

In [13]:
import pandas as pd

#Vizualização menor com rows = 5
meteoritos = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv', nrows=5)
#Vizualização completa
meteorites = pd.read_csv('/home/nicolas.fs/Estudos-PIBE/Repositório-GIT/pandas-workshop/data/Meteorite_Landings.csv')

meteoritos

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


Este comando acaba de utilizar o módulo __pandas__ para fazer a criação da tabela de Meteoritos utilizando o comando __pd.read_csv__. Com isso podemos fazer algumas análises utilizando a variável meteoritos:

In [14]:
meteoritos.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

In [15]:
meteoritos.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

In [16]:
meteoritos.index

RangeIndex(start=0, stop=5, step=1)

## Criando DataFrames

Podemos criar DataFrames a partir de uma variedade de fontes, como outros __objetos Python__. Veremos apenas alguns exemplos, mas podemos conferir a página da documentação para obter uma lista completa.

### Usando apenas uma linha

Do mesmo formato no qaul fizemos anteriormente, utilizando o comando __pd.read__.

### Usando dados de uma API

In [17]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

Esse código está utilizando a biblioteca __requests__ para fazer uma solicitação __GET__ a uma API da NASA, pedindo um parâmetro com um limite de 50.000 registros. Se a resposta for bem-sucedida (status OK), os dados JSON são __armazenados em payload__; caso contrário, uma mensagem de erro é exibida e payload é __definido como None__.

Criaremos agora o DataFrame com os resultados de payload, sendo o comando __df.head(n)__ responsável pelo __número de rows__ que teremos:

In [18]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,geolocation,:@computed_region_cbhk_fwbd,:@computed_region_nnqa_25f4
0,Aachen,1,Valid,L5,21,Fell,1880-01-01T00:00:00.000,50.775,6.08333,"{'latitude': '50.775', 'longitude': '6.08333'}",,
1,Aarhus,2,Valid,H6,720,Fell,1951-01-01T00:00:00.000,56.18333,10.23333,"{'latitude': '56.18333', 'longitude': '10.23333'}",,
2,Abee,6,Valid,EH4,107000,Fell,1952-01-01T00:00:00.000,54.21667,-113.0,"{'latitude': '54.21667', 'longitude': '-113.0'}",,


## Inspecionando dados

Agora que temos alguns dados, precisamos realizar uma inspeção inicial deles. Isso nos dá informações sobre a aparência dos dados, quantas linhas/colunas existem e quantos dados temos.

### Verificação da quantidade de rows e colunas

In [19]:
meteorites.shape

(45716, 10)

### Verificação do nome das colunas

In [20]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

### Verificação do tipo de dado que cada coluna informa

In [21]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

### Vizualização dos primeiros e últimos row de dados

In [22]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


In [23]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


### Pegando informações

In [24]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


## Extraindo subconjuntos

Uma parte crucial do trabalho com DataFrames é __extrair subconjuntos de dados__: encontrar linhas que atendam a um determinado conjunto de critérios, isolar colunas/linhas de interesse, etc. Esta seção é a espinha dorsal de muitas tarefas de análise.

### Selecionando colunas

In [25]:
meteorites.name

0            Aachen
1            Aarhus
2              Abee
3          Acapulco
4           Achiras
            ...    
45711    Zillah 002
45712        Zinder
45713          Zlin
45714     Zubkovsky
45715    Zulu Queen
Name: name, Length: 45716, dtype: object

Podemos selecionar múltiplas colunas de uma vez:

In [26]:
meteorites[['name','mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


### Selecionando linhas

In [27]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


### Indexando
Usamos __iloc[]__ para selecionar linhas e colunas por suas posições

In [28]:
meteorites.iloc[100:104,[0,3,4,6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


E usamos __loc[]__ para selecionar por nome

In [29]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


### Filtros com máscaras booleanas

Uma máscara booleana é uma estrutura semelhante a um array de valores booleanos – é uma forma de __especificar__ quais linhas/colunas queremos __selecionar (True)__ e quais __não queremos (False)__.

Aqui está um exemplo de uma máscara booleana para meteoritos pesando mais de 50 gramas e que foram encontrados na Terra (podemos também identificar duas formas de fazer esta análise):

In [30]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

0        False
1        False
2        False
3        False
4        False
         ...  
45711     True
45712    False
45713    False
45714     True
45715     True
Length: 45716, dtype: bool

Um meio alternativo é usar o comando `query()` (tomar cuidado para utilizar os caracteres especiais corretamente):

In [31]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


## Calculando estatísticas resumidas
Na próxima seção, discutiremos a limpeza de dados para uma análise mais significativa de nossos conjuntos de dados; no entanto, já podemos extrair alguns insights interessantes dos dados dos meteoritos calculando estatísticas resumidas.

### Um parâmetro x outro

In [32]:
meteorites.fall.value_counts()

fall
Found    44609
Fell      1107
Name: count, dtype: int64

### Qual é a massa do meteorito médio?

In [33]:
meteorites['mass (g)'].mean()

13278.078548601512

### Analisando médias e quantis

In [34]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

0.01        0.44
0.05        1.10
0.50       32.60
0.95     4000.00
0.99    50600.00
Name: mass (g), dtype: float64

In [35]:
meteorites['mass (g)'].median()

32.6

### Qual é o meteorito mais pesado e o mais leve
E como __mostrá-los__

In [36]:
meteorites['mass (g)'].min()

0.0

In [44]:
#Formato padrão de filtro para mostrara apenas os elementos filtrados com a condição booleana que queremos
meteorites[meteorites['mass (g)'] == 0]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
12640,Gove,52859,Relict,Relict iron,0.0,Found,01/01/1979 12:00:00 AM,-12.26333,136.83833,"(-12.26333, 136.83833)"
25557,Miller Range 090478,55953,Valid,CO3,0.0,Found,01/01/2009 12:00:00 AM,0.0,0.0,"(0.0, 0.0)"
31061,Österplana 048,56147,Relict,Relict OC,0.0,Found,01/01/2004 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31062,Österplana 049,56148,Relict,Relict OC,0.0,Found,01/01/2012 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31063,Österplana 050,56149,Relict,Relict OC,0.0,Found,01/01/2003 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31064,Österplana 051,56150,Relict,Relict OC,0.0,Found,01/01/2006 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31065,Österplana 052,56151,Relict,Relict OC,0.0,Found,01/01/2006 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31066,Österplana 053,56152,Relict,Relict OC,0.0,Found,01/01/2002 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31067,Österplana 054,56153,Relict,Relict OC,0.0,Found,01/01/2005 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"
31068,Österplana 055,56154,Relict,Relict OC,0.0,Found,01/01/2008 12:00:00 AM,58.58333,13.43333,"(58.58333, 13.43333)"


In [45]:
meteorites['mass (g)'].max()

60000000.0

In [46]:
Maior = meteorites[meteorites['mass (g)'] == 60000000.0]
Maior

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
16392,Hoba,11890,Valid,"Iron, IVB",60000000.0,Found,01/01/1920 12:00:00 AM,-19.58333,17.91667,"(-19.58333, 17.91667)"


### Extraindo informações de um meteorito específico

In [47]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

name                             Hoba
id                              11890
nametype                        Valid
recclass                    Iron, IVB
mass (g)                   60000000.0
fall                            Found
year           01/01/1920 12:00:00 AM
reclat                      -19.58333
reclong                      17.91667
GeoLocation     (-19.58333, 17.91667)
Name: 16392, dtype: object

### Quantos tipos diferentes de classes de meteoritos estão representados neste conjunto de dados?

In [48]:
meteorites.recclass.nunique()

466

Como por exemplo:

In [49]:
meteorites.recclass.unique()[:10]

array(['L5', 'H6', 'EH4', 'Acapulcoite', 'L6', 'LL3-6', 'H5', 'L',
       'Diogenite-pm', 'Unknown'], dtype=object)

### Obtendo algumas estatísticas resumidas sobre os próprios dados
Podemos obter estatísticas resumidas comuns para todas as colunas de uma só vez. Por padrão, serão apenas colunas numéricas, mas aqui resumiremos tudo junto:

In [50]:
meteorites.describe(include='all')

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
count,45716,45716.0,45716,45716,45585.0,45716,45425,38401.0,38401.0,38401
unique,45716,,2,466,,2,266,,,17100
top,Aachen,,Valid,L6,,Found,01/01/2003 12:00:00 AM,,,"(0.0, 0.0)"
freq,1,,45641,8285,,44609,3323,,,6214
mean,,26889.735104,,,13278.08,,,-39.12258,61.074319,
std,,16860.68303,,,574988.9,,,46.378511,80.647298,
min,,1.0,,,0.0,,,-87.36667,-165.43333,
25%,,12688.75,,,7.2,,,-76.71424,0.0,
50%,,24261.5,,,32.6,,,-71.5,35.66667,
75%,,40656.75,,,202.6,,,0.0,157.16667,


Valores NaN significam __dados ausentes__. Por exemplo, a coluna de queda contém __strings__, portanto não há valor para __média__; da mesma forma, a massa (g) é numérica, portanto não temos entradas para as estatísticas de resumo categóricas (única, superior, frequência).