<b>Definitive Pandas Toolkit</b>

[Documentação-Oficial](https://pandas.pydata.org/)

Este notebook tem por objetivo realizar demonstrações práticas a respeito da biblioteca Pandas, evidenciando toda sua funcionalidade e abordando situações corriqueiras na análise e preparação de dados coletas através de Datasets.
    Com as facilidades apresentadas pelo Pandas, é possível:
* Tratar e analisar dados de difersas fontes e extensões (.csv, .json;
* Realizar Data Cleaning, Data Munging e Data Wrangling facilmente;
* Visualizar alterações em Datasets em tempo real;
* Analisar informações em formato de tabela (muito semelhante ao Excel);

Em conjunto com as demais ferramentas do <i>PyData Stack</i>, tais como Numpy e Matplotlib, o Pandas oferece a possibilidade de reunir, analisar e limpar dados de maneira eficiente e expressiva. 

## Importando biblioteca

Há basicamente duas formas diferentes de se importar uma biblioteca. A primeira delas, adotando convenções utilizadas dentro do universo do PyData Stack, utiliza "apelidos". A segunda, visando uma otimização do código, trabalha apenas com módulos específicos utilizados no código. 

In [8]:
# Importando a biblioteca pandas com "apelido" pd
import pandas as pd

In [6]:
# Importando apenas módulos específicos da biblioteca
from pandas import DataFrame, Series

In [6]:
# Verificando a versão instalada
pd.__version__

'0.22.0'

## Series

<i>class </i>pandas.<b>Series</b>(<i>data=None, index=None, name=None, copy=False, fastpath=False</i>)

[Documentacao-Oficial](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html)

O objeto do tipo Series nada mais é do que um _array_ unidimensional que contém um _array_ de <b>dados</b> e um _array_ de labels, conhecido como <b>índice</b>.

### Series sem índice 

In [9]:
# Criando uma série sem especificar os índices
series_1 = Series([10, 20, 30, 40, 50])

# Imprimindo objeto criado
print(series_1)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [10]:
# Verificando o tipo do objeto criado
type(series_1)

pandas.core.series.Series

In [11]:
# Atributo para retornar valores do objeto Series
series_1.values

array([10, 20, 30, 40, 50], dtype=int64)

In [12]:
# Atributo para retornar índices do objeto Series
series_1.index

RangeIndex(start=0, stop=5, step=1)

In [14]:
# Acessando elementos
series_1[3]

40

### Series com índice

In [13]:
# Diferente do exemplo anterior, deve-se agora especificar um índice em formato de lista
series_2 = Series([12, 5, 30, -10, 25], index=['a', 'b', 'c', 'd', 'e'])
print(series_2)

a    12
b     5
c    30
d   -10
e    25
dtype: int64


In [27]:
# Atributo para retornar valores do objeto Series
series_2.values

array([ 12,   5,  30, -10,  25], dtype=int64)

In [28]:
# Atributo para retornar índices do objeto Series
series_2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [30]:
# Slice
series_2[series_2 > 10]

a    12
c    30
e    25
dtype: int64

In [31]:
# Busca
series_2['b']

5

In [32]:
# Operações lógicas
'b' in series_2

True

In [16]:
# Acessando elementos
series_2[:3]

a    12
b     5
c    30
dtype: int64

### Series com dicionários

In [39]:
# Criando Series através de dicionários
dicio = {'Futebol':5200, 'Tenis':120, 'Natação': 698, 'Volleyball':1550}
series_3 = Series(dicio)
print(series_3)

Futebol       5200
Natação        698
Tenis          120
Volleyball    1550
dtype: int64


In [40]:
# Verificando tipo
type(series_3)

pandas.core.series.Series

In [41]:
# Modificando índice
novo_indice = ['Futebol', 'Tenis', 'Natação', 'Basketball']
series_3 = Series(dicio, index=novo_indice)
print(series_3)

Futebol       5200.0
Tenis          120.0
Natação        698.0
Basketball       NaN
dtype: float64


Um fato curioso aconteceu: o Pandas retorno NaN para dados referentes a Basketball. Isso se deu pois, ao fazer um cruzamento com o dicionário, não foi possível encontrar uma relação entre o índice em questão com algum valor associado (de fato, não há a chave Basketball no dicionário).

<i>NaN = dados missing.

### Dados NaN 

In [42]:
# Métodos e atributos para tal
pd.isnull(series_3)

Futebol       False
Tenis         False
Natação       False
Basketball     True
dtype: bool

In [43]:
pd.notnull(series_3)

Futebol        True
Tenis          True
Natação        True
Basketball    False
dtype: bool

In [45]:
series_3.isnull()

Futebol       False
Tenis         False
Natação       False
Basketball     True
dtype: bool

In [50]:
series_3.isnull().values

array([False, False, False,  True])

In [51]:
series_3.isnull().values.any()

True

## Dataframes

<i>class </i>pandas.<b>Dataframe</b>(<i>data=None, index=None, name=None, copy=False, fastpath=False</i>)

[Documentacao-Oficial](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Os Dataframes representam uma estrutura tabular, semelhante a estrutura de uma planilha do Excel, contendo uma coleção de <i>colunas</i> em que cada uma pode conter um tipo diferente de valor (int, string, boolean, etc).

Dataframes possuem <i>index</i> e <i>linhas</i> e são armazenados em um ou mais blocos <b>bidimensionais</b>, ao invés de listas/dicionários.

### Criando DataFrames

Há diversas formas de se criar DataFrames, sendo a mais comum através da leitura de arquivos externos. Entretanto, conhecer as estruturas que compõe os DataFrames é de extrema importância para uma boa análise dos dados.

In [26]:
# É possível criar Dataframes a partir de dicionários
pink_floyd_disco = {'Album':['The Dark Side of the Moon', 'Wish You Were Here', 'The Wall', 'Animals', 'The Divison Bell', 'The Final Cut'],
                    'Ano': [1973, 1975, 1979, 1977, 1994, 1983]}
df = DataFrame(pink_floyd_disco)
df

Unnamed: 0,Album,Ano
0,The Dark Side of the Moon,1973
1,Wish You Were Here,1975
2,The Wall,1979
3,Animals,1977
4,The Divison Bell,1994
5,The Final Cut,1983


In [38]:
# Também é possível obter DataFrames a partir de dados externos de arquivos
bike_sharing = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/bike_sharing_dataset/day.csv')
bike_sharing.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


Vimos que, diferente dos objetos do tipo <b>Series</b>, os <b>DataFrames</b> são compostos de dados tabulares bi-dimensionais (um exemplo são os dicionários cujos valores são listas), transformando o resultado em uma verdadeira tabela para análise. Mais adiante veremos como explorar os dados obtidos através de Series e DataFrames.

In [27]:
# Verificando o tipo do objeto criado
type(df)

pandas.core.frame.DataFrame

## Exploratory Data Analysis

É conhecido como <b>EDA</b> <i>(Exploratory Data Analysis)</i> o processo de reunir, avaliar, analisar e extrair informações a respeito de um dado Dataset. Para tal, o Pandas oferece diversas funcionalidades úteis compostas por métodos e atributos responsáveis por manipular até os mais complexos Datasets.

### Exemplos Práticos

#### Student Scores

In [45]:
# Importando biblioteca e lendo arquivo
import pandas as pd

df_student = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/student-scores.csv')

In [46]:
# Verificando informações iniciais do Dataset
df_student.head()

Unnamed: 0,ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
0,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


<b>Parâmetros: </b><i>.read_csv()</i>

* sep - define o separador a ser utilizado
* header - define a linha a ser utilizada como cabeçalho
* names - utiliza uma nova lista como cabeçalho
* index_col - transforma a(s) coluna(s) passada(s) como índice(s)

Ver mais em: [read_csv-Documentacao](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

In [48]:
# Verificando tipos primitivos das colunas
df_student.dtypes

ID              int64
Name           object
Attendance    float64
HW            float64
Test1         float64
Project1      float64
Test2         float64
Project2      float64
Final         float64
dtype: object

<b>Detalhe:</b> dados do tipo <i>string</i> são armazenados no Pandas como sendo do tipo <i>object</i>. Para verificar mais a fundo, podemos indexar a coluna para retornar um dado único e verificar seu tipo

In [50]:
# Verificando tipo primitivo da coluna 'Name'
type(df_student['Name'][0])

str

<b>Observação:</b> é interessante pensar qual o tipo primitivo o comando retornaria caso o índice [0] não estivesse presente. Algum palpite de acordo com o que já vimos até aqui? 

In [51]:
# Qual o tipo primitivo de uma única coluna?
type(df_student['Name'])

pandas.core.series.Series

In [52]:
# Realizando análises mais detalhadas nos dados
df_student.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 9 columns):
ID            5 non-null int64
Name          5 non-null object
Attendance    5 non-null float64
HW            5 non-null float64
Test1         5 non-null float64
Project1      5 non-null float64
Test2         5 non-null float64
Project2      5 non-null float64
Final         5 non-null float64
dtypes: float64(7), int64(1), object(1)
memory usage: 440.0+ bytes


Percebemos que trata-se de um Dataset com uma quantidade ínfima de dados (5 linhas apenas). O método <i>.info()</i> é muito importante pois nele conseguimos identificar valores NaN em colunas (quantidade de valores na coluna será menor que a quantidade total).

In [55]:
# Retornando diretamente linhas e colunas
df_student.shape

(5, 9)

In [56]:
# Envolvendo estatística
df_student.describe()

Unnamed: 0,ID,Attendance,HW,Test1,Project1,Test2,Project2,Final
count,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
mean,30692.6,0.816,0.88,85.4,90.2,86.6,87.6,88.0
std,4915.212691,0.28369,0.105594,11.39298,12.049896,8.473488,5.683309,5.244044
min,27492.0,0.32,0.74,68.0,70.0,73.0,81.0,82.0
25%,27604.0,0.84,0.84,82.0,89.0,84.0,82.0,84.0
50%,28592.0,0.96,0.85,87.0,94.0,90.0,90.0,88.0
75%,30572.0,0.96,0.97,92.0,98.0,92.0,92.0,91.0
max,39203.0,1.0,1.0,98.0,100.0,94.0,93.0,95.0


O método <i>.describe()</i> é extremamente útil para visualizar alguns dados estatísticos de maneira direta. Percebe-se que o .describe() foi aplicado apenas às colunas cujo tipo primitivo pode ser tratado como numérico.

In [57]:
# Também é possível aplicar conceitos estatísticos diretamente nas colunas
df_student['Project1'].mean()

90.2

In [60]:
# Retornando as colunas do Dataset
df_student.columns

Index(['ID', 'Name', 'Attendance', 'HW', 'Test1', 'Project1', 'Test2',
       'Project2', 'Final'],
      dtype='object')

In [61]:
# Retornando valores do Dataset
df_student.values

array([[27604, 'Joe', 0.96, 0.97, 87.0, 98.0, 92.0, 93.0, 95.0],
       [30572, 'Alex', 1.0, 0.84, 92.0, 89.0, 94.0, 92.0, 91.0],
       [39203, 'Avery', 0.84, 0.74, 68.0, 70.0, 84.0, 90.0, 82.0],
       [28592, 'Kris', 0.96, 1.0, 82.0, 94.0, 90.0, 81.0, 84.0],
       [27492, 'Rick', 0.32, 0.85, 98.0, 100.0, 73.0, 82.0, 88.0]],
      dtype=object)

<b>Observação:</b> valores são retornados como um <i>ndarray</i> do <b>Numpy</b>, o qual será visto mais a frente.

In [66]:
# Modificando nomes das colunas
label = ['ID', 'Nome', 'Frequência', 'HW', 'P1', 'Lab1', 'P2', 'Lab2', 'Final']
df_student.columns = label
df_student

Unnamed: 0,ID,Nome,Frequência,HW,P1,Lab1,P2,Lab2,Final
0,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


In [67]:
# Analisando o Dataset, é possível perceber facilmente que o ID poderia ser o índice das linhas
df_student.set_index('ID')

Unnamed: 0_level_0,Nome,Frequência,HW,P1,Lab1,P2,Lab2,Final
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0
