<b><font size=5>Definitive Pandas Toolkit</b></font>

[Documentação-Oficial](https://pandas.pydata.org/)

Este notebook tem por objetivo realizar demonstrações práticas a respeito da biblioteca Pandas, evidenciando toda sua funcionalidade e abordando situações corriqueiras na análise e preparação de dados coletas através de Datasets.
    Com as facilidades apresentadas pelo Pandas, é possível:
* Tratar e analisar dados de difersas fontes e extensões (.csv, .json);
* Realizar Data Cleaning, Data Munging e Data Wrangling facilmente;
* Visualizar alterações em Datasets em tempo real;
* Analisar informações em formato de tabela (muito semelhante ao Excel);

Em conjunto com as demais ferramentas do <i>PyData Stack</i>, tais como Numpy e Matplotlib, o Pandas oferece a possibilidade de reunir, analisar e limpar dados de maneira eficiente e expressiva. 

# First Steps

## Importando a biblioteca

Há basicamente duas formas diferentes de se importar uma biblioteca. A primeira delas, adotando convenções utilizadas dentro do universo do PyData Stack, utiliza "apelidos". A segunda, visando uma otimização do código, trabalha apenas com módulos específicos utilizados no código. 

In [None]:
# Importando a biblioteca pandas com "apelido" pd
import pandas as pd

In [None]:
# Importando apenas módulos específicos da biblioteca
from pandas import DataFrame, Series

In [None]:
# Verificando a versão instalada
pd.__version__

## Series

<i>class </i>pandas.<b>Series</b>(<i>data=None, index=None, name=None, copy=False, fastpath=False</i>)

[Documentacao-Oficial](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html)

O objeto do tipo Series nada mais é do que um _array_ unidimensional que contém um _array_ de <b>dados</b> e um _array_ de labels, conhecido como <b>índice</b>.

### Series sem índice 

In [None]:
# Criando uma série sem especificar os índices
series_1 = Series([10, 20, 30, 40, 50])

# Imprimindo objeto criado
print(series_1)

In [None]:
# Verificando o tipo do objeto criado
type(series_1)

In [None]:
# Atributo para retornar valores do objeto Series
series_1.values

In [None]:
# Atributo para retornar índices do objeto Series
series_1.index

In [None]:
# Acessando elementos
series_1[3]

### Series com índice

In [None]:
# Diferente do exemplo anterior, deve-se agora especificar um índice em formato de lista
series_2 = Series([12, 5, 30, -10, 25], index=['a', 'b', 'c', 'd', 'e'])
print(series_2)

In [None]:
# Atributo para retornar valores do objeto Series
series_2.values

In [None]:
# Atributo para retornar índices do objeto Series
series_2.index

In [None]:
# Slice
series_2[series_2 > 10]

In [None]:
# Busca
series_2['b']

In [None]:
# Operações lógicas
'b' in series_2

In [None]:
# Acessando elementos
series_2[:3]

### Series com dicionários

In [None]:
# Criando Series através de dicionários
dicio = {'Futebol':5200, 'Tenis':120, 'Natação': 698, 'Volleyball':1550}
series_3 = Series(dicio)
print(series_3)

In [None]:
# Verificando tipo
type(series_3)

In [None]:
# Modificando índice
novo_indice = ['Futebol', 'Tenis', 'Natação', 'Basketball']
series_3 = Series(dicio, index=novo_indice)
print(series_3)

Um fato curioso aconteceu: o Pandas retorno NaN para dados referentes a Basketball. Isso se deu pois, ao fazer um cruzamento com o dicionário, não foi possível encontrar uma relação entre o índice em questão com algum valor associado (de fato, não há a chave Basketball no dicionário).

<i>NaN = dados missing.

### Dados NaN 

In [None]:
# Métodos e atributos para tal
pd.isnull(series_3)

In [None]:
pd.notnull(series_3)

In [None]:
series_3.isnull()

In [None]:
series_3.isnull().values

In [None]:
series_3.isnull().values.any()

## Dataframes

<i>class </i>pandas.<b>Dataframe</b>(<i>data=None, index=None, name=None, copy=False, fastpath=False</i>)

[Documentacao-Oficial](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Os Dataframes representam uma estrutura tabular, semelhante a estrutura de uma planilha do Excel, contendo uma coleção de <i>colunas</i> em que cada uma pode conter um tipo diferente de valor (int, string, boolean, etc).

Dataframes possuem <i>index</i> e <i>linhas</i> e são armazenados em um ou mais blocos <b>bidimensionais</b>, ao invés de listas/dicionários.

### Criando DataFrames

Há diversas formas de se criar DataFrames, sendo a mais comum através da leitura de arquivos externos. Entretanto, conhecer as estruturas que compõe os DataFrames é de extrema importância para uma boa análise dos dados.

In [3]:
# É possível criar Dataframes a partir de dicionários
import pandas as pd
pink_floyd_disco = {'Album':['The Dark Side of the Moon', 'Wish You Were Here', 'The Wall', 'Animals', 'The Divison Bell', 'The Final Cut'],
                    'Ano': [1973, 1975, 1979, 1977, 1994, 1983]}
df = pd.DataFrame(pink_floyd_disco)
df

Unnamed: 0,Album,Ano
0,The Dark Side of the Moon,1973
1,Wish You Were Here,1975
2,The Wall,1979
3,Animals,1977
4,The Divison Bell,1994
5,The Final Cut,1983


In [6]:
lista = [2, 3, 4, 5, 6]
df = pd.DataFrame(lista)
df

Unnamed: 0,0
0,2
1,3
2,4
3,5
4,6


In [14]:
s_lista_JSON = {'CEP': [89876123, 384059683, 54676123, 89326123], 
                'UF': ['SP', 'AM', 'MG', 'RJ']}

pd.DataFrame(s_lista_JSON)

Unnamed: 0,CEP,UF
0,89876123,SP
1,384059683,AM
2,54676123,MG
3,89326123,RJ


In [38]:
json = [{'cep': 413411, 'uf':'am'}, {'cep':241412, 'uf':'sp'}]

In [39]:
json

[{'cep': 413411, 'uf': 'am'}, {'cep': 241412, 'uf': 'sp'}]

In [40]:
list(json[0].values())[0]

413411

In [41]:
lista_ufs = [list(json[i].values())[0] for i in range(len(json))]
lista_ufs

[413411, 241412]

In [51]:
lista_cep = [elemento['cep'] for elemento in lista_json]
lista_uf = [elemento['uf'] for elemento in lista_json]

dict_df = {'cep': lista_cep, 'uf': lista_uf}

df = pd.DataFrame(dict_df)
df

Unnamed: 0,cep,uf
0,413411,am
1,241412,sp
2,12345676,rj


In [55]:
df.to_csv('arquivo_json.csv', index=0)

In [54]:
df_loaded = pd.read_csv('arquivo_json.csv', index=0)
df_loaded

TypeError: parser_f() got an unexpected keyword argument 'index'

In [47]:
lista_json = [{'cep': 413411, 'uf':'am'}, {'cep':241412, 'uf':'sp'}, {'cep': 12345676, 'uf': 'rj'}]
lista_json

[{'cep': 413411, 'uf': 'am'},
 {'cep': 241412, 'uf': 'sp'},
 {'cep': 12345676, 'uf': 'rj'}]

In [12]:
tup = [4, 4, 4, 4, 4, 4]
dicionario = {'CEP': lista, 'OUTRO': tup}
dicionario

{'CEP': [2, 3, 4, 5, 6], 'OUTRO': [4, 4, 4, 4, 4, 4]}

In [None]:
# Também é possível obter DataFrames a partir de dados externos de arquivos
bike_sharing = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/bike_sharing_dataset/day.csv')
bike_sharing.head()

Vimos que, diferente dos objetos do tipo <b>Series</b>, os <b>DataFrames</b> são compostos de dados tabulares bi-dimensionais (um exemplo são os dicionários cujos valores são listas), transformando o resultado em uma verdadeira tabela para análise. Mais adiante veremos como explorar os dados obtidos através de Series e DataFrames.

In [None]:
# Verificando o tipo do objeto criado
type(bike_sharing)

# Exploratory Data Analysis

É conhecido como <b>EDA</b> <i>(Exploratory Data Analysis)</i> o processo de reunir, avaliar, analisar e extrair informações a respeito de um dado Dataset. Para tal, o Pandas oferece diversas funcionalidades úteis compostas por métodos e atributos responsáveis por manipular até os mais complexos Datasets.

## Student Scores

In [1]:
# Importando biblioteca e lendo arquivo
import pandas as pd

df_student = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/student-scores.csv')

In [2]:
type(df_student)

pandas.core.frame.DataFrame

In [3]:
# Verificando informações iniciais do Dataset
df_student.head()

Unnamed: 0,ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
0,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


In [4]:
df_student.shape

(5, 9)

In [6]:
print(f'O dataset possui {df_student.shape[0]} linhas e {df_student.shape[1]} colunas.')

O dataset possui 5 linhas e 9 colunas.


In [7]:
df_student.set_index('ID', inplace=True)

In [8]:
df_student.head()

Unnamed: 0_level_0,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


<b>Parâmetros: </b><i>.read_csv()</i>

* sep - define o separador a ser utilizado
* header - define a linha a ser utilizada como cabeçalho
* names - utiliza uma nova lista como cabeçalho
* index_col - transforma a(s) coluna(s) passada(s) como índice(s)

Ver mais em: [read_csv-Documentacao](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

In [None]:
# Verificando tipos primitivos das colunas
df_student.dtypes

<b>Detalhe:</b> dados do tipo <i>string</i> são armazenados no Pandas como sendo do tipo <i>object</i>. Para verificar mais a fundo, podemos indexar a coluna para retornar um dado único e verificar seu tipo

In [None]:
df_student['Name']

In [None]:
# Verificando tipo primitivo da coluna 'Name'
type(df_student['Name'][27604])

<b>Observação:</b> é interessante pensar qual o tipo primitivo o comando retornaria caso o índice [0] não estivesse presente. Algum palpite de acordo com o que já vimos até aqui? 

In [None]:
# Qual o tipo primitivo de uma única coluna?
type(df_student['Name'])

In [None]:
# Realizando análises mais detalhadas nos dados
df_student.info()

Percebemos que trata-se de um Dataset com uma quantidade ínfima de dados (5 linhas apenas). O método <i>.info()</i> é muito importante pois nele conseguimos identificar valores NaN em colunas (quantidade de valores na coluna será menor que a quantidade total).

In [None]:
# Retornando diretamente linhas e colunas
print(f'O DataFrame possui {df_student.shape[0]} linhas e {df_student.shape[1]} colunas.')

In [None]:
print('O DataFrame possui {} linhas e {} colunas'.format(df_student.shape[0], df_student.shape[1]))

In [None]:
# Envolvendo estatística
df_student.describe()

O método <i>.describe()</i> é extremamente útil para visualizar alguns dados estatísticos de maneira direta. Percebe-se que o .describe() foi aplicado apenas às colunas cujo tipo primitivo pode ser tratado como numérico.

In [None]:
# Também é possível aplicar conceitos estatísticos diretamente nas colunas
df_student['Project1'].mean()

In [None]:
# Retornando as colunas do Dataset
df_student.columns

In [None]:
# Retornando valores do Dataset
df_student.values

<b>Observação:</b> valores são retornados como um <i>ndarray</i> do <b>Numpy</b>, o qual será visto mais a frente.

In [None]:
# Modificando nomes das colunas
label = ['ID', 'Nome', 'Frequência', 'HW', 'P1', 'Lab1', 'P2', 'Lab2', 'Final']
df_student.columns = label
df_student

In [None]:
# Analisando o Dataset, é possível perceber facilmente que o ID poderia ser o índice das linhas
df_student.set_index('ID')

<b>Análise Final: </b> O Dataset <i>student_scores</i> é nitidamente uma ferramente para testes iniciais, provendo apenas 5 linhas para análises e poucas colunas/atributos. Entretanto, a partir de sua manipulação, foi possível treinar funções e métodos presentes em qualquer análise exploratório, como por exemplo:

* Leitura de arquivo .csv <b>.read_csv()</b>
* Visualização dos dados <b>.head()</b>
* Verificação dos tipos de dados <b>.dtypes</b>
* Informações mais detalhadas <b>.info()</b>
* Contagem de linhas e colunas <b>.shape</b>
* Informações estatísticas <b>.describe()</b>
* Média de uma coluna de dados <b>.mean()</b>
* Visualização de todas as colunas <b>.columns</b>
* Visualização de todos os valores <b>.values</b>
* Mudança de header <b>.columns = <i>label</i></b>
* Mudança de índice <b>.set_index(<i>'Column'</i>)</b>

## Powerplant

Dataset real com informações relevantes a respeito de uma Usina de Energia.

<b>Link:</b> http://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant

<b>Atributos:</b>

Features consist of hourly average ambient variables 
- Temperature (T) in the range 1.81°C and 37.11°C,
- Ambient Pressure (AP) in the range 992.89-1033.30 milibar,
- Relative Humidity (RH) in the range 25.56% to 100.16%
- Exhaust Vacuum (V) in teh range 25.36-81.56 cm Hg
- Net hourly electrical energy output (EP) 420.26-495.76 MW

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant.csv')
df_pp.head()

<b>Observação:</b> Percebe-se que o documento está separado por <b>;</b> e não por <b>,</b> e, portanto, é necessária a chamado de um parâmetro adicional - <i>sep</i>

In [None]:
# Configurando separador
df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant.csv', sep=';')
df_pp.head()

In [None]:
# Para facilitar o entendimento dos dados, é possível alterar o nome das colunas
new_columns = ['Temperature', 'Exhaust Vacuum', 'Pressure', 'RH', 'Energy Output']
df_pp.columns = new_columns
df_pp.head()

In [None]:
# Verificando linhas e colunas
df_pp.shape

In [None]:
# Informações adicionais
df_pp.dtypes

<b>Observação:</b> Aparentemente todos os dados estão armazenados como <i>string</i>.

In [None]:
# Verificando mais a fundo
type(df_pp['RH'][0])

In [None]:
# Envolvendo estatística
df_pp.describe()

In [None]:
# Verificando valores NaN
df_pp.isnull().any()

In [None]:
# Uma outra forma de contabilizar seria com a função .sum()
df_pp.isnull().sum()

In [None]:
# Salvando alterações no cabeçalho em novo arquivo .csv
df_pp.to_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')

In [None]:
df_pp_edited = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp_edited.head()

<b>Observação:</b> Inesperadamente surgiu uma coluna chamada <b>Unnamed: 0</b> no Dataset. Isto pode ser resolvido passando alguns parâmetros na hora de salvar o novo Dataset em formato .csv

In [None]:
df_pp.to_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv', index=False)

In [None]:
df_pp_edited = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp_edited.head()

<b>Análise Final: </b> Os dados contidos em <i>powerplant</i> são extremamente úteis pois são reais. De fato, a quantidade de linhas e colunas se assemelha muito ao que se encontra por aí afora. Entretanto, como não havia nenhum problema específico a ser resolvido, muito menos alguma investigação especial, o objetivo trazido por esta sessão foi o de familiarização com algumas funções adicionais do Pandas, bem como a gravação das edições realizadas em um novo arquivo .csv. A mudança no cabeçalho (header) também foi algo a ser destacado. Dessa forma, foram utilizadas as seguintes funcionalidades:

* Leitura de arquivo .csv <b>.read_csv()</b>
* Trabalhar com separador diferente <b>sep=';'</b>
* Visualização dos dados <b>.head()</b>
* Verificação dos tipos de dados <b>.dtypes</b>
* Contagem de linhas e colunas <b>.shape</b>
* Informações mais detalhadas <b>.info()</b>
* Informações estatísticas <b>.describe()</b>
* Mudança de header <b>.columns = <i>new_columns</i></b>
* Salvando alterações em um novo arquivo <b>df.to_csv<i>(path, index=False)</i></b>

## Census Income

O Dataset em questão fornece informações relevantes a respeito de dados coletados pelo Censo americano. Atributos como <i>idade, salário, ocupação, educação, </i>entre outros formam este conjunto de dados.

<b>Link:</b> https://archive.ics.uci.edu/ml/datasets/Census+Income

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_census = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/census_income.csv')
df_census.head()

In [None]:
# Verificando quantidade de linhas e colunas
df_census.shape

In [None]:
# Verificando informações meis detalhadas
df_census.info()

<b>Diagnóstico importante:</b> Sabendo a quantidade total de linhas do Dataset, com a função <i>.info()</b>, é possível saber se há valores missing (NaN) em alguma coluna. Neste caso, a resposta é <b>não</b> porém, de toda forma, é possível conferir com a função abaixo

In [None]:
# Há algum valor NaN?
df_census.isnull().values.any()

In [None]:
# Há linhas duplicadas?
df_census.duplicated().any()

In [None]:
# Verificando valores duplicados através de uma função
def has_duplicated(df):
    if df.duplicated().any():
        print(f'Há {df.duplicated().sum()} valores duplicados.')
    else:
        print('Não há valores duplicados.')

In [None]:
has_duplicated(df_census)

Ao encontrar dados duplicados em um Dataset, é necessário realizar a seguinte <b>análise: </b>Faz sentido eliminar dados duplicados?

Caso caso é um caso particular. Quando se fala em pesquisas de Censo, será que é um total absurdo encontrar dados duplicados? É possível que as pessoas da pesquisa possuam mesmo cargo, salário, educação, relacionamento, etc? 

MINHA análise: sim.

Portanto, EU decidi não eliminar os dados duplicados com a função .drop_duplicates(inplace=True)

In [None]:
# Verificando instâncias únicas do Dataset
df_census.nunique()

<b>Pergunta 1: </b>
<i>Qual a média de idade e de salário da pesquisa realizada?</i>

In [None]:
# Média de Idade
print(f'A média de idade é de aproximadamente {int(df_census["age"].mean())} anos')

In [None]:
# Média de Salário
print(f'Em média, o salário dos integrantes da pesquisa é de US${df_census["capital-gain"].mean():.2f}')

<b>Pergunta 2: </b>
<i>Quantas entradas diferentes temos para a coluna Gênero? Conte as instâncias de cada uma delas.</i>

In [None]:
# Verificando entradas diferentes
df_census['sex'].nunique()

In [None]:
# Verificando quais as entradas únicas e em quais quantidades
df_census['sex'].value_counts()

In [None]:
# Comunicando resultado
print(f"Há {df_census['sex'].value_counts()[0]} pessoas cadastradas com gênero 'Masculino'")
print(f"Há {df_census['sex'].value_counts()[1]} pessoas cadastradas com gênero 'Feminino'")

In [None]:
# Uma outra forma de análisar seria aplicar o método .describe() à Series de gênero
df_census['sex'].describe()

<b>Pergunta 3:</b> <i>'Splitar'</i> o Dataset em questão e separa-lo em dois outros Datasets:

* Dataset df_rich com pessoas que ganham de 2.500,00 dols para cima
* Dataset df_humble com pessoas que ganham abaixo de 2.500,00 dols

In [None]:
# Slice com parâmetro lógico
df_rich = df_census[df_census['capital-gain'] >= 2500]
df_rich.head()

<b>Curiosidade:</b> qual o resultado do argumento df_census['capital-gain'] > 2500 ?

In [None]:
# Curiosidade
df_census['capital-gain'] >= 2500

<b>Interessante!</b> Trata-se de um array de booleanos. Em outras palavras, o Slice, nesse caso, funcionou através de um argumento de booleanos onde foi selecionado apenas os valores <b>True</b> que satisfaziam a condição passada.

In [None]:
# Contando valores do novo data_set por dois modos diferentes:
(df_census['capital-gain'] >= 2500).sum()

In [None]:
df_rich.shape[0]

In [None]:
# Trabalhando no outro Dataset
df_humble = df_census[df_census['capital-gain'] < 2500]
df_humble.head()

In [None]:
df_humble.shape[0]

In [None]:
# Comunicando resultado
print(f'Há {df_rich.shape[0]} pessoas que ganham US$2.500,00 ou mais')
print(f'Há {df_humble.shape[0]} pessoas que ganham abaixo de US$2.500,00')

<b>Pergunta 4:</b> Há alguma relação entre o salário e a coluna 'native-country'?

Para responder esta pergunta, o ideal seria usar propriedades gráficas. Porém, para fins didáticos, vamos tentar realizar as operações através de contagem de instâncias. As propriedades gráficas com Pandas serão introduzidas nas próximas sessões.

In [None]:
# Verificando entradas diferentes no DataFrame rich
df_rich['native-country'].value_counts()

In [None]:
# Verificando entradas diferentes no DataFrame humble
df_humble['native-country'].value_counts()

Caminho: verificar porcentagem.

In [None]:
# Porcentagem dos ricos nativos dos EUA
eua_rich = df_rich['native-country'].value_counts().max() / df_rich['native-country'].value_counts().sum()
print(f'{100*eua_rich:.2f}% dos maiores salários são de pessoas nativas dos EUA.')
print(f'Da mesma forma, {(100-(100*eua_rich)):.2f}% dos maiores salários são oriundos de "imigrantes".')

In [None]:
# Porcentagem dos "pobres" nativos dos EUA (calculado de forma diferentes do calculado acima)

# Transformando apenas a coluna em questão em um objeto do tipo Series
df_humble_sal = df_humble['native-country'].value_counts()
immigrants_humble = (df_humble_sal.sum()-df_humble_sal[' United-States']) / df_humble_sal.sum()
eua_humble = 1-immigrants_humble
print(f'{100*immigrants_humble:.2f}% dos menores salários provém de "imigrantes" nos EUA.')
print(f'Da mesma forma, {100*eua_humble:.2f}% dos menores salários são de americanos nativos.')

<b>Análise Final: </b> Com o Dataset <i>census_income</i> foi possível trabalhar de maneira mais limpa e clara com as funções tratadas em outros Datasets vistos anteriormente. Neste caso, haviam perguntas a serem respondidades e análises a serem feitas. Obviamente, este tipo de informação (censo) abre margem para uma infinidade de perguntas e respostas que podem ser respondidades, principalmente, através de análises gráficas. Neste passo inicial, foram trabalhadas diversas funções, das quais destacaram-se:

* Contagem de valores em um objeto do tipo Series (coluna específica): <b><i>Series</i>.value_counts()</b>
* Soma de valores em um objeto do tipo Series (coluna específica): <b><i>Series</i>.sum()</b>
* Retornando máximo valor em uma coluna específica: <b><i>Series</i>.max()</b>
* Calculando média de uma coluna específica: <b><i>Series</i>.max()</b>
* Informações estatísticas <b>.describe()</b>
* Contagem de linhas e colunas <b>.shape</b>

## Chicago Bike Share

As informações trazidas pelo Dataset de aluguel de bicicletas em Chicago foi utilizado no <i>Projeto 1</i> do curso da Udacity a fim de responder algumas questões bem específicas (sem utilizar Pandas). Dessa vez, todas as funcionalidades da biblioteca serão utilizadas afim de extrair algumas informações e trabalhar de forma a preparar o Dataset para futuras análises.

<b>Link:</b> https://www.divvybikes.com/system-data

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_bike = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/chicago.csv')
df_bike.head()

<b>Observação:</b> Temos colunas que se referem à datas. 

In [None]:
# Linhas e colunas
print(f'Linhas: {df_bike.shape[0]}\nColunas: {df_bike.shape[1]}')

In [None]:
# Vamos verificar os tipos primitivos.
df_bike.dtypes

In [None]:
# Verificando tipo de Start Time
type(df_bike['Start Time'][0])

In [None]:
# Convertendo colunas de datas em timestamp
df_bike['Start Time'] = pd.to_datetime(df_bike['Start Time'])
df_bike['End Time'] = pd.to_datetime(df_bike['End Time'])

In [None]:
# Verificando tipos convertidos
print(type(df_bike['Start Time'][0]))
print(type(df_bike['End Time'][0]))

Referência: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html

In [None]:
# Novos tipos
df_bike.dtypes

<b>Pergunta 1:</b> <i>Há valores missing (NaN) no Dataset?</i> 

In [None]:
# Verificando NaN
df_bike.isnull().any()

Percebe-se que há valores NaN em duas colunas diferentes, <b>Gender</b> e <b>Birth Year</b>. Vamos contabilizar os valores NaN de cada coluna.

In [None]:
# Contabilizando NaN da coluna Gender
df_bike['Gender'].isnull().sum()

In [None]:
# Contabilizando NaN da coluna Birth Year
df_bike['Birth Year'].isnull().sum()

<b>Análise:</b> Como a coluna 'Gênero' não é numérica, não é possível inferir qual o gênero corresponde às linhas com NaN. No caso da coluna 'Birth Year', poderíamos preencher os valores vazios com a média, porém acredito se tratar de uma análise muito superficial, visto que o espectro dado por Birth Year é bem abrangente. A fidelidade dos dados seria prejudicada.

<b>Pergunta 2:</b> <i>Há dados duplicados?</i>

In [None]:
# Verificando se há dados duplicados
df_bike.duplicated().any()

In [None]:
# Quantidade de linhas duplicadas
df_bike.duplicated().sum()

<b>Pergunta 2:</b> <i>Caso existir linhas duplicadas, eliminá-las.</i>

In [None]:
# Verificando quantidade de linhas do Dataset antes da eliminação
print(f'O Dataset original possui {df_bike.shape[0]} linhas.')

# Dropando linhas duplicadas
df_bike.drop_duplicates(inplace=True)
print(f'Após o drop_duplicates, o Dataset tem {df_bike.shape[0]} linhas.')

<b>Pergunta 3:</b> <i>Qual a duração média das viagens realizadas? Mostre também a viagem de menor e maior tempo de duração.</i>

In [None]:
# Calculando média
df_bike['Trip Duration'].mean()

In [None]:
# Máximo
df_bike['Trip Duration'].max()

In [None]:
# Mínimo
df_bike['Trip Duration'].min()

<b>Pergunta 4:</b> <i>Há relação entre o ano de nascimento e o gênero de quem aluga bicicletas?</i>

In [None]:
# Separando Dataset por Gênero Masculino
df_bike_m = df_bike.loc[lambda df: df['Gender'] == 'Male']
df_bike_m.head()

In [None]:
# Separando Dataset por Gênero Feminino
df_bike_f = df_bike[df_bike['Gender'] == 'Female']
df_bike_f.head()

In [None]:
# Separando Dataset por Gênero Indefinido (NaN)
df_bike_null = df_bike[df_bike['Gender'].isnull()]
df_bike_null.head()

<b>Observação:</b> Aparentemente, todo mundo que não preencheu o Gênero, também não preencheu o Ano de Nascimento (NaN em ambas as colunas). Vejamos.

In [None]:
# Analisando contagem de linhas do df_bike_null
print(f'Há {df_bike_null.shape[0]} linhas no Dataset de gêneros NaN.')
print(f'Há {df_bike_null["Birth Year"].isnull().sum()} valores NaN na coluna Birth Year deste mesmo Dataset.')

In [None]:
# Valores de Ano de Nascimento preenchido no Dataset de Gêneros não definidos
df_bike_null.shape[0] - df_bike_null["Birth Year"].isnull().sum()

Apenas 184 valores estão preenchidos na coluna Birth Year. Não vale a pena continuar a análise para Ano de Nascimento nesta coluna. Entretanto, já é possível perceber que a coluna Trip Duration possui valores preenchidos. A próxima análise será baseada nela.

In [None]:
# Média de Idade - Gênero Masculino
df_bike_m['Birth Year'].mean()

In [None]:
# Méda de Idade - Gênero Feminino
df_bike_f['Birth Year'].mean()

<i>Conclusão:</i> Não há diferenças significativas na idade de pessoas dos gêneros Masculino e Feminino que alugam bicicletas em Chicago. 

<b>Pergunta 5:</b> <i>Há mais algum insight relacionado à coluna Gênero?

In [None]:
# Estatísticas do Gênero Masculino
df_bike_m.describe()

In [None]:
# Estatísticas do Gênero Feminino
df_bike_f.describe()

In [None]:
# Estatisticas de Gênero NaN
df_bike_null.describe()

In [None]:
# Comunicando resultados
print(f'Duração média de viagem do gênero Masculino: {df_bike_m["Trip Duration"].mean():.2f}s')
print(f'Duração média de viagem do gênero Feminino: {df_bike_f["Trip Duration"].mean():.2f}s')
print(f'Duração média de viagem de gêneros Indefinidos: {df_bike_null["Trip Duration"].mean():.2f}s')

<i>Conclusão:</i> Gêneros não definidos possuem a maior média de Duração de Viagem (Trip Duration). Gêneros Femininos possuem maior Duração média de Viagem do que Gêneros Masculinos.

<b>Análise Final: </b> O Dataset <i>chicago</i>, como dito anteriormente, foi responsável por disponibilizar as análises ncessárias para conclusão do Projeto 1 dentro o curso da Udacity. Diferente do que foi visto até o momento, as funções trabalhadas se resumiram a:

* Verificação de linhas e colunas: <b>.shape</b>
* Verificação de tipos primitivos: <b>.dtypes</b>
* Transformação de string para timestamp: <b>pd.to_datetime(<i>Series</i>)</b>
* Verificação de valores nulos: <b>.isnull().any()</b>
* Contagem de valores nulos: <b>.isnull().sum()</b>
* Verificação de linhas duplicadas: <b>.duplicated().any()</b>
* Contagem de linhas duplicadas: <b>.duplicated().sum()</b>
* Deletando linhas duplicadas: <b>.drop_duplicates(<i>inplace=True</i>)</b>
* Separando Datasets: <b>.loc[<i>boolean</i>]</b>
* Cálculo de média: <b>.mean()</b>
* Análise estatística: <b>.describe()</b>

## Cancer Data

O arquivo <i>cancer-data</i> contém informações reais a respeito de características específicas de tumores, tais como diâmetro, textura, area, concavidade e uma série de atributos, incluindo uma coluna que define se o tumor é Maligno (M) ou Benigno (B).

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_cancer = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/cancer-data.csv')
df_cancer.head()

In [None]:
# Contagem de linhas e colunas
print(f'Linhas: {df_cancer.shape[0]}\nColunas: {df_cancer.shape[1]}')

In [None]:
# Verificando dados missing
df_cancer.isnull().any()

Diversas colunas possuem valores missing (marcadas como <i>True</i>)

In [None]:
# Contagem de valores missing
df_cancer.isnull().values.sum()

In [None]:
# Tratando valores nulos de apenas 1 coluna: texture_mean
df_cancer['texture_mean'].isnull().sum()

In [None]:
# Preenchendo dados missing com a média
media = df_cancer['texture_mean'].mean()
df_cancer['texture_mean'].fillna(media, inplace=True)

In [None]:
# Verificando nova quantidade de missing
df_cancer['texture_mean'].isnull().sum()

In [None]:
# Verificando linhas duplicadas
df_cancer.duplicated().any()

In [None]:
# Contando linhas duplicadas
df_cancer.duplicated().sum()

<i>Análise:</i> Como há uma coluna <b>id</b> neste Dataset, dados duplicados não são úteis.

In [None]:
# Eliminando dados duplicados
df_cancer.drop_duplicates(inplace=True)

In [None]:
# Verificando linhas duplicadas após exclusão
df_cancer.duplicated().any()

In [None]:
# Contagem de linhas duplicadas após exclusçao
df_cancer.duplicated().sum()

Como dito acima, há uma coluna <i>id</i> no Dataset o que, de fato, abre espaço para transforma-la em index.

In [None]:
df_cancer.set_index('id', inplace=True)
df_cancer.head()

É possível selecionar dados usando `loc` e `iloc`, cujos detalhes podem ser lidos na [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/indexing.html). `loc` usa rótulos de linhas ou colunas para selecionar dados, enquanto `iloc` usa índices. Vamos usar estes para indexar o dataframe abaixo e separar apenas os dados <b>médios</b> dos atributos relacionados aos tumores.

In [None]:
# Verificando colunas e seus respectivos índices
for i, v in enumerate(df_cancer.columns):
    print(i, v)

Queremos selecionar TODOS os dados `[:]` da coluna 0 até a coluna 10 `[:,:11]`

In [None]:
# Utilizando índices (iloc)
df_cancer_means = df_cancer.iloc[:, :11]
df_cancer_means.head()

In [None]:
# Utilizando keys (loc)
df_cancer_means = df_cancer.loc[:, 'diagnosis':'fractal_dimension_mean']
df_cancer_means.head()

<b>Bônus: Selecionando múltiplos intervalos no Pandas</b>

Selecionar as colunas para o dataframe de médias foi bem direto - as colunas que precisávamos selecionar estavam todas juntas (`id`, `diagnosis` e as colunas relacionadas à média). Agora temos um pequeno problema quando tentamos fazer o mesmo para desvio padrão (SE) ou valores máximos. As colunas `id` e `diagnosis` estão separadas do restante das colunas de que precisamos! Não conseguimos especificar todas estas em um só intervalo.

Primeiro, tente criar o dataframe de desvios padrão por conta própria, para entender por que fazer isto usando apenas `loc` e `iloc` não é possível. Então, use este [link do stackoverflow](https://stackoverflow.com/questions/41256648/select-multiple-ranges-of-columns-in-pandas-dataframe) para aprender como selecionar múltiplos intervalos no Pandas e tente fazê-lo abaixo. A propósito, para descobrir como fazer isso por conta própria, eu encontrei esse link googlando "how to select multiple ranges df.iloc".

*Dica: Talvez você tenha que importar um novo pacote!*

In [None]:
# Este novo pacote é o Numpy, pois vamos criar um ndarray para especificar o intervalo
import numpy as np

for i, v in enumerate(df_cancer.columns):
    print(i, v)

Queremos a coluna 0 (diagnosis) <b>e</b> as colunas de índice 11 até 20.

In [None]:
# Selecionando colunas SE (incluindo diagnosis e id (índice do Dataset))
df_cancer_se = df_cancer.iloc[:, np.r_[0, 11:21]]
df_cancer_se.head()

In [None]:
# Realizando o mesmo procedimento para atributos max
df_cancer_max = df_cancer.iloc[:, np.r_[0, 21:31]]
df_cancer_max.head()

Salvando todos os 3 novos Datasets em arquivos `.csv`

In [None]:
# cancer_means
df_cancer_means.to_csv('C:/Users/thiagoPanini/Downloads/datasets/cancer_means.csv', index=False)

# cancer_SE
df_cancer_se.to_csv('C:/Users/thiagoPanini/Downloads/datasets/cancer_se.csv', index=False)

# cancer_max
df_cancer_max.to_csv('C:/Users/thiagoPanini/Downloads/datasets/cancer_max.csv', index=False)

<b>Análise Final: </b> O Dataset *cancer_data* certamente foi o mais completo e complexo até o momento trabalhado. Possuindo uma grande quantidade de colunas, uma grande quantidade de valores missing e, por fim, uma grande quantidade de linhas duplicadas. Todos estes processos foram tratados, além da transformação da coluna id como índice e também do _split_ do Dataset em três novos arquivos através dos métodos `.loc()` e `.iloc()`. Além dos atributos e métodos básicos tratados até aqui, destacam-se:

* Transformação de índice: <b>.set_index<i>('column_name')</i></b>
* Verificação de valores missing: <b>.isnull().any()</b>
* Contagem de valores missing: <b>.isnull().values.sum()</b>
* Preenchimento de valores missing com média: <b>.fillna<i>(media, inplace=True)</i></b>
* Contagem de linhas duplicadas: <b>.duplicated().any()</b>
* Somatório de linhas duplicadas: <b>.duplicated().any().sum()</b>
* Slice de atributos por índice: <b>.iloc[<i>rows_selection, column_index(s)</i>]</b>
* Slice de atributos por key: <b>.loc[<i>rows_selection, column_name(s)</i>]</b>
* Salvando em novos arquivos .csv: <b>.to_csv<i>(path, index=False)</i>

## Store Data

Neste Dataset, o estudo de caso é baseado nas informações de venda de cinco diferentes lojas em determinada época do ano. A coluna _week_ reverencia a época na qual referem-se os resultados de venda de cada loja. Questionamentos realizados:

* Qual loja obteve o maior resultado de vendas no último mês?
* Qual loja vende mais, em média?
* Qual loja vendeu mais durante a semana de 13 de março de 2016?
* Em qual semana a loja C tem o pior resultado de vendas?
* Qual vendeu mais nos últimos três meses?

In [None]:
# Importando biblioteca e lendo arquivo
import pandas as pd

df_store = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/store-data.csv')
df_store.head()

In [None]:
# Coluna de 'data' - Verificar tipo primitivo
df_store.dtypes

In [None]:
# Parece que novamente trata-se de uma string. Verificando a fundo.
type(df_store['week'][0])

In [None]:
# Transformando em timestamp
df_store['week'] = pd.to_datetime(df_store['week'])
df_store.dtypes

<b>Desafio 1:</b> Qual loja obteve o maior resultado de vendas no último mês?

In [None]:
# Verificando a última data presente
df_store['week'].max()

In [None]:
# Verificando o último mês
df_store['week'].max().month

In [None]:
# Verificando a primeira data do mês 2
df_store.tail()

In [None]:
# Vamos trabalhar com nosso df a fim de captar resultados que começam em 2018-02-04
df_store[df_store['week'] >= '2018-02-04']

In [None]:
# Somando vendas
df_store[df_store['week'] >= '2018-02-04'].sum()

In [None]:
# Retornando o número máximo
df_store[df_store['week'] >= '2018-02-04'].sum().max()

In [None]:
# Retornando o nome da loja que vendeu mais
df_store[df_store['week'] >= '2018-02-04'].sum().idxmax()

A função `.idxmax()` eficientemente retorna o índice cujo valor da _Series_ em Pandas possui valor máximo. Por exemplo, `df_store['storeA'].idxmax()` retorna `12`, uma vez que na linha de índice 12 do DataFrame o valor de vendas da coluna `storeA` alcança valor máximo.

Link 1: https://stackoverflow.com/questions/10202570/pandas-dataframe-find-row-where-values-for-column-is-maximal

Link 2: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.idxmax.html

In [None]:
# Resultado
print(f'O melhor resultado do último mês corresponde a {df_store[df_store["week"] >= "2018-02-04"].sum().idxmax()} com {df_store[df_store["week"] >= "2018-02-04"].sum().max()} de vendas.')

<b>Desafio 2:</b> Qual loja vende mais, em média?

In [None]:
df_store.head()

In [None]:
# Verificando médias
df_store.mean()

In [None]:
# Seguindo o mesmo princípio do Desafio acima e utilizando .idxmax()
df_store.mean().idxmax()

In [None]:
# Resultado
print(f'A loja que mais vende, em média, é {df_store.mean().idxmax()} com um {df_store.mean().max()} de vendas.')

<b>Desafio 3:</b> Qual loja vendeu mais durante a semana de 13 de março de 2016?

In [None]:
# Verificando dados em 13-03-2018
df_store[df_store['week'] == '2016-03-13']

In [None]:
# Comunicando resultado.
print("Loja que mais vendeu durante a semana de 13 de março de 2016: {0}.".format(
            df_store[(df_store['week'] > '2016-03-12') & 
             (df_store['week'] < '2016-03-21')].sum(axis=0)[1:].idxmax()))
print(f"Resultado: {df_store[df_store['week'] == '2016-03-13'].sum()[1:].max()}.")

<b>Desafio 4: </b> Em qual semana a loja C tem o pior resultado de vendas?

In [None]:
df_store.head()

In [None]:
# Trabalhando com Series storeC
df_store['storeC']

In [None]:
# Calculando mínimo
df_store['storeC'].min()

In [None]:
# Mas e a semana que isso ocorreu?

# Forma 1
df_store[df_store['storeC'] == df_store['storeC'].min()]['week']

In [None]:
# Forma 2 (mais elegante)

# Calculando índice cujo valor de storeC é minimo
df_store['storeC'].idxmin()

In [None]:
# Puxando informações do Dataset quando índice = 9
df_store.iloc[df_store['storeC'].idxmin()]

In [None]:
# Retornando semana de índice 9
df_store.iloc[df_store['storeC'].idxmin()]['week']

In [None]:
# Resultado
print(f"Pior semana para storeC: {df_store.iloc[df_store['storeC'].idxmin()]['week']} com {df_store['storeC'].min()} de vendas.")

<b>Desafio 5:</b> Qual vendeu mais nos últimos três meses?

In [None]:
# Neste caso, é melhor trabalhar com range start e end
period_end = df_store['week'].max()
period_end

In [None]:
# Voltando três meses
period_start = df_store['week'].max() - pd.DateOffset(months=3)
period_start

In [None]:
# Trabalhando com Dataset
df_store[df_store['week'] >= period_start]

In [None]:
df_store[df_store['week'] >= period_start].sum().idxmax()

In [None]:
# Condicionando Dataset para Range entre dois períodos
df_store[(df_store['week'] >= period_start) & (df_store['week'] <= period_end)].sum().idxmax()

In [None]:
# Resultado
print(f"Nos últimos três meses, a {df_store[(df_store['week'] >= period_start) & (df_store['week'] <= period_end)].sum().idxmax()} obteve o melhor resultado, totalizando {df_store[(df_store['week'] >= period_start) & (df_store['week'] <= period_end)].sum().max()} de vendas.")

<b>Referências</b>

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.last.html

https://codeburst.io/dealing-with-datetimes-like-a-pro-in-pandas-b80d3d808a7f

<b>Análise Final: </b> O Dataset *store_data* trouxe consigo uma complexidade única não vista até aqui: o trabalho com datas. Além da conversão características entre tipos _str_ para _timestamp_, o _slice_ do DataFrame para retornar valores em datas distintas foi o ponto principal oferecido por este trabalho. Comandos inéditos como `.idxmax()` e `.idxmin()` foram utilizados em larga escala de modo a retornar os valores desejados. Operações lógicas entre _Series_ utilizando o operador `&` também foi de extrema importância. Dentre os conceitos trabalhados, destacam-se:

* Transformação de coluna em datetime: <b>pd.to_datetime[df[column]]</b>
* Retorno de índice do DataFrame cujo valor da Series é máximo: <b>.idxmax()</b>
* Retorno de índice do DataFrame cujo valor da Series é mínimo: <b>.idxmin()</b>
* Slice de DataFrame através de índice: <b>.iloc[]</b>
* Operação entre Series com lógica booleana: <b>df[condition1 & condition2]</b>
* Offset de períodos (range): <b>pd.DateOffset([days/months/years]=int)</b>

## Wine Data

Adentrando em um Estudo de Casa um pouco mais específico, é apresentado um desafio relacionado a dois Datasets diferentes: `wine-quality-red` e `wine-quality-white`. Neles, alguns atributos químicos são utilizados para <b>classificar</b> a qualidade de cada um dos tipos de vinhos, atribuindo-lhes uma nota (presente em uma coluna específica de cada Dataset).

Existem dois conjuntos de dados que oferecem informações sobre amostras de variantes de vinho tinto e branco do “vinho verde” português. A qualidade de cada amostra de vinho foi avaliada por especialistas e examinada com testes físico-químicos. Devido a problemas de privacidade e logística, apenas dados sobre as propriedades físico-químicas e classificações de qualidade estão disponíveis (por exemplo, não existem dados sobre tipos de uvas, marca do vinho, preço de venda do vinho, etc.). Algumas perguntas podem ser feitas para fins didáticos:

* Número de amostras em cada conjunto de dados
* Número de colunas em cada conjunto de dados
* Recursos com valores faltantes
* Linhas duplicadas no conjunto de dados sobre vinho branco
* Número de valores únicos para qualidade em cada conjunto de dados
* Densidade média do conjunto de dados sobre vinho tinto

In [None]:
# Importando biblioteca e lendo arquivos
import pandas as pd

df_red = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-red.csv')
df_red.head()

Separados diferente (<b>;</b>). Reabrindo arquivo com parâmetro _sep_

In [None]:
# Vinho tinto
df_red = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-red.csv', sep=';')
df_red.head()

In [None]:
# Vinho branco
df_white = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-white.csv', sep=';')
df_white.head()

<b>Pergunta 1:</b> Número de amostras em cada conjunto de dados

In [None]:
print(f'Vinho tinto: {df_red.shape[0]} amostras.')
print(f'Vinho branco: {df_white.shape[0]} amostras.')

<b>Pergunta 2:</b> Número de colunas em cada conjunto de dados

In [None]:
print(f'Vinho tinto: {df_red.shape[1]} colunas.')
print(f'Vinho branco: {df_white.shape[1]} colunas.')

<b>Pergunta 3:</b> Recursos com valores faltantes

In [None]:
print(f'Vinho tinto: {df_red.isnull().any().sum()} valores faltantes.')
print(f'Vinho branco: {df_white.isnull().any().sum()} valores faltantes.')

<b>Pergunta 4: </b>Linhas duplicadas no conjunto de dados sobre vinho branco

In [None]:
print(f'Vinho tinto: {df_red.duplicated().sum()} linhas duplicadas.')
print(f'Vinho branco: {df_white.duplicated().sum()} linhas duplicadas.')

<b>Pergunta 5:</b> Número de valores únicos para qualidade em cada conjunto de dados

In [None]:
print(f"Vinho tinto: {df_red['quality'].nunique()} valores únicos para Qualidade (nota).")
print(f"Vinho branco: {df_white['quality'].nunique()} valores únicos para Qualidade (nota).")

<b>Pergunta 6:</b> Densidade média do conjunto de dados sobre vinho tinto

In [None]:
print(f"Vinho tinto: {df_red['density'].mean():.2f} g/m³ de densidade média.")
print(f"Vinho branco: {df_white['density'].mean():.2f} g/m³ de densidade média.")

<b>Avaliação final:</b> Perguntas simples para um Dataset complexo objetivando relembrar alguns conceitos para trabalhar com funções aprimoradas no futuro, como por exemplo, junção dos dois Datasets de vinho branco e tinto através do _Numpy_.

# Plotting with Pandas

## Histograma

Um histograma nada mais é do que uma representação gráfica de uma distribuição de frequência. Essa ferramenta tem retângulos justapostos, sendo que a base do retângulo é formada pelos intervalos de classe e a altura é proporcional à frequência do intervalo.

Além de fornecer uma representação visual da distribuição dos dados, o histograma é um mecanismo fundamental para o controle de qualidade. Dessa forma, ele pode ser utilizado para melhorar um determinado projeto devido à visão completa do conjunto de dados.

Referência: https://www.google.co.jp/search?q=histograma&oq=histograma&aqs=chrome..69i57j69i60l3j69i61l2.1505j0j7&sourceid=chrome&ie=UTF-8

Vamos iniciar esta sessão com o primeiro Dataset trabalhado no tópico sobre EDA: _student-scores_.

### Student Scores

In [None]:
# Importando biblioteca e lendo arquivo
import pandas as pd
% matplotlib inline

df_student = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/student-scores.csv')
df_student.head()

In [None]:
# Verificando estatísticas
df_student.describe()

In [None]:
# Função hist()
df_student.hist(figsize=(12,12));

<b>Análise:</b> O Dataset _student-scores_ proporciona poucos dados. A análise fica prejudicada. Vamos tentar com o Dataset _powerplant_

### Powerplant

É importante ressaltar que, na sessão 4 de _Exploratory data Analysis_, alterações foram realizadas no Dataset _powerplant_, como por exemplo, mudança no header (label), entre outros. O arquivo a ser utilizado, para os testes gráficos, será o _powerplant-edited_.

In [None]:
# Importando biblioteca e lendo arquivo
import pandas as pd
% matplotlib inline

df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp.head()

In [None]:
# Verificando colunas numéricas
df_pp.describe()

Estranhamente não foram retornados dados importantes como <b>média</b>, <b>max</b>, etc... Vamos investigar o motivo.

In [None]:
df_pp.dtypes

Está aí a resposta: os dados salvos neste Dataset estão em formato de string e não em formato numérico. Vejamos se o Dataset anterior à edição também está da mesma forma.

In [None]:
df_pp_pre = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant.csv', sep=';')
df_pp_pre.head()

In [None]:
df_pp_pre.dtypes

Também encontra-se do mesmo jeito. Vamos tentar alterar as colunas pra que sejam do tipo numérico.

Fonte: https://stackoverflow.com/questions/15891038/change-data-type-of-columns-in-pandas

In [None]:
# Antes de tudo, transformar vírgulas em ponto
for value in df_pp:
    for i in range(df_pp.shape[0]):
        df_pp[value][i] = df_pp[value][i].replace(',','.')

O erro acima é explicado pois esta conversão já foi realizada anteriormente.

In [None]:
# Aplicando conversão e verificando
df_pp = df_pp.astype(float)
df_pp.dtypes

In [None]:
# Agora sim
df_pp.describe()

In [None]:
# Aplicando histograma
df_pp.hist(figsize=(12,12));

<b>Análise</b>: Visualização muito melhor. Claramente conseguimos perceber onde está a maior distribuição de cada coluna. Por exemplo, na _Umidade Relativa_, é possível concluir que os valores ficam concentrados na faixa de 70 a 90%. Já na Pressão, estes valores se concentram na faixa de 1010 a 1015 bar.

Link sobre distribuição normal: https://en.wikipedia.org/wiki/Normal_distribution

In [None]:
# Também é possível chamar histogramas em colunas específicas e de uma outra forma
df_pp['RH'].plot(kind='hist');

### Census Income

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_census = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/census_income.csv')
df_census.head()

In [None]:
# Verificando estatísticas
df_census.describe()

In [None]:
# Avaliando histograma
df_census.hist(figsize=(12, 12));

Alguns valores não ficaram legais. O atributo de melhor visualização para tirada de conclusões é o de idade. Vamos reservar uma última sessão para tentar retirar mais insights deste Dataset retomando algumas questões respondidas na sessão 4 de EDA.

## Barra

O gráfico de barra é adequado para comparar diversos valores. O eixo da dimensão mostra os itens da categoria que são comparados, e o eixo da medida mostra o valor de cada item da categoria. As barras empilhadas e agrupadas facilitam a visualização de dados agrupados. O gráfico de barra também é útil quando você quiser comparar valores lado a lado, como ao comparar as vendas com a previsão para diferentes anos, e quando as medidas (neste caso, vendas e previsão) são calculadas usando a mesma unidade.

Khan Academy: https://pt.khanacademy.org/math/cc-third-grade-math/cc-third-grade-measurement/cc-third-grade-data/a/create-bar-graphs

Qlik: https://help.qlik.com/pt-BR/sense/June2018/Subsystems/Hub/Content/Visualizations/Bar-Chart/bar-chart.htm

### Store Data

In [None]:
import pandas as pd

df_store = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/store-data.csv')
df_store.head()

In [None]:
df_store.describe()

In [None]:
# Retirando a coluna 'week' para plotar o somatório de vendas por loja.
df_stores = df_store.iloc[:, 1:]
df_stores.head()

In [None]:
# Plotando gráfico de barras
df_stores.sum().plot(kind='bar');

In [None]:
# Máximo de vendas de cada loja
df_stores.max().plot(kind='bar')

Vamos agora ter uma outra visão também contemplando a coluna 'week'

In [None]:
df_store.head()

In [None]:
df_store.dtypes

In [None]:
# Convertendo coluna 'week' para datetime
df_store['week'] = pd.to_datetime(df_store['week'])
df_store.dtypes

In [None]:
df_store.set_index('week', inplace=True)
df_store.head()

In [None]:
df_month = df_store.resample('M').sum()

In [None]:
df_month.head()

In [None]:
# Agrupando valores de data em meses
df_month.index = df_month.index.strftime('%B')

Referência: https://stackoverflow.com/questions/32699950/how-to-convert-pandas-index-to-month-name

In [None]:
df_month.head(30)

Vimos que talvez seja melhor retornar o somatório por ano.

In [None]:
df_year = df_store.resample(rule="A").sum()

In [None]:
df_year.head()

In [None]:
# Agrupando valores de data em meses
df_year.index = df_year.index.strftime('%Y')

Referência: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Period.strftime.html

Referência: http://strftime.org/

In [None]:
# Agrupando valores Mensais para contemplar o somatório de vendas de cada loja
df_year

In [None]:
# Plotando visões
df_year.plot(figsize=(15, 8))

In [None]:
# Barras
df_year.plot(kind='bar', figsize=(12, 8))

## Pizza

O gráfico de pizza, também conhecido como gráfico de setores ou gráfico circular é um diagrama circular onde os valores de cada categoria estatística representada são proporcionais às respectivas frequências. Este gráfico pode vir acompanhado de porcentagens. É utilizado para dados qualitativos nominais. 

Link 1: http://www.portalaction.com.br/estatistica-basica/17-grafico-de-pizza

Link 2: https://docs.tibco.com/pub/spotfire_web_player/6.0.0-november-2013/pt-BR/WebHelp/GUID-8B1036A5-6BE9-4A84-B532-8E15060CABA9.html

### Chicago Bike Share

Vamos analisar o Dataset _chicago-bike-share_ para visualizar algumas informações em formato de Gráficos de Pizza.

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_bike = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/chicago.csv')
df_bike.head()

Podemos criar uma vista com a porcentagem de alugueis de bicicleta por gênero.

In [None]:
# Utilizando a função value_counts() na coluna gender
df_bike['Gender'].value_counts()

In [None]:
# Transformando em gráfico de pizza
df_bike['Gender'].value_counts().plot(kind='pie', figsize=(9,9));

Podemos realizar o mesmo para os User Types

In [None]:
df_bike.head()

In [None]:
df_bike['User Type'].value_counts()

In [None]:
df_bike['User Type'].value_counts().plot(kind='pie', figsize=(7, 7));

## Dispersão

Gráfico de Dispersão são utilizados para pontuar dados em um eixo vertical e horizontal com a intenção de exibir quanto uma variável é afetada por outra.

Cada linha na tabela de dados é representada por um marcador cuja posição depende dos seus valores nas colunas determinados nos eixos X e Y. Múltiplas escalas podem ser utilizadas no eixo Y para quando você quiser comparar diversos marcadores com faixas de valores significativamente diferentes. Uma terceira variável pode ser configurada para corresponder a cor ou ao tamanho (por ex., um gráfico de bolhas) dos marcadores, então adicionar outra dimensão ao gráfico.

A relação entre duas variáveis é chamada de correlação. Se os marcadores estão próximos a formar uma linha reta no gráfico de dispersão, as duas variáveis possuem uma alta correlação. Se os marcadores estiverem igualmente distribuídos no gráfico de dispersão, a correlação é baixa, ou zero. Entretanto, mesmo se a correlação pareça estar presente, esse pode não ser o caso. Ambas as variáveis podem estar relacionadas a uma terceira variável, então expandir a sua variação ou uma pura coincidência pode causar uma aparente correlação.

Se aplicado quando uma análise é criada, o gráfico de dispersão pode exibir informação adicional em linhas de referência ou em diferentes tipos de curvas. Estas linhas ou curvas podem, por exemplo, exibir quão bem os seus dados se adaptam a certo ajuste de curva polinomial ou para resumir uma coleção de pontos de dados amostrais ajustando-os a um modelo que descreverá os dados e exibirá uma curva ou uma linha reta no topo da visualização. A curva normalmente modifica a aparência dependendo de quais valores você filtrou na análise. Ao passar o mouse, uma dica mostra como a curva é calculada.

Referências: 

https://docs.tibco.com/pub/spotfire_web_player/6.0.0-november-2013/pt-BR/WebHelp/GUID-780960FA-1DCE-4E59-8EB7-54F7144DB362.html

[Tipos-de-correlacao](http://www.futebolmetria.com/correla--o-estat-stica.html)

https://www.emathzone.com/tutorials/basic-statistics/positive-and-negative-correlation.html

### Cancer Data

In [None]:
# Importando biblioteca e lendo arquivo
import pandas as pd
% matplotlib inline

df_cancer = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/cancer_means.csv')
df_cancer.head()

In [None]:
# Abaixo, usaremos uma função capaz de identificar todas as colunas numéricas do Dataset e mostrar correlações.
# A função retorna um gráfico de Dispersão e um Histograma para cada coluna do Dataset.

pd.plotting.scatter_matrix(df_cancer, figsize=(20, 20));

In [None]:
# Também é possível visualizar gráficos de Dispersão entre duas variáveis apenas
df_cancer.plot(x='area_mean', y='radius_mean', kind='scatter');

Correlação extremamente <b>direta</b> entre Área e Raio de um tumor.

In [None]:
df_cancer.plot(x='area_mean', y='symmetry_mean', kind='scatter');

Sem correlação alguma entre Área e Simetria.

### Wine Data

In [None]:
# Importando biblioteca e lendo arquivo
import pandas as pd
% matplotlib inline

# Vinho tinto
df_red = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-red.csv', sep=';')
df_red.head()

In [None]:
# Visão geral
pd.plotting.scatter_matrix(df_red, figsize=(17, 17));

In [None]:
df_red.head()

In [None]:
# Verificando individualmente
df_red.plot(kind='scatter', x='chlorides', y='volatile acidity', figsize=(10, 10));

<b>Explicação teórica:</b>

![correlations.png](attachment:correlations.png)

## Box Plot

O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. 

Referências:

http://www.portalaction.com.br/estatistica-basica/31-boxplot

https://en.wikipedia.org/wiki/Outlier

https://www.r-statistics.com/2011/01/how-to-label-all-the-outliers-in-a-boxplot/

### Powerplant

In [1]:
# Importando biblioteca e lendo arquivo
import pandas as pd
% matplotlib inline

df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp.head()

FileNotFoundError: File b'C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv' does not exist

In [None]:
# Verificando tipos
df_pp.dtypes

In [None]:
# Precisamos converter todos os dados em float, porém, antes de tudo, transformar vírgulas em ponto
for value in df_pp:
    for i in range(df_pp.shape[0]):
        df_pp[value][i] = df_pp[value][i].replace(',','.')

In [None]:
# Verificando
df_pp.head()

In [None]:
# Convertendo string em float
df_pp = df_pp.astype(float)
df_pp.dtypes

In [None]:
# Plotando gráfico de caixa 
df_pp.plot(kind='box', figsize=(10, 10))

Identificar _Outliers_ no gráfico de Caixa.

# High Level Pandas

## Append 

In [None]:
# Importando bibliotecas e lendo arquivos
import numpy as np
import pandas as pd

df_red = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-red.csv', sep=';')
df_white = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-white.csv', sep=';')

In [None]:
# Verificando DataFrame de Vinho Tinto
df_red.head()

In [None]:
# Verificando DataFrame de Vinho Branco
df_white.head()

<b>Juntando DataFrames: </b>

Nesta etapa da análise, deseja-se juntar o conteúdo presente no DataFrame de Vinho Tinto *(df_red)* com o conteúdo presendo no DataFrame de Binho Branco *(df_white)*. Para tal, será necessário criar uma nova <b>coluna</b> ou <b>atributo</b> em cada um dos DataFrames, indicando se este é Vinho Tinto ou Vinho Branco (coluna _color_).

![red_white_wine_combination.png](attachment:red_white_wine_combination.png)

Utilizando o objeto array do NumPy com a função .repeat() com a seguinte sintaxe

*var = np.repeat(<b>np.array, qtd_repeat</b>)*

Referência: https://docs.scipy.org/doc/numpy/reference/generated/numpy.repeat.html

In [None]:
# Criando arrays para serem inseridos como colunas em cada um dos DataFrames
color_red = np.repeat(np.array(['red']), df_red.shape[0])
color_white = np.repeat(np.array(['white']), df_white.shape[0])

Explicando a sintaxe:

* Primeiro arguemnto: array de uma única string (red/white).
* Segundo argumento: número de repetições, ou seja, a quantidade de linhas de cada um dos respectivos DataFrames

In [None]:
# Vejamos (Vinho Tinto)
color_red

In [None]:
# Vejamos (Vinho Branco)
color_white

In [None]:
# Quantidade de linhas de cada um 
print(f'Quantidade de linhas do DataFrame de Vinho Tinto: {df_red.shape[0]}')
print(f'Quantidade de elementos do Array "red": {color_red.shape}')
print()
print(f'Quantidade de linhas do DataFrame de Vinho Branco: {df_white.shape[0]}')
print(f'Quantidade de elementos do Array "white": {color_white.shape}')

Com os dois arrays corretamente criados, basta inserir, em cada um dos DataFrames, uma nova coluna contendo o respectivo Array.

In [None]:
# Inserindo arrays nos DataFrames
df_red['color'] = color_red
df_white['color'] = color_white

In [None]:
# Verificando Vinho Tinto
df_red.head()

In [None]:
# Verificando Vinho Branco
df_white.head()

Foi criada uma coluna auxiliar de nome <b>color</b> em cada um dos DataFrames. Neste ponto, estamos aptos a unir os DataFrames sem que as informações sejam misturadas.

Referências:

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.append.html

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

* http://pandas.pydata.org/pandas-docs/stable/merging.html

In [None]:
# Unindo DataFrames pelo método append
df_wine = df_red.append(df_white)

In [None]:
# Testando append
df_wine.head()

Aparentemente, tudo saiu como o esperado. Porém, alguns erros podem passar despercebidos. Imagine que houvesse um erro de digitação em uma coluna de um dos dois DataFrames unidos, como por exemplo *total_sulfur_dioxide* contra *total_sulfur-dioxide*. Esta diferença seria suficiente para criar uma nova coluna no DataFrame unido repleta de valores _NaN_. 

Vamos verificar numericamente se as quantidades de linhas e colunas batem

In [None]:
# Verificando append nas linhas.

print(f'Número de linhas de df_red: {df_red.shape[0]}')
print(f'Número de linhas de df_white: {df_white.shape[0]}')
print(f'Soma: {(df_red.shape[0] + df_white.shape[0])}')
print(f'Número de linhas do novo DataFrame df_wine: {df_wine.shape[0]}')
print(f'Números são iguais? {df_wine.shape[0] == (df_red.shape[0] + df_white.shape[0])}')

In [None]:
# Verificando append nas colunas (lembrando que elas não se somam, ou seja, DEVEM permanecer iguais após o append).
print(f'Número de colunas de df_red: {df_red.shape[1]}')
print(f'Número de coluas de df_white: {df_white.shape[1]}')
print(f'Número de colunas do novo DataFrame df_wine: {df_wine.shape[1]}')
print(f'Números batem? {df_red.shape[1] == df_white.shape[1] and df_red.shape[1] == df_wine.shape[1] and df_white.shape[1] == df_wine.shape[1]}')

In [None]:
# /agora que está tudo OK, vamos salvar o novo Dataset
df_wine.to_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-edited.csv', index=False)

Referências caso alguma coisa dê errado no nome das colunas:

https://stackoverflow.com/questions/20868394/changing-a-specific-column-name-in-pandas-dataframe

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html

## Groupby

A função *groupby* é uma das mais dinâmicas do conjunto de funções do Pandas. Através da agregação de informações a respeito de grupos específicos presentes no DataFrame, é possível visualizar insights mais ricos, como por exemplo atributos característicos de cada classe/grupo/label.

Também é possível realizar manipulações e transformações em grupos específicos de dados.

Referências:

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html

* https://pandas.pydata.org/pandas-docs/stable/groupby.html

Vejamos algumas estatísticas em grupos específicos através do Dataset *winequality*.

In [None]:
# Importando bibliotecas e lendo arquivo
import pandas as pd

df_wine = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-edited.csv')
df_wine.head()

In [None]:
# Verificando algumas estatísticas gerais
df_wine.mean()

In [None]:
# Utilizando o describe
df_wine.describe()

Imagine que desejamos visualizar a média de pH apenas das amostras classificadas com <b>qualidade=7</b>? Isso seria possível? Com o groupby, sim.

In [None]:
df_wine.groupby('quality').mean()

In [None]:
# Perceba que sem a função .mean(), o groupby retorna:
df_wine.groupby('quality')

Com a união do groupby com algum método estatístico, como .mean(), é possível visualizar os resultados agrupados. Excelente.

Adicionalmente, é possível *splitar* ou dividir o DataFrame utilizando mais de um atributo como argumento do <b>groupby</b>. A vantagem é que além de visualizar os dados por um grupo (qualidade), também é possível visualizar por dois grupos (qualidade e cor, por exemplo).

In [None]:
# Splitando DataFrame com groupby
df_wine.groupby(['quality', 'color']).mean()

<b>Detalhe:</b> Perceba que o argument passado para o groupby, visando splitar o DataFrame em dois grupos, foi uma <b>lista</b> contendo os labels desejados.

Também é possível eliminar o índice através do parâmetro as_index=<b>False</b>.

In [None]:
# Eliminando índice
df_wine.groupby(['quality', 'color'], as_index=False).mean()

Por fim, para encerrar as apresentações e iniciar os desafios, o <b>groupby</b> oferece também a possibilidade de restringir informações através de critérios de seleção (slice) já conhecidos.

In [None]:
# Visualizando apenas pH
df_wine.groupby(['quality', 'color'], as_index=False)['pH'].mean()

## Cut

Para consolidar os conceitos trabalhados com o <b>groupby</b>, vamos realizar um exercício utilizando o mesmo Dataset de Vinhos trabalhado na sessão anterior, porém agora com algumas questões importantes a serem respondidas. Essas questões abordam conteúdos novos como o <b>cut</b> do Pandas. Vejamos:

* <b>P1: Existe um certo tipo de vinho (tinto ou branco) associado a uma melhor qualidade?</b>

Para esta pergunta, compare a qualidade média do vinho tinto à qualidade média do vinho branco, com o groupby. Faça esse grupo por cor e, depois, encontre a qualidade média de cada grupo. </b>

* <b>P2: Qual nível de acidez (valor de pH) recebe a classificação média mais alta?</b>

Essa pergunta é mais complicada porque, ao contrário da cor, que possui categorias claras pelas quais você pode agrupar (tinto ou branco), pH é uma variável quantitativa, sem categorias claras. No entanto, existe uma solução simples para isso. Você pode criar uma variável categórica de uma variável quantitativa criando suas próprias categorias. A função [Cut do Pandas](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html) permite que você “corte” os dados em grupos. Usando essa função, crie uma nova coluna chamada nível_acidez com essas categorias.

Níveis de acidez:
* Alto: Abaixo de 25% dos valores de pH
* Moderadamente alto: 25% a 50% dos valores de pH
* Médio: 50% a 75% dos valores de pH
* Baixo: 75% ou mais dos valores de pH

In [None]:
# Importando bibliotecas e lendo Dataset
import pandas as pd
import numpy as np

df_wine = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-edited.csv')
df_wine.head()

In [None]:
# Verificando algumas estatísticas
df_wine.describe()

In [None]:
# Para visualizar a qualidade média de cada tipo de vinho, devemos agrupar pelo parâmetro que os diferencia (cor)
df_wine.groupby('color').mean()

In [None]:
# Basta agora selecionar a coluna desejada (slice)
df_wine.groupby('color').mean()['quality']

In [None]:
# Comunicando resultado
print(f"Qualidade média do Vinho Tinto: {df_wine.groupby('color').mean()['quality']['red']:.2f}")
print(f"Qualidade média do Vinho Branco: {df_wine.groupby('color').mean()['quality']['white']:.2f}")

In [None]:
# Utilizando idxmax
df_wine.groupby('color').mean()['quality'].idxmax()

In [None]:
# Comunicando
print(f'O Vinho com maior qualidade média é "{df_wine.groupby("color").mean()["quality"].idxmax()}" com índice médio de {df_wine.groupby("color").mean()["quality"][df_wine.groupby("color").mean()["quality"].idxmax()]:.2f}')

<b>Pergunta 2</b>

In [None]:
# Visualizando dados
df_wine.head()

In [None]:
# Não é possível dar groupby em ph
df_wine.groupby('pH').mean()[:5]

Devemos criar as categorias dadas pelo enunciado: 

* Alto: Abaixo de 25% dos valores de pH
* Moderadamente alto: 25% a 50% dos valores de pH
* Médio: 50% a 75% dos valores de pH
* Baixo: 75% ou mais dos valores de pH

In [None]:
# Testando cut
pd.cut(np.array([1, 2, 3, 4, 5, 6]), 3)

A função <b>.cut</b> normalmente recebe como argumento um array (ou um objeto do tipo _Series_, ou seja, uma feature/coluna do DataFrame) e o número de "splits" de agrupamento de dados, ou seja, a quantidade de "faixas" ou "ranges" possíveis para classificação dos dados. Adicionalmente, também é possível nomear <b>labels</b> para classificação.

Perceba no exemplo acima que foram passados apenas dois argumentos para a função <b>cut</b>: um array e o número de agrupamentos. A função transformou o array e o agrupou de acordo com os ranges calculados automaticamente. Os dados foram agrupados em ranges:

* entre 0.995 e 2.667
* entre 2.667 e 4.333
* entre 4.333 e 6.000

O array [1, 2, 3, 4, 5, 6] passado então verificou cada um de seus elementos e os agrupo no respectivo range. em outras palavras, o número 1 (elemento 0) ficou agrupado no primeiro range (0.995 a 2.667), assim como o número 2 (elemento 1). Já o número 3 foi classificado no segundo range (2.667 a 4.333) e assim sucessivamente. Vejamos um exemplo real considerando a coluna "pH". Documentação: [Cut-Documentation](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html)

In [None]:
# Aplicando cut à coluna de pH
pd.cut(df_wine['pH'], 4, labels=['Baixo', 'Médio', 'Moderamente Alto', 'Alto'])

Que interessante! Os dados numéricos foram classificados e se transformaram nos labels passados como argumento. Os labels, na verdade, identificam 4 ranges (argumento <b>bin</b>=4) que classificam os pHs de acordo com seus respectivos valores. Vejamos os 10 primeiros valores numéricos de pH do Dataset original afim de verificar se as classificações estão condizentes, ou seja, valores classificados como Alto para pHs altos e assim por diante.

In [None]:
df_wine['pH'][:10]

Atente-se à diferença entre índices classificados como "Médio" e como "Moderamente Alto". Realmente os valores de "Moderadamente Alto" são maiores do que os valores de "Médio". Entretanto, é necessário confirmar se os valores dos ranges estão de acordo com o que foi proposto pelo exercício (25%, 50% e 75%).

In [None]:
# Visualizando numericamente os ranges atribuidos a pH
pd.cut(df_wine['pH'], 4)[:5]

In [None]:
# Verificando se os ranges estão corretos através do .describe()
df_wine.describe()

<b>Há diferença!</b> Percebe-se então que, mesmo passando o argumento <b>bin=4</b> na função cut(), essa separação (25, 50 e 75 e 100%) não é feita automaticamente. Isto pois os índices de 25%, 50% e 75% dados pelo describe() são diferentes dos índices dos ranges dados pela função cut. Exercício pede:

* Alto: Abaixo de 25% dos valores de pH
* Moderadamente alto: 25% a 50% dos valores de pH
* Médio: 50% a 75% dos valores de pH
* Baixo: 75% ou mais dos valores de pH

Ranges obtidos:

* Categories (4, interval[float64]): [(2.719, 3.042] < (3.042, 3.365] < (3.365, 3.688] < (3.688, 4.01]]

Números não batem. Precisamos de uma outra forma de colocar os ranges corretamente.

In [None]:
df_wine.describe()['pH']

In [None]:
# Bordas dos intervalos que serão utilizados para classificar os níveis de pH
bin_edges = [df_wine.describe()['pH']['min'], df_wine.describe()['pH']['25%'], df_wine.describe()['pH']['50%'], 
             df_wine.describe()['pH']['75%'], df_wine.describe()['pH']['max']]

bin_edges

In [None]:
# Nome dos labels a serem atribuidos
bin_names = ['Alto', 'Moderadamente Alto', 'Médio', 'Baixo']

In [None]:
# Realizando uma nova operação de .cut()
pd.cut(df_wine['pH'], bin_edges, labels=bin_names)[:5]

In [None]:
# Verificando operação
df_wine['pH'][:5]

Aparentemente funcionou. Vejamos se as alterações foram feitas no DataFrame.

In [None]:
df_wine.head()

Não. 

Vamos então criar uma nova coluna para alocar os índices agrupados.

In [None]:
# Criando nova coluna acidity_levels
df_wine['acidity_levels'] = pd.cut(df_wine['pH'], bin_edges, labels=bin_names)
df_wine.head()

Perfeito.

Agora, para responder a pergunta sobre a classificação de qualidade média para cada nível de acidez, é necessário realizar um _groupby_ na nova feature criada e analisar a média de qualidade.

In [None]:
# Agrupando por nivel_acidez
df_wine.groupby('acidity_levels').mean()

In [None]:
# Queremos apenas visualizar a qualidade
df_wine.groupby('acidity_levels').mean()['quality']

Aparentemente maiores pHs são os que proporcionam maiores índices de qualidade.

In [None]:
# Respondendo
print(f"Uma acidez de nível {df_wine.groupby('acidity_levels').mean()['quality'].idxmax()} proporcionam maiores índices de qualidade!")

In [None]:
# Salvando em arquivo .csv
df_wine.to_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-cut-edited.csv', index=False)

**Outro exemplo de ```cut()```**

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/dados-pesquisa.csv', low_memory=False)
df['Age'].head()

In [None]:
# Contando valores do atributo Age
df['Age'].count()

In [None]:
# Aplicando cut para criar uma nova coluna com faixas de idade
bins = [0, 20, 30, 40, 50, 60, 90]
labels = ['< 20', '20-30', '30-40', '40-50', '50-60', '> 60']

df['AgeRange'] = pd.cut(df['Age'], bins, labels=labels)
df['AgeRange'].head()

In [None]:
# Avaliando resultado lado a lado
df.iloc[:, np.r_[0, -1]].head()

In [None]:
# Há dados nulos em ambas as colunas?
df['Age'].isnull().values.sum()

In [None]:
df['AgeRange'].isnull().any()

In [None]:
# O que será que aconteceu na coluna AgeRange nestes 2007 dados nulos?
df[df['Age'].isnull()].iloc[:5, np.r_[0, -1]]

## Query

Outra função útil é a função <b>query</b> do Pandas. [Documentacao-Oficial](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.query.html).

Com ela, é possível realizar indexação por máscaras (feita anteriormente em outras análises) de maneira mais elegante, como por exemplo:

* Selecionando registros malignos em dados de câncer

df_m = df[df['diagnosis'] == 'M']

df_m = df.query('diagnosis == "M"')

* Selecionando registros de pessoas que ganham mais de $50K

df_a = df[df['income'] == ' >50K']

df_a = df.query('income == " >50K"')

<b>Tarefas:

P1: Vinhos com maior teor alcoólico recebem classificações maiores?</b>

Para responder a essa pergunta, use o query para criar dois grupos de amostras de vinho:

* Baixo álcool (amostras com um teor alcoólico abaixo da média)
* Alto álcool (amostras com um teor alcoólico maior ou igual à média)
* Em seguida, encontre a classificação média de qualidade de cada grupo.

<b>P2: Vinhos mais doces (mais açúcar residual) recebem classificações maiores?</b>

Da mesma forma, use a mediana para dividir as amostras em dois grupos, por açúcar residual, e encontre a classificação média de qualidade de cada grupo.

In [None]:
# Importando bibliotecas e lendo Dataset
import pandas as pd
import numpy as np

df_wine = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-cut-edited.csv')
df_wine.head()

In [None]:
# Visualizando valor da mediana dos íncides alcoólicos
df_wine['alcohol'].median()

In [None]:
# Separando teores em dois DataFrames
low_alcohol = df_wine.query('alcohol < 10.3')
high_alcohol = df_wine.query('alcohol >= 10.3')

In [None]:
# Verificando resultado
low_alcohol.head()

In [None]:
# Verificando resultado através da contagem de linhas
df_wine.shape[0] == low_alcohol['quality'].count() + high_alcohol['quality'].count()

Perfeito: a somatória da quantidade de linhas de cada um dos DataFrames criados equivale a quantidade total de linhas.

In [None]:
# Verificando qualidade média de cada um
low_alcohol['quality'].mean()

In [None]:
high_alcohol['quality'].mean()

<b>Pergunta 2</b>

<b>P2: Vinhos mais doces (mais açúcar residual) recebem classificações maiores?</b>

Da mesma forma, use a mediana para dividir as amostras em dois grupos, por açúcar residual, e encontre a classificação média de qualidade de cada grupo.

In [None]:
# Verificando mediana da feature acucar residual
df_wine['residual sugar'].median()

In [None]:
# Separando DataFrames
low_sugar = df_wine.query('residual sugar < 3.0')
high_sugar = df_wine.query('residual sugar >= 3.0')

Provavelmente o espaço no nome da coluna esteja causando problema. Voltando ao jeito bruto.

In [None]:
low_sugar = df_wine[df_wine['residual sugar'] < df_wine['residual sugar'].median()]
high_sugar = df_wine[df_wine['residual sugar'] >= df_wine['residual sugar'].median()]

In [None]:
# Verificando
low_sugar.head()

In [None]:
high_sugar.head()

In [None]:
# Verificando através da contagem de linhas (resultado deve ser True)
df_wine.shape[0] == low_sugar['quality'].count() + high_sugar['quality'].count()

In [None]:
# Avaliando qualidade média em cada um dos DataFrames
low_sugar['quality'].mean()

In [None]:
high_sugar['quality'].mean()

Vinhos mais doces tendem a receber um índice maior que qualidade.

## Plotting

Após as 4 etapas realizadas acima, vamos exibir as descobertas em formato gráfico. O alvo de análise é a qualidade do vinho de acordo com diferentes propriedades. Para tal, esta sessão irá abordar a plotagem de diferentes gráficos utilizando <b>pandas</b>, <b>matplotlib</b> e, eventualmente, <b>seaborn</b>.

In [None]:
# Importando biblioteca, lendo e verificando Dataset
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
% matplotlib inline

df_wine = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-cut-edited.csv')
df_wine.head()

<b>Objetivo:</b> Verificar graficamente se o tipo de vinho (Tinto ou o Branco) está relacionado com a qualidade.

In [None]:
# Já fizemos isso com o groupby na sessão anterior
df_wine.groupby('color').mean()['quality']

In [None]:
# Graficamente com alguns parâmetros adicionais
df_wine.groupby('color').mean()['quality'].plot(kind='bar', title='Qualidade média por categoria de vinho', color=['red', 'white'], alpha=.7);

Pontos:

* Branco sumiu em meio ao fundo
* Linha de código muito extensa
* Eixos x e y não definidos

In [None]:
# Lista de cores para facilitar entendimento
colors = ['red', 'white']
df_wine.groupby('color').mean()['quality'].plot(kind='bar', title='Qualidade média por categoria de vinho', color=colors, alpha=.7);

In [None]:
# Trazendo o matplotlib e seaborn para melhor resultados
sns.set() # Melhora o fundo
colors=['red', 'white']
cat_means = df_wine.groupby('color').mean()['quality']
cat_means.plot(kind='bar', title='Qualidade média por categoria de vinho', color=colors, alpha=.7);
plt.xlabel('Categoria', fontsize=12)
plt.ylabel('Qualidade', fontsize=12)

Referências: [Seaborn](https://seaborn.pydata.org/introduction.html) / [Exemplos](https://seaborn.pydata.org/examples/index.html)

Apesar de graficamente conseguir visualizar que as amostras de Vinho Branco normalmente possuem índices maiores de Qualidade, seria muito interessante verificar de onde esses dados estão vindo, ou seja, analisar a contagem de cada categoria de vinho ao longo dos índices de Qualidade.

Para tal, vamos agrupar 'quality' e 'color' em um novo DataFrame chamado 'counts':

In [None]:
counts = df_wine.groupby(['quality', 'color']).count()
counts

In [None]:
# A contagem é a mesma em todas as categorias, o que faz muito sentido. Vamos pegar arbitrariamente uma única coluna.
counts = df_wine.groupby(['quality', 'color']).count()['pH']
counts

In [None]:
# Agora podemos avaliar graficamente
colors = ['red', 'white']
counts = df_wine.groupby(['quality', 'color']).count()['pH']
counts.plot(kind='bar', title='Contagem de Índices de Qualidade por Categoria', color=colors, alpha=.7)
plt.xlabel('Qualidade', fontsize=15)
plt.ylabel('Contagem', fontsize=15)

Apesar de estar aparentemente OK, o gráfico não reflete a realidade pois há mais amostras de Vinho Branco do que de Vinho Tinto, o que interefere diretamente na contagem. Para resolver este problema, é necessário trabalhar com a <b>proporção</b>, ou seja, realizar a contagem em cada categoria e dividir o valor pelo total.

In [None]:
# Utilizando a proporção
colors = ['red', 'white'] * 6
total = df_wine.groupby('color').count()['pH'] # Total de cada uma das categorias
prop = counts / total
prop.plot(kind='bar', title='Contagem de Índices de Qualidade por Categoria', color=colors, alpha=.7)
plt.xlabel('Qualidade', fontsize=15)
plt.ylabel('Contagem', fontsize=15)

Apesar de estar bem melhor, há alguns pontos a se destacar nesse gráfico.

<b>Análise</b>

* Nas menores classificações (3, 4 e 5), amostras de Vinho Tinto possuem uma maior proporção.
* Em contrapartida, em classificações maiores (6, 7, 8 e 9), amostras de Vinho Branca marcam uma maior presença.

<b>Melhorias</b>

* Rótulos no eixo x se encontram bagunçados
* Seria interessante colocar as barras das respectivas categorias umas do lado das outras
* Não há espaço para amostras de Vinho Tinto com índice de qualidade = 9 (apesar deste número ser 0, deveria constar no gráfico)

*Como há muita customização inclusa, seria muito mais interessante plotar este gráfico diretamente no matplotlib ao invés do pandas*

## Drop

Muitas vezes, importamos conjuntos de dados com colunas (ou features) desnecessárias. Atributos que não são válidos para as conclusões a serem tomadas podem ser retirados do DataFrame com o comando .`drop()` do Pandas.

Documentação oficial: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html

In [None]:
# Pedindo ajuda
help(pd.DataFrame.drop)

In [None]:
# Importando dados de exemplo
df = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/winequality-red.csv', sep=';')
df.head()

Por suposição, imagine que a coluna <b>sulphates</b> não fosse útil para a análise em questão. Vamos dropá-la.

In [None]:
df = df.drop('sulphates', axis=1)
df.head()

In [None]:
# Também é possível dropar mais de uma coluna de uma vez. 
#Vamos dropar de volatile acidity, chlorides e total_sulfur_dioxide
df.drop(['volatile acidity', 'chlorides', 'total sulfur dioxide'], axis=1, inplace=True)
df.head()

## Rename

Normalmente, quando é necessário realizar alterações nas colunas de determinado DataFrame, utiliza-se o atributo `columns` e é passada uma lista com os novos nomes. Entretanto, isto funciona apenas quando todos os nomes são alterados de uma única vez. Objetos do tipo .Index() - retornados por `columns` não aceitam indexação, portanto não é possível simplesmente realizar algo do tipo `df.columns[i] = new_label`.

Nestes casos, o ideal é utilizar a função `rename()` do Pandas.

In [None]:
# Importando dataset de exemplo
import pandas as pd

df_student = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/student-scores.csv')
df_student.head()

In [None]:
# Visualizando colunas
df_student.columns

In [None]:
# Indexando colunas
df_student.columns[4]

In [None]:
# Tentativa - Test1 para Prova1
df_student.columns[4] = 'Prova1'

Erro. Isto só é possível com o método `rename()`.

In [None]:
# Renomeando corretamente
df_student.rename(columns={'Test1': 'Prova'}, inplace=True)
df_student.head()

## astype(*type*)

Fatalmente iremos nos deparar em situações onde é necessária a mudança do tipo primitivo de determinada coluna. Por exemplo, um valor numérico que está salvo como `str` deve, a princípio, ser convertido em `int` ou em `float`, dependendo da situação. Para tal, o Python oferece a função `astype()`, recebendo como argumento o tipo primitivo no qual deseja-se convereter determinado valor/coluna.

In [None]:
# Exemplo - Usina
import pandas as pd

df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp.head()

In [None]:
df_pp.dtypes

Percebe-se que todos os dados estão salvos como `object` o que, na verdade, equivale ao tipo `str`. Para converter a coluna *Energy Output* para `float` utilizamos a função `astype(float)`.

In [None]:
# Verificando tipo da coluna Energy Output
type(df_pp['Energy Output'][0])

In [None]:
# Convertendo
df_pp['Energy Output'] = df_pp['Energy Output'].astype(float)

Veja só. Um erro foi encontrado. Mas tudo estava OK, certo?

O erro avisa que não foi possível converter o valor '453,28' para float. Algum palpite? Eu tenho: a vírgula.

É necessário substituir a vírgula por ponto em todos os dados antes de convertê-los para o tipo float. Esta situação não é tão incomum e pode ocorrer algumas vezes. Vamos converter.

In [None]:
df_pp['Energy Output'] = df_pp['Energy Output'].replace(',', '.')

https://stackoverflow.com/questions/40083266/replace-comma-with-dot-pandas

In [None]:
# Função para converter vírgula para ponto - Não é o jeito mais adequado.
def comma_to_point(column_series):
    for i in range(column_series.shape[0]):
        column_series[i] = column_series[i].replace(',', '.')

In [None]:
comma_to_point(df_pp['Energy Output'])

In [None]:
df_pp['Energy Output'][:5]

In [None]:
# Agora podemos converter os dados para float
df_pp['Energy Output'] = df_pp['Energy Output'].astype(float)

In [None]:
df_pp.dtypes

### Casos especiais

Converter tipos primitivos não é algo tão trivial durante a preparação dos dados. Em alguns casos, é possível encontrar uma mistura de valores dentro de um campo. Por exemplo, uma coluna que deveria ser do tipo numérico encontra-se em meio a strings, letras e números, dificultando assim a conversão. Há funções prontas para *extrair* dados dentro de outros dados.

In [None]:
# Extraindo número de string
df_08 = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/all-alpha-08-edited.csv')
df_08.head()

In [None]:
# Atente-se à coluna 'cyl'
df_08['cyl'].value_counts()

Não é possível converter os dados diretamente para tipos numéricos pois eles estão salvos de forma diferenciada

In [None]:
# Extraindo números da string
df_08['cyl'] = df_08['cyl'].str.extract('(\d+)').astype(int)

In [None]:
# Verificando
df_08['cyl'].value_counts()

Fonte: https://stackoverflow.com/questions/35376387/extract-int-from-string-in-pandas

## Apply

A função <b>apply</b> do Pandas é extremamente útil! Com ela, é possível aplicar determinada função em todo o eixo de uma Series do Panda. Em outras palavras, aplicando a `apply()` em uma coluna, sendo seu parâmetro uma função, esta é aplicada em TODA a coluna, afetando TODOS os dados.

Na sessão 4.8 acima, poderíamos ter usado a função apply para converter tipos primitivos de uma única vez, sem precisar utilizar um laço for e iterar linha por linha de um DataFrame. Documentação oficial: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html

In [None]:
# Exemplo - Usina
import pandas as pd

df_pp = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/powerplant_edited.csv')
df_pp.head()

In [None]:
# Convertendo todos os dados de uma vez
df_pp.dtypes

In [None]:
# Coluna Temperature - Converter vírgula em ponto
# Jeito bruto:

"""
def comma_to_point(column_series):
    for i in range(column_series.shape[0]):
        column_series[i] = column_series[i].replace(',', '.')
"""

In [None]:
# Jeito correto 
df_pp['Temperature'] = df_pp['Temperature'].apply(lambda x: x.replace(',', '.'))

In [None]:
df_pp.head()

In [None]:
# Isso abre espaço para iterar sobre o dataframe como um todo
for column in df_pp.columns:
    df_pp[column] = df_pp[column].apply(lambda x: x.replace(',', '.'))

In [None]:
# Verificando
df_pp.head()

Substituições realizadas com sucesso!

## Crosstab

A função ```crosstab()``` do Pandas é uma excelente ferramenta para cruzamento e agrupamento de dados. Basicamente, com ela é possível juntar duas colunas através de seus respectivos índices e valores.

In [None]:
# Exemplo de cruzamento de duas colunas de um Dataset
import pandas as pd
import numpy as np

df = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/dados-pesquisa.csv', low_memory=False)
df['Age'].head()

In [None]:
# Aplicando cut para criar uma nova coluna com faixas de idade
bins = [0, 20, 30, 40, 50, 60, 90]
labels = ['< 20', '20-30', '30-40', '40-50', '50-60', '> 60']

df['AgeRange'] = pd.cut(df['Age'], bins, labels=labels)
df['AgeRange'].head()

In [None]:
# Avaliando resultado lado a lado
df.iloc[:, np.r_[0, -1]].head()

In [None]:
# Aplicando crosstab
df_cross = pd.crosstab(df['AgeRange'], df['JobPref'])
df_cross

A grande jogada do ```crosstab()``` foi transformar a primeira coluna (Series) como índice do novo DataFrame criado e, a segunda coluna (Series) como colunas. 

Os valores compostos pelo novo DataFrame nada mais são do que os cruzamentos entre as duas colunas. Dessa forma, é possível **aprimorar** o ```crosstab()``` e aplicar fórmulas aos dados que o compõe através do ```apply()```

In [None]:
# Calculando a média de cada um dos valores cruzados
df_cross_mean = pd.crosstab(df['AgeRange'], df['JobPref']).apply(lambda x: x/x.sum(), axis=1)
df_cross_mean

O resultado foi a média dos valores considerando os totais dos atributos das **colunas** ```axis=1```

In [None]:
# Confirmando afirmação acima
df_cross_mean.iloc[0,:].sum()

O comando acima soma os elementos de todas as colunas da primeira linha do DataFrame (as porcentagens estão distribuídas pois a soma = 1.0). Caso fosse necessário realizar a média considerando os totais dos **índices**, seria necessário modificar o atributo ```axis```.

In [None]:
# Calculando a média de cada um dos valores cruzados
df_cross_mean_idx = pd.crosstab(df['AgeRange'], df['JobPref']).apply(lambda x: x/x.sum(), axis=0)
df_cross_mean_idx

Percebe-se que os valores sofreram alterações. Vamos verificar se está tudo ok (soma de cada coluna tem que ser 1.0)

In [None]:
# Calculando soma uma das colunas
df_cross_mean_idx.loc[:, 'freelance '].sum()

## to_datetime()

Exemplo prático de como quebrar coluna de dados e transformá-la em outras colunas, incluindo um mapeamento por dia da semana

In [None]:
# Importando bibliotecas e lendo Dataset
import pandas as pd
import numpy as np

df = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/911.csv')
df.head()

In [None]:
# Transformando tipo primitivo da coluna timeStamp
df['timeStamp'].head()

In [None]:
# Verificando tipo
type(df['timeStamp'][0])

In [None]:
# Mudando tipo
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
df.dtypes

Agora é possível aprimorar o DataFrame através da criação de novas **colunas** representando _Dia, Hora e Mês_ da ocorrência.

In [None]:
# Verificando
time = df['timeStamp'][0]
time

In [None]:
time.hour

In [None]:
time.day

In [None]:
time.year

In [None]:
time.dayofweek

In [None]:
# Criando função para criação de novas colunas
def data_columns(df):
    df['day'] = df['timeStamp'].apply(lambda time: time.day)
    df['month'] = df['timeStamp'].apply(lambda time: time.month)
    df['year'] = df['timeStamp'].apply(lambda time: time.year)
    df['day_of_week'] = df['timeStamp'].apply(lambda time: time.dayofweek)
    df['hour'] = df['timeStamp'].apply(lambda time: time.hour)

# Chamando função
data_columns(df)

# Verificando resultado
df.head()

A sequência de dias da semana mostrada pela coluna **day_of_week** segue a regra:

* 0 - Segunda
* 1 - Terça
* 2 - Quarta
* 3 - Quinta
* 4 - Sexta
* 5 - Sábado
* 6 - Domingo

In [None]:
# Mapeando coluna day_of_week para mostrar o dia da semana por extenso
day_map = {0:'Mon', 1:'Tue', 2:'Wed', 3:'Thu', 4:'Fri', 5:'Sat', 6:'Sun'}
df['day_of_week'] = df['day_of_week'].map(day_map)
df.head()