## Live University

### Python Básico - Introdução a Data Science

<img src="http://blog.klocwork.com/wp-content/uploads/2016/01/python-logo.png" align=left>

### Bibliotecas de Python

Dentre os muitos motivos pelos quais o Python tornou-se uma referência em Data Science, um deles foi o enorme esforço da comunidade da linguagem, cientistas de dados, matemáticos e outros profissionais do mercado em desenvolver bibliotecas específicas para a área. Essas bibliotecas possuem métodos e classes que abrangem inúmeros processos envolvendo Data Science, 

Podemos importar a biblioteca inteira pela sintaxe:

<strong>import</strong> biblioteca

ou

<strong>import</strong> biblioteca <strong>as</strong> nome atribuido a biblioteca

Ou ainda, podemos importar módulos e classes específicas dessa biblioteca pela sintaxe:

<strong>from</strong> biblioteca <strong>import</strong> módulo

### Pandas e NumPy - Nunca se esqueça desses nomes!

Duas das bibliotecas mais difundidas e populares (provavelmente as mais populares do Python) são Pandas e Numpy. Essas bibliotecas abrangem fundamentos e funcionalidades <strong>indispensáveis</strong> no Data Science.

### NumPy

Bibliotéca amplamente utilizada por quem programa em Python, independente da aplicação. Essa poderosa biblioteca científica nos permite trabalhar com vetores, cálculos vetoriais, matrizes, suporte completo a operações com álgebra linear, integração com C/C++, etc.

Vamos explorar um pouco NumPy agora

In [None]:
import numpy as np

Na célula acima importamos o Numpy e toda sua coleção de métodos e funções, e atribuimos a essa biblioteca o nome "np"

In [None]:
dados = np.array([1, 2, 3])
dados

In [None]:
dados_bidimensionais = np.array([[1, 2], [3, 4]])
dados_bidimensionais

Esses são exemplos de NumPy arrays. Vamos explorar um pouco mais deles

In [None]:
fibonacci = np.array([0,1,1,2,3,5,8,13])
print(fibonacci ** 2)

In [None]:
print(fibonacci.mean())

#### Matrizes e Álgebra linear com NumPy

In [None]:
entradas = np.array([[0,0],
                     [0,1],
                     [1,0],
                     [1,1]])

pesos = np.array([[-0.424, -0.740, -0.961],        
                   [0.358, -0.577, -0.469]])
entradas

In [None]:
soma_dos_pesos = np.dot(entradas,pesos)
soma_dos_pesos

Criamos duas matrizes usando arrays do numpy e aplicamos uma operação de produto escalar nessas matrizes com outra função do numpy <em>dot()</em> - de Dot Product.

Matrizes são estruturas fundamentais, indo desde imagens até aplicações de Machine Learning. A célula acima poderia representar os cálculos da função de soma em uma rede neural durante o processo de feedforward por exemplo.


Podemos até mesmo resolver problemas matemáticos com funções do NumPy

In [None]:
# Importanto um módulo específico de álgebra linear do NumPy
from numpy.linalg import solve

A = np.array([[1,2],[3,4]])
b = np.array([10, 20])
x = solve(A,b)
x

### Pandas 

Além do NumPy, outra biblioteca amplamente utilizada por cientistas de dados é o Pandas, muito em função de um tipo específico de estrutura de dados que essa biblioteca permite criar: <strong>Dataframes</strong>. Além dos Dataframes, o Pandas conta com outra estrutura de dados, chamada <strong>Series</strong>, semelhante a listas. 

Dataframes são tabelas bi-dimensionais que podem ser criadas tanto através de dados contidos em estruturas já existentes no código, assim como gerados através da importação de dados contidos de fontes externas como arquivos.csv por exemplo. O Python aliás, permite abrir diversos tipos de arquivos através da função <em>Open('nome do arquivo','tipo de leitura')</em>. Entretanto, diversas bibliotecas externas do Python são expecializadas em abrir e manipular determinados tipos de arquivos. Pillow e OpenCV para imagens por exemplo, Python-docx e Python-pptx para arquivos de Word e PowerPoint, Beautiful Soup para web scrapping, e <strong>Pandas</strong> para dados armazenados em arquivos como csv, xlsx, texto, tabelas em html, etc etc. 

Vamos explorar DataFrames e Series

In [None]:
# vamos primeiro importar o Pandas
import pandas as pd

In [None]:
s = pd.Series([3, -5, 7, 4], index=['item 1', 'item 2', 'item 3', 'item 4'])
s

Como mencionado acima, Series são estruturas similares a listas e NumPy arrays. Porem, Series são estruturas de dados mais analíticas, por exemplo, podemos definir o índice para os valores desse array com o parâmetro <em>index</em>. 

Vamos criar agora um DataFrame a partir de um dicionário.  

In [None]:
dados = {
'País': ['Bélgica', 'Índia', 'Brasil', 'Alemanha','EUA','Argentina'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília', 'Berlim','Washington','Buenos Aires'],
'IDH': [0.867, 0.554, 0.699, 0.920, 0.937, 0.775]}


DataFrames nada mais são do que as <strong>classes</strong> que vocês já conheceram nesse mesmo Notebook, então o que faremos a seguir é instanciar um objeto com alguns atributos, a única diferença é que por se tratar de uma bilioteca externa, precisamos especificar que essa classe faz parte de um módulo do Pandas (pd)

In [None]:
df = pd.DataFrame(data=dados)
df

In [None]:
df.shape

In [None]:
df.size

In [None]:
df.dtypes

In [None]:
df.columns

Podemos realizar os mais diversos procedimentos com um DataFrame. Indexar valores, tratar colunas e linhas, realizar cálculos com os dados

In [None]:
capitais = df['Capital']
capitais

In [None]:
maiorIDH = df['IDH'].max()
maiorIDH

In [None]:
PIB = np.array([0.45, 2.09, 1.77, 3.35, 17.94, 0.58])
df['PIB'] = PIB
df

In [None]:
IDH_medio = df['IDH'].mean()
IDH_medio

In [None]:
PIB_acumulado = df['PIB'].sum()
PIB_acumulado

In [None]:
df.País

In [None]:
df.T

In [None]:
df.drop(5)

Outros 2 métodos para acessar valores do dataframe: <strong>loc</strong> e <strong>iloc</strong>

In [None]:
df.loc[0]

In [None]:
print('O IDH do Brasil é {}'.format(df.loc[2,'IDH']))

In [None]:
df.iloc[:2]

### Coconstrução

Importando uma base de dados de arquivo externo e realizando análises

In [None]:
# Importando base_idade.csv

### Gráficos no Python 

Processar, analisar e colher informações a partir dos dados é trabalhoso, exige conhecimentos técnicos e analíticos, mas gera resultados se o processo for bem feito. Porém, do que adianta tudo isso, se na hora de comunicar os resultados essa comunicação não for bem feita? 

Já é um consenso que gráficos são uma excelente maneira de se demonstrar resultados de análises. 

Embora existam vários softwares (especialmente de BI) para visualização de gráficos, o Python também conta com bibliotecas para geração de recursos visuais, entre elas, uma bastante utilizada, <strong>Matplotlib</strong>

Vamos ver alguns exemplos, mas antes de tudo, vamos importar a biblioteca (nesse caso um módulo específico dessa biblioteca que permite plotar os gráficos)

In [None]:
import matplotlib.pyplot as plt

Temos nesse exemplo dados relacionados as vendas de uma loja distribuídos por mês. Vamos gerar um gráfico de linha para analisar possíveis tendências de vendas

In [None]:
vendas = [80,65,40,34,42,55,68,43,31,25,49,74,84,60,47,44,39,54,62,53,39,38,47,69]

In [None]:
plt.plot(vendas)
plt.xlabel('Jan 2016 - Dez 2017')
plt.ylabel('Vendas')
plt.grid(True)

Vamos agora analisar o dataframe que foi utilizado em exemplos anteriores

In [None]:
# Vamos usar o mesmo DataFrame dos exemplos de Pandas, mas vamos adicionar uma nova coluna "Continente"
dados = {
'País': ['Bélgica', 'Índia', 'Brasil', 'Alemanha','EUA','Argentina'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília', 'Berlim','Washington','Buenos Aires'],
'IDH': [0.867, 0.554, 0.699, 0.920, 0.937, 0.775],
'PIB': [0.45, 2.09, 1.77, 3.35, 17.94, 0.58],
'Continente': ['Europa','Ásia','América do Sul','Europa','América do Norte','América do Sul']}

df = pd.DataFrame(data=dados)
df

Vamos gerar gráficos para entender a distribuição desses dados por continente. 
Antes de gerar o gráfico, é preciso manipular e preparar os dados para o gráfico. 

Gráficos diferentes necessitam de estruturas diferentes de dados

Nesse caso, vamos usar alguns métodos do Pandas (<strong>reset_index( )</strong> e <strong>groupby( )</strong>) além do já conhecido método <strong>count( )</strong>, para poder gerar os dados necessários para visualizar essa distribuição: a contagem de vezes que cada um dos valores da coluna <em>Continente</em> se repetem. 

In [None]:
distribuicao = df.reset_index().groupby(['Continente'])['index'].count()
distribuicao

Agora que temos os dados prontos, podemos plotar gráficos de duas maneiras.
A primeira é mais simples. Podemos usar o método <strong>plot(tipo do gráfico, título do gráfico)</strong> do próprio pandas diretamente na variável que contem os dados que precisamos plotar:

In [None]:
distribuicao.plot(kind='bar', title='Distribuição por Continente')

Não é um gráfico lindo e perfumado, mas é um gráfico que mostra exatamente o que o problema pede, isso é sempre o mais importante.  

Vamos agora plotar esses mesmos dados utilizando um gráfico de pizza construído com métodos do Matplotlib. Temos mais controle sobre diversos aspectos do gráfico, mas a implementação é mais complexa pois precisamos passar os dados exatamente na estrutura que gráfico requer. A vantagem é que bibliotecas como o Matplotlib oferecem uma gama muito maior de recursos e gráficos para trabalhar.

In [None]:
data = list(distribuicao)
labels = distribuicao.index.values
sizes = list(distribuicao)
explode = (0.05, 0.05, 0.05, 0.05)  

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=90)
ax1.axis('equal')  
plt.show()

Como vimos até agora, bibliotecas como Pandas, NumPy e inúmeras outras oferecem uma gama enorme de aplicações que fazem do Python uma ferramenta poderosa. No entando, mostramos apenas uma pequena amostra do que Pandas e NumPy tem a oferecer. Parte da rotina de quem programa tanto em Python quanto em outras linguagens é justamente ler as documentações  para encontrar novos métodos, atributos e funcionalidades que ofereçam os recursos necessários para lidar com os problemas que temos de resolver. 

Abaixo disponibilizamos os links para as documentações do Python, Pandas e NumPy, para que você possa acessar e começar a entender o tamanho dos recursos que estão disponíveis. 

Python: https://docs.python.org/3.6/


Pandas: https://pandas.pydata.org/pandas-docs/stable/api.html#api-categorical


NumPy: https://docs.scipy.org/doc/numpy-1.15.1/reference/index.html


Matplotlib: https://matplotlib.org/tutorials/introductory/usage.html#parts-of-a-figure


### Exercício

1) Crie um dataframe que contem 4 colunas
- o nome das pessoas (já declarado)
- o ano de nascimento delas (já declarado)  
- a idade delas
- o sexo delas (já declarado)

Desenvolva o código para computar a idade e sexo, não construa essas colunas manualmente

Lembre-se de <strong>importar</strong> todas as bibliotecas que você vai utilizar!!!

In [None]:
nomes = np.array(['ronaldo','julia','gabriel','bruno','leticia','junior','maria','anderson','walter','carla'])
ano_nascimento = np.array(['1995','1998','1986','1998','1975','1978','1992','1984','1990','1993'])
sexo = np.array(['h','m','h','h','m','h','m','h','h','m'])



2) Plote um gráfico que demonstre a distribuição dessa base de dados por sexo.
- sinta-se a vontade para buscar na documentação do Matplotlib outros tipos de gráficos para resolver esse exercício

In [None]:
# Desenvolva o código para extrair as informações




3) Responda:

- Em média, quem é mais velho nessa base de dados? Homens ou mulheres?

Observação:
Resolva com código, não faça os cálculos na mão. Imagine que essa mesma pergunta pode ser feita para uma base de dados com milhares de registros. 