<h1 style='color: green; font-size: 36px; font-weight: bold;'> Python e Ciência de Dados </h1>
<hr style='border: 2px solid green;'>

# <font color=red> **Curso de Python Aplicado para Ciência de Dados** </font>
<hr style='border: 2px solid red;'>

**Instrutor:** prof. Bruno Fontana da Silva <br>
**Edição:** 2020/1

Neste curso, vamos aprender comandos e funções básicas do Python direcionadas para ~~a coleta~~, o processamento e a análise de dados. <br>
O curso é apenas introdutório, servindo de motivação para a entrada de jovens programadores no universo da **ciência de dados**. <br> <br>
Alunos que se sentirem motivados e desejarem continuar se aprofundando e desenvolvendo trabalhos e projetos nesta área podem entrar em contato com o instrutor pelo e-mail brunosilva@ifsul.edu.br.

Arquivos dos alunos: https://github.com/fontanads/minicurso_intro_datascience

## <font color=blue>**Cenário Motivacional 1**: <br> Melhor corredor do Mario Kart 8 </font>
<hr style='border: 1.76px solid blue;'>

Em 2018, um cientista de dados americano chamado Henry Hinnefeld publicou no blog Medium [uma análise quantitativa das características de cada personagem do jogo "Mario Kart"](https://medium.com/civis-analytics/the-best-mario-kart-character-according-to-data-science-7dfb65d4c18e). 

Nesse jogo, ao escolher o veículo, rodas e paraquedas, algumas habilidades dos personagens são melhoradas ou pioradas. Henry fez uma análise de todas as combinações possíveis para determinar qual seriam as combinações mais vantajosas em relação às habilidades de "velocidade" e "aceleração".

Abaixo você pode visualizar o _dataset_ (conjunto de dados) que Henry utilizou.

In [None]:
data_dir = './data/MarioKart8-Stats/'

In [None]:
import pandas as pd

In [None]:
df_corredores = pd.read_csv(data_dir+'characters.csv')
df_corredores

Usando técnicas de análise de dados, podemos extrair informações de conjuntos de dados. <br>
Algumas dessas informações são meramente **descritivas**. <br>
Por exemplo, podemos ver que os corredores do jogo são categorizados de acordo com o peso: leve, médio e pesado. <br>

Podemos nos perguntar: qual categoria de corredor possui **as maiores velocidades, em média**? 

In [None]:
df_corredores.groupby('Class')['Speed'].mean()

E qual categoria possui **a maior aceleração**?

In [None]:
df_corredores.groupby('Class')['Acceleration'].mean()

Podemos também buscar as características de um único corredor. <br>

In [None]:
df_corredores.query('Character == "Mario"')

Além da visualização em formato de tabela, podemos também usar elementos gráficos para auxiliar na interpretação dos dados. <br>
Por exemplo, para o corredor Mario, vamos visualizar as sua habilidades quantitativas em um **gráfico de barras**.

In [None]:
import seaborn as sns

In [None]:
mario_stats = df_corredores.query('Character == "Mario"').drop(['Class','Character'],axis=1)
mario_stats

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(18,6))

ax = sns.barplot(x=mario_stats.columns,y=mario_stats.values.reshape(12,))

plt.rc('axes', labelsize=50)    # fontsize of the x and y labels
plt.rc('xtick', labelsize=12)    # fontsize of the tick labels
plt.rc('ytick', labelsize=12)    # fontsize of the tick labels
plt.xticks(rotation=45)

Veja que neste gáfico, cada barra corresponde à uma habilidade. <br>
A altura das barras representa o valor de cada habilidade (quanto mais alta, maior a habilidade). <br>
Assim, fica mais fácil visualizar e interpretar os dados do corredor. <br>
Com um pequeno ajuste, podemos **melhorar essa visualização ordenando os valores das habilidades**, do maior para o menor.

In [None]:
mario_stats_df = pd.DataFrame(df_corredores.groupby('Character').mean().loc['Mario'])
mario_stats_df.rename(columns={'Mario':'Valor'},inplace=True)
mario_stats_df.sort_values(by=['Valor'],axis=0,ascending=False,inplace=True)

In [None]:
plt.figure(figsize=(18,6))

ax = sns.barplot(x=mario_stats_df.index,y=mario_stats_df.values.reshape(12,))

plt.rc('axes', labelsize=50)    # fontsize of the x and y labels
plt.rc('xtick', labelsize=12)    # fontsize of the tick labels
plt.rc('ytick', labelsize=12)    # fontsize of the tick labels
plt.xticks(rotation=45)

Não esqueça de verificar a análise completa [aqui](https://medium.com/civis-analytics/the-best-mario-kart-character-according-to-data-science-7dfb65d4c18e). <br> 
Depois do curso, você pode tentar reproduzi-la. :)

## <font color=blue> **Cenário Motivacional 2**: <br> Datasets Públicos </font>
<hr style='border: 1.76px solid blue;'>

O website do [**Kaggle**](https://www.kaggle.com/datasets) disponibiliza abertamente diversos datasets públicos. <br>
Além de servir como ferramenta de aprendizado para estudos e projetos de Cientistas de Dados, o website também promove competições de soluções para problemas de diversas áreas.

### Exemplo 1: [As 50 músicas mais ouvidas do Spotify em 2019](https://www.kaggle.com/leonardopena/top50spotify2019)

The top 50 most listened songs in the world by spotify in 2019. <br>
This dataset has several variables about the songs.

In [None]:
data_folder = './data/'
file_csv_50songs = 'top50.csv'
db_50songs = pd.read_csv(data_folder+file_csv_50songs,
                        encoding = "ISO-8859-1") # error_bad_lines=False, warn_bad_lines=False
db_50songs.head()

### Exemplo 2: Dados do Airbnb
[cidade de Madrid, Espanha](https://www.kaggle.com/rusiano/madrid-airbnb-data) <br>
[cidade de Nova York, USA](https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data)

In [None]:
file_nyc = 'AB_NYC_2019.csv'
db_nyc = pd.read_csv(data_folder+'airbnb_nyc/'+file_nyc,
                        encoding = "ISO-8859-1") # error_bad_lines=False, warn_bad_lines=False
db_nyc.head()

## <font color=blue>**Cenário Motivacional 3**: <br> Analisando dados financeiros de órgãos públicos </font>
<hr style='border: 1.76px solid blue;'>

**Site da prefeitura de Sapiranga**:
- Contas públicas (arquivos pdf, txt, csv): http://www.sapiranga.rs.gov.br/transparencia/categoria/1/contas-publicas
- Portal da Transparência (consulta de licitações): https://servicos.sapiranga.rs.gov.br/ecidade_transparencia/licitacoes
- Dificuldade de coleta: 
  - formatação dos documentos (pdfs de imagens escaneadas, tabelas sem padrão), 
  - documentos csv/txt ausentes


**Site da prefeitura de Novo Hamburgo**: 
- https://novohamburgo.atende.net/?pg=transparencia#!/
- despesas com diárias: https://novohamburgo.atende.net/?pg=transparencia#!/grupo/3/item/9/tipo/1
- Dificuldade de coleta: 
  - banco de dados em javascript, 
  - não oferece download csv

**Site da prefeitura de Porto Alegre**:
- http://www2.portoalegre.rs.gov.br/transparencia/
- Dificuldade de coleta: 
  - banco de dados em javascript, 
  - oferece download em csv/html/xml (como automatizar o download?) 
