# Data Wrangling Template

---

*Use uma abordagem iterativa, comece fazendo todas as etapas, pequeno. Depois vá aumentando e sofisticando!*

- Gather

- Assess

- Clean

E...

- Analyse + Visualize + Model

---

## Gather

In [None]:
import zipfile
import pandas as pd

In [None]:
with zipfile.ZipFile('armenian-online-job-postings.zip', 'r') as myzip:
    myzip.extractall()

In [None]:
# Read CSV (comma-separated) file into DataFrame
df = pd.read_csv('online-job-postings.csv')

In [None]:
df.head()

In [None]:
df

- duração (vários formatos)

- deadline (vários formatos)

- ...

In [None]:
df.Term.value_counts()

Hadley Wickam

- Às vezes, deixe o preciosismo acadêmico de lado. Nem sempre o jeito mais **elegante** do dado o ajuda a resolver seu problema **prático**!

Pense antes em:

- **agilidade** (optimalidade - é rápido, eficiente)

- **funcionalidade** (as coisas estão à mão)

In [None]:
df.info()

The high-level **gathering** process:

obtaining data (downloading a file from the internet, scraping a web page, querying an API, etc.)
importing that data into your programming environment (e.g. Jupyter Notebook)

In [None]:
df_limpo = df.copy()

Uma maneira alternativa de renomear colunas usando dicionário (não é necessário renomear todas!):

In [None]:
df_limpo = df_limpo.rename(columns={'ApplicationP': 'ApplicationProcedure', 
                                    'AboutC': 'AboutCompany',
                                    'RequiredQual': 'RequiredQualifications',
                                    'JobRequirment': 'JobRequirements'})
df_limpo

---

## Assess

Problemas de qualidade:

- data quality - **dirty** data

Problemas de estrutura:

- data tidiness - **messy** data [aqui](https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html)

---

- **missing** data

- **invalid** data

- **inaccurate** data

- **inconsistent** data

---

Data quality is a perception or an assessment of data's fitness to serve its purpose in a given context. 

---

Two ways of assess data:

- **visually**

- **programmatic**

In [None]:
df_clean = df.copy()

In [None]:
df_clean = df_clean.rename(columns={'ApplicationP': 'ApplicationProcedure',
                                    'AboutC': 'AboutCompany',
                                    'RequiredQual': 'RequiredQualifications',
                                    'JobRequirment': 'JobRequirements'})

In [None]:
asap_list = ['Immediately', 'As soon as possible', 'Upon hiring',
             'Immediate', 'Immediate employment', 'As soon as possible.', 'Immediate job opportunity',
             '"Immediate employment, after passing the interview."',
             'ASAP preferred', 'Employment contract signature date',
             'Immediate employment opportunity', 'Immidiately', 'ASA',
             'Asap', '"The position is open immediately but has a flexible start date depending on the candidates earliest availability."',
             'Immediately upon agreement', '20 November 2014 or ASAP',
             'immediately', 'Immediatelly',
             '"Immediately upon selection or no later than November 15, 2009."',
             'Immediate job opening', 'Immediate hiring', 'Upon selection',
             'As soon as practical', 'Immadiate', 'As soon as posible',
             'Immediately with 2 months probation period',
             '12 November 2012 or ASAP', 'Immediate employment after passing the interview',
             'Immediately/ upon agreement', '01 September 2014 or ASAP',
             'Immediately or as per agreement', 'as soon as possible',
             'As soon as Possible', 'in the nearest future', 'immediate',
             '01 April 2014 or ASAP', 'Immidiatly', 'Urgent',
             'Immediate or earliest possible', 'Immediate hire',
             'Earliest  possible', 'ASAP with 3 months probation period.',
             'Immediate employment opportunity.', 'Immediate employment.',
             'Immidietly', 'Imminent', 'September 2014 or ASAP', 'Imediately']

for palavra in asap_list:
    df_clean.StartDate.replace(palavra , 'ASAP' , inplace=True)

In [None]:
df_clean

Visualizar uma amostra aleatória:

In [None]:
df_clean.sample(10)

---

### Através de codificação:
    
    .head (DataFrame and Series)

    .tail (DataFrame and Series)

    .sample (DataFrame and Series)

    .info (DataFrame only)

    .describe (DataFrame and Series)

    .value_counts (Series only)

Various methods of indexing and selecting data (.loc and bracket notation with/without boolean indexing, also .iloc)

Contagem dos tipos de reações adversas:

In [None]:
adverse_reactions.adverse_reaction.value_counts()

Quantos pacientes vieram da cidade de Nova Iorque:

In [None]:
len(patients.loc[patients['city'] == 'New York'])

#### Soluções para qualidade

- campos vazios (NaN) devem ser identificados e tratados conforme o caso

- CEP e outros similares devem strings numéricas (e não números)

- máscaras em strings numéricas devem ser interpretadas e removidas

- Estado e Município são campos de categoria (e não strings de texto) e devem ser agrupados e padronizados

- campos com dados misturados, como endereços devem ser interpretados e quebrados em vários campos

- valores discrepantes devem ser descobertos

In [None]:
patients.info()

Entre colchetes encontra-se a cláusula de filtragem:

    patients['address'].isnull()

In [None]:
patients[patients['address'].isnull()]

In [None]:
patients.describe()

Como endereço é uma coisa complexa, quando dois aparecem duplicados, é quase certo que todo o registro está assim:

*o .counts() funciona um pouco como um histograma* 

In [None]:
patients.address.value_counts()

Daí eu listo os duplicados:

In [None]:
patients[patients.address.duplicated()]

Eu posso testar hipóteses para erros por exemplo, em um peso muito abaixo do possível:

*será que este peso não está representado em Kilogramas?*

In [None]:
patients.weight.sort_values()

In [None]:
weight_lbs = patients[patients.surname == 'zaitseva'].weight * 2.20462
weight_in = patients[patients.surname == 'zaitseva'].height
bmi_check = 703 * weight_lbs / (height_in * height_in)
bmi_check

In [None]:
patients[patients.surname = 'zaitseva'].bmi

Observe que há muitos registros de fato em branco, mas preenchidos com apenas um "-". Isso falsifica a busca por nulos:

In [None]:
sum(treatments.novodra.isnull())

O desvio padrão ira considerar estes campos com "-" como com valor ZERO. Isso modifica a curva dos nossos dados:

In [None]:
STDEVA()

#### Soluções para desordem [aqui](https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html)

A ideia básica é que os dados se encaixem na forma 1-normal:

- linhas

- colunas

- tabela completa

Problemas comuns são:

- **coluna** com mais de um tipo de dado (como endereço e e-mail) e que deve ser dividida pela função .split(), interpretando o separador, em **várias colunas**

- **coluna** que representa uma lista de dados (maçã, banana, alface, alfavaca) e que devem ser interpretados e transformados em **lista**, ou subtabela com relacionamento 1:n

- às vezes colunas diferentes apresentam **dados excludentes**, o que é um erro conceitual. Isso gera muitos espaços vazios em um dataset. O ideal é unir os dados com a função .melt() e criar uma outra coluna definindo qual o tipo de dado que está sendo representado

- **tabela** que contém mais de uma família de dados (como dados do paciente e do tratamento). Ela deve ser dividida em mais de uma **tabela**

Como os dados deterioram:

- We're going to have user entry errors

- In some situations, we won't have any data coding standards, or where we do have standards they'll be poorly applied, causing problems in the resulting data

- We might have to integrate data where different schemas have been used for the same type of item

- We'll have legacy data systems, where data wasn't coded when disc and memory constraints were much more restrictive than they are now. Over time systems evolve. Needs change, and data changes

- Some of our data won't have the unique identifiers it should

- Other data will be lost in transformation from one format to another

- And then, of course, there's always programmer error

- And finally, data might have been corrupted in transmission or storage by cosmic rays or other physical phenomenon. So hey, one that's not our fault

---

## Clean

É um processo **iterativo** (e não preciso fazer tudo de uma vez!)

#### Define

- quero cabeçalhos melhores

- quero coisas parecidas organizadas dentro de um mesmo tipo

#### Code

Type of cleaning: **programmatic**

- **Define**: convert our assessments into defined cleaning tasks. These definitions also serve as an instruction list so others (or yourself in the future) can look at your work and reproduce it.

- **Code**: convert those definitions to code and run that code.

- **Test**: test your dataset, visually or with code, to make sure your cleaning operations worked.
    
*Always make copies of the original pieces of data before cleaning!*

#### Estratégia de limpeza

- comece por dados ausentes (o mais difícil)

Uma das formas de encontrar duplicatas é unir todas as tabelas com Pandas Series:

In [None]:
all_columns = pd.Series(list(patients) + list(treatments) + list(adverse_reactions))
all_columns[all_columns.duplicated()]

#### Test

In [None]:
df_limpo.StartDate.value_counts()

**Missão:** Concatene os dados ausentes, que se encontram em outro CSV

*isso é uma espécie de Union*

In [None]:
treatments_cut = pd.read_csv('treatments_cut.csv')
treatments_clean = pd.concat([treatments_clean, treatments_cut],
                             ignore_index=True)

#### Define, Code, Test

**Missão:** Recalcule a coluna hba1c_change com hba1c_start - hba1c_end

*agora isso é uma operação em massa em um dos campos - transformá-lo, linha a linha em uma conta*

*observe que a sintaxe dos comandos no Pandas não favorece muito o entendimento - SQL é mais claro!*

*observe que esta não é a melhor prática - não é necessário armazenar em uma estrutura de dados um dado derivado!*

In [None]:
treatments_clean.hba1c_change = (treatments_clean.hba1c_start - treatments_clean.hba1c_end)

**Missão:** Separe dados de telefone e de email em colunas diferentes

In [None]:
patients_clean['phone_number'] = patients_clean.contact.str
                                .extract('((?:\+\d{1,2}\s)?\(?\d{3}\)?[\s.-]?\d{3}[\s.-]?\d{4})', expand=True)

*[a-zA-Z] significa que todos os emails neste dataset iniciam e terminam com uma letra:*

In [None]:
patients_clean['email'] = patients_clean.contact.str
                         .extract('([a-zA-Z][a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+[a-zA-Z])', expand=True)

*axis=1 significa que estamos referindo uma coluna:*

In [None]:
patients_clean = patients_clean.drop('contact', axis=1)

### Expressões regulares - testador [aqui](https://rubular.com/r/UfIbUhPuP1)

---

#### Tutorial [aqui](https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial?utm_source=adwords_ppc&utm_campaignid=1455363063&utm_adgroupid=65083631748&utm_device=c&utm_keyword=&utm_matchtype=b&utm_network=g&utm_adpostion=1t1&utm_creative=278443377092&utm_targetid=dsa-473406579035&utm_loc_interest_ms=&utm_loc_physical_ms=1001541&gclid=Cj0KCQiAhKviBRCNARIsAAGZ7CfK4RI5CCCSAzz89yFpON-IPO8AS2NOL0EaOrwqHhrYKm-kZjCHJTEaAv48EALw_wcB)

dígito (0-9)

caractere (a-z, A-Z, 0-9, _)

espaço (space, tab, newline)

1. Classes de caracteres


        .           any character except newline

        \w \d \s	word, digit, whitespace

        \W \D \S	not word, digit, whitespace

        [abc]	    any of a, b, or c

        [^abc]	    not a, b, or c
        
        [a-g]	    character between a & g

2. Âncoras

        ^abc$       start / end of the string

        \b \B	    word, not-word boundary
       
3. Caracteres de Escape

        \. \* \\	escaped special characters

        \t \n \r	tab, linefeed, carriage return

4. Agrupamentos & Busca ao redor

        (abc)	    capture group

        \1	        backreference to group #1
        
        (?:abc)	    non-capturing group

        (?=abc)	    positive lookahead

        (?!abc)	    negative lookahead


5. Quantificadores e alternância

        a* a+ a?	0 or more, 1 or more, 0 or 1

        a{5} a{2,}	exactly five, two or more

        a{1,3}	    between one & three

        a+?a{2,}?	match as few as possible

        ab|cd    	match ab or cd

[Video](https://www.youtube.com/watch?v=K8L6KVGG-7o) de tutorial, com o exemplo que segue

Isso é uma string bruta (raw string):

*como ela não pega formatação, eu posso escrever nela o que eu quiser. Isso é muito importante na hora de jogar os parâmetros para o meu parser, sempre usar uma string bruta. Assim nenhum comando se perde no caminho!*

In [4]:
a = r'\tTAB'
a

'\\tTAB'

E isso é uma string formatada:

In [52]:
a = '\tTAB'
print (a)

	TAB


O método **.compile()** transforma padrões → variáveis

A ideia por trás disso:

- eu crio um parser personalizado, compilado através do método

 - os parâmetros do meu parser podem ser realmente complexos e entram naquela sequência de raw text (é quase como uma nova linguagem e funciona mais ou menos como naquelas antigas máquinas de fita perfurada, uma sequência de programação é inserida)
 
 - eu tenho comandos especiais
 
                 . ^ $ * + ? {} [] () \ |
 
 - pode parecer utra-complexo, mas eu começo com um padrão simples e depois vou elaborando. Com a prática, eu coloco sequências super complexas sem muita dificuldade. O que parece difícil é porque a linguagem de parsering é muito primária
 
- depois eu posso chamar o padrão por exemplo no método **.finditer()**

 - ele simplesmente me grava as localizações do texto buscado em uma lista. A partir dessa lista, chamar o cortador de strings é facílimo e problema resolvido!
 
 - todos os módulos do Python foram feitos para conversar facilmente entre eles. Se você encontrou algo que parece relativamente simples e que está dando um trabalhão em programação, quase que certamente você está fazendo pelo caminho mais difícil!

In [2]:
import re

O importante aqui é o que está dentro desta raw 'abc' é ela quem dá toda a inteligência ao processo:

In [3]:
sentenca = 'teste de coisas abcurdas 123 texto'
padrao = re.compile(r'abc')
encontrados = padrao.finditer(sentenca)

for encontrado in encontrados:
    print(encontrado)

<_sre.SRE_Match object; span=(16, 19), match='abc'>


Metacaracteres precisam ser escapados (escaped):

            . ^ $ * + ? { [ ( \ |

*insira o \ antes deles! São também eles que dão toda a inteligência ao meu processo*

Como eu começo o meu trabalho?

Primeiro eu pego uma sequência que eu quero que meu sistema capture e misturo num arquivo com outras coisas. O fundamental é que ele consiga fazer o parser por exemplo, de números de telefone no meio de um texto absurdo. Suponha que meus telefones tenham o seguinte formato:

            0800 942 4425
            0900 342 4452
            1119 341 4515
            3315 331 1049
            
*há muitos métodos no re. Eles podem ser consultados [aqui](https://docs.python.org/3/library/re.html)*

            .compile() compila meu argumento
            .finditer() faz a iteração de busca
            .findall() acha todos e joga numa tupla, mas sem detalhamento
            .sub() substitui no documento o que foi encontrado (bom para gerar um documento corrigido)
            .group() mostra apenas o grupo específico (group(0) é basicamente tudo o que foi capturado)
            .span() localização geográfica do resultado
            .match() correspondência exata
            .search() devolve o primeiro encontrado que casa com a busca
            
*e flags úteis, que podem simplificar minha vida*

            padrao = re.compile(r'teste', re.IGNORECASE) isso evita eu ter que buscar por todas as combinações de case

In [51]:
import re

sentenca = """teste de coisas 0800 942 4425
              0900.342.4452
              1119-341-4515
              3315 331 1049
              abcurdas 123 texto"""

#padrao = re.compile(r'abc') -> funcionou o teste inicial, agora eu aprimoro
#padrao = re.compile(r'\d\d\d\d.\d\d\d.\d\d\d\d') #-> agora pegou todos os números, ótimo (o . pega qualquer objeto!)
#padrao = re.compile(r'\d{4}.\d{3}.\d{4}') #-> o uso de quantificador deixa o código mais elegante - e fácil de ser lido
#padrao = re.compile(r'\d{4}[.| |-]\d{3}[.| |-]\d{4}') #-> o colchetes denota apenas um caractere, o separador, de 3 tipos
padrao = re.compile(r'(\d{4})[.| |-](\d{3})[.| |-](\d{4})') #-> os parênteses geram 3 agrupamentos distintos, preciso deles
encontrados = padrao.finditer(sentenca)

for encontrado in encontrados:
    #print(encontrado) ->isso é o resultado bruto, mas eu posso chamar pelos grupos!
    print('posição: {} telefone: {} {} {}'.format(encontrado.span(),
                                                  encontrado.group(1), encontrado.group(2), encontrado.group(3)))
    #print(encontrado.span()) -> isso pode ser útil para eu quiser o recorte no texto, se precisar!

posição: (16, 29) telefone: 0800 942 4425
posição: (44, 57) telefone: 0900 342 4452
posição: (72, 85) telefone: 1119 341 4515
posição: (100, 113) telefone: 3315 331 1049


Se eu quiser limpar a fonte:

In [48]:
substituidos = padrao.sub(r'\1 \2 \3', sentenca)

Observe que agora meus telefones estão limpos:

In [49]:
substituidos

'teste de coisas 0800 942 4425\n              0900 342 4452\n              1119 341 4515\n              3315 331 1049\n              abcurdas 123 texto'

Compare com o original:

In [42]:
sentenca

'teste de coisas 0800 942 4425\n              0900.342.4452\n              1119-341-4515\n              3315 331 1049\n              abcurdas 123 texto'

#### Outros filtros curiosos

Esse é um básico para e-mail:

    epasseto@ana.gov.br

    padrao = re.compile(r'[a-zA-Z]+@[a-zA-Z]+\.gov\.br')
    
    [a-zA-Z]+@ significa: essa célula tem que ter alfanumérico em caixa alta ou baixa e é repetida várias vezes...          até encontrar uma arroba
    
    [a-zA-Z]+\.com significa: vários alfanuméricos mais um ponto (com a barra de escapar de comando) e depois um gov.br
    
Um mais completo para e-mail:

    padrao = re.compile(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')
    
*lembrando da seguinte regra: coisas muito justas (como calças muito justas) são difíceis de vestir (e acabam não servindo). Coisas muito folgadas por outro lado, acabam capturando lixo. O que me diz o grau de justeza que eu devo usar? Capture partes do seu dado, faça testes... mas antes de pegar um parser pronto, tente **entender** cada um dos pontos. Se ele estiver folgado demais, ajuste-o. Se estiver apertado demais, afrouxe-o. Há muitas cláusulas para ambas as coisas, vale a pena fazer muitos testes!*

Um filtro para endereço Web: 

*e este vai com os parêntes de agrupamentos, pois não irei usar tudo o que capturei na hora de chamar o endereço!*

    https://www.amazon.com
    
    padrao = re.compile(r'http?://(www\.)?(/w+\.)(\w+)')

    http?:// atende a dois padrões: http:// e https:// (o ? significa - tem um caracter a mais aqui?)
    
    /w representa capturar uma palavra inteira e os pontos separadores levam a \. para ser pulado o comando .
    
*lembre que o parser normalmente lida caractere a caractere então aquelas cláusulas enormes entre colchetes dizem respeito no fundo a apenas um caracterzinho... e depois é que eu boto a cláusula de repetição +*

Este é um filtro para nomes com pronome de tratamento:

    Dr. T
    
    Sr Mostarda
    
    Dra Branca

    padrao = re.compile(r'(Sr|Sra|Sta|Dr|Dra)\.?\s[A-Z]\w*')
    
*novamente observe que nem sempre a escrita mais compacta é a melhor: às vezes as coisas precisam poder ser lidas também por humanos! E os testes nos mostraram que este filtro seria bom para os casos acima. Para outros casos, outros filtros (e eu também fico à vontade para simplesmente modificar este aí mesmo!)*

---

Separo doses inicial e final em colunas separadas (depois eliminar os prefixos u ao final de cada dosagem):

*simplesmente uso o método **.split()** e depois elimino a coluna original da dosagem com **.drop()** e o problema está resolvido!*

In [None]:
treatments_clean = pd.melt(treatments_clean, id_vars=['given_name', 'surname', 'hba1c_start', 'hba1c_end', 'hba1c_change'],
                           var_name='treatment', value_name='dose')
treatments_clean = treatments_clean[treatments_clean.dose != "-"]
treatments_clean['dose_start'], treatments_clean['dose_end'] = treatments_clean['dose'].str.split(' - ', 1).str
treatments_clean = treatments_clean.drop('dose', axis=1)

Aqui eu junto as colunas de nome e sobrenome numa única coluna:

*O método **.merge()** faz isso para mim*

In [None]:
treatments_clean = pd.merge(treatments_clean, adverse_reactions_clean,
                            on=['given_name', 'surname'], how='left')

In [None]:
id_names = patients_clean[['patient_id', 'given_name', 'surname']]
id_names.given_name = id_names.given_name.str.lower()
id_names.surname = id_names.surname.str.lower()
treatments_clean = pd.merge(treatments_clean, id_names, on=['given_name', 'surname'])
treatments_clean = treatments_clean.drop(['given_name', 'surname'], axis=1)

In [None]:
# Patient ID should be the only duplicate column
all_columns = pd.Series(list(patients_clean) + list(treatments_clean))
all_columns[all_columns.duplicated()]

### Uso do Assert [aqui](https://www.tutorialspoint.com/python/assertions_in_python.htm)

---

*isso é bom para verificar que fizemos a coisa certa!*

palavras em Python [aqui](https://www.programiz.com/python-programming/keyword-list#in)

In [None]:
for frase in asap_list:
    assert frase not in df_limpo.StartDate.values

Estratégia cartesiana: dividir o problema em partes menores

- **numerador** - uma célula de cálculo

- **denominador** - outra célula de cálculo

In [None]:
%matplotlib inline
import numpy as np

df_limpo.StartDate.value_counts().plot(kind="pie")

#### Próximas etapas

Para trás:    
    
    - guardar dados limpos

Para frente:
    
    - analisar
    
    - visualizar
    
    - modelizar
    
---

Feature Engineering [aqui](https://en.wikipedia.org/wiki/Feature_engineering)

Exploratory Data Analysis - EDA [aqui](https://en.wikipedia.org/wiki/Exploratory_data_analysis)

Extract-Transform-Load - ETL (process) [aqui](https://en.wikipedia.org/wiki/Extract,_load,_transform)

---

ASAP 

Arquivos EXCEL [aqui](https://professor-excel.com/xml-zip-excel-file-structure/)

Estruturas de Database [aqui](https://www.cac.cornell.edu/education/Training/DataAnalysis/RelationalDatabases.pdf)

## Beautiful Soup [aqui](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find)

---

- unicode [aqui](https://stackoverflow.com/questions/19508442/beautiful-soup-and-unicode-problems)

- remover \xa0 [aqui](https://stackoverflow.com/questions/10993612/python-removing-xa0-from-string)

In [None]:
from bs4 import BeautifulSoup
import os
import pandas as pd

*Observe o break no meio do código. Obviamente eu vou criando finds iterativamente e dando um print. À medida que vou elaborando, o resultado fica praticamente perfeito. As últimas instruções simplesmente removem lixo ao final da string, retiram vírgulas, etc.. São comandos comuns do P*

In [None]:
# List of dictionaries to build file by file and later convert to a DataFrame
df_list = []
folder = 'rt_html'
for movie_html in os.listdir(folder):
    with open(os.path.join(folder, movie_html)) as file:
        soup = BeautifulSoup(file)
        #ao final eu excluo o adicional inútil
        title = soup.find('title').contents[0][:-len(' - Rotten Tomatoes')]
        
        #div é uma lista em texto. No caso, eu pego o primeiro elemento
        audience_score = soup.find('div', class_='audience-score meter').find('span').contents[0][:-1]
        
        #
        num_audience_ratings = soup.find('div', class_='audience-info hidden-xs SuperPageFontColor')
        num_audience_ratings = num_audience_ratings.find_all('div')[1].contents[2].strip().replace(',','')
        #print(title)
        #print(audience_score)
        #print(num_audience_ratings)
        #break
        
        # Append to list of dictionaries
        df_list.append({'title': title,
                        'audience_score': int(audience_score),
                        'number_of_audience_ratings': int(num_audience_ratings)})
df = pd.DataFrame(df_list, columns = ['title', 'audience_score', 'number_of_audience_ratings'])

Teste da rotina

In [None]:
df_solution = pd.read_pickle('df_solution.pkl')
df.sort_values('title', inplace = True)
df.reset_index(inplace = True, drop = True)
df_solution.sort_values('title', inplace = True)
df_solution.reset_index(inplace = True, drop = True)
pd.testing.assert_frame_equal(df, df_solution)

In [None]:
df

### Elementos do HTML [aqui](https://developer.mozilla.org/pt-BR/docs/Web/HTML/Element/span)


    <html> (ou HTML root element) representa a raiz
    
    <span> é um conteiner generico em linha para conteúdo fraseado , que não representa nada por natureza
    
    <div> é um elemento de nível de bloco enquanto <span> é um elemento em linha
    

#### Metadados:


    <address> informações de contato para seu ancestral <article> ou <body> mais próximo
    
    <article> uma composição independente em um documento
    
    <aside> uma seção de uma página que consiste de conteúdo que é tangencialmente relacionado ao conteúdo do seu entorno
    
    <header> <footer> representa um grupo de suporte introdutório/final ou navegacional
    
    <h1> .. <h6> são os cabeçalhos
    
    <hgroup> destina-se a agrupar (conteiner) de cabeçalhos de diferentes níveis para uma seção do documento
    
    <main> conteúdo principal dentro do <body> em seu documento
    
    <nav> uma seção de uma página que aponta para outras páginas
    
    <section> uma seção genérica contida em um documento HTML, geralmente com um título
    

##### Conteúdo textual:


    <blockquote> indica que o texto incluído é uma longa citação
    
    <dd> inclui os atributos globais como seus
    
    <dt> termo na lista de definição

    <ol> lista de itens ordenados
    
    <p> parágrafo do texto
    
    <pre> texto pré-formatado


#### Semânticas textuais inline:


    <br> quebra de linha

    <mark> um trecho de destaque em um texto
    
    <strong> dá ao texto uma forte importância, tipo negrito
    
    <time> tempo tanto no formato de 24 horas ou como uma data precisa no calendário Gregoriano
    
    <var> uma variável em uma expressão matemática ou um contexto de programação
    

#### Imagem e multimídia:


    <img>  (or HTML Image Element) representa a inseração de imagem no documento


#### Scripting:


    <script> usado para incluir ou referenciar um script executável


#### Tabelas:


    <table> representa dados em duas dimensões ou mais
    
    <caption> título de uma tabela
    
    Embora ele seja sempre o primeiro filho de um <table>, seu estilo, usando CSS pode colocá-lo em qualquer lugar 
    relativo a tabela

    <td> define uma célula de uma tabela que contém os dados. Participa no modelo da tabela
    
#### Formulários:

    <button> representa um botão clicável

In [None]:
import os
import requests

In [None]:
nome_pasta = 'revisoes_ebert'
if not os.path.exists(nome_pasta):
    os.makedirs(nome_pasta)

url = 'http://docs.python-requests.org/en/master/'
resposta = requests.get(url)

In [None]:
resposta.content

In [None]:
with open(os.path.join(nome_pasta, url.split('/')[-1]), mode='wb'):
    file.write(response.content)

In [None]:
os.listdir(nome_pasta)

In [None]:
with open(os.path.join(nome_pasta,
                      url.split('/')[-1], mode='wb') as file:
          file.write(response.content)

requests URL [aqui](http://docs.python-requests.org/en/master/)

documentação URL Lib [aqui](https://docs.python.org/3/howto/urllib2.html)

Mesmo processo, para múltiplos arquivos:

In [None]:
import requests
import os

In [None]:
ebert_review_urls = ['https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9900_1-the-wizard-of-oz-1939-film/1-the-wizard-of-oz-1939-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9901_2-citizen-kane/2-citizen-kane.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9901_3-the-third-man/3-the-third-man.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9902_4-get-out-film/4-get-out-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9902_5-mad-max-fury-road/5-mad-max-fury-road.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9902_6-the-cabinet-of-dr.-caligari/6-the-cabinet-of-dr.-caligari.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9903_7-all-about-eve/7-all-about-eve.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9903_8-inside-out-2015-film/8-inside-out-2015-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9903_9-the-godfather/9-the-godfather.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9904_10-metropolis-1927-film/10-metropolis-1927-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9904_11-e.t.-the-extra-terrestrial/11-e.t.-the-extra-terrestrial.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9904_12-modern-times-film/12-modern-times-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9904_14-singin-in-the-rain/14-singin-in-the-rain.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9905_15-boyhood-film/15-boyhood-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9905_16-casablanca-film/16-casablanca-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9905_17-moonlight-2016-film/17-moonlight-2016-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9906_18-psycho-1960-film/18-psycho-1960-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9906_19-laura-1944-film/19-laura-1944-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9906_20-nosferatu/20-nosferatu.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9907_21-snow-white-and-the-seven-dwarfs-1937-film/21-snow-white-and-the-seven-dwarfs-1937-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9907_22-a-hard-day27s-night-film/22-a-hard-day27s-night-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9907_23-la-grande-illusion/23-la-grande-illusion.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9908_25-the-battle-of-algiers/25-the-battle-of-algiers.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9908_26-dunkirk-2017-film/26-dunkirk-2017-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9908_27-the-maltese-falcon-1941-film/27-the-maltese-falcon-1941-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9909_29-12-years-a-slave-film/29-12-years-a-slave-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9909_30-gravity-2013-film/30-gravity-2013-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9909_31-sunset-boulevard-film/31-sunset-boulevard-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990a_32-king-kong-1933-film/32-king-kong-1933-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990a_33-spotlight-film/33-spotlight-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990a_34-the-adventures-of-robin-hood/34-the-adventures-of-robin-hood.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990b_35-rashomon/35-rashomon.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990b_36-rear-window/36-rear-window.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990b_37-selma-film/37-selma-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990c_38-taxi-driver/38-taxi-driver.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990c_39-toy-story-3/39-toy-story-3.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990c_40-argo-2012-film/40-argo-2012-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990d_41-toy-story-2/41-toy-story-2.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990d_42-the-big-sick/42-the-big-sick.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990d_43-bride-of-frankenstein/43-bride-of-frankenstein.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990d_44-zootopia/44-zootopia.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990e_45-m-1931-film/45-m-1931-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990e_46-wonder-woman-2017-film/46-wonder-woman-2017-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990e_48-alien-film/48-alien-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990f_49-bicycle-thieves/49-bicycle-thieves.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990f_50-seven-samurai/50-seven-samurai.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad990f_51-the-treasure-of-the-sierra-madre-film/51-the-treasure-of-the-sierra-madre-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9910_52-up-2009-film/52-up-2009-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9910_53-12-angry-men-1957-film/53-12-angry-men-1957-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9910_54-the-400-blows/54-the-400-blows.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9911_55-logan-film/55-logan-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9911_57-army-of-shadows/57-army-of-shadows.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9912_58-arrival-film/58-arrival-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9912_59-baby-driver/59-baby-driver.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9913_60-a-streetcar-named-desire-1951-film/60-a-streetcar-named-desire-1951-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9913_61-the-night-of-the-hunter-film/61-the-night-of-the-hunter-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9913_62-star-wars-the-force-awakens/62-star-wars-the-force-awakens.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9913_63-manchester-by-the-sea-film/63-manchester-by-the-sea-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9914_64-dr.-strangelove/64-dr.-strangelove.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9914_66-vertigo-film/66-vertigo-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9914_67-the-dark-knight-film/67-the-dark-knight-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9915_68-touch-of-evil/68-touch-of-evil.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9915_69-the-babadook/69-the-babadook.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9915_72-rosemary27s-baby-film/72-rosemary27s-baby-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9916_73-finding-nemo/73-finding-nemo.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9916_74-brooklyn-film/74-brooklyn-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9917_75-the-wrestler-2008-film/75-the-wrestler-2008-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9917_77-l.a.-confidential-film/77-l.a.-confidential-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9918_78-gone-with-the-wind-film/78-gone-with-the-wind-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9918_79-the-good-the-bad-and-the-ugly/79-the-good-the-bad-and-the-ugly.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9918_80-skyfall/80-skyfall.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9919_82-tokyo-story/82-tokyo-story.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9919_83-hell-or-high-water-film/83-hell-or-high-water-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9919_84-pinocchio-1940-film/84-pinocchio-1940-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad9919_85-the-jungle-book-2016-film/85-the-jungle-book-2016-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991a_86-la-la-land-film/86-la-la-land-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991b_87-star-trek-film/87-star-trek-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991b_89-apocalypse-now/89-apocalypse-now.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991c_90-on-the-waterfront/90-on-the-waterfront.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991c_91-the-wages-of-fear/91-the-wages-of-fear.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991c_92-the-last-picture-show/92-the-last-picture-show.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991d_93-harry-potter-and-the-deathly-hallows-part-2/93-harry-potter-and-the-deathly-hallows-part-2.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991d_94-the-grapes-of-wrath-film/94-the-grapes-of-wrath-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991d_96-man-on-wire/96-man-on-wire.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991e_97-jaws-film/97-jaws-film.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991e_98-toy-story/98-toy-story.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991e_99-the-godfather-part-ii/99-the-godfather-part-ii.txt',
                     'https://d17h27t6h515a5.cloudfront.net/topher/2017/September/59ad991e_100-battleship-potemkin/100-battleship-potemkin.txt']

In [None]:
# Make directory if it doesn't already exist
folder_name = 'ebert_reviews'
if not os.path.exists(folder_name):
    os.makedirs(folder_name)
    
for url in ebert_review_urls:
    response = requests.get(url)
    with open(os.path.join(folder_name,
                      url.split('/')[-1]), mode='wb') as file:
          file.write(response.content)

In [None]:
import filecmp

dc = filecmp.dircmp('ebert_reviews', 'ebert_reviews_solution')
assert len(dc.common) == 88

In [None]:
os.listdir(folder_name)

Outras maneiras de gravar arquivos binários [aqui](http://docs.python-requests.org/en/latest/user/quickstart/#binary-response-content)

O que é WB [aqui](https://stackoverflow.com/questions/2665866/what-does-wb-mean-in-this-code-using-python)

---

#### Codificação texto [aqui](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)

O que você precisa saber de As platônicos [aqui](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)

Um aprofundamento [aqui](http://kunststube.net/encoding/)

Byte Strings para dar encode e decode [aqui](https://stackoverflow.com/questions/6224052/what-is-the-difference-between-a-string-and-a-byte-string)

---

Glob para englobar caminhos em árvore [aqui](https://docs.python.org/3/library/glob.html)

*usa o que chamam de Wildcard Characters*

Diferença entre UTF-8 e UNICODE [aqui](http://www.polylab.dk/utf8-vs-unicode.html)

---

Criar um dataframe Pandas coluna por coluna a partir de um for [aqui](https://stackoverflow.com/questions/28056171/how-to-build-and-fill-pandas-dataframe-from-for-loop/28058264#28058264)

Construtor de dataframe do Pandas [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

In [None]:
import os
folder_name = 'ebert_reviews'
for ebert_review in os.listdir(folder):
    with open(os.path.join(folder,
        ebert_review)) as file:
          file.write(response.content)

In [None]:
import glob
import pandas as pd

In [None]:
# List of dictionaries to build file by file and later convert to a DataFrame
df_list = []
for ebert_review in glob.glob('ebert_reviews/*.txt'):
    with open(ebert_review, encoding='utf-8') as file:
        title = file.readline()[:-1]
        review_url = file.readline()[:-1]
        review_text = file.read() #todo o resto
        df_list.append({'title': title,
                        'review_url': review_url,
                        'review_text': review_text})
df = pd.DataFrame(df_list, columns = ['title', 'review_url', 'review_text'])                

In [None]:
df_solution = pd.read_pickle('df_solution.pkl')
df.sort_values('title', inplace = True)
df.reset_index(inplace = True, drop = True)
df_solution.sort_values('title', inplace = True)
df_solution.reset_index(inplace = True, drop = True)
pd.testing.assert_frame_equal(df, df_solution)

In [None]:
df

---

- boas práticas em abrir um arquivo em Python [aqui](https://stackoverflow.com/questions/5250744/difference-between-open-and-codecs-open-in-python/22288895#22288895)

- maneira Pythônica de abrir um arquivo [aqui](https://stackoverflow.com/questions/8009882/how-to-a-read-large-file-line-by-line-in-python/8010133#8010133)

- iteradores na abertura de um arquivo [aqui](https://stackoverflow.com/questions/16994552/is-file-object-in-python-an-iterable/16994568#16994568)

- programação Glob [aqui](https://en.wikipedia.org/wiki/Glob_(programming))

### APIs

---

- como extrair dados de uma delas

- diferente de Access Library

- preferível a capturar dados de telas!

- testes em MediaWiki [aqui](https://www.mediawiki.org/wiki/API:Main_page#A_simple_example)

  - endpoints
  
  - format
  
  - action
  
  - action-specific parameters

- em Python wptools [aqui](https://www.mediawiki.org/wiki/API:Client_code#Python)

- no Twitter tweepy

In [None]:
$pip install wptools

In [None]:
page = wptools.page('Mahatma_Gandhi')

In [None]:
page.get()

In [None]:
page.data['image']

In [None]:
import wptools

In [None]:
page = wptools.page('E.T. Wikipedia page').get()

In [None]:
import rtsimple as rt
rt.API_KEY = ''
movie = rt.Movies('10489')
movie.ratings['audience_score']

In [None]:
import wptools as wpt

In [None]:
wpt.__version__

In [None]:
import rtsimple as rt

In [None]:
rt.__version__

#### Objetos XML/JSON

---

- Possuem declarações e sempre são fechados em tags e elementos, que podem ter atributos, referências, texto. A sintaxe completa [aqui](https://www.tutorialspoint.com/xml/xml_syntax.htm)

- Podem conter estruturas de dados aninhados (uma entrada pode conter mais de um ítem)

- Podem ser lidas diretamente por humanos ou por máquinas

- Os dois objetos mais consistentes

  - JSON object -> Python dictionary
  
  - JSON array -> Python list

- API (Application Programming Interface) data exchange de JSON para XML [aqui](https://www.tibco.com/blog/2014/01/23/api-data-exchange-xml-vs-json/)