<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB10_01__Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Melhorias da sessão
* Explicar melhor a questão do .copy(). Veja os exemplos abaixo...
* Desenvolver "Querying a Dataframe";
* Usar os livros (estão no meu Dropbox): Python Data Analysis & Python Data Analysis Cookbook para conteúdos de Pandas.
* Use isso: https://data-flair.training/blogs/data-wrangling-with-python/
* Use isso: https://data-flair.training/blogs/python-data-cleansing/



___
# **Análise de Dados Com Pandas**
## Highlights

* Rápida e eficiente library para data manipulation;
* Ferramentas para ler e gravar todos os tipos de dados e formatos: CSV, txt, Microsoft Excel, SQL databases e HDF5 format;
* Pandas é a library mais popular para análise de dados. As principais ações que faremos com Pandas são:
    * Ler/gravar diferentes formatos de dados;
    * Selecionar subconjuntos de dados;
    * Cálculos variados por coluna ou por linha das tabelas;
    * Encontrar e tratar Missing Values;
    * Combinar múltiplos dataframes;

![Pandas](https://github.com/MathMachado/Python_RFB/blob/master/Material/Pandas.jpeg?raw=true)

![Pandas](https://github.com/MathMachado/Python_RFB/blob/master/Material/Pandas2.jpeg?raw=true)

![RightToolForEachSize](https://github.com/MathMachado/Python_RFB/blob/DS_Python/Material/SizesAndTools.PNG?raw=true)

Source: [Pandas, Dask or PySpark? What Should You Choose for Your Dataset?](https://medium.com/datadriveninvestor/pandas-dask-or-pyspark-what-should-you-choose-for-your-dataset-c0f67e1b1d36)

___
# **Verificar a versão do Pandas**

In [0]:
!pip install bamboolib

In [0]:
# Carrega a library Pandas
import pandas as pd
import numpy as np
import bamboolib
print(f'Versão do Pandas: {pd.__version__}')
print(f'Versão do NumPy.: {np.__version__}')

___
# **Criar um Dataframe a partir de um Dictionary**

## Exemplo 1

In [0]:
d_Frutas= {'Apple': [5, 6, 6, 8, 10, 3, 2],
          'Avocado': [6, 6, 3, 9, 3, 2, 1]}

In [0]:
d_Frutas

In [0]:
# index=['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'] abaixo define os label.
df_Frutas = pd.DataFrame(d_Frutas, index=['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'])
df_Frutas

O que se comprou no Sexta?

* Função df.loc[label] retorna o(s) valor(es) associados à label. Em nosso caso, os label são 'Mon', 'Tue', ..., 'Sun'.

In [0]:
df_Frutas.loc['Fri'] # Aqui, label= 'Fri'.

* Ou seja, o label= 'Fri', que ocupa a posição 4, tem os valores:
    * Apple..: 10
    * Avocado: 3

Da mesma forma, poderíamos utilizar a função df.iloc[index] para retornar o conteúdo/informações de index.

In [0]:
df_Frutas.iloc[4]

Portanto, df.loc['Fri'] = df.iloc[4]. Correto?

Para nos ajudar a memorizar, considere que:

* pd.loc[label] --> loc começa com a letra **l**, o que remete à label.
* pd.iloc[index] --> iloc começa com a letra **i**, o que remete à index.

## Exemplo 2

Na prática, lidamos com grandes bancos de dados e, nesses casos, não temos label das linhas definidos. Para exemplificar, considere o mesmo exemplo que acabamos de ver, com uma pequena alteração:

In [0]:
df_Frutas = pd.DataFrame(d_Frutas) # Observe que aqui não definimos os indíces
df_Frutas

Veja agora que os label são números inteiros de 0 a N. Assim, temos que

In [0]:
df_Frutas.loc[4]

In [0]:
df_Frutas.iloc[4]

Ou seja, nesses casos, tanto faz usar pd.loc[] ou pd.iloc[]. Entendeu?

## Exemplo 3 - Definir os indices
* df.set_index().

In [0]:
d_Frutas= {'Dia_Semana': ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'],
           'Apple': [5, 6, 6, 8, 10, 3, 2],
          'Avocado': [6, 6, 3, 9, 3, 2, 1]}

In [0]:
df_Frutas = pd.DataFrame(d_Frutas)
df_Frutas

In [0]:
# Definir Dia_Semana como índice/chave do dataframe
df_Frutas.set_index('Dia_Semana', inplace= True)
df_Frutas

A expressão acima é equivalente a:

In [0]:
df_Frutas2= df_Frutas.set_index('Dia_Semana')
df_Frutas2

## Exemplo 4

In [0]:
d_Estudantes= {'name': ['Jack', 'Richard', 'Tommy', 'Ana'], 
            'Age': [25, 34, 18, 21],
           'City': ['Sydney', 'Rio de Janeiro', 'Lisbon', 'New York'],
           'Country': ['Australia', 'Brazil', 'Portugal', 'United States']}

In [0]:
# Mostrar o conteúdo do dicionário d_Estudantes...
d_Estudantes

In [0]:
# Keys associadas ao dicionário d_Estudantes
d_Estudantes.keys()

In [0]:
# Itens associados ao dicionário d_Estudantes
d_Estudantes.items()

In [0]:
# Valores associados ao dicionário d_Estudantes
d_Estudantes.values()

Temos uma key= 'name'. Qual o conteúdo desta key?

In [0]:
d_Estudantes['name']

Qual o output da expressão a seguir:

In [0]:
d_Estudantes['name'][0]

Criando o dataframe df_Estudantes a partir do dicionário d_Estudantes:

In [0]:
df_Estudantes= pd.DataFrame(d_Estudantes)

In [0]:
# Mostra o conteúdo do dataframe df_Estudantes...
df_Estudantes

**Atenção**: Observe que nesse caso, não definimos labels para as linhas. Na prática, isso é o mais comum, ou seja, os label = index, que aqui são números inteiros de 0 a N.

Mais uma vez, vamos usar df.loc[] e df.iloc[]...

In [0]:
# Mostrando o conteúdo de da linha 3 usando df.loc[]
df_Estudantes.loc[3]

OU

In [0]:
# Mostrando o conteúdo de da linha 3 usando df.iloc[]
df_Estudantes.iloc[3]

Ok, já discutimos isso anteriormente. Quando não temos labels para as linhas, então iloc[] = loc[]

___
# **Criar um Dataframe a partir de uma lista**
* Considere a lista de frutas a seguir:

In [0]:
l_Frutas = [('Melon', 6,8,5,4,6,2,8), ('Avocado', 6,6,3,8,9,3,1), ('Blueberry', 7,5,9,3,1,0,4)]
l_Frutas

In [0]:
type(l_Frutas)

In [0]:
l_Frutas[0]

In [0]:
l_Frutas[0][0]

In [0]:
# Lista contendo os nomes das colunas do dataframe:
l_NomeColunas= ['Frutas', 'Sun', 'Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat']
l_NomeColunas

In [0]:
# Convertendo as listas em dataframe
df_Frutas = pd.DataFrame(l_Frutas, columns = l_NomeColunas) # Observe que aqui, o nome das colunas é uma lista.
df_Frutas

___
# **Copiar o dataframe**

O dataframe df_Estudantes tem o seguinte conteúdo:

In [0]:
df_Estudantes

se fizermos...

In [0]:
df_Estudantes2= df_Estudantes

então df_Estudantes2 tem o mesmo conteúdo de df_Estudantes, ok?

In [0]:
df_Estudantes2

Agora altere o valor 'Rio de Janeiro' para 'Sao Paulo' em df_Estudantes2.

In [0]:
df_Estudantes2['City']= df_Estudantes2['City'].replace({'Rio de Janeiro': 'Sao Paulo'})
df_Estudantes2

Ok, alteramos o valor 'Rio de Janeiro' por 'Sao Paulo', como queríamos. Vamos ver o conteúdo de df_Estudantes (**que está intacto, pois fizemos a alteração no dataframe df_Estudantes2**).

In [0]:
df_Estudantes

Ooooops... df_Estudantes foi alterado? Como, se procedemos a alteração em df_Estudantes2 e NÃO em df_Estudantes???

As operações que fizermos em df_Estudantes2 também serão aplicadas à df_Estudantes?

**Resposta**: SIM, pois df_Estudantes2 é um ponteiro para df_Estudantes. Ou seja, **qualquer operação que fizermos em df_Estudantes2 será feita em df_Estudantes**.

Uma forma fácil de ver isso é através dos endereços de memória dos dois (**supostos diferentes**) dataframes:

In [0]:
id(df_Estudantes2)

In [0]:
id(df_Estudantes)

**Conclusão**: df_Estudantes2 é ponteiro para df_Estudantes.

## Forma correta de fazer a cópia de um dataframe

Primeiramente, vamos reconstruir df_Estudantes:

In [0]:
df_Estudantes= pd.DataFrame(d_Estudantes)
df_Estudantes

Fazendo a cópia do dataframe (**da forma correta**):

In [0]:
df_Estudantes_Copy= df_Estudantes.copy()

Vamos verificar os endereços de memória dos dois dataframes:

In [0]:
id(df_Estudantes_Copy)

In [0]:
id(df_Estudantes)

Agora,  dataframe df_Estudantes_Copy é uma cópia do dataframe df_Estudantes

___
# **Renomear colunas do dataframe**
> **Snippet**: 

    * df.rename(columns= {'Old_Name': 'New_Name'}, inplace= True)
    * df= df.rename(columns= {'Old_Name': 'New_Name'})

Suponha que quero renomear a coluna/variável 'name' para 'Client_Name', que é um nome mais sugestivo.

In [0]:
df_Estudantes

In [0]:
df_Estudantes= df_Estudantes.rename(columns= {'name': 'Client_Name'})

O comando abaixo produz o mesmo resultado que a linha anterior:

```
df_Estudantes.rename(columns= {'name': 'Client_Name'}, inplace= True)
```

In [0]:
# Mostrando o conteúdo de df_Estudantes após renomearmos a coluna/variável 'name' para 'Clien_Name'...
df_Estudantes

Agora, suponha que queremos renomear 'Age' para 'Client_Age', 'City' para 'Client_City' e 'Country' para 'Client_Country'...

In [0]:
df_Estudantes.rename(columns= {'Age': 'Client_Age', 'City': 'Client_City', 'Country': 'Client_Country'}, inplace= True)

O comando abaixo produz o mesmo resultado que a linha anterior:

```
df_Estudantes= df_Estudantes.rename(columns= {'Age': 'Client_Age', 'City': 'Client_City', 'Country': 'Client_Country'}, inplace= True)
```

In [0]:
# Mostrando o conteúdo de df_Estudantes após a múltipla operação de renomear...
df_Estudantes

Alguma dúvida até aqui?
Tudo bem até aqui?

## Challenge
* Aplicar lowercase() em todas as colunas do dataframe df_Estudantes. Como fazer isso?

### Minha solução:

In [0]:
# Colocar o nome das colunas numa lista:
l_NomeColunas= df_Estudantes.columns
l_NomeColunas

In [0]:
# Lowercase todas as colunas
df_Estudantes.columns = [col.lower() for col in l_NomeColunas]

In [0]:
# Mostrando o conteúdo do dataframe df_Estudantes
df_Estudantes

___
# **Adicionar/Acrescentar novas LINHAS ao dataframe**

## Usando Dictionaries
* É necessário informar {'Column_Name': value} para cada inserção. Por exemplo, vou adicionar o seguinte registro ao dataframe:
    * client_name= 'Anderson';
    * client_age= 22;
    * client_city= 'Porto';
    * client_country= 'Portugal'

In [0]:
df_Estudantes

In [0]:
df_Estudantes_Copia= df_Estudantes.copy()
df_Estudantes.append({'Client_Name': 'Anderson', 
               'Client_Age': 22,
               'Client_City': 'Porto',
               'Client_Country': 'Portugal'}, ignore_index= True)

Esse é o resultado que desejamos?
Saberia explicar-nos o que houve de errado?

**DICA**: Lembre-se que no passo anterior, reescrevemos todos os nomes das colunas para lowercase.

In [0]:
# Definindo df_Estudantes novamente usando a cópia df_Estudantes_Copia
df_Estudantes= df_Estudantes_Copia.copy()
df_Estudantes

Ok, restabelecemos a cópia de df_Estudantes. Agora vamos à forma correta:

In [0]:
df_Estudantes= df_Estudantes.append({'client_name': 'Anderson', 
               'client_age': 22,
               'client_city': 'Porto',
               'client_country': 'Portugal'}, ignore_index= True)

Bom, esse é o resultado que estávamos à espera...

## Usando Series
* Como exemplo, considere que queremos adicionar os seguintes dados:
    * client_name= 'Bill';
    * client_age= 30;
    * client_city= 'São Paulo';
    * client_country= 'Brazil'

In [0]:
New_Estudante= pd.Series(['Bill', 30, 'Sao Paulo', 'Brazil'], index= df_Estudantes.columns) # Olha que interessante: estamos a usar index= df_Estudantes.columns.

Vamos ver o conteúdo de New_Estudante:

In [0]:
New_Estudante

Por fim, adiciona/acrescenta New_Estudante ao dataframe df_Estudantes...

In [0]:
df_Estudantes= df_Estudantes.append(New_Estudante, ignore_index= True)
df_Estudantes

___
# **Adicionar/acrescentar novas COLUNAS ao Dataframe**

## Usando Lists
* Suponha que queremos adicionar a coluna/variável 'Score'

In [0]:
df_Estudantes

In [0]:
# Acrescentando ou criando a coluna/variável 'Score' ao dataframe usando um objeto list
df_Estudantes['Score']= [500, 300, 200, 800, 700]

In [0]:
# Show the contents of Estudantes...
df_Estudantes

> **Atenção**:

* Se a quantidade de valores da lista forem menores que o número de linhas do dataframe, então o Python apresenta um erro.
* Se a coluna/variável que queremos inserir já existe no dataframe, então os valores serão atualizados com os novos.

## Usando um valor default
* Adicionar a coluna 'Total' com o mesmo valor para todas as linhas

In [0]:
df_Estudantes['Total']= 500
df_Estudantes

## Adicionar uma variável calculada a partir de outras colunas

In [0]:
df_Estudantes['Percentagem']= 100*(df_Estudantes['Score']/sum(df_Estudantes['Score']))
df_Estudantes

___
# **Ler/carregar dados no Python**
* Vários formatos de arquivos podem ser lidos:

|Format Type | Data Description | Reader | Writer |
|---|---|---|---|
text | CSV | read_csv | to_csv |
text | JSON | read_json | to_json |
text | HTML | read_html | to_html |
text | Local clipboard | read_clipboard | to_clipboard |
binary | MS Excel | read_excel | to_excel |
binary | HDF5 Format | read_hdf | to_hdf |
binary | Stata | read_stata | to_stata |
binary | SAS | read_sas 
binary | Python Pickle Format | read_pickle | to_pickle |
SQL | SQL | read_sql | to_sql |
SQL | Google Big Query | read_gbq | to_gbq |

* Fonte: [IO tools (text, CSV, HDF5, …)](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

___
# **Ler/Carregar csv**

In [0]:
# carregar a library Pandas
import pandas as pd

A seguir, vamos:
* Ler o dataframe Titanic.csv;
* Definir 'PassengerId' como índice/chave da tabela através do comando index_col= 'PassengerId'.

In [0]:
df_Titanic = pd.read_csv('https://raw.githubusercontent.com/MathMachado/Python4DS/DS_Python/Dataframes/Titanic_With_MV.csv?token=AGDJQ672T4SNPH26JRBPZUS5WMA24', index_col= 'PassengerId')
df_Titanic.head()

* Segue o dicionário de dados do dataframe Titanic:
    * PassengerID: ID do passageiro;
    * Survived: Indicador, sendo 1= Passageiro sobreviveu e 0= Passageiro morreu;
    * Pclass: Classe;
    * Age: Idade do Passageiro;
    * SibSp: Número de parentes a bordo (esposa, irmãos, pais e etc);
    * Parch: Número de pais/crianças a bordo;
    * Fare: Valor pago pelo Passageiro;
    * Cabin: Cabine do Passageiro;
    * Embarked: A porta pelo qual o Passageiro embarcou.
    * Name: Nome do Passageiro;
    * Sex: Sexo do Passageiro.

In [0]:
# Show o dataframe df_Titanic:
df_Titanic.head()

### DICA 1
Suponha que o dataframe que queremos ler esteja localizado em:

```
/home/nsolucoes4ds/Dropbox/Data_Science/Python/Python_RFB/Python_RFB-DS_Python_020919_2244/Dataframes
```

Desta forma, para ler o dataframe (local), basta usar o comando a seguir:

```
url= '/home/nsolucoes4ds/Dropbox/Data_Science/Python/Python_RFB/Python_RFB-DS_Python_020919_2244/Dataframes/creditcard.csv'
df_Titanic = pd.read_csv(url)
```

### Dica 2
No Windows, o diretório aparece, por exemplo, da seguinte forma: 
```
C:\nsolucoes4ds\Data_Science
```
Observe as '\\' (**barras invertidas**). Neste caso, use o comando a seguir:

```
url= r'C:\nsolucoes4ds\Data_Science\creditcard.csv'
df_Titanic = pd.read_csv(url)
```

Percebeu o r'diretorio'?

___
# **Corrigir nome das colunas**
* Por exemplo, reescrever o nome das colunas usando lowercase().

In [0]:
df_Titanic.columns= [cols.lower() for cols in df_Titanic.columns]
df_Titanic.head()

In [0]:
# Construindo uma variável mais intuitiva para nos ajudar nas análises:
df_Titanic['survived2'] = df_Titanic['survived']
df_Titanic.head(3)

In [0]:
df_Titanic['survived2']= df_Titanic['survived2'].map({0:'Died', 1:'Survived'})
df_Titanic.head()

___
# **Selecionar COLUNAS**
* Suponha que queremos selecionar somente as colunas 'Survived', 'Sex' e 'Embarked':

In [0]:
df_Titanic2= df_Titanic[['survived', 'sex', 'embarked']]
df_Titanic2.head()

___
# **Criar um Dicionário a partir de um pd.DataFrame()**
> Suponha o dataframe-exemplo a seguir:

In [0]:
df = pd.DataFrame({'a': ['red', 'yellow', 'blue'], 'b': [0.5, 0.25, 0.125]})
df

De Dataframe para Dicionário...

In [0]:
df.to_dict('dict')

___
# **Criar uma Lista a partir de um pd.DataFrame()**
> Suponha o dataframe-exemplo a seguir:

In [0]:
df = pd.DataFrame({'a': ['red', 'yellow', 'blue'], 'b': [0.5, 0.25, 0.125]})
df

De pd.DataFrame() para Lista...

In [0]:
df.to_dict('list')

___
# **Mostrar as primeiras k LINHAS do pd.DataFrame()**
> df.head(k), onde k é o número de linhas que queremos visualizar. Por default, k= 10.

In [0]:
df_Titanic.head()

___
# **Mostrar as últimas k LINHAS do pd.DataFrame()**
> df.tail(k), onde k é o número de linhas que queremos ver. Por default, k= 10.

In [0]:
df_Titanic.tail()

Por default, df.tail() mostra as últimas 5 linhas/instâncias do dataframe. Entretando, pode ser ver qualquer número de linhas k, como, por exemplo, k= 10 mostrado abaixo.

In [0]:
df_Titanic.tail(10)

___
# **Mostrar o nome das COLUNAS**
* df.columns

In [0]:
df_Titanic.columns

___
# **Mostrar os tipos das COLUNAS**
* df.dtypes

In [0]:
df_Titanic.dtypes

___
# **Selecionar automaticamente as COLUNAS pelo tipo**
> snippet: df.select_dtypes(include=[tipo]).columns

| Tipo | O que seleciona | Sintaxe |
|------|-----------------|---------|
| number | colunas do tipo numéricas | df.select_dtypes(include=['number]).columns |
| float | colunas do tipo float | df.select_dtypes(include=['float']).columns |
| bool | colunas do tipo booleanas | df.select_dtypes(include=['bool']).columns |
| object | colunas do tipo categóricas/strings | df.select_dtypes(include=['object']).columns |

* Se quisermos selecionar mais de um tipo, basta informar a lista de tipos. 
    * Exemplo: df.select_dtypes(include=['object', 'float']).columns


## Selecionar automaticamente as COLUNAS Numéricas

### Lista com as COLUNAS do tipo numéricas:

In [0]:
l_ColsNumeric= df_Titanic.select_dtypes(include=['number']).columns
l_ColsNumeric

### DataFrame com as COLUNAS do tipo numéricas:

In [0]:
df_Num= df_Titanic.select_dtypes(include=['number']) # Atenção: aqui não temos .columns
df_Num.head()

## Selecionar automaticamente as colunas float

### Lista com as COLUNAS do tipo float:

In [0]:
l_ColsFloat= df_Titanic.select_dtypes(include=['float']).columns
l_ColsFloat

### DataFrame com as COLUNAS do tipo float:

In [0]:
df_Float= df_Titanic.select_dtypes(include=['float']) # Atenção: aqui não temos .columns
df_Float.head()

## Selecionar automaticamente as COLUNAS do tipo Booleanas

### Lista com as COLUNAS do tipo Booleanas:

In [0]:
l_ColsBool= df_Titanic.select_dtypes(include=['bool']).columns
l_ColsBool

### DataFrame com as COLUNAS do tipo Booleanas:

In [0]:
df_Bool= df_Titanic.select_dtypes(include=['bool']) # Atenção: aqui não temos .columns
df_Bool.head()

## Selecionar automaticamente as COLUNAS do tipo string (object)

### Lista com as COLUNAS do tipo object/string:

In [0]:
l_ColsObject= df_Titanic.select_dtypes(include=['object']).columns
l_ColsObject

### DataFrame com as COLUNAS do tipo Object/String:

In [0]:
df_Object= df_Titanic.select_dtypes(include=['object']) # Atenção: aqui não temos .columns
df_Object.head()

___
# **Reordenar as COLUNAS do pd.DataFrame()**

In [0]:
df_Titanic.head()

* Suponha que queremos reordenar as COLUNAS do dataframe df_Titanic em ordem alfabética, conforme abaixo:
    * age;
    * embarked;
    * fare;
    * parch;
    * pclass;
    * sex;
    * sibsp;
    * survived.

In [0]:
df_Titanic = df_Titanic.reindex(sorted(df_Titanic.columns), axis=1)
df_Titanic.head()

___
# **Mostrar a dimensão do pd.DataFrame()**
* Dimensão = Número de linhas e colunas

In [0]:
df_Titanic.shape

Qual a interpretação desta informação acima?

## **Quebrando a dimensão**
* Número de linhas do pd.DataFrame().: df_Titanic.shape[0]
* Número de colunas do pd.DataFrame(): df_Titanic.shape[1]

In [0]:
f'O dataframe df_Titanic possui {df_Titanic.shape[0]} linhas e {df_Titanic.shape[1]} colunas.'

___
# **Manipular Dados**
* Consulte [Series](https://pandas.pydata.org/pandas-docs/version/0.24/reference/series.html) para aprender mais sobre os métodos str.<function>.

Para facilitar nossas análises, vamos aplicar o método lower() em todos os valores das colunas objects/strings. Para isso, considere a função abaixo:

In [0]:
def Transf_Lower(df):
    # Primeira transformação: Aplicar lower() nos nomes das colunas:
    df.columns= [col.lower() for col in df.columns]

    # Segunda transformação: Aplicar o método .str.lower() nos valores das colunas object/strings:
    l_ColsObject= df.select_dtypes(include=['object']).columns
    
    for col in l_ColsObject:
        df[col]= df[col].str.lower()

Para saber mais sobre o método df[col].str.lower(), consulte [pandas.Series.str.lower](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.lower.html).

## Dataframe df_Full_Info

In [0]:
import pandas as pd

In [0]:
df_Full_Info= pd.DataFrame({'Sex': ['F','F','M','M','F','M','F','M','F','M','F','F','M'],
                     'email': ['Pietra_Cardoso@hotmail.com','Laura_Mendes@hotmail.com','Pedro_Lucas_da_Mota@yahoo.com','Isaac_Jesus@bol.com.br','Clara_Souza@bol.com.br','Vitor_Gabriel_Melo@google.com','Elisa_Barbosa@bol.com.br','Nicolas_Melo@yahoo.com.br','Ana_Beatriz_Aragao@gmail.com','Nicolas_Silva@bol.com.br','Yasmin_Oliveira@google.com','Luna_Lima@yahoo.com.br','Murilo_Aragao@bol.com.br'],
                     'ssn': ['48763512955','81970635401','31645298051','37164528900','49381206740','59140283615','56879130410','20457891360','82047693500','79618543200','81745930639','41978256337','48523071997'], 
                     'Birth_date': ['13/02/1978','24/01/1982','12/08/1977','16/12/1981','09/01/1993','20/02/1963','26/09/1983','13/10/1967','31/05/1997','12/03/1974','15/11/1996','11/12/1966','18/03/1965'], 
                     'start_date': ['6/02/2007','15/01/2018','05/08/2004','09/12/2008','04/01/2013','10/02/2002','19/09/2011','03/10/2007','26/05/2019','05/03/2003','10/11/2018','02/12/2003','09/03/2001'],
                     'Job': ['Director','Manager','Engineer','Engineer','Engineer','Engineer','Programer','Diretor','programmer','Programmer','Programmer','Programmer','Manager'], 
                     'City': ['Seattle','Chicago','Austin','Austin','Seattle','Austin','NewYork','Seattle','NewYork','NewYork','NewYork','NewYork','Seattle'],
                     'Department': ['Product','Devops','Platform','Devops','InternalTools','InternalTools','Sales','Product','Sales','Sales','Sales','Sales','Product'],
                     'Years_Of_Experience': [13,14,5,1,2,17,16,14,17,8,11,16,19]})

In [0]:
df_Full_Info.head()

* Percebeu a irregularidade em relação ao nome das colunas? Por exemplo:
    * 'Sex' - primeira letra maiúscula;
    * 'email' - em minúsculo;
    * 'Birth_date' - com a primeira letra minúsculo e o restante do nome em minúsculo.

Ou seja, precisamos uniformizar o nome das colunas. Vamos aplicar nossa função Transf_Lower: 

In [0]:
Transf_Lower(df_Full_Info)
df_Full_Info

**Observe atentamente**: 
* os nomes das colunas foram todos reescritos usando lower();
* Os conteúdos das colunas object/string foram reescritos usando o método str.lower().

## Avaliar o preenchimento das COLUNAS

### Avaliar 'sex'

In [0]:
df_Full_Info['sex'].value_counts()
# Alternativa: set(df_Full_Info['sex'])

Como podem ver, nenhum problema com a variável 'sex'. Vamos adiante...

### Avaliar 'job'

In [0]:
s_Variavel= 'job'

df_Full_Info[s_Variavel].value_counts()
# Alternativa: set(df_Full_Info[s_Variavel])

**Problemas de inconsistência**: temos:
* 'programmer' e 'programer' --> Neste caso, vou corrigir 'programer';
* 'director' e 'diretor' --> Neste caso, vou corrigir 'diretor'

#### Alternativa 1: Usando df[coluna].replace()

In [0]:
# Biblioteca para avaliarmos o tempo de processamento de cada alternativa
import time

In [0]:
# Correções a serem feitas:
d_Correcao= {'programer': 'programmer',
            'diretor': 'director'}

In [0]:
t0 = time.time()
df_Full_Info_replace= df_Full_Info.copy()
df_Full_Info_replace[s_Variavel]= df_Full_Info_replace[s_Variavel].replace(d_Correcao)
t1 = time.time()
t_replace= t1-t0

# Avaliar se a correção foi bem sucedida
df_Full_Info_replace[s_Variavel].value_counts()

A expressão a seguir também poderia ser utilizada em substituição ao df[coluna].replace():

```
df_Full_Info_replace[s_Variavel]= df_Full_Info_replace[s_Variavel].str.replace('programer', 'programmer')
```

Para mais detalhes, consulte: [pandas.Series.str.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.replace.html)


Conforme esperado, corrigimos a inconsistência da variável 'job'. Acompanhe o tempo de processamento a seguir:

In [0]:
f'Tempo de processamento usando replace(): {t_replace}'

#### Alternativa 2: Usando df[coluna].map()
> Esta alternativa é, em geral, mais rápido que df[coluna].replace().

In [0]:
# Correções a serem feitas:
d_Correcao= {'programer': 'programmer',
            'diretor': 'director',
             'engineer': 'engineer',
             'manager': 'manager'}

**Atenção**: as palavras incorretas são 'programer' (que vamos corrigir para 'programmer') e 'diretor' (que vamos corrigir para 'director'). No entanto, no caso de map(), preciso informar inclusive os valores corretos.

* Experimente usar d_Correcao2 no lugar de d_Correcao e reporte o que você entendeu:

```
# Correções a serem feitas:
d_Correcao2= {'programer': 'programmer',
            'diretor': 'director'}
```

In [0]:
t0 = time.time()

df_Full_Info_map= df_Full_Info.copy()
df_Full_Info_map[s_Variavel]= df_Full_Info_map[s_Variavel].map(d_Correcao) # Uso d_Correcao ao inves de d_Correcao2.
t1 = time.time()
t_map= t1-t0

# Avaliar se a correção foi bem sucedida
df_Full_Info_map[s_Variavel].value_counts()

In [0]:
f'Tempo de processamento usando replace(): {t_map}'

Para prosseguirmos, vou ficar com a Alternativa 2, pois é mais rápido, ok?

In [0]:
df_Full_Info= df_Full_Info_map.copy()

# Avaliar se a correção foi bem sucedida
df_Full_Info[s_Variavel].value_counts()

### Avaliar 'city'

In [0]:
s_Variavel= 'city'

df_Full_Info[s_Variavel].value_counts()
# Alternativa: set(df_Full_Info['s_Variavel])

A cidade 'newyork' está escrita incorretamente. Vamos corrigir este valor.

In [0]:
# Apesar de map() ser mais rápido do que replace(), vou utilizar replace() aqui
t0 = time.time()
df_Full_Info[s_Variavel]= df_Full_Info[s_Variavel].replace({'newyork': 'new york'})
t1 = time.time()
t_replace= t1-t0

# Avaliar se a correção foi bem sucedida
df_Full_Info[s_Variavel].value_counts()

Inconsistência resolvida. Vamos prosseguir...

### Avaliar department

In [0]:
s_Variavel= 'department'

df_Full_Info[s_Variavel].value_counts()
# Alternativa: set(df_Full_Info['s_Variavel])

Nada grave aqui. Vamos prosseguir...

## Dataframe df_Boss_Info

In [0]:
df_Boss_Info= pd.DataFrame({'Job': ['Director','Manager','Engineer','Programmer'], 
                     'Supervisor': ['CEO','Director','Manager','Engineer'],
                     'Annual_salary': [159000,134000,98000,60000]})   

In [0]:
df_Boss_Info.head()

Da mesma forma, vamos aplicar a função Transf_Lower().

In [0]:
Transf_Lower(df_Boss_Info)
df_Boss_Info

## Avaliar o preenchimento das colunas

### Avaliar 'job'

In [0]:
s_Variavel= 'job'

df_Boss_Info[s_Variavel].value_counts()
# Alternativa: set(df_Boss_Info[s_Variavel])

Nenhum problema. Vamos prosseguir...

### Avaliar 'supervisor'

In [0]:
s_Variavel= 'supervisor'

df_Boss_Info[s_Variavel].value_counts()
# Alternativa: set(df_Boss_Info[s_Variavel])

Nenhum problema. Vamos prosseguir...

## Dataframe df_MyData

In [0]:
df_MyData= pd.DataFrame({'First_Name': ['Pietra','Laura','Pedro Lucas','Isaac','Clara','Vitor Gabriel','Elisa','Nicolas','Ana Beatriz','Nicolas','Yasmin','Luna','Murilo'],
                    'Second_Name': ['Cardoso','Mendes','da Mota','Jesus','Souza','Melo','Barbosa','Melo','Aragão','Silva','Oliveira','Lima','Aragão'], 
                     'ssn': ['48763512955','81970635401','31645298051','37164528900','49381206740','59140283615','56879130410','20457891360','82047693500','79618543200','81745930639','41978256337','48523071997'],
                      'Job': ['Director','Manager','Engineer','Engineer','Engineer','Engineer','Programmer','Director','programmer','Programmer','Programmer','Programmer','Manager'],}) 

In [0]:
df_MyData.head()

Da mesma forma, vamos aplicar a função Transf_Lower().

In [0]:
Transf_Lower(df_MyData)
df_MyData

## Avaliar as colunas

### Avaliar 'job'

In [0]:
s_Variavel= 'job'

df_MyData[s_Variavel].value_counts()
# Alternativa: set(df_MyData[s_Variavel])

Nenhum problema. Vamos adiante...

___
# **Missing Value Handling**
* Fonte: [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)

## Missing Value Handling: df_Full_Info

In [0]:
df_Full_Info.isna().sum()

## Missing Value Handling: df_Boss_Info

In [0]:
df_Boss_Info.isna().sum()

## Missing Value Handling: df_MyData

In [0]:
df_MyData.isna().sum()

## Exemplo
* Considere os exemplos a seguir:

In [0]:
import numpy as np
import pandas as pd

In [0]:
df = pd.DataFrame({'A':[1,2,3,4,np.nan,6,7,8,np.nan],
                  'B':[5,np.nan,np.nan,4,np.nan,6,np.nan, np.nan, 9],
                  'C':[1,2,3,4,np.nan,6,7,8,9],
                   'E': ['Engineer', np.nan, 'Engineer', 'Architect', 'Engineer', 'Programmer', 'Engineer', np.nan, 'Manager']})

df

## dropna()
> Exclui NaN's.

In [0]:
df2= df.dropna()
df2

Qual a interpretação?

In [0]:
df3= df.dropna(axis=1)
df3

Qual a interpretação?

In [0]:
# Remove todas as colunas onde os valores são NaN
df4= df.dropna(axis=1, how='all')
df4

Qual a interpretação?

In [0]:
# Remove todas as linhas onde todos os valores são NaN
df5= df.dropna(axis=0, how='all')
df5

In [0]:
# Remove todas as linhas onde há algum NaN
df6= df.dropna(axis=0, how='any') 
df6

Qual a interpretação?

In [0]:
# Remove linhas se há NaN na column 'A'
df7= df.dropna(axis=0, subset=['A'])
df7

Qual a interpretação?

In [0]:
 # Remover a coluna se houver algum valor 'NaN' no índice é '1'
df8= df.dropna(axis=1, subset=[1])
df8

## fillna()
> Missing Value Imputation - Substituir NaN's.

### COLUNAS Numéricas

In [0]:
df

In [0]:
# Substituindo o NaN da colunha 'A' por 0
df2= df.copy()
df2["A"].fillna(0, inplace= True) 
df2

In [0]:
# Substituindo NaN da colunha 'A' pela média de A
df2= df.copy()
df2['A'].fillna(df2['A'].mean(), inplace= True)
df2

In [0]:
# Substituindo os NaN da coluna 'A' pela média
df2= df.copy()
df2['A'] = df2['A'].fillna(df2['A'].mean())
df2

In [0]:
# Substituindo os NaN da coluna 'A' pela mediana
df2= df.copy()
df2['A'] = df2['A'].fillna(df2['A'].median())
df2

In [0]:
# Substituindo os NaN da coluna 'A' pela moda
df2= df.copy()
df2['A'] = df2['A'].fillna(df2['A'].mode()[0])
df2

### COLUNAS Strings/Object

In [0]:
df

In [0]:
# Substituindo os NaN da coluna 'E' pela moda
df2= df.copy()
df2['E'] = df2['E'].fillna(df2['E'].mode()[0])
df2

___
# **Combinar dataframes: Merge, Join & Concatenate**
* Fonte: [Merge, join, and concatenate](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

* A seguir, três formas para combinar dataframes:

## Concatenate
* Une/empilha dataframes
* Fonte: https://github.com/aakankshaws/Pandas-exercises

In [0]:
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

In [0]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']})

In [0]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']})

In [0]:
df1

In [0]:
df2

In [0]:
df3

In [0]:
df= pd.concat([df1, df2, df3])
df

Veja que basicamente empilhamos os dataframes. No entanto, se fizermos...

In [0]:
df= pd.concat([df1, df2, df3], axis= 1)
df

Se, no entanto, tivermos:

In [0]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

Então...

In [0]:
df= pd.concat([df1, df2, df3], axis= 1)
df

Porque isso acontece?

## Merge

### Join (One-to-one joins)

* One-to-one joins significa que temos uma única chave para cada linha do dataframe;
* Observe que a chave comum entre o dataframe Full_Info e MyData é ssn (Social Security Number). Com esta chave comum, fazemos o merge dos dois dataframes.

In [0]:
df_Merged = pd.merge(df_MyData, df_Full_Info, on='ssn', how='left')
df_Merged.head()

**Temos aqui um problema**: Observe que temos uma coluna em comum nos dois dataframes: 'job'. Portanto, é informação redundante que precisa ser excluída.

O comando a seguir aplica o drop na coluna redundante 'job_y' e renomeia 'job_x' para 'job'

In [0]:
df_Merged = pd.merge(df_MyData, df_Full_Info, on='ssn', how='left').drop('job_y', axis=1).rename(columns= {'job_x': 'job'})
df_Merged.head()

#### Missing Value Handling: df_Merged

In [0]:
df_Merged.isna().sum()

### Join (Many-to-one joins)

In [0]:
df_Merged2 = pd.merge(df_MyData, df_Boss_Info, on='job', how='left')
df_Merged2.head()

#### Missing Value Handling: df_Merged2

In [0]:
df_Merged2.isna().sum()

### Join (Many-to-many joins)

* Considere o dataframe de skills abaixo:

In [0]:
df_Skills= pd.DataFrame({'Job': ['Director','Director','Director','Director','Manager','manager','Manager','Engineer','Engineer','Engineer','Engineer','Engineer','Engineer','Programmer','Programmer','Programmer','Programmer','Programmer','Programmer'], 
                     'skills': ['Negotiation','Decision Making','Leadership','Strategic Thinking','Decision Making','Leadership','Communication','The ability to work under pressure','Problem-solving','Creativity','Interpersonal skills','Teamworking skills','Problem-solving','Creativity','Python','Coding', 'Strategic Thinking', 'The ability to work under pressure', 'Resourcefulness']})   

In [0]:
df_Skills.head()

Então temos a tabela de skills abaixo. No entanto, observe que há mais de 1 skill para o mesmo Job. Por exemplo, 'Director' possui 4 skills.

A seguir, uniformização do nome das colunas:

In [0]:
# Corrigir o nome das colunas
df_Skills.columns= [col.lower() for col in df_Skills.columns]
df_Skills.head()

**Próximo Passo**: Avaliar as colunas.

#### Avaliar 'job'

In [0]:
# Avaliar variável 'job'
s_Variavel= 'job'

df_Skills[s_Variavel].value_counts()
# Alternativa: set(df_Skills[s_Variavel])

Aqui, temos uma inconsistência com o valor 'manager', pois, conforme o padrão, deveríamos ter 'Manager'. Vamos corrigir este valor:

In [0]:
# Apesar de map() ser mais rápido do que replace(), vou utilizar replace() aqui
df_Skills[s_Variavel]= df_Skills[s_Variavel].replace({'manager': 'Manager'})

# Avaliar se a correção foi bem sucedida
df_Skills[s_Variavel].value_counts()

Ok, inconsistência corrigida. Vamos prosseguir...

In [0]:
df_Merged3 = pd.merge(df_Merged2, df_Skills, on='job', how='left')
df_Merged3.head()

#### Missing Value Handling: df_Merged3

In [0]:
df_Merged3.isna().sum()

**Conclusão**: aplicamos transformações nas colunas e nas linhas/instâncias dos dataframes.

### Observações:

* Em alguns casos a variável chave nos dois dataframes que se quer fazer o join possui nomes diferentes. Neste caso, use 'left_on' e 'right_on' para definir o nome das colunas chaves no dataframe da esquerda e direita:
    * pd.merge(df1, df2, left_on="employee", right_on="name")
        * No exemplo acima, o dataframe df1 (dataframe da esquerda) possui chave 'employee' enquanto que o dataframe df2 (dataframe da direita), possui chave 'name'. Usando as 'left_on' e 'right_on' fica claro o nome das chaves de ligação de cada dataframe.

## Joining

In [0]:
df_Left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

df_Right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [0]:
df_Left

In [0]:
df_Right

In [0]:
df_Left.join(df_Right)

In [0]:
df_Left.join(df_Right, how='outer')

___
# **map()**
> artificio fácil para lidar com a transformação de dados. Como vimos anteriormente, definimos um dicionário {'key': valor}.

Veja o dataframe df_Merged3 a seguir:

In [0]:
df_Merged3.head()

Vamos verificar o preenchimento da variável 'job':

In [0]:
# Avaliar variável 'supervisor'
s_Variavel= 'supervisor'

df_Merged3[s_Variavel].value_counts()
# Alternativa: set(df_Merged3[s_Variavel])

Como exemplo, suponha que queiramos criar a variável 'level' da seguinte forma:

| job | level |
|-----|-----------|
| CEO | 1         |
| Director | 2         |
| Manager | 3         |
| Engineer | 4         |
| Programmer | 5         |


Portanto, o objetivo é criar a variável 'level', conforme apresentada acima.

In [0]:
# Mapeando...
level_map = {'CEO': 1, 'Director': 2, 'Manager': 3, 'Engineer': 4, 'Programmer': 5}

In [0]:
# Aplicar map() para construir a variável 'level'
df_Merged3['level'] = df_Merged3['supervisor'].map(level_map)
df_Merged3.head()

___
# **Selecionar linhas do pd.DataFrame() baseado nos índices**
### Leitura Adicional
* [pandas loc vs. iloc vs. ix vs. at vs. iat?
](https://stackoverflow.com/questions/28757389/pandas-loc-vs-iloc-vs-ix-vs-at-vs-iat/47098873#47098873)
* [Indexing and selecting data](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)

## 1st Approach - pd.loc[]
* Para capturar o conteúdo da linha k, use df.loc[row_indexer,column_indexer].

In [0]:
df_Titanic.head()


Por exemlo, o comando a seguir mostra o conteúdo da linha 0, todas as colunas(:)

In [0]:
df2= df_Titanic.loc[1,:]
df2.head()

Mostrando o conteúdo das linhas k= 1:2 (ou seja, linhas 1 e 2), todas as colunas(:)

In [0]:
df_Titanic.loc[1:2, :]

Mostrar os conteúdos da linha k= 1, coluna 'pclass':

In [0]:
df_Titanic.loc[1, ['pclass']]

Mostrar os conteúdos da linha k= 1 e colunas ['pclass', 'sex']:

In [0]:
df_Titanic.loc[0, ['pclass', 'sex']]

Porque temos um erro aqui?

Versão correta abaixo:

In [0]:
df_Titanic.loc[1, ['pclass', 'sex']]

Mostrar os conteúdos da linha k= 1:5 e colunas ['pclass', 'sex']:

In [0]:
df_Titanic.loc[1:5, ['pclass', 'sex']]

Agora suponha que queremos selecionar toda a 'sex'. Como fazer isso?

In [0]:
df_Sex= df_Titanic.loc[:, 'sex']
df_Sex.head()

Fácil selecionarmos o que queremos usando .loc() e iloc(), certo?

## 2nd Approach - Usando lists





In [0]:
df_Titanic[0:2] # Mostrar os conteúdos das linhas 0:2

In [0]:
df_Titanic[:3] # Mostrar os conteúdos até a linha 3

In [0]:
df_Titanic['sex'].head() # Mostrar o conteúdo inteiro da variável 'sex'

In [0]:
df_Titanic[0:5]['sex'].head() # Mostrar as linhas 0 a 5 da variável 'sex'

___
# **Selecionar/Filtrar linhas do pd.DataFrame() baseado em condições**
> Aproveitando o exemplo anterior, queremos selecionar do dataframe somente os passageiros do sexo 'male'.

## Exemplo 1: df.loc() e df.iloc()

In [0]:
df_Sex_male= df_Titanic.loc[df_Titanic['sex']== 'male', 'sex']
df_Sex_male.head()

## Exemplo 2: Uso do []

In [0]:
df_Sex_male= df_Titanic[df_Titanic['sex']== 'male']['sex']
df_Sex_male.head()

## Exemplo 3: Duas condições

In [0]:
# Selecionar todas as linhas onde Pclass= 1 & Embarked = 'S':
df2= df_Titanic[((df_Titanic['pclass'] == 1) & (df_Titanic['embarked'] == 'S'))]
df2.head()

## Exemplo 4: df.query()
Fonte: //pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#the-query-method

## Exemplo 5: df.isin()


In [0]:
df_Titanic.head()

In [0]:
df2= df_Titanic['Sex'].isin(['male'])
df2.head()

### Criar filtros com df.isin()

In [0]:
# Filtros usando df.isin() 
Filtro1 = df_Titanic["Sex"].isin(["male"]) 
Filtro2 = df_Titanic["Pclass"].isin([1]) 
  
# Mostra os resutados  
df_Titanic[Filtro1 & Filtro2].head()

___
# **Selecionar Amostras Aleatórias**

Vimos que o dataframe df_Titanic é muito grande. Então, vamos selecionar aleatoriamente 100 linhas.

In [0]:
import random  

# Biblioteca para avaliarmos o tempo de processamento de cada alternativa
import time

In [0]:
# Usando sample
t0= time.time()
df_Titanic_sample100= df_Titanic.sample(100, replace= False, random_state= 20111974)
t1= time.time()
t= t1-t0
df_Titanic_sample100.head()

In [0]:
f'Tempo de processamento: {t}'

In [0]:
# Usando NumPy
import numpy as np

t0= time.time()
np.random.seed(20111974)
indices = np.random.choice(df_Titanic.shape[0], replace=False, size=100)
df_Titanic_sample100_V2 = df_Titanic.iloc[indices]
t1= time.time()
t= t1-t0
df_Titanic_sample100_V2.head()

In [0]:
f'Tempo de processamento: {t}'

In [0]:
df_Titanic_sample100_V2.shape

___
# **Descrever o Dataframe**

In [0]:
df_Titanic_sample100.describe()

In [0]:
df_Titanic_sample100_V2.describe()

___
# **Identificar e lidar com linhas duplicadas**

## Exemplo 1
* considera as duplicatas em todas as colunas do dataframe.

In [0]:
df = pd.DataFrame({'A':[1,1,3,4,5,1], 'B':[1,1,3,7,8,1], 'C':[3,1,1,6,7,1]})
df

In [0]:
# Lista as duplicações em forma booleana
df.duplicated()

Observe a linha 5, onde temos a informação que esta linha está duplicada. Na verdade, a linha 5 é igual à linha 1

In [0]:
# Mostra as linhas duplicadas
df[df.duplicated()]

In [0]:
# Deleta a linha 5 que, como vimos, estava duplicada (uma cópia da linha 1).
df= df.drop_duplicates()
df

## Exemplo 2
* Considera somente algumas colunas

In [0]:
df = pd.DataFrame({'A':[1,1,3,4,5,1], 'B':[1,1,3,7,8,1], 'C':[3,1,1,6,7,1]})
df

In [0]:
# Mostra as linhas duplicadas usando as colunas 'A' e 'B'
df[df.duplicated(subset=['A','B'])]

In [0]:
# Deleta as linhas 1 e 5, pois como podemos ver, são duplicatas da linha 0
df= df.drop_duplicates(subset = ['A', 'B'])
df

___
# **Mostrar linhas do dataframe baseado em condições**

In [0]:
# Mostrar todas as linhas onde a string 'Mr' aparece no nome do passageiro:
df2= df_Titanic[df_Titanic['Name'].str.contains('Mr')]
df2.head()

Para saber mais sobre o método df[col].str.contais(), consulte https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html.

___
# **Trabalhar com dados do tipo texto**
* Fonte: [Working with text data](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Preparando os dados para o exemplo:

In [0]:
# Define um dicionário com os dados: 
import numpy as np

l_Idade= []
for i in range(6):
    np.random.seed(i)    
    l_Idade.append(np.random.randint(10, 40))
    

d_Exemplo = {'Nome':['Mr. Antonio dos Santos', 'Mr. Joao Pedro', 'Miss. Priscila Alvarenga', 'Mr. fagner NoVAES', 'Miss. Danielle Aparecida', 'Mr. Paullo Amarantes'], 
        'Idade': l_Idade, 
        'Cidade':['lisboa', 'Sintra', 'Braga', 'Guimaraes', 'Mafra', 'Nazare']} 
   
# Converte o dicionário num dataframe
df = pd.DataFrame(d_Exemplo) 
df

Algumas coisas que podemos fazer com relação á variável nome do dataframe df:

    * Extrair o cumprimento do nome: Mr., Miss e etc.
    * Construir as colunas PrimeiroNome e SegundoNome.
    * Criar a variável Idade_Class.

## Extrair o cumprimento do nome

In [0]:
df_Nome= df['Nome'].str.split(' ', n = 2, expand = True) 
df_Nome

Altere o valor de n para 3 e explique como as coisas funcionam...

In [0]:
# Capturando o cumprimento do nome:
df['Cumprimento']= df['Nome'].str.split(' ', n = 2, expand = True)[0]
df

## Construir as colunas Primeiro_Nome e Segundo_Nome

In [0]:
# Capturando o primeiro nome:
df['Primeiro_Nome']= df['Nome'].str.split(' ', n = 2, expand = True)[1]
df['Ultimo_Nome']= df['Nome'].str.split(' ', n = 2, expand = True)[2]
df

### Construir a variável Idade_Class

 | Limite Inferior | Limite Superior | Classe |
    |-----------------|-----------------|--------|
    | Inf | 15 | Inf_15 |
    | 15 | 20 | 15_20 |
    | 20 | 30 | 25_30 |
    | 30 | 40 | 30_40 |
    | 40 | 50 | 40_50 |
    | 50 | Sup | 50_Sup |

In [0]:
def Idade_Class):
    if (Idade <= 15):
        return 'Inf_15'
    if (15 < Idade <= 20):
        return '15_20'
    elif(20 < Idade <= 30):
        return '20_30'
    elif (30 < Idade <= 40):
        return '30_40'
    elif (40 < Idade <= 50):
        return '40_50'
    elif (Idade > 50):
        return '50_Sup'
    else:
        return 'Outros'

In [0]:
df['Idade_Class'] = df['Idade'].map(Idade_Class)

___
# **Exercício dirigido**
* Carregue o dataframe Titanic_With_MV na pasta Dataframes e analise o dataframe em busca de inconsistências e Missing Values (NaN).

In [0]:
import pandas as pd
df_Titanic = pd.read_csv('https://raw.githubusercontent.com/MathMachado/DSWP/master/Dataframes/Titanic_With_MV.csv')
df_Titanic.head()

* Segue o dicionário de dados do dataframe Titanic:
    * PassengerID: ID do passageiro;
    * Survived: Indicador, sendo 1= Passageiro sobreviveu e 0= Passageiro morreu;
    * Pclass: Classe;
    * Age: Idade do Passageiro;
    * SibSp: Número de parentes a bordo (esposa, irmãos, pais e etc);
    * Parch: Número de pais/crianças a bordo;
    * Fare: Valor pago pelo Passageiro;
    * Cabin: Cabine do Passageiro;
    * Embarked: A porta pelo qual o Passageiro embarcou.
    * Name: Nome do Passageiro;
    * Sex: Sexo do Passageiro
    

Vamos dar uma olhada nos campos categóricos para verificarmos como estão preenchidos.

In [0]:
import seaborn as sns

sns.countplot(x='Survived', hue='Pclass', data=df_Titanic)

In [0]:
df_Titanic['Pclass'].value_counts()

Não me parece nada estranho com a variável 'Pclass'. Ou você identifica alguma coisa estranho?

Vamos olhar a variável 'Sex'

In [0]:
sns.countplot(x='Survived', hue='Sex', data=df_Titanic)

In [0]:
df_Titanic['Sex'].value_counts()

Oops... Aqui temos vários problemas... Olhando para estes resultados, você concorda que 'male', 'm', 'MALE', M', 'mALE' e 'Men' se trata da mesma informação?

Da mesma forma, 'female', 'f', 'F', 'Female', 'fEMALE', 'Woman', 'w' e 'W' também se trata da mesma informação?

Então, vamos fazer o seguinte:

* Toda vez que eu encontrar um desses valores: ['m', 'MALE', 'M', 'mALE', 'Men'], vou substituir por 'male';
* Toda vez que eu encontrar um desses valores: ['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], vou substituit por 'female'.

O comando a seguir faz estas substituições:

In [0]:
df_Titanic['Sex2'] = df_Titanic['Sex'].replace(['m', 'MALE', 'M', 'mALE', 'Men'], 'male')
df_Titanic['Sex3'] = df_Titanic['Sex2'].replace(['f', 'F', 'Female', 'fEMALE', 'Woman', 'w', 'W'], 'female')  

Vamos ver a distribuição dos dados novamente no gráfico:

In [0]:
sns.countplot(x='Survived', hue='Sex3', data=df_Titanic)

In [0]:
df_Titanic['Sex3'].value_counts()

Ok, de fato corrigimos os problemas de preenchimento da variável 'Sex'.

___
# **Agrupar Informações: pd.groupby()**
* Fonte: [Group By: split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)

* Os componentes do comando Groupby()
    * **Grouping_Column** - Variável Categórica pelo qual os dados serão agrupados;
    * **Aggregating_Column** - Variável numérica cujos valores serão agrupados;
    * **Aggregating_Function** - Função agregadora, ou seja: sum, min, max, mean, median, etc...

> Sintaxe: 

```df.groupby('Grouping_Column').agg({'Aggregating_Column': 'Aggregating_Function'})```

In [0]:
df_Titanic.head()

In [0]:
# Agrupando df_Titanic por 'Sex3'
df_Titanic.groupby(['Sex3']).agg({'Fare': ['max', 'min']})

In [0]:
# Agrupando df_Titanic por 'Sex3' e 'Pclass'
df_Titanic.groupby(['Sex3','Pclass']).agg({'Fare': ['max', 'min']}).round(0)

In [0]:
df_Titanic.groupby(['Sex3']).agg({'Age': ['mean','min','max']}).round(0)

In [0]:
df_Titanic.head()

___
# **Reshaping & Pivot Tables**
* Fonte: [Reshaping and pivot tables](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)

___
# **Dados Categóricos**
* Fonte: [Categorical data](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html)

___
# **Dados Numéricos**

___
# **Ferramentas Úteis**
* Fonte: [Computational tools](https://pandas.pydata.org/pandas-docs/stable/user_guide/computation.html)

___
# **EDA - Análise Exploratória de Dados**
* Fonte: [Exploratory Data Analysis](http://www.stat.cmu.edu/~hseltman/309/Book/chapter4.pdf)

___
# **Exercícios**

## Exercício 1
* A partir dos dataframes USA_Abbrev, USA_Area e USA_Population, construa o Dataframe USA contendo as colunas state, abbreviation, area, ages, year, population.


* Observação: A forma mais fácil de ler um arquivo CSV (a partir do Excell por exemplo) a partir do GitHub é clicar no arquivo csv no seu repositório do GitHub e em seguida clicar em 'raw'. Depois, copie o endereço apresentado no browser e cole na variável 'url'. Qualquer dúvida, leia o documento a seguir: https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92.

## Exercício 2
Source: https://github.com/aakankshaws/Pandas-exercises

* Considere os dataframes a seguir e faça o merge do dataframe df_Left com o dataframe df_Right:

In [0]:
df_Left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
df_Right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

## Exercício 3
Source: https://github.com/aakankshaws/Pandas-exercises

* Considere os dataframes a seguir:

In [0]:
df_Left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
df_Right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

### Perguntas
* Qual o output e a interpretação dos comandos a seguir:

In [0]:
pd.merge(df_Left, df_Right, on=['key1', 'key2'])

In [0]:
pd.merge(df_Left, df_Rright, how='outer', on=['key1', 'key2'])

In [0]:
pd.merge(df_Left, df_Rright, how='right', on=['key1', 'key2'])

In [0]:
pd.merge(df_Left, df_Right, how='left', on=['key1', 'key2'])