In [1]:
# imports
import pandas as pd
import numpy as np

import string

from time import strftime 
from datetime import datetime 


# usaremos o filtro 'warning' para deixar mais limpo.
import warnings
warnings.filterwarnings('ignore')

### Preparando os dados

A segunda etapa da análise de dados é a limpeza dos dados. Preparar dados para ferramentas analíticas pode ser uma tarefa difícil. O Python e suas bibliotecas tentam torná-lo o mais fácil possível.

Com apenas algumas linhas de código, você poderá preparar seus dados para análise. Você poderá:

- Limpar os dados.
- Criar novas variáveis.
- Organizar os dados.

#### Limpeza de dados

Para serem úteis para a maioria das tarefas analíticas, os dados devem estar limpos. Isso significa que deve ser consistente, relevante e padronizado.

- remover valores discrepantes;
- remover valores inadequados;
- remover duplicatas;
- remover pontuação;
- remover espaços em branco;
- padronizar datas;
- padronizar o texto.

#### Calculando e removendo outliers

Suponha que você esteja coletando dados sobre as pessoas com quem você estudou no ensino médio. E se você foi para a escola com Bill Gates. Agora, mesmo que a pessoa com o segundo maior patrimônio líquido tenha apenas $ 1,5 milhão, a média de toda a sua classe é aumentada pelo bilionário no topo. Encontrar os outliers permite remover os valores que são tão altos ou tão baixos que distorcem a visão geral dos dados.

Cobrimos duas maneiras principais de detectar outliers:

- 1. Desvios Padrão: Se os dados forem normalmente distribuído, então 95 por cento dos dados estão dentro de 1,96 desvios padrão da média. Portanto, podemos descartar os valores acima ou abaixo desse intervalo.

- 2. Intervalo Interquartílico (IQR): O IQR é o diferença entre o quantil de 25 por cento e o quantil de 75 por cento. Quaisquer valores inferiores a Q1 - 1,5 x IQR ou superiores a Q3 + 1,5 x IQR são tratados como outliers e removidos.

Vamos ver como eles se parecem

In [2]:
# Método 1: Desvio Padrão
caminho = "datasets/gradedata.csv" 
df = pd.read_csv(caminho) 

media_notas = df['grade'].mean()
desvio_notas = df['grade'].std() 

valores_altos = media_notas + desvio_notas * 1.96 
valores_baixos = media_notas - desvio_notas * 1.96 

copia_df = df 

copia_df = copia_df.drop(copia_df[copia_df['grade'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['grade'] < valores_baixos].index)

copia_df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


- Linha 10: Aqui calculamos o intervalo superior igual a 1,96 vezes o desvio padrão mais a média.
- Linha 11: Aqui calculamos o intervalo inferior igual a 1,96 vezes o desvio padrão subtraído do desvio.
- Linha 15: Aqui descartamos as linhas onde a nota é maior do que o toprange.
- Linha 16: Aqui descartamos as linhas onde está a nota inferior ao botrange.

In [3]:
# Método 2: Intervalo Interquartílico
caminho = "datasets/gradedata.csv" 

df = pd.read_csv(caminho) 

q1 = df['grade'].quantile(.25) 
q3 = df['grade'].quantile(.75) 

iqr = q3-q1
valores_altos = q3 + iqr * 1.5
valores_baixos = q1 - iqr * 1.5

copia_df = df

copia_df = copia_df.drop(copia_df[copia_df['grade'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['grade'] < valores_baixos].index)

copia_df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


- Linha 10: Aqui calculamos o `limite superior = o terceiro quartil + 1,5 * o IQR.`
- Linha 11: Aqui calculamos o `limite inferior = o primeiro quartil - 1,5 *
o IQR.`
- Linha 15: Aqui descartamos as linhas onde estão as notas
mais altas que o `valores_altos`.
- Linha 14: Aqui descartamos as linhas onde está a nota é inferior aos `valores_baixos`.

Carregue o conjunto de dados datasets/outlierdata.csv. Experimente com ambos os métodos.

In [4]:
# Método 1: Desvio Padrão
caminho = "datasets/outlierdata.csv" 

df = pd.read_csv(caminho) 

media_notas = df['Net Worth'].mean()
desvio_notas = df['Net Worth'].std() 

valores_altos = media_notas + desvio_notas * 1.96 
valores_baixos = media_notas - desvio_notas * 1.96 

copia_df = df 

copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] < valores_baixos].index)

copia_df

Unnamed: 0,Name,Net Worth
0,Stella B. Battle,13853
1,Virginia Q. Salas,18065
2,Keiko S. Berry,6169
3,Dustin U. Hopkins,4857
4,Sloane O. Atkins,14022
...,...,...
95,Barbara Z. Rivera,17272
96,Lilah Q. Porter,-9786
97,Angelica Z. King,3
98,Delilah N. Sweet,350


In [5]:
# Método 2: Intervalo Interquartílico
caminho = "datasets/outlierdata.csv" 

df = pd.read_csv(caminho) 

q1 = df['Net Worth'].quantile(.25) 
q3 = df['Net Worth'].quantile(.75) 

iqr = q3-q1
valores_altos = q3 + iqr * 1.5
valores_baixos = q1 - iqr * 1.5

copia_df = df

copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] < valores_baixos].index)

copia_df

Unnamed: 0,Name,Net Worth
0,Stella B. Battle,13853
1,Virginia Q. Salas,18065
2,Keiko S. Berry,6169
3,Dustin U. Hopkins,4857
4,Sloane O. Atkins,14022
...,...,...
95,Barbara Z. Rivera,17272
96,Lilah Q. Porter,-9786
97,Angelica Z. King,3
98,Delilah N. Sweet,350


#### Dados ausentes no Dataframe do pandas

Uma das coisas mais irritantes ao trabalhar com grandes conjuntos de dados é encontrar os dados que faltam. Pode tornar impossível ou imprevisível computar a maioria das estatísticas agregadas ou gerar tabelas dinâmicas. Se você procurar pontos de dados ausentes em um conjunto de dados de 50 linhas, será bastante fácil. No entanto, se você tentar encontrar um ponto de dados ausente em um conjunto de dados de 500.000 linhas, pode ser muito mais difícil.

A biblioteca `pandas` do Python tem funções para ajudá-lo a encontrar, excluir ou altere os dados ausentes.

In [6]:
# Criando Dataframe com dados ausentes 
df = pd.read_csv("datasets/gradedatamissing.csv") 

df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


O código anterior carrega um conjunto de dados legítimo que inclui linhas com dados
ausentes. Podemos usar o dataframe resultante para praticar como lidar com dados ausentes.

Para descartar todas as linhas com dados ausentes (NaN), use o código mostrado em

In [7]:
# Eliminar linhas com dados ausentes
df_no_missing = df.dropna() 

df_no_missing

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304"
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731"
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


Para adicionar uma coluna preenchida com valores vazios, use o código da Listagem

In [8]:
# Adicionar uma coluna com valores vazios
df['newcol'] = np.nan 
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",


Para descartar quaisquer colunas que contenham apenas valores vazios
consulte a Listagem

In [9]:
# Eliminar colunas completamente vazias
df.dropna(axis = 1, 
          how = 'all')

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304"
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731"
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


Para substituir todos os valores vazios por zero, consulte a Listagem 3-7.

In [10]:
# Substituir células vazias por 0
df.fillna(0)

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",0.0
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",0.0
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",0.0
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",0.0
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",0.0
...,...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304",0.0
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731",0.0
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010",0.0
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",0.0


Para preencher as notas que faltam com o valor médio da nota, consulte a Listagem 3-8.

In [11]:
# Substitua as células vazias pela média da coluna
df["grade"].fillna(df["grade"].mean(), 
                   inplace = True)

Observe que inplace=True significa que as alterações são salvas no dataframe
imediatamente.

Para preencher as notas que faltam com o valor médio da nota de cada gênero, consulte
Listagem 3-9.

In [12]:
# É complicado
df["grade"].fillna(df.groupby("gender")
                   ["grade"].transform("mean"), inplace=True)    

Também podemos selecionar algumas linhas, mas ignorar aquelas com pontos de
dados ausentes. Para selecionar as linhas de df em que idade não é NaN e sexo não é
NaN, consulte a Listagem 3-10.

In [13]:
# Selecionando linhas sem idade ou sexo ausente
df[df['age'].notnull() & df['gender'].notnull()]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",
...,...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304",
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731",
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010",
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",


Carregue o conjunto de dados `datasets/missinggrade.csv`. A sua missão, caso aceite, é deletar linhas com notas faltantes e substituir os valores faltantes em horas de exercício pelo valor médio daquele gênero.

#### Filtrando Valores Inadequados

Às vezes, se você estiver trabalhando com dados que não coletou, precisará se preocupar se os dados são precisos. Caramba, às vezes você precisa se preocupar com isso, mesmo que tenha coletado você mesmo! Pode ser difícil verificar a veracidade de cada ponto de dados, mas é bastante fácil verificar se os dados são apropriados.

A biblioteca pandas do Python tem a capacidade de filtrar os valores incorretos

In [14]:
# 11. Criando conjunto de dados
nomes = ['Bob','Jéssica','Maria','João','Mel'] 
notas = [76,-2,77,78,101]
GradeList = zip(nomes,notas) 
df = pd.DataFrame(data = GradeList, columns = ['Nomes', 'Notas'])
df

Unnamed: 0,Nomes,Notas
0,Bob,76
1,Jéssica,-2
2,Maria,77
3,João,78
4,Mel,101


Para eliminar todas as linhas em que as notas são muito altas, consulte a Listagem

In [15]:
# Filtrando Notas Impossíveis
df.loc[df['Notas'] <= 100]

Unnamed: 0,Nomes,Notas
0,Bob,76
1,Jéssica,-2
2,Maria,77
3,João,78


Para alterar os valores fora do limite para o máximo ou mínimo valor permitido, podemos usar o código visto na Listagem 3

In [16]:
# Mudando Notas Impossíveis
df.loc[(df['Notas'] >= 100,'Notas')] = 100

Usando o conjunto de dados desta seção, você pode substituir todas as notas abaixo de zero por uma nota de zero?

#### Encontrando Linhas Duplicadas

Outra coisa com a qual você precisa se preocupar se estiver usando os dados de outra pessoa é se algum dado está duplicado. (Os mesmos dados foram relatados duas vezes, ou gravados duas vezes, ou apenas copiados e colados?) Caramba, às vezes você precisa se preocupar com isso, mesmo que você mesmo os tenha coletado! Pode ser difícil verificar a veracidade de cada ponto de dados, mas é muito fácil verificar se os dados estão duplicados.

biblioteca pandas do Python tem uma função para encontrar não apenas linhas duplicadas, mas também linhas únicas (Listagem 3-14).

In [17]:
# Criando conjunto de dados com duplicatas
names = ['Jan', 'John', 'Bob', 'Jan', 
         'Mary', 'Jon', 'Mel', 'Mel'] 

notas = [95, 78, 76, 95, 77, 78, 99, 100]
GradeList = zip(nomes,notas) 
df =pd.DataFrame(data = GradeList, columns=['Nomes', 'Notas'])

df

Unnamed: 0,Nomes,Notas
0,Bob,95
1,Jéssica,78
2,Maria,76
3,João,95
4,Mel,77


Para indicar as linhas duplicadas, podemos simplesmente executar o código visto na Listagem 3-1

In [18]:
# Exibindo apenas duplicatas no dataframe
df.duplicated()

0    False
1    False
2    False
3    False
4    False
dtype: bool

Para mostrar o conjunto de dados sem duplicatas, podemos executar o código visto na Listagem

In [19]:
# Exibindo conjunto de dados sem duplicatas
df.drop_duplicates()

Unnamed: 0,Nomes,Notas
0,Bob,95
1,Jéssica,78
2,Maria,76
3,João,95
4,Mel,77


Você pode estar se perguntando: "E se a linha inteira não estiver duplicada, mas eu ainda souber que é uma duplicata?" Isso pode acontecer se alguém fizer sua pesquisa ou refazer um exame novamente, então o nome é o mesmo, mas a observação é Nesse caso, onde sabemos que um nome duplicado significa uma entrada duplicada, podemos usar o código visto na Listagem 3-17.

In [20]:
# Eliminar linhas com nomes duplicados, mantendo a última observação
df.drop_duplicates(['Nomes'], mantenha='último')

TypeError: DataFrame.drop_duplicates() got an unexpected keyword argument 'mantenha'

Carregue o conjunto de dados datasets/dupedata.csv. Achamos que pessoas com o mesmo endereço são duplicatas. Você pode descartar as linhas duplicadas enquanto mantém a primeira?

#### Removendo a pontuação do conteúdo da coluna

Seja em um número de telefone ou em um endereço, muitas vezes você encontrará pontuação indesejada em seus dados. Vamos carregar alguns dados para ver como lidar com isso (Listagem 3-18).

In [21]:
# Carregando Dataframe com dados do arquivo CSV
caminho = "datasets/gradedata.csv"

# Para adicionar cabeçalhos enquanto carregamos os dados...
df = pd.read_csv(caminho) 
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Para remover a pontuação indesejada, criamos uma função que retorna todos os caracteres que não são pontuação e a eles aplicamos essa função em nosso dataframe (Listagem 3-19).

In [22]:
# Removendo a pontuação da coluna de endereço
exclude = set(string.punctuation) 
def remove_punctuation(x): 
    try: 
        x =''.join(ch for ch in x if ch not in exclude) 
    
    except:
        pass
    
    return x

df.address = df.address.apply(remove_punctuation) 

df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,9253 Richardson Road Matawan NJ 07747
1,Kadeem,Morrison,male,18,4,4,78.2,33 Spring Dr Taunton MA 02780
2,Nash,Powell,male,18,5,9,79.3,41 Hill Avenue Mentor OH 44060
3,Noelani,Wagner,female,14,2,7,83.2,8839 Marshall St Miami FL 33125
4,Noelani,Cherry,female,18,4,15,87.4,8304 Charles Rd Lewis Center OH 43035
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,982 West Street Alexandria VA 22304
1996,Geraldine,Peterson,female,16,4,18,100.0,78 Morris Street East Northport NY 11731
1997,Mercedes,Leon,female,18,3,14,84.9,30 Glenridge Rd Bountiful UT 84010
1998,Lucius,Rowland,male,16,1,7,69.1,342 West Meadowbrook Lane Helena MT 59601


#### Removendo espaços em branco do conteúdo da coluna

In [23]:
# Carregando Dataframe com dados do arquivo CSV
caminho = "datasets/gradedata.csv"

## Para adicionar cabeçalhos enquanto carregamos os dados...
df = pd.read_csv(caminho)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Para remover o espaço em branco, criamos uma função que retorna todos os caracteres que não são de pontuação e aplicamos essa função ao nosso dataframe (Listagem 3-21).

In [24]:
# Removendo espaços em branco da coluna de endereço
def remove_whitespace(x):
    try: 
        x = ''.join(x.split()) 
    
    except:
        pass
    
    return x

df.address = df.address.apply(remove_whitespace) 
df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253RichardsonRoad,Matawan,NJ07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33SpringDr.,Taunton,MA02780"
2,Nash,Powell,male,18,5,9,79.3,"41HillAvenue,Mentor,OH44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839MarshallSt.,Miami,FL33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304CharlesRd.,LewisCenter,OH43035"
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982WestStreet,Alexandria,VA22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78MorrisStreet,EastNorthport,NY11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30GlenridgeRd.,Bountiful,UT84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342WestMeadowbrookLane,Helena,MT59601"


#### Datas padronizadas

Um dos problemas com a consolidação de dados de diferentes fontes é que diferentes pessoas e diferentes sistemas podem registrar datas de forma diferente. Talvez eles usem 01/03/1980 ou 01/03/80 ou até mesmo 1980/01/03.

Mesmo que todas se refiram a 3 de janeiro de 1980, as ferramentas de análise podem não reconhecê-las todas como datas se você estiver alternando entre os diferentes formatos na mesma coluna.

In [25]:
# Criando Dataframe com Diferentes Formatos de Data
nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
grades = [76, 95, 77, 78, 99] 
bsdegrees = [1, 1, 0, 0, 1]
msdegrees = [2, 1, 0, 0, 0] 
phddegrees = [0, 1, 0, 0, 0]
bdates = ['1/1/1945', '21/10/76', '03/03/90', 
          '30/04/1901', '1963-09-01']

GradeList = zip(nomes, grades, bsdegrees, msdegrees, phddegrees, bdates)

colunas = ['Names', 'Grades', 'BS', 'MS', 'PhD', "bdates"]
df = pd.DataFrame(data = GradeList, columns = colunas) 
df

Unnamed: 0,Names,Grades,BS,MS,PhD,bdates
0,Bob,76,1,2,0,1/1/1945
1,Jessica,95,1,1,1,21/10/76
2,Mary,77,0,0,0,03/03/90
3,John,78,0,0,0,30/04/1901
4,Mel,99,1,0,0,1963-09-01


mostra uma função que padroniza as datas para um único formato.

In [26]:
# Função para Padronizar Datas
def standardize_date(thedate):
    formatted_date = thedate = str(thedate) 
    if not thedate or thedate.lower() == "missing" or data == "nan":
        formatted_date = "FALTA" 
    if the_date.lower().find('x') != -1: 
        formatted_date = "Incompleto" if the_date[0:2] == "00": 
            formatted_date = thedate.replace("00" , "19") 
            try: 
                formatted_date = str(datetime.strptime( thedate,'%m/%d/%y').strftime('%m/%d/%y')) 
            except:
                pass
            
        try: 
            formatted_date = str(datetime.strptime(adata, '%m/%d/%Y') .strftime('%m/%d/%y')) 
        
        except:
            pass
    try:
        if int(the_date[0:4]) < 1900:ou a data == "nan": data_formatada = "Incompleto"
    
        else:
            formatted_date = str(datetime.strptime( thedate,'%Y-%m-%d').strftime('%m/%d/%y')) 
    
    except:
        pass
     
    return formatted_date

SyntaxError: invalid syntax (2593948029.py, line 7)

Agora que temos essa função, podemos aplicá-la à coluna de datas de nascimento em nosso dataframe

In [27]:
# Aplicando padronização de data à coluna de data de nascimento
df.bdates = df.bdates.apply(standardize_date) 
df

NameError: name 'standardize_date' is not defined

#### Padronização de texto

Um dos problemas com a consolidação de dados de fontes diferentes é que pessoas diferentes e sistemas diferentes podem registrar determinados dados, como números de CPF, números de telefone e códigos postais de maneira diferente. Talvez eles usem hifens nesses números, ou talvez não. Esta seção aborda rapidamente como padronizar como esses tipos de dados são armazenados.

In [28]:
# Criando Dataframe com SSNs
nomes = ['Bob','Jessica','Mary','John','Mel'] 
grades = [76,95,77,78,99]
bsdegrees = [1,1,0,0 ,1] 
msdegrees = [2,1,0,0,0]
phddegrees = [0,1,0,0,0] 
ssns = ['867-53-0909', '333-22-4444', 
        '123 -12-1234', '777-93-9311',
        '123-12-1423']

GradeList = zip(nomes, notas, bsdegrees, msdegrees, phddegrees,ssns)
column = ['Names','Grades','BS','MS','PhD',"ssn"] 
df = pd.DataFrame(data = GradeList, columns = colunas) 
df

Unnamed: 0,Names,Grades,BS,MS,PhD,bdates
0,Bob,95,1,2,0,867-53-0909
1,Jessica,78,1,1,1,333-22-4444
2,Mary,76,0,0,0,123 -12-1234
3,John,95,0,0,0,777-93-9311
4,Mel,77,1,0,0,123-12-1423


O código na Listagem 3-26 cria uma função que padroniza os SSNs e o aplica à nossa coluna ssn.

In [29]:
# Remova hífens de SSNs e adicione zeros à esquerda, se necessário
def direita(s, quantidade):
    return s[-quantidade]

def padronizar_ssn(ssn): 
    try:
        ssn = ssn.replace("-","") 
        ssn = "".join(ssn.split()) 
        if len (ssn)< 9 and ssn != 'Faltando': 
            ssn="000000000" + ssn 
            ssn = direita(ssn,9)
    except:
        pass
    
    return ssn

df.ssn = df.ssn.apply(padronizar_ssn) 
df


AttributeError: 'DataFrame' object has no attribute 'ssn'

#### Criando Novas Variáveis

Assim que os dados estiverem livres de erros, você precisará configurar as variáveis que responderão diretamente às suas perguntas. É um conjunto de dados raro em que cada pergunta que você precisa responder é respondida diretamente por uma variável. Portanto, pode ser necessário fazer muita recodificação e cálculo de variáveis para obter exatamente o conjunto de dados
isto que você precisa.

Os exemplos incluem o seguinte:

• Criação de compartimentos (como conversão de notas numéricas em letras
notas ou intervalos de datas em Q1, Q2, etc.)
• Criar uma coluna que classifique os valores em outra
coluna
• Criação de uma coluna para indicar que outro valor foi
atingiu um limite (aprovação ou reprovação, lista do reitor, etc.)
• Convertendo categorias de strings em números (para regressão
ou correlação)

#### Dados de categorização

Às vezes, você terá dados discretos que precisa agrupar em caixas.
(Pense: convertendo notas numéricas em notas alfabéticas.) Nesta lição,
aprenda sobre binning (Listagem 3-27).

In [30]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Agora que os dados foram carregados, precisamos definir os compartimentos e os nomes dos grupos (Listagem 3-28).

In [31]:
# Listing 3-28. Define Bins as 0 to 60, 60 to 70, 70 to 80, 80 to 90, 90 to 100
# Create the bin dividers
bins = [0, 60, 70, 80, 90, 100]
# Create names for the four groups
group_names = ['F', 'D', 'C', 'B', 'A']

Observe que há mais um valor bin do que group_names.
Isso ocorre porque é necessário haver um limite superior e inferior para cada compartimento.

In [32]:
df['lettergrade'] = pd.cut(df['grade'], 
                           bins, 
                           labels=group_names)
df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,lettergrade
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747",B
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780",C
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060",C
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125",B
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035",B
...,...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",B
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",A
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",B
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",D


A Listagem 3-29 categoriza a nota da coluna com base na lista de compartimentos e rotula os valores usando a lista group_names. E se quisermos contar o número de observações para cada categoria, podemos fazer isso também (Listagem 3-30).

In [33]:
pd.value_counts(df['lettergrade'])

B    737
C    580
A    475
D    193
F     15
Name: lettergrade, dtype: int64

##### Sua vez

Recrie o dataframe desta seção e crie uma coluna classificando a linha como aprovada ou reprovada. Isto é para um programa de mestrado que exige uma nota de 80 ou mais para um aluno ser aprovado.

#### Aplicando funções a grupos, compartimentos e colunas

O principal motivo pelo qual uso Python para analisar dados é para lidar com conjuntos de dados maior que um milhão de linhas. A segunda razão é a facilidade de aplicação funções para meus dados. Para ver isso, primeiro precisamos carregar alguns dados (Listagem 3-31).

In [34]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Em seguida, usamos binning para dividir os dados em notas de letras (Listagem 3.32).

In [35]:
# Create the bin dividers
bins = [0, 60, 70, 80, 90, 100]

# Create names for the four groups
group_names = ['F', 'D', 'C', 'B', 'A']
df['letterGrades'] = pd.cut(df['grade'],
bins, labels=group_names)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,letterGrades
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747",B
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780",C
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060",C
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125",B
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035",B


Para encontrar a média de horas de estudo por nota, aplicamos nossas funções à coluna agrupada (Listagem 3-33).

In [36]:
df.groupby('letterGrades')['hours'].mean()

letterGrades
F     3.933333
D     5.544041
C     8.381034
B    11.827680
A    15.305263
Name: hours, dtype: float64

Aplicar uma função a uma coluna é semelhante à Listagem 3.34.

In [37]:
# Applying the integer function to the grade column
df['grade'] = df['grade'] = df['grade'].apply(lambda x: int(x))
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,letterGrades
0,Marcia,Pugh,female,17,3,10,82,"9253 Richardson Road, Matawan, NJ 07747",B
1,Kadeem,Morrison,male,18,4,4,78,"33 Spring Dr., Taunton, MA 02780",C
2,Nash,Powell,male,18,5,9,79,"41 Hill Avenue, Mentor, OH 44060",C
3,Noelani,Wagner,female,14,2,7,83,"8839 Marshall St., Miami, FL 33125",B
4,Noelani,Cherry,female,18,4,15,87,"8304 Charles Rd., Lewis Center, OH 43035",B


- Linha 1: Vamos obter um valor inteiro para cada nota do
quadro de dados. A aplicação de uma função a um grupo pode ser vista na Listagem 3-35.

In [38]:
gender_preScore = df['grade'].groupby(df['gender'])
gender_preScore.mean()

gender
female    82.341
male      81.981
Name: grade, dtype: float64

- Linha 1: Crie um objeto de agrupamento. Em outras palavras, criar um objeto que representa esse agrupamento específico. Em neste caso, agrupamos as notas por gênero.
- Linha 2: Exibe o valor médio de cada regimento pontuação pré-teste.

##### Sua vez

Importe o arquivo datasets/gradedata.csv e crie uma nova coluna armazenada do 'status' como aprovado (> 70) ou reprovado (<=70). Então, calcule a média de horas de exercício das alunas com ‘status’ de passagem.

#### Classificação de linhas de dados

É relativamente fácil encontrar a linha com o valor máximo ou o valor mínimo, mas às vezes você deseja encontrar as linhas com 50 os valores mais altos ou os 100 mais baixos para uma coluna específica. Isto é quando você precisa de classificação (Listagem 3-36).

In [39]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Se quisermos encontrar as linhas com as notas mais baixas, precisaremos classificar todas as linhas em ordem crescente por nota. A Listagem 3-37 mostra o código para criar uma nova coluna que é a classificação do valor da nota em ordem crescente.

In [40]:
df['graderanked'] = df['grade'].rank(ascending=1)
df.tail()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,graderanked
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",794.0
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",1957.0
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",1158.5
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",180.0
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043",770.0


Então, se quiséssemos apenas ver os alunos com as 20 notas mais baixas, usaríamos o código da Listagem 3-38.

In [41]:
df[df['graderanked'] < 21]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,graderanked
340,Abbot,Hall,male,16,4,3,58.9,"84 Rock Creek Lane, Durham, NC 27703",7.5
388,Colton,Ochoa,male,17,1,4,60.3,"75 Arrowhead Drive, Danvers, MA 01923",18.5
410,Linda,Baldwin,female,16,5,2,59.0,"970 SW. Second Ave., Cedar Falls, IA 50613",9.0
528,Chester,Vance,male,17,1,5,60.1,"732 Randall Mill Street, Covington, GA 30014",16.5
556,Lacey,Nieves,female,18,1,2,57.9,"38 West Brickyard Avenue, Roslindale, MA 02131",6.0
664,Alika,Poole,female,19,2,16,32.0,"9282 Purple Finch Lane, Lexington, NC 27292",1.0
672,Ciaran,Gay,male,19,4,3,59.3,"157 Bridge Street, Corona, NY 11368",11.0
700,Steven,Sherman,male,18,1,2,60.0,"8029 Depot Street, Port Charlotte, FL 33952",15.0
869,Tanek,Stephens,male,15,1,4,60.5,"167 Glen Eagles St., Merrimack, NH 03054",20.5
972,Keegan,Rasmussen,male,19,4,3,43.0,"876 East Pilgrim Street, Chelmsford, MA 01824",2.0


E, para vê-los em ordem, precisamos usar o código da Listagem 3-39.

In [42]:
df[df['graderanked'] < 6].sort_values('graderanked')

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,graderanked
664,Alika,Poole,female,19,2,16,32.0,"9282 Purple Finch Lane, Lexington, NC 27292",1.0
972,Keegan,Rasmussen,male,19,4,3,43.0,"876 East Pilgrim Street, Chelmsford, MA 01824",2.0
1870,Levi,Coleman,male,19,3,3,55.9,"9453 Laurel Street, Jersey City, NJ 07302",3.0
1910,Gail,Mcneil,female,17,2,3,56.1,"8409A Spruce St., Fishers, IN 46037",4.0
1494,Jenna,Wagner,female,16,1,3,56.3,"8829 Shore Dr., Hopewell Junction, NY 12533",5.0


##### Sua vez

Você consegue encontrar os 50 alunos com mais horas de estudo por semana?

#### Crie uma coluna baseada em uma condicional

Às vezes, você precisa classificar uma linha de dados pelos valores em um ou mais colunas, como identificar os alunos que estão passando ou reprovando se a nota está acima ou abaixo de 70. Nesta seção, aprenderemos como para fazer isso (Listagem 3-40).

In [43]:
# Listing 3-40. Load Data from CSV
import pandas as pd
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Agora, digamos que queremos uma coluna indicando se os alunos estão reprovando ou não (Listagem 3-41).

In [44]:
df['isFailing'] = np.where(df['grade'] < 70, 'yes', 'no')
df.tail(10)

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,isFailing
1990,Adena,Battle,female,17,2,8,70.2,"9272 Elizabeth Drive, Londonderry, NH 03053",no
1991,Craig,Obrien,male,16,3,7,64.9,"524 Park Ave., Hollywood, FL 33020",yes
1992,Isabelle,Barber,female,14,5,9,78.5,"955 Glen Ridge Rd., Plattsburgh, NY 12901",no
1993,Risa,Watson,female,14,2,10,74.3,"37 Augusta Lane, Montgomery Village, MD 20886",no
1994,Emerson,Gill,male,17,5,5,67.5,"75 Wild Horse Street, Panama City, FL 32404",yes
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",no
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",no
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",no
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",yes
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043",no


Linha 1: Importamos a biblioteca numpy
Linha 2: Crie uma nova coluna chamada df.failing
onde o valor é sim se df.grade for menor que 70 e
não, se não.

Se, em vez disso, precisássemos de uma coluna indicando quem eram os alunos do sexo masculino
com pontuações baixas, poderíamos usar o código da Listagem 3.42.

In [45]:
df['isFailingMale'] = np.where((df['grade']<70) & (df['gender'] == 'male'),'yes', 'no')
df.tail(10)

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,isFailing,isFailingMale
1990,Adena,Battle,female,17,2,8,70.2,"9272 Elizabeth Drive, Londonderry, NH 03053",no,no
1991,Craig,Obrien,male,16,3,7,64.9,"524 Park Ave., Hollywood, FL 33020",yes,yes
1992,Isabelle,Barber,female,14,5,9,78.5,"955 Glen Ridge Rd., Plattsburgh, NY 12901",no,no
1993,Risa,Watson,female,14,2,10,74.3,"37 Augusta Lane, Montgomery Village, MD 20886",no,no
1994,Emerson,Gill,male,17,5,5,67.5,"75 Wild Horse Street, Panama City, FL 32404",yes,yes
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",no,no
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",no,no
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",no,no
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",yes,yes
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043",no,no


##### Sua vez

Você pode criar uma coluna para timemgmt que mostre ocupado se um aluno exercita mais de três horas por semana E estuda mais de dezessete horas por semana?

#### Criando novas colunas usando funções

Muito do que eu costumava fazer no Excel (e agora uso o Python) é para criar novas colunas com base em uma existente. Então, usando o seguinte data (Listagem 3-43), vamos ver como faríamos isso.

In [46]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Para criar uma única coluna que contenha o nome completo de cada aluno, primeiro criamos uma função para criar uma única string a partir de duas strings (Listagem 3-44).

In [47]:
def singlename(fn, ln):
    return fn + " " + ln

Agora, se você testar essa função, verá que ela funciona perfeitamente bem concatenando Adam e Smith em Adam Smith. No entanto, também podemos use-o com seletores de coluna para criar uma nova coluna usando nosso fname e Colunas lname (Listagem 3-45).

In [48]:
df['fullname'] = singlename(df['fname'],df['lname'])

Este código cria uma coluna chamada fullname que concatena o nome e o sobrenome.

##### Sua vez

Você pode criar uma coluna chamada tempo total que some as horas de estudo por semana e as horas de exercício por semana?

#### Convertendo categorias de string em variáveis numéricas

Por que preciso converter categorias de strings em variáveis numéricas? Muitos ferramentas analíticas não funcionarão em texto, mas se você converter esses valores em números, isso torna as coisas muito mais simples (Listagem 3-46).

In [49]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Método 1: converter coluna única para conter variáveis numéricas (Listagem 3-47).

In [50]:
def score_to_numeric(x):
    if x=='female':
        return 1
    if x=='male':
        return 0

Agora, execute esse método em sua coluna (Listagem 3.48).

In [51]:
df['gender_val'] = df['gender'].apply(score_to_numeric)
df.tail()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,gender_val
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",0
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",1
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",1
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",0
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043",0


Método 2: Crie colunas booleanas individuais (Listagem 3-49).

In [52]:
df_gender = pd.get_dummies(df['gender'])
df_gender.tail()

Unnamed: 0,female,male
1995,0,1
1996,1,0
1997,1,0
1998,0,1
1999,0,1


Junte colunas ao conjunto de dados original (Listagem 3-50).

Listagem 3-50. Adicionar novas colunas ao dataframe original

In [53]:
# Join the dummy variables to the main dataframe
df_new = pd.concat([df, df_gender], axis=1)
df_new.tail()
# or
# Alterative for joining the new columns
df_new = df.join(df_gender)
df_new.tail()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,gender_val,female,male
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304",0,0,1
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731",1,1,0
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010",1,1,0
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",0,0,1
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043",0,0,1


##### Sua vez

Usando datasets/gradesdatawithyear.csv, você pode criar um número coluna para substituir os status de calouro a sênior pelos numerais 1 até 4?

#### Organizando os dados

Ambas as variáveis originais e recém-criadas precisam ser formatadas corretamente
por dois motivos.
Primeiro, para que nossas ferramentas de análise funcionem corretamente com eles. Falha ao formatar
um código de valor ausente ou uma variável fictícia corretamente terá grandes
consequências para sua análise de dados.
Segundo, é muito mais rápido executar a análise e interpretar os resultados se você
não precisa ficar procurando qual é a variável Q156.

Os exemplos incluem o seguinte:
• Removendo colunas desnecessárias
• Alteração de nomes de colunas
• Alterando os nomes das colunas para letras minúsculas
• Formatar variáveis de data como datas e assim por diante.

##### Removendo e Adicionando Colunas

Às vezes precisamos ajustar os dados. Ou alguma coisa foi deixada de fora deveria ter sido incluído ou algo foi deixado que deveria ter sido removido. Então, vamos começar com o conjunto de dados da Listagem 3.51.

In [54]:
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]
bsdegrees = [1,1,0,0,1]
msdegrees = [2,1,0,0,0]
phddegrees = [0,1,0,0,0]

GradeList = zip(names,grades,bsdegrees,msdegrees, phddegrees)
columns=['Names','Grades','BS','MS','PhD']
df = pd.DataFrame(data = GradeList, columns=columns)
df

Unnamed: 0,Names,Grades,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessica,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0


Podemos eliminar uma coluna simplesmente adicionando o código da Listagem 3.52.

In [55]:
df.drop('PhD', axis=1)

Unnamed: 0,Names,Grades,BS,MS
0,Bob,76,1,2
1,Jessica,95,1,1
2,Mary,77,0,0
3,John,78,0,0
4,Mel,99,1,0


Com axis=1 informando drop que queremos eliminar uma coluna (1) e não uma linha (0).

Podemos adicionar uma coluna preenchida com zeros definindo o novo nome da coluna para ser igual a 0 (Listagem 3-53).

In [56]:
df['HighSchool']=0

Se, no entanto, você quiser definir as novas colunas para valores iguais a nulos, você
pode fazer isso também (Listagem 3-54).

In [57]:
df['PreSchool'] = np.nan

Agora, adicionar uma coluna com valores não é tão difícil. Criamos uma série e definimos a coluna igual à série (Listagem 3-55).

In [58]:
d = ([0,1,0,1,0])
s = pd.Series(d, index= df.index)
df['DriversLicense'] = s
df

Unnamed: 0,Names,Grades,BS,MS,PhD,HighSchool,PreSchool,DriversLicense
0,Bob,76,1,2,0,0,,0
1,Jessica,95,1,1,1,0,,1
2,Mary,77,0,0,0,0,,0
3,John,78,0,0,0,0,,1
4,Mel,99,1,0,0,0,,0


##### Sua vez

Você pode remover as colunas de bacharelado, mestrado e doutorado?
Você pode adicionar uma coluna de Grau Mágico de Hogwarts? Todos menos Jéssica
tem um; isso torna tudo mais difícil? Não? Então eu tenho que ter certeza de te deixar perplexo
próxima vez.

##### Selecionando Colunas

Você precisará fazer subseleções de seus dados ocasionalmente, especialmente se
seu conjunto de dados tem toneladas de colunas. Aqui, aprendemos como criar um dataframe
isso inclui apenas algumas de nossas colunas (Listagem 3-56).

In [59]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Agora, para selecionar uma coluna de dados, especificamos o nome da coluna
(Listagem 3-57).

In [60]:
df['fname']

0          Marcia
1          Kadeem
2            Nash
3         Noelani
4         Noelani
          ...    
1995         Cody
1996    Geraldine
1997     Mercedes
1998       Lucius
1999        Linus
Name: fname, Length: 2000, dtype: object

Mas se você executar esse código, você obterá apenas os dados da coluna (observe o cabeçalho está faltando). Isso ocorre porque isso não retorna um dataframe; isto retorna uma lista. Para retornar um dataframe ao selecionar uma coluna, precisamos especifique-o (Listagem 3-58).

In [61]:
df[['fname']]

Unnamed: 0,fname
0,Marcia
1,Kadeem
2,Nash
3,Noelani
4,Noelani
...,...
1995,Cody
1996,Geraldine
1997,Mercedes
1998,Lucius


Para retornar múltiplas colunas, usamos código como o da Listagem 3.59.

In [62]:
df[['fname','age','grade']]

Unnamed: 0,fname,age,grade
0,Marcia,17,82.4
1,Kadeem,18,78.2
2,Nash,18,79.3
3,Noelani,14,83.2
4,Noelani,18,87.4
...,...,...,...
1995,Cody,19,80.1
1996,Geraldine,16,100.0
1997,Mercedes,18,84.9
1998,Lucius,16,69.1


E, claro, se quisermos criar um dataframe com esse subconjunto de colunas, podemos copiá-lo para outra variável (Listagem 3-60).

In [63]:
df2 = df[['fname','age','grade']]
df2.head()

Unnamed: 0,fname,age,grade
0,Marcia,17,82.4
1,Kadeem,18,78.2
2,Nash,18,79.3
3,Noelani,14,83.2
4,Noelani,18,87.4


##### Sua vez

Precisamos criar uma lista de discussão. Você pode criar um novo dataframe selecionando os campos de nome, sobrenome e endereço?

#### Alterar nome da coluna

Às vezes você precisa alterar os nomes das suas colunas. Com pandas, é fácil de fazer. Primeiro, você carrega seus dados (Listagem 3.61). 

In [64]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Mas, quando olhamos para o cabeçalho, não ficamos entusiasmados com os nomes das colunas – ou ele não tem nenhum.
É simples alterar os cabeçalhos das colunas (Listagem 3-62).

In [65]:
df.columns = ['FirstName', 'LastName', 
              'Gender','Age', 'HoursExercisePerWeek',
              'HoursStudyPerWeek', 'LetterGrade', 'StreetAddress']
df.head()

Unnamed: 0,FirstName,LastName,Gender,Age,HoursExercisePerWeek,HoursStudyPerWeek,LetterGrade,StreetAddress
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Ou, se quiser apenas alterar um ou dois valores, você pode carregar a lista
de cabeçalhos (Listagem 3-63).

In [66]:
headers = list(df.columns.values)

Depois que os cabeçalhos forem carregados, você poderá alterar alguns.

In [67]:
headers[0] = 'FName'
headers[1] = 'LName'
df.columns = headers
df.head()

Unnamed: 0,FName,LName,Gender,Age,HoursExercisePerWeek,HoursStudyPerWeek,LetterGrade,StreetAddress
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


##### Sua vez

Você pode alterar o nome da coluna de idade para anos?

##### Configurando nomes de colunas para letras minúsculas

Pode não ser o maior problema do mundo, mas às vezes preciso
converta todos os nomes das colunas em minúsculas (ou maiúsculas, nesse caso).
Esta lição abordará como fazer isso (Listagem 3-65).

In [68]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Depois de ter os dados, existem duas maneiras rápidas de converter todas as colunas
cabeçalhos para letras minúsculas (Listagem 3-66).

In [69]:
# method 1
df.columns = map(str.lower, df.columns)

# method 2
df.columns = [x.lower() for x in df.columns]

##### Sua vez

Você consegue descobrir como deixar todos os cabeçalhos das colunas em letras maiúsculas?

##### Encontrando linhas correspondentes

É claro que nem sempre você deseja calcular usando todo o conjunto de dados.
Às vezes você deseja trabalhar apenas com um subconjunto de seus dados. Nesta lição,
descobrimos como fazer isso (Listagem 3-67).

In [70]:
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]
GradeList = zip(names,grades)
df = pd.DataFrame(data = GradeList,
columns=['Names', 'Grades'])
df

Unnamed: 0,Names,Grades
0,Bob,76
1,Jessica,95
2,Mary,77
3,John,78
4,Mel,99


Para encontrar todas as linhas que contêm a palavra Mel, use o código mostrado em
Listagem 3-68 em uma nova célula.

In [71]:
df['Names'].str.contains('Mel')

0    False
1    False
2    False
3    False
4     True
Name: Names, dtype: bool

Depois de executar essa linha do Python, você verá uma lista de booleanos
valores—True para as linhas que correspondem à nossa consulta e False para aquelas que
não.
Podemos encurtar nossa resposta adicionando .any. Isso exibirá apenas um
single True se alguma linha corresponder e False se nenhuma delas corresponder (Listagem 3-69).

In [72]:
# check if any row matches
df['Names'].str.contains('Mel').any()

True

Alternativamente, você pode adicionar .all. Isso exibirá apenas um único True se todos
das linhas correspondem e False se pelo menos uma delas não corresponder (Listagem 3-70).

In [73]:
# check if all rows match
df['Names'].str.contains('Mel').all()

False

Também podemos usar isso junto com a função .loc (locate) para mostrar apenas
as linhas que correspondem a determinados critérios (Listagem 3-71).

In [74]:
# Find the rows that match a criteria like this
df.loc[df['Names'].str.contains('Mel')==True]

# or even like this...
df.loc[df['Grades']==0]

Unnamed: 0,Names,Grades


Sua vez
Você consegue encontrar todas as pessoas que têm pelo menos um mestrado no
seguintes dados (Listagem 3-72)?

In [75]:
names = ['Bob','Jessi','Mary',
         'John','Mel','Sam',
         'Cathy','Hank','Lloyd']

grades = [76,95,77,78,99,84,79,100,73]
bsdegrees = [1,1,0,0,1,1,1,0,1]
msdegrees = [2,1,0,0,0,1,1,0,0]
phddegrees = [0,1,0,0,0,2,1,0,0]

GradeList = zip(names, grades, bsdegrees, msdegrees, phddegrees)
df = pd.DataFrame(data = GradeList, columns=['Name','Grade','BS','MS','PhD'])
df

Unnamed: 0,Name,Grade,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessi,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0
5,Sam,84,1,1,2
6,Cathy,79,1,1,1
7,Hank,100,0,0,0
8,Lloyd,73,1,0,0


### Filtrar linhas com base nas condições

In [76]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Podemos mostrar uma coluna de dados (Listagem 3-74).

In [77]:
df['grade'].head()

0    82.4
1    78.2
2    79.3
3    83.2
4    87.4
Name: grade, dtype: float64

Ou podemos mostrar duas colunas de dados (Listagem 3-75).

In [78]:
df[['age','grade']].head()

Unnamed: 0,age,grade
0,17,82.4
1,18,78.2
2,18,79.3
3,14,83.2
4,18,87.4


Ou podemos mostrar as duas primeiras linhas de dados (Listagem 3.76).

In [79]:
df[:2]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"


Para mostrar todas as linhas onde a nota é maior que 80, use o código em
Listagem 3-77.

In [80]:
df[df['grade'] > 80]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
5,Neil,Whitley,male,16,5,16,88.7,"40 Washington Ave., Bloomfield, NJ 07003"
6,Nelle,Golden,female,17,1,9,80.2,"9768 Hanover Dr., Meadville, PA 16335"
...,...,...,...,...,...,...,...,...
1986,Indigo,Mccoy,female,19,2,14,91.3,"9652 Columbia Ave., Chattanooga, TN 37421"
1989,John,Ford,male,14,2,14,91.2,"64 Devonshire Street, Orange Park, FL 32065"
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"


Usar múltiplas condições é um pouco mais complicado. Então, se quiséssemos obter uma lista
de todos os alunos com pontuação superior a 99,9 e eram do sexo masculino, teríamos
precisa usar o código mostrado na Listagem 3-78.

In [81]:
df.ix[(df['grade'] > 99.9) & (df['gender'] == 'male') ]

AttributeError: 'DataFrame' object has no attribute 'ix'

Se, em vez disso, quiséssemos todos os alunos com pontuação superior a 99 OU
fossem mulheres, precisaríamos usar o código da Listagem 3-79.

In [None]:
df.ix[(df['grade'] > 99) | (df['gender'] == 'female') ]

Sua vez
Você pode mostrar todas as linhas onde o aluno era do sexo masculino, exercitava menos de
duas horas por semana e estudou mais de quinze horas por semana?

#### Seleção de linhas com base nas condições

In [82]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


In [83]:
female = df['gender'] == "female"
a_student = df['grade'] >= 90
df[female & a_student].head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
17,Libby,Guzman,female,19,1,19,100.0,"666 S. Pennington Rd., Dover, NH 03820"
21,Maggy,Whitfield,female,15,1,15,90.5,"2 Henry Ave., Palm Bay, FL 32907"
29,Emma,Mccall,female,16,2,13,91.1,"854 Sussex Street, Westford, MA 01886"
32,Georgia,Munoz,female,14,5,20,99.0,"84 New Saddle St., Revere, MA 02151"
33,Doris,Melendez,female,17,5,12,93.2,"8 Euclid Drive, Bel Air, MD 21014"


Linha 1: Criamos uma variável com TRUE se gênero for
fêmea.
Linha 2: Criamos uma variável com TRUE se a nota for
maior ou igual a 90.
Linha 3: É aqui que selecionamos todos os casos em que ambos
o gênero é feminino e a nota é maior ou igual
para 90.

In [84]:
df[df['fname'].notnull() & (df['gender'] == "male")]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
5,Neil,Whitley,male,16,5,16,88.7,"40 Washington Ave., Bloomfield, NJ 07003"
7,Armando,Hoffman,male,17,5,18,95.1,"360 Manor Drive, Northville, MI 48167"
9,Neil,Wooten,male,15,3,15,89.7,"400 Bridge Court, Soddy Daisy, TN 37379"
...,...,...,...,...,...,...,...,...
1991,Craig,Obrien,male,16,3,7,64.9,"524 Park Ave., Hollywood, FL 33020"
1994,Emerson,Gill,male,17,5,5,67.5,"75 Wild Horse Street, Panama City, FL 32404"
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


Na Listagem 3-82, selecionamos todos os casos onde o primeiro nome não está faltando
e o gênero é masculino.

Sua vez
Você consegue encontrar todas as linhas onde o aluno teve quatro ou mais horas de aula?
exercício por semana, dezessete ou mais horas de estudo, e ainda tinha nota
isso era inferior a 80?

#### Dataframe de amostragem aleatória

Este é simples. Obviamente, às vezes temos conjuntos de dados que são muito
grande e precisamos pegar um subconjunto, então vamos começar com alguns dados carregados
(Listagem 3-83).

In [85]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.tail()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"
1999,Linus,Morris,male,19,4,10,79.6,"81 Homestead Drive, Voorhees, NJ 08043"


Para selecionar apenas 100 linhas aleatoriamente desse conjunto de dados, podemos simplesmente executar
o código mostrado na Listagem 3-84.

In [86]:
df.take(np.random.permutation(len(df))[:100])

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
1488,Fletcher,Conley,male,17,1,9,71.6,"73 Country Road, Jeffersonville, IN 47130"
861,Paula,Mcbride,female,17,5,6,69.2,"7007 Delaware St., Franklin Square, NY 11010"
1742,Keegan,Savage,male,18,3,10,70.7,"967 Kirkland Dr., Fort Mill, SC 29708"
1689,Felix,Avila,male,16,5,11,89.7,"9617 Brookside St., Ocoee, FL 34761"
1560,Baxter,Kirkland,male,15,2,8,76.4,"602 Tailwater Street, Grand Blanc, MI 48439"
...,...,...,...,...,...,...,...,...
1053,Matthew,Greer,male,17,4,10,88.2,"6 Depot Street, Lynn, MA 01902"
1708,Colin,Aguilar,male,14,5,15,86.0,"9028 Hudson Avenue, Gettysburg, PA 17325"
365,Kaitlin,Solomon,female,17,1,8,66.4,"7734 Winchester Dr., Clifton, NJ 07011"
1292,Shannon,Whitley,female,19,1,10,78.1,"8105 Plymouth Street, Palos Verdes Peninsula, ..."


#### Sua vez

Você pode criar uma amostra aleatória de 500 linhas desse conjunto de dados?

In [87]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

Author: Caique Miranda

Github username: caiquemiranda

numpy : 1.23.0
pandas: 1.4.3



### End.