In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão de Python Neste Jupyter Notebook:', python_version())

Versão de Python Neste Jupyter Notebook: 3.10.5


### Preparando os dados

A segunda etapa da análise de dados é a limpeza dos dados. Preparar dados para ferramentas analíticas pode ser uma tarefa difícil. O Python e suas bibliotecas tentam torná-lo o mais fácil possível.

Com apenas algumas linhas de código, você poderá preparar seus dados para análise. Você poderá:

- Limpar os dados.
- Criar novas variáveis.
- Organizar os dados.

#### Limpeza de dados

Para serem úteis para a maioria das tarefas analíticas, os dados devem estar limpos. Isso significa que deve ser consistente, relevante e padronizado.

- remover valores discrepantes;
- remover valores inadequados;
- remover duplicatas;
- remover pontuação;
- remover espaços em branco;
- padronizar datas;
- padronizar o texto.

#### Calculando e removendo outliers

Suponha que você esteja coletando dados sobre as pessoas com quem você estudou no ensino médio. E se você foi para a escola com Bill Gates. Agora, mesmo que a pessoa com o segundo maior patrimônio líquido tenha apenas $ 1,5 milhão, a média de toda a sua classe é aumentada pelo bilionário no topo. Encontrar os outliers permite remover os valores que são tão altos ou tão baixos que distorcem a visão geral dos dados.

Cobrimos duas maneiras principais de detectar outliers:

- 1. Desvios Padrão: Se os dados forem normalmente distribuído, então 95 por cento dos dados estão dentro de 1,96 desvios padrão da média. Portanto, podemos descartar os valores acima ou abaixo desse intervalo.

- 2. Intervalo Interquartílico (IQR): O IQR é o diferença entre o quantil de 25 por cento e o quantil de 75 por cento. Quaisquer valores inferiores a Q1 - 1,5 x IQR ou superiores a Q3 + 1,5 x IQR são tratados como outliers e removidos.

Vamos ver como eles se parecem

In [2]:
# Método 1: Desvio Padrão
import pandas as pd

caminho = "datasets/gradedata.csv" 
df = pd.read_csv(caminho) 

media_notas = df['grade'].mean()
desvio_notas = df['grade'].std() 

valores_altos = media_notas + desvio_notas * 1.96 
valores_baixos = media_notas - desvio_notas * 1.96 

copia_df = df 

copia_df = copia_df.drop(copia_df[copia_df['grade'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['grade'] < valores_baixos].index)

copia_df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


- Linha 10: Aqui calculamos o intervalo superior igual a 1,96 vezes o desvio padrão mais a média.
- Linha 11: Aqui calculamos o intervalo inferior igual a 1,96 vezes o desvio padrão subtraído do desvio.
- Linha 15: Aqui descartamos as linhas onde a nota é maior do que o toprange.
- Linha 16: Aqui descartamos as linhas onde está a nota inferior ao botrange.

In [3]:
# Método 2: Intervalo Interquartílico
caminho = "datasets/gradedata.csv" 

df = pd.read_csv(caminho) 

q1 = df['grade'].quantile(.25) 
q3 = df['grade'].quantile(.75) 

iqr = q3-q1
valores_altos = q3 + iqr * 1.5
valores_baixos = q1 - iqr * 1.5

copia_df = df

copia_df = copia_df.drop(copia_df[copia_df['grade'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['grade'] < valores_baixos].index)

copia_df

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1995,Cody,Shepherd,male,19,1,8,80.1,"982 West Street, Alexandria, VA 22304"
1996,Geraldine,Peterson,female,16,4,18,100.0,"78 Morris Street, East Northport, NY 11731"
1997,Mercedes,Leon,female,18,3,14,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
1998,Lucius,Rowland,male,16,1,7,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


- Linha 10: Aqui calculamos o `limite superior = o terceiro quartil + 1,5 * o IQR.`
- Linha 11: Aqui calculamos o `limite inferior = o primeiro quartil - 1,5 *
o IQR.`
- Linha 15: Aqui descartamos as linhas onde estão as notas
mais altas que o `valores_altos`.
- Linha 14: Aqui descartamos as linhas onde está a nota é inferior aos `valores_baixos`.

Carregue o conjunto de dados datasets/outlierdata.csv. Experimente com ambos os métodos.

In [6]:
# Método 1: Desvio Padrão
caminho = "datasets/outlierdata.csv" 

df = pd.read_csv(caminho) 

media_notas = df['Net Worth'].mean()
desvio_notas = df['Net Worth'].std() 

valores_altos = media_notas + desvio_notas * 1.96 
valores_baixos = media_notas - desvio_notas * 1.96 

copia_df = df 

copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] < valores_baixos].index)

copia_df

Unnamed: 0,Name,Net Worth
0,Stella B. Battle,13853
1,Virginia Q. Salas,18065
2,Keiko S. Berry,6169
3,Dustin U. Hopkins,4857
4,Sloane O. Atkins,14022
...,...,...
95,Barbara Z. Rivera,17272
96,Lilah Q. Porter,-9786
97,Angelica Z. King,3
98,Delilah N. Sweet,350


In [7]:
# Método 2: Intervalo Interquartílico
caminho = "datasets/outlierdata.csv" 

df = pd.read_csv(caminho) 

q1 = df['Net Worth'].quantile(.25) 
q3 = df['Net Worth'].quantile(.75) 

iqr = q3-q1
valores_altos = q3 + iqr * 1.5
valores_baixos = q1 - iqr * 1.5

copia_df = df

copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] > valores_altos].index)
copia_df = copia_df.drop(copia_df[copia_df['Net Worth'] < valores_baixos].index)

copia_df

Unnamed: 0,Name,Net Worth
0,Stella B. Battle,13853
1,Virginia Q. Salas,18065
2,Keiko S. Berry,6169
3,Dustin U. Hopkins,4857
4,Sloane O. Atkins,14022
...,...,...
95,Barbara Z. Rivera,17272
96,Lilah Q. Porter,-9786
97,Angelica Z. King,3
98,Delilah N. Sweet,350


#### Dados ausentes no Dataframe do pandas

Uma das coisas mais irritantes ao trabalhar com grandes conjuntos de dados é encontrar os dados que faltam. Pode tornar impossível ou imprevisível computar a maioria das estatísticas agregadas ou gerar tabelas dinâmicas. Se você procurar pontos de dados ausentes em um conjunto de dados de 50 linhas, será bastante fácil. No entanto, se você tentar encontrar um ponto de dados ausente em um conjunto de dados de 500.000 linhas, pode ser muito mais difícil.

A biblioteca `pandas` do Python tem funções para ajudá-lo a encontrar, excluir ou altere os dados ausentes.

In [8]:
# Criando Dataframe com dados ausentes

import pandas as pd 
df = pd.read_csv("datasets/gradedatamissing.csv") 

df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


O código anterior carrega um conjunto de dados legítimo que inclui linhas com dados
ausentes. Podemos usar o dataframe resultante para praticar como lidar com dados ausentes.

Para descartar todas as linhas com dados ausentes (NaN), use o código mostrado em

In [9]:
# Eliminar linhas com dados ausentes

df_no_missing = df.dropna() 
df_no_missing

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304"
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731"
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


Para adicionar uma coluna preenchida com valores vazios, use o código da Listagem

In [10]:
# Adicionar uma coluna com valores vazios
import numpy as np

df['newcol'] = np.nan 
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",


Para descartar quaisquer colunas que contenham apenas valores vazios
consulte a Listagem

In [11]:
# Eliminar colunas completamente vazias

df.dropna(axis = 1, 
          how = 'all')

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035"
...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304"
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731"
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010"
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601"


Para substituir todos os valores vazios por zero, consulte a Listagem 3-7.

In [12]:
# Substituir células vazias por 0

df.fillna(0)

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",0.0
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",0.0
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",0.0
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",0.0
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",0.0
...,...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304",0.0
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731",0.0
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010",0.0
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",0.0


Para preencher as notas que faltam com o valor médio da nota, consulte a Listagem 3-8.

In [13]:
# Substitua as células vazias pela média da coluna

df["grade"].fillna(df["grade"].mean(), 
                   inplace = True)

Observe que inplace=True significa que as alterações são salvas no dataframe
imediatamente.

Para preencher as notas que faltam com o valor médio da nota de cada gênero, consulte
Listagem 3-9.

In [14]:
# É complicado

df["grade"].fillna(df.groupby("gender")
                   ["grade"].transform("mean"), inplace=True)    

Também podemos selecionar algumas linhas, mas ignorar aquelas com pontos de
dados ausentes. Para selecionar as linhas de df em que idade não é NaN e sexo não é
NaN, consulte a Listagem 3-10.

In [16]:
# Selecionando linhas sem idade ou sexo ausente

df[df['age'].notnull() & df['gender'].notnull()]

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address,newcol
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"9253 Richardson Road, Matawan, NJ 07747",
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"33 Spring Dr., Taunton, MA 02780",
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"41 Hill Avenue, Mentor, OH 44060",
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"8839 Marshall St., Miami, FL 33125",
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"8304 Charles Rd., Lewis Center, OH 43035",
...,...,...,...,...,...,...,...,...,...
1997,Cody,Shepherd,male,19.0,1.0,8.0,80.1,"982 West Street, Alexandria, VA 22304",
1998,Geraldine,Peterson,female,16.0,4.0,18.0,100.0,"78 Morris Street, East Northport, NY 11731",
1999,Mercedes,Leon,female,18.0,3.0,14.0,84.9,"30 Glenridge Rd., Bountiful, UT 84010",
2000,Lucius,Rowland,male,16.0,1.0,7.0,69.1,"342 West Meadowbrook Lane, Helena, MT 59601",


Carregue o conjunto de dados `datasets/missinggrade.csv`. A sua missão, caso aceite, é deletar linhas com notas faltantes e substituir os valores faltantes em horas de exercício pelo valor médio daquele gênero.

#### Filtrando Valores Inadequados

Às vezes, se você estiver trabalhando com dados que não coletou, precisará se preocupar se os dados são precisos. Caramba, às vezes você precisa se preocupar com isso, mesmo que tenha coletado você mesmo! Pode ser difícil verificar a veracidade de cada ponto de dados, mas é bastante fácil verificar se os dados são apropriados.

A biblioteca pandas do Python tem a capacidade de filtrar os valores incorretos

In [None]:
# 11. Criando conjunto de dados

nomes = ['Bob','Jéssica','Maria','João','Mel'] 
notas = [76,-2,77,78,101]
GradeList = zip(nomes,notas) 
df = pd.DataFrame(data = GradeList, columns = ['Nomes', 'Notas'])
df

Para eliminar todas as linhas em que as notas são muito altas, consulte a Listagem

In [None]:
# Filtrando Notas Impossíveis

df.loc[df['Notas'] <= 100]

Para alterar os valores fora do limite para o máximo ou mínimo valor permitido, podemos usar o código visto na Listagem 3

In [None]:
# Mudando Notas Impossíveis

df.loc[(df['Notas'] >= 100,'Notas')] = 100

Usando o conjunto de dados desta seção, você pode substituir todas as notas abaixo de zero por uma nota de zero?

#### Encontrando Linhas Duplicadas

Outra coisa com a qual você precisa se preocupar se estiver usando os dados de outra pessoa é se algum dado está duplicado. (Os mesmos dados foram relatados duas vezes, ou gravados duas vezes, ou apenas copiados e colados?) Caramba, às vezes você precisa se preocupar com isso, mesmo que você mesmo os tenha coletado! Pode ser difícil verificar a veracidade de cada ponto de dados, mas é muito fácil verificar se os dados estão duplicados.

biblioteca pandas do Python tem uma função para encontrar não apenas linhas duplicadas, mas também linhas únicas (Listagem 3-14).

In [None]:
# Criando conjunto de dados com duplicatas

names = ['Jan', 'John', 'Bob', 'Jan', 
         'Mary', 'Jon', 'Mel', 'Mel'] 

notas = [95, 78, 76, 95, 77, 78, 99, 100]
GradeList = zip(nomes,notas) 
df =pd.DataFrame(data = GradeList, columns=['Nomes', 'Notas'])

df

Para indicar as linhas duplicadas, podemos simplesmente executar o código visto na Listagem 3-1

In [None]:
# Exibindo apenas duplicatas no dataframe
 
df.duplicated()

Para mostrar o conjunto de dados sem duplicatas, podemos executar o código visto na Listagem

In [None]:
# Exibindo conjunto de dados sem duplicatas

df.drop_duplicates()

Você pode estar se perguntando: "E se a linha inteira não estiver duplicada, mas eu ainda souber que é uma duplicata?" Isso pode acontecer se alguém fizer sua pesquisa ou refazer um exame novamente, então o nome é o mesmo, mas a observação é Nesse caso, onde sabemos que um nome duplicado significa uma entrada duplicada, podemos usar o código visto na Listagem 3-17.

In [None]:
# Eliminar linhas com nomes duplicados, mantendo a última observação

df.drop_duplicates(['Nomes'], mantenha='último')

Carregue o conjunto de dados datasets/dupedata.csv. Achamos que pessoas com o mesmo endereço são duplicatas. Você pode descartar as linhas duplicadas enquanto mantém a primeira?

#### Removendo a pontuação do conteúdo da coluna

Seja em um número de telefone ou em um endereço, muitas vezes você encontrará pontuação indesejada em seus dados. Vamos carregar alguns dados para ver como lidar com isso (Listagem 3-18).

In [None]:
# Carregando Dataframe com dados do arquivo CSV

caminho = "datasets/gradedata.csv"
## Para adicionar cabeçalhos enquanto carregamos os dados...
df = pd.read_csv(caminho) 
df.head()

Para remover a pontuação indesejada, criamos uma função que retorna todos os caracteres que não são pontuação e a eles aplicamos essa função em nosso dataframe (Listagem 3-19).

In [None]:
# Removendo a pontuação da coluna de endereço

import string
exclude = set(string.punctuation) 
def remove_punctuation(x): 
    try: 
        x =''.join(ch for ch in x if ch not in exclude) 
    
    except:
        pass
    
    return x

df.address = df.address.apply(remove_punctuation) df

#### Removendo espaços em branco do conteúdo da coluna

In [None]:
# Carregando Dataframe com dados do arquivo CSV

caminho = "datasets/gradedata.csv"
## Para adicionar cabeçalhos enquanto carregamos os dados...
df = pd.read_csv(caminho)
df.head()

Para remover o espaço em branco, criamos uma função que retorna todos os caracteres que não são de pontuação e aplicamos essa função ao nosso dataframe (Listagem 3-21).

In [None]:
# Removendo espaços em branco da coluna de endereço
def remove_whitespace(x):
    try: 
        x = ''.join(x.split()) 
    
    except:
        pass
    
    return x

df.address = df.address.apply(remove_whitespace) 
df

#### Datas padronizadas

Um dos problemas com a consolidação de dados de diferentes fontes é que diferentes pessoas e diferentes sistemas podem registrar datas de forma diferente. Talvez eles usem 01/03/1980 ou 01/03/80 ou até mesmo 1980/01/03.

Mesmo que todas se refiram a 3 de janeiro de 1980, as ferramentas de análise podem não reconhecê-las todas como datas se você estiver alternando entre os diferentes formatos na mesma coluna.

In [2]:
# Criando Dataframe com Diferentes Formatos de Data

nomes = ['Bob', 'Jessica', 'Mary', 'John', 'Mel'] 
grades = [76, 95, 77, 78, 99] 
bsdegrees = [1, 1, 0, 0, 1]
msdegrees = [2, 1, 0, 0, 0] 
phddegrees = [0, 1, 0, 0, 0]
bdates = ['1/1/1945', '21/10/76', '03/03/90', 
          '30/04/1901', '1963-09-01']

GradeList = zip(nomes, grades, bsdegrees, msdegrees, phddegrees, bdates)

colunas = ['Names', 'Grades', 'BS', 'MS', 'PhD', "bdates"]
df = pd.DataFrame(data = GradeList, columns = colunas) 
df

NameError: name 'pd' is not defined

mostra uma função que padroniza as datas para um único formato.

In [None]:
# Função para Padronizar Datas

from time import strftime 
from datetime import datetime 

def standardize_date(thedate):
    formatted_date = thedate = str(thedate) 
    if not thedate or thedate.lower() == "missing" or data == "nan":
        formatted_date = "FALTA" 
    if the_date.lower().find('x') != -1: 
        formatted_date = "Incompleto" if the_date[0:2] == "00": 
            formatted_date = thedate.replace("00" , "19") 
            try: 
                formatted_date = str(datetime.strptime( thedate,'%m/%d/%y').strftime('%m/%d/%y')) 
            except:
                pass
            
        try: 
            formatted_date = str(datetime.strptime(adata, '%m/%d/%Y') .strftime('%m/%d/%y')) 
        
        except:
            pass
    try:
        if int(the_date[0:4]) < 1900:ou a data == "nan": data_formatada = "Incompleto"
    
        else:
            formatted_date = str(datetime.strptime( thedate,'%Y-%m-%d').strftime('%m/%d/%y')) 
    
    except:
        pass
     
    return formatted_date

Agora que temos essa função, podemos aplicá-la à coluna de datas de nascimento em nosso dataframe

In [None]:
# Aplicando padronização de data à coluna de data de nascimento

df.bdates = df.bdates.apply(standardize_date) 
df

#### Padronização de texto

Um dos problemas com a consolidação de dados de fontes diferentes é que pessoas diferentes e sistemas diferentes podem registrar determinados dados, como números de CPF, números de telefone e códigos postais de maneira diferente. Talvez eles usem hifens nesses números, ou talvez não. Esta seção aborda rapidamente como padronizar como esses tipos de dados são armazenados.

In [None]:
# Criando Dataframe com SSNs
import pandas as pd
names = ['Bob','Jessica','Mary','John','Mel'] grades =
[76,95,77,78,99] bsdegrees =
[1,1,0,0 ,1] msdegrees =
[2,1,0,0,0] phddegrees =
[0,1,0,0,0] ssns =
['867-53-0909','333-22-4444','123 -12-1234','777-93-9311','123-12-1423']
GradeList = zip(nomes,notas,bsdegrees,msdegrees,
phddegrees,ssns)
column=['Names','Grades','BS','MS','PhD',"ssn"] df =
pd.DataFrame(data = Lista de Notas, colunas=colunas) df

O código na Listagem 3-26 cria uma função que padroniza os SSNs
e o aplica à nossa coluna ssn.

In [None]:
Remova hífens de SSNs e adicione zeros à esquerda,
se necessário
def direita(s, quantidade):
retorna s[-quantia]
def padronizar_ssn(ssn): tenta:
ssn
= ssn.replace("-","") ssn =
"".join(ssn.split()) if len (ssn)<9
e ssn != 'Faltando': ssn="000000000" + ssn
ssn=direita(ssn,9)
exceto:
    pass
return ssn

df.ssn = df.ssn.apply(standardize_ssn) df


#### Criando Novas Variáveis

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.