In [1]:
import pandas as pd
import numpy as np

---

# Extração

In [2]:
df_canais_regis = pd.read_csv('CanaisDasProgramadorasRegistradas.csv', encoding='latin1', sep=';')
df_canais_regis.head(5)


Unnamed: 0,CANAL,NR_IDENTIFICACAO,CLASSIFICACAO_CANAL,TIPO_CONTEUDO_CANAL,OFERTA_CLIENTE,DATA_INICIO_OFERTA,DENSIDADE_CANAL,NOME_PROGRAMADORA,CNPJ_PROGRAMADORA,CLASSIFICAO_PROGRAMADORA,PAIS_PROGRAMADORA
0,A&E,22398.30001,Canal de espaço qualificado,Canal de conteúdo em geral,CANAL OFERTADO EM PACOTE,01/06/1997,PADRÃO,"A&E BRAZIL DISTRIBUTION, LLC",,Programadora Estrangeira,ESTADOS UNIDOS
1,A&E HD,22398.30002,Canal de espaço qualificado,Canal de conteúdo em geral,CANAL OFERTADO EM PACOTE,01/12/2010,ALTA DEFINIÇÃO,"A&E BRAZIL DISTRIBUTION, LLC",,Programadora Estrangeira,ESTADOS UNIDOS
2,AFESP TV,35307.30001,Canal de programação comum,Canal de conteúdo em geral,CANAL OFERTADO EM PACOTE,01/01/2017,PADRÃO,ASSOCIAÇÃO DOS FUNCIONÁRIOS EMPREGADOS E SERVI...,26.650.154/0001-12,,BRASIL
3,AGRO+,3293.30011,Canal de programação comum,Canal de conteúdo jornalístico,CANAL OFERTADO EM PACOTE,22/06/2020,PADRÃO,NEWCO PROGRAMADORA E PRODUTORA DE COMUNICACAO ...,04.334.366/0001-58,Programadora brasileira,BRASIL
4,AGRO+ HD,3293.30012,Canal de programação comum,Canal de conteúdo jornalístico,CANAL OFERTADO EM PACOTE,22/06/2020,ALTA DEFINIÇÃO,NEWCO PROGRAMADORA E PRODUTORA DE COMUNICACAO ...,04.334.366/0001-58,Programadora brasileira,BRASIL


In [3]:
df_canais_regis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   CANAL                     341 non-null    object
 1   NR_IDENTIFICACAO          341 non-null    object
 2   CLASSIFICACAO_CANAL       341 non-null    object
 3   TIPO_CONTEUDO_CANAL       341 non-null    object
 4   OFERTA_CLIENTE            341 non-null    object
 5   DATA_INICIO_OFERTA        341 non-null    object
 6   DENSIDADE_CANAL           341 non-null    object
 7   NOME_PROGRAMADORA         341 non-null    object
 8   CNPJ_PROGRAMADORA         255 non-null    object
 9   CLASSIFICAO_PROGRAMADORA  330 non-null    object
 10  PAIS_PROGRAMADORA         341 non-null    object
dtypes: object(11)
memory usage: 29.4+ KB


In [4]:
df_canais_regis.isnull().sum()

CANAL                        0
NR_IDENTIFICACAO             0
CLASSIFICACAO_CANAL          0
TIPO_CONTEUDO_CANAL          0
OFERTA_CLIENTE               0
DATA_INICIO_OFERTA           0
DENSIDADE_CANAL              0
NOME_PROGRAMADORA            0
CNPJ_PROGRAMADORA           86
CLASSIFICAO_PROGRAMADORA    11
PAIS_PROGRAMADORA            0
dtype: int64

---

# Transformação

Limpeza, Filtragem e Padronização de Dados

In [5]:
#Verificar se há algum NaN ou Null

def null(df):
    df.info()

#Tratando valores nulos

def fill_null(df, coluna, fill):
    df[coluna].fillna(fill, inplace=True)
    

# Transformando dtypes de colunas

# 'DATA_INICIO_OFERTA' em datetime

def date(df, coluna):
    df[coluna] = pd.to_datetime(df[coluna], dayfirst=True)

# 'NR_IDENTIFICACAO' em float

def convert_to_float(df, column_name):
    df[column_name] = pd.to_numeric(df[column_name].str.strip(), errors='coerce')



In [6]:
df_canais_regis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   CANAL                     341 non-null    object
 1   NR_IDENTIFICACAO          341 non-null    object
 2   CLASSIFICACAO_CANAL       341 non-null    object
 3   TIPO_CONTEUDO_CANAL       341 non-null    object
 4   OFERTA_CLIENTE            341 non-null    object
 5   DATA_INICIO_OFERTA        341 non-null    object
 6   DENSIDADE_CANAL           341 non-null    object
 7   NOME_PROGRAMADORA         341 non-null    object
 8   CNPJ_PROGRAMADORA         255 non-null    object
 9   CLASSIFICAO_PROGRAMADORA  330 non-null    object
 10  PAIS_PROGRAMADORA         341 non-null    object
dtypes: object(11)
memory usage: 29.4+ KB


In [7]:
fill_null(df_canais_regis, 'CNPJ_PROGRAMADORA', '00.000.000/0000-00')
fill_null(df_canais_regis,'CLASSIFICAO_PROGRAMADORA', 'Sem Informação')
date(df_canais_regis, 'DATA_INICIO_OFERTA')
convert_to_float(df_canais_regis, 'NR_IDENTIFICACAO')

In [8]:
df_canais_regis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   CANAL                     341 non-null    object        
 1   NR_IDENTIFICACAO          341 non-null    float64       
 2   CLASSIFICACAO_CANAL       341 non-null    object        
 3   TIPO_CONTEUDO_CANAL       341 non-null    object        
 4   OFERTA_CLIENTE            341 non-null    object        
 5   DATA_INICIO_OFERTA        341 non-null    datetime64[ns]
 6   DENSIDADE_CANAL           341 non-null    object        
 7   NOME_PROGRAMADORA         341 non-null    object        
 8   CNPJ_PROGRAMADORA         341 non-null    object        
 9   CLASSIFICAO_PROGRAMADORA  341 non-null    object        
 10  PAIS_PROGRAMADORA         341 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(9)
memory usage: 29.4+ KB


---

# Exportando 1° Tratamento

In [9]:
df_canais_regis.to_csv('to_replace.CanaisDasProgramadorasRegistradas.csv')