# Realizando o tratamento básico de dados com o banco de dados do carnaval de BH

In [1]:
# Importando biblioteca Pandas
import pandas as pd
from datetime import timedelta
import numpy as np 

In [2]:
# Lendo csv do carnaval
pre_df= pd.read_csv('/dados/dataset_carnaval_20181.csv')

In [3]:
#Visualizando dados
pre_df.head()

Unnamed: 0,morador,numerocontrole,Bloco,DT_VISITA,DT_TERMINO,TEMPO_TOTAL_ENTREV,Idade,Pais,Estado,Cidade,...,T_citytour,T_visitacultural,T_compras,T_gastronomia,Principal_patrocinador,Outr_patrocinador,Genero,Esclaridade,Estado_civil,Faixa_renda
0,Morador,1,Tchanzinho Zona Norte,09/02/2018 17:39,09/02/2018 17:47,0:08:27,25,Brasil,Minas Gerais,Vespasiano,...,,,,,Prefeitura,,Feminino,Ensino superior completo,Solteiro (a),"de 2 a 3 salarios (R$ 1875,00 – R$ 2862,00)"
1,Morador,2,Tchanzinho Zona Norte,09/02/2018 17:39,09/02/2018 17:51,0:11:21,32,Brasil,Minas Gerais,Belo Horizonte,...,,,,,Prefeitura,,Feminino,Pos – Graduaçao – Mestrado,Solteiro (a),"de 4 a 5 salarios (R$ 3749,00 – R$ 4770,00)"
2,Morador,3,Tchanzinho Zona Norte,09/02/2018 17:40,09/02/2018 17:52,0:11:43,18,Brasil,Minas Gerais,Belo Horizonte,...,,,,,Skol,,Feminino,Ensino superior incompleto,Solteiro (a),"de 5 a 6 salarios (R$ 4686,00 – R$ 5724,00)"
3,Morador,4,Tchanzinho Zona Norte,09/02/2018 17:43,09/02/2018 17:55,0:12:39,40,Brasil,Minas Gerais,Belo Horizonte,...,,,,,Brahma,,Feminino,Ensino superior completo,Casado (a),"de 6 a 7 salarios (R$ 5623,00 – R$ 6678,00)"
4,Morador,5,Tchanzinho Zona Norte,09/02/2018 17:49,09/02/2018 17:58,0:08:49,47,Brasil,Minas Gerais,Belo Horizonte,...,,,,,Skol,,Masculino,Ensino medio completo,Solteiro (a),"de 5 a 6 salarios (R$ 4686,00 – R$ 5724,00)"


In [4]:
# Procurando por duplicatas
pre_df.duplicated().value_counts()

False    1645
dtype: int64

In [5]:
# Observando tipos de colunas (Serão atualizadas todas referente a datas e tempo)
pre_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1645 entries, 0 to 1644
Data columns (total 55 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   morador                    1645 non-null   object 
 1   numerocontrole             1645 non-null   int64  
 2   Bloco                      1645 non-null   object 
 3   DT_VISITA                  1645 non-null   object 
 4   DT_TERMINO                 1645 non-null   object 
 5   TEMPO_TOTAL_ENTREV         1645 non-null   object 
 6   Idade                      1645 non-null   int64  
 7   Pais                       1645 non-null   object 
 8   Estado                     1640 non-null   object 
 9   Cidade                     1640 non-null   object 
 10  Bairro_BH                  1135 non-null   object 
 11  Regiao_BH                  1135 non-null   object 
 12  T_pernoite                 228 non-null    object 
 13  T_qtpernoite               210 non-null    float

In [6]:
# Padronizando colunas com letra minúscula
pre_df.columns=pre_df.columns.str.lower()

In [7]:
# Corrigindo e separando palavras com underline
pre_df=pre_df.rename(columns={"numerocontrole":"numero_controle", "esclaridade":"escolaridade", "outr_patrocinador":"outro_patrocinador", "participou_anosanteriores":"participou_anos_anteriores", "t_visitacultural":"t_visita_cultural", "t_citytour":"t_city_tour"})

In [8]:
pre_df['dt_visita']=pd.to_datetime(pre_df['dt_visita'], format='%d/%m/%Y %H:%M')
# Transformando coluna em tipo data

In [9]:
pre_df['dt_termino']=pd.to_datetime(pre_df['dt_termino'], format='%d/%m/%Y %H:%M')
# Transformando coluna em tipo data

In [10]:
pre_df['tempo_total_entrev'] =pd.to_timedelta(pre_df['tempo_total_entrev'])
# Transformando tipo de coluna em quantidade de tempo

In [11]:
pre_df['gasto_total']=pre_df['gasto_total'].fillna(0)
pre_df['gasto_total'] = pre_df['gasto_total'].str.replace(',', '.').astype(float) 
# Transformando tipo de coluna em valores flutuantes e preenchendo gastos vazios com zero.

In [12]:
pre_df['total']=pre_df['total'].fillna(0)
pre_df['total'] = pre_df['total'].str.replace(',', '.').astype(float) 
# Transformando tipo de coluna em valores flutuantes e preenchendo gastos vazios com zero.

In [13]:
# lista com o nome das colunas que devem ser transformadas
cols_to_transform = ['aval_geral', 'aval_banheiros', 'aval_seguranca', 'aval_precos']

# loop que percorre cada coluna e transforma os valores 'NR' em NaN
for col in cols_to_transform:
    pre_df[col] = pre_df[col].replace('NR', np.nan)

In [14]:
cols_to_transform = ['proxima_edicao', 'blocos_de_rua', 'escola_samba_caricato', 'eventos_privados', 'palcos', 't_visita_amigos', 't_city_tour', 't_visita_cultural', 't_compras', 't_gastronomia', 'morador']
# loop que percorre cada coluna e transforma os valores sim em True e nao em False
for col in cols_to_transform:
    pre_df[col] = pre_df[col].map({'Sim': True, 'Nao': False})


In [15]:
# Observando resultado
pre_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1645 entries, 0 to 1644
Data columns (total 55 columns):
 #   Column                      Non-Null Count  Dtype          
---  ------                      --------------  -----          
 0   morador                     0 non-null      object         
 1   numero_controle             1645 non-null   int64          
 2   bloco                       1645 non-null   object         
 3   dt_visita                   1645 non-null   datetime64[ns] 
 4   dt_termino                  1645 non-null   datetime64[ns] 
 5   tempo_total_entrev          1645 non-null   timedelta64[ns]
 6   idade                       1645 non-null   int64          
 7   pais                        1645 non-null   object         
 8   estado                      1640 non-null   object         
 9   cidade                      1640 non-null   object         
 10  bairro_bh                   1135 non-null   object         
 11  regiao_bh                   1135 non-null  

In [16]:
df=pre_df

In [17]:
df.to_csv('df.csv')