In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline


In [7]:


# Lista dos nomes dos arquivos CSV para os meses especificados
nomes_arquivos = ['SINASC_RO_2019_MAR.csv', 'SINASC_RO_2019_ABR.csv', 'SINASC_RO_2019_MAI.csv', 'SINASC_RO_2019_JUN.csv']

# Lista para armazenar os DataFrames de cada mês
dfs = []

# Carregar cada arquivo CSV e adicioná-lo à lista de DataFrames
for nome_arquivo in nomes_arquivos:
    df = pd.read_csv(nome_arquivo)
    dfs.append(df)

# Concatenar os DataFrames em um único DataFrame
dados = pd.concat(dfs, ignore_index=True)

# Exibir informações sobre o DataFrame resultante
print("Informações sobre o DataFrame resultante:")
print(dados.info())

# Exibir as primeiras linhas do DataFrame resultante
print("\nAs primeiras linhas do DataFrame resultante:")
print(dados.head())

# Salvar o DataFrame resultante em um novo arquivo CSV
dados.to_csv('dados_completos.csv', index=False)

print("\nDataFrame resultante foi salvo em 'dados_completos.csv'")


Informações sobre o DataFrame resultante:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41401 entries, 0 to 41400
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   IDADEMAE   41401 non-null  int64  
 1   SEXO       41393 non-null  object 
 2   APGAR1     41263 non-null  float64
 3   APGAR5     41243 non-null  float64
 4   PESO       41401 non-null  int64  
 5   CONSULTAS  41401 non-null  int64  
 6   DTNASC     41401 non-null  object 
 7   GESTACAO   39469 non-null  object 
 8   GRAVIDEZ   41294 non-null  object 
 9   ESCMAE     40943 non-null  object 
 10  IDADEPAI   12122 non-null  float64
dtypes: float64(3), int64(3), object(5)
memory usage: 3.5+ MB
None

As primeiras linhas do DataFrame resultante:
   IDADEMAE       SEXO  APGAR1  APGAR5  PESO  CONSULTAS      DTNASC  \
0        19  Masculino     9.0    10.0  3685          4  2019-02-19   
1        29   Feminino     8.0     9.0  3055          4  2019-02-21   
2  

In [17]:
## Automatizando os dados


def gerar_estatisticas_resumidas_para_meses_e_anos(nomes_arquivos, colunas_interesse, meses, anos):
    dfs = []
    
    for nome_arquivo in nomes_arquivos:
        df = pd.read_csv(nome_arquivo)
        dfs.append(df)
    
    dados = pd.concat(dfs, ignore_index=True)
    
    for ano in anos:
        for mes in meses:
            dados_selecionados = dados[(dados['DTNASC'].str.contains(mes, case=False)) & (dados['DTNASC'].str.contains(str(ano)))]
            if not dados_selecionados.empty:
                print(f"\nEstatísticas resumidas para o mês de {mes.capitalize()} de {ano}:")
                for coluna in colunas_interesse:
                    print(f"\nEstatísticas para a variável '{coluna}':")
                    print(dados_selecionados[coluna].describe())

# Exemplo de utilização da função para gerar estatísticas resumidas para os meses e anos seguintes
nomes_arquivos = ['SINASC_RO_2019_MAR.csv', 'SINASC_RO_2019_ABR.csv', 'SINASC_RO_2019_MAI.csv', 'SINASC_RO_2019_JUN.csv']
colunas_interesse = ['IDADEMAE', 'SEXO', 'APGAR1', 'APGAR5', 'PESO', 'CONSULTAS', 'GESTACAO']
meses_interesse = ['fevereiro', 'março', 'abril', 'maio', 'junho', 'dezembro']
anos_interesse = [2019]

gerar_estatisticas_resumidas_para_meses_e_anos(nomes_arquivos, colunas_interesse, meses_interesse, anos_interesse)
