In [1]:
import pandas as pd
import pyreadstat
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df, meta = pyreadstat.read_dta("Bases_Tratadas\\Churches_USA_Data.dta")

In [3]:
df['fipsmerg'] = df['fipsmerg_original']

In [4]:
df['grpname_reltrad'] = df.apply(lambda row: f"{row['grpname']} ({int(row['reltrad'])})", axis=1)

dicio = dict({1: 'Evangelicals',
             2: 'Mainlines',
             3: 'Catholic'})

df['reltrad_name'] = df.apply(lambda row: dicio[int(row['reltrad'])], axis=1)
df['grpcode'] = df['grpcode'].astype(int)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 939056 entries, 0 to 939055
Data columns (total 26 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   prev_ano_mercado   939056 non-null  object 
 1   grpcode            939056 non-null  int32  
 2   year               939056 non-null  float64
 3   fipsmerg           939056 non-null  float64
 4   cntynm             939056 non-null  object 
 5   stateab            939056 non-null  object 
 6   totpop             939056 non-null  float64
 7   grpname            939056 non-null  object 
 8   adherent           939056 non-null  float64
 9   congreg            939056 non-null  float64
 10  reltrad            939056 non-null  float64
 11  family             939056 non-null  float64
 12  fipsmerg_original  939056 non-null  float64
 13  a_imt              939056 non-null  float64
 14  a_imt_1            704292 non-null  object 
 15  prev_year          704292 non-null  float64
 16  an

# Estatísticas básicas

In [6]:
print('número de condados:')
print(len(df.fipsmerg.unique()))

print('número de denominações:')
print(len(df.grpcode.unique()))

print('número de templos em 1980:')
print(df[df['year']==1980].congreg.sum())

print('número de membros em 1980:')
print(df[df['year']==1980].adherent.sum())

print('número de condados:')
print(len(df.fipsmerg.unique()))

print('número de denominações:')
print(len(df.grpcode.unique()))

print('número de templos em 2010:')
print(df[df['year']==2010].congreg.sum())

print('número de membros em 2010:')
print(df[df['year']==2010].adherent.sum())

número de condados:
3089
número de denominações:
76
número de templos em 1980:
277575.0
número de membros em 1980:
115577194.0
número de condados:
3089
número de denominações:
76
número de templos em 2010:
278262.0
número de membros em 2010:
124672096.0


## por categoria

In [7]:
for reltradname in df['reltrad_name'].unique():

    df_filtrado = df[df['reltrad_name'] == reltradname]

    print(reltradname)
    print(15*"-")
    print('número de condados:')
    print(len(df.fipsmerg.unique()))

    print('número de denominações:')
    print(len(df.grpcode.unique()))

    print('número de templos em 1980:')
    templos_em_1980 = df[df['year']==1980].congreg.sum()
    print(templos_em_1980)

    print('número de membros em 1980:')
    membros_em_1980 = df[df['year']==1980].adherent.sum()
    print(membros_em_1980)

    print('número de condados:')
    print(len(df.fipsmerg.unique()))

    print('número de denominações:')
    print(len(df.grpcode.unique()))

    print('número de templos em 2010:')
    templos_em_2010 = df[df['year']==2010].congreg.sum()
    print(templos_em_2010)

    print('número de membros em 2010:')
    membros_em_2010 = df[df['year']==2010].adherent.sum()
    print(membros_em_2010)
    print(15*"-")

Evangelicals
---------------
número de condados:
3089
número de denominações:
76
número de templos em 1980:
277575.0
número de membros em 1980:
115577194.0
número de condados:
3089
número de denominações:
76
número de templos em 2010:
278262.0
número de membros em 2010:
124672096.0
---------------
Mainlines
---------------
número de condados:
3089
número de denominações:
76
número de templos em 1980:
277575.0
número de membros em 1980:
115577194.0
número de condados:
3089
número de denominações:
76
número de templos em 2010:
278262.0
número de membros em 2010:
124672096.0
---------------
Catholic
---------------
número de condados:
3089
número de denominações:
76
número de templos em 1980:
277575.0
número de membros em 1980:
115577194.0
número de condados:
3089
número de denominações:
76
número de templos em 2010:
278262.0
número de membros em 2010:
124672096.0
---------------


# maiores denominações por categoria

In [8]:
# Agrupar por 'reltrad' e 'grpname' e somar o número de templos
grouped = df.groupby(['reltrad_name', 'grpname'], as_index=False)['congreg'].sum()

# Ordenar por 'reltrad' e pelo número de templos em ordem decrescente
grouped_sorted = grouped.sort_values(by=['reltrad_name', 'congreg'], ascending=[True, False])

# Selecionar os 5 primeiros de cada grupo (categoria 'reltrad')
top5_per_category = grouped_sorted.groupby('reltrad_name').head(5)

In [9]:
top5_per_category

Unnamed: 0,reltrad_name,grpname,congreg
0,Catholic,Catholic Church,87151.0
50,Evangelicals,Southern Baptist Convention,165694.0
22,Evangelicals,Churches of Christ,51415.0
5,Evangelicals,Assemblies of God,44722.0
37,Evangelicals,"Lutheran Church, The Missouri Synod",23818.0
15,Evangelicals,"Church of God (Cleveland, TN)",21734.0
74,Mainlines,"The United Methodist Church, old count",144694.0
71,Mainlines,Presbyterian Church (USA),45711.0
64,Mainlines,Evangelical Lutheran Church in America Groups ...,43307.0
63,Mainlines,Evangelical Lutheran Church in America,42330.0


In [10]:
for den in top5_per_category[top5_per_category.reltrad_name=='Evangelicals'].grpname:
    print(den)

Southern Baptist Convention
Churches of Christ
Assemblies of God
Lutheran Church, The Missouri Synod
Church of God (Cleveland, TN)


In [11]:
for den in top5_per_category[top5_per_category.reltrad_name=='Mainlines'].grpname:
    print(den)

The United Methodist Church, old count
Presbyterian Church (USA)
Evangelical Lutheran Church in America Groups Combined
Evangelical Lutheran Church in America
Moravian Church in America, Alaska and North Province Combined


In [12]:
for den in top5_per_category[top5_per_category.reltrad_name=='Catholic'].grpname:
    print(den)

Catholic Church


# razão número de membros e número de templos por categoria

In [13]:
# Agrupar por 'reltrad' e calcular a soma de 'congreg' e 'adherent'
resultado = df.groupby('reltrad_name').agg({
    'congreg': 'sum', 
    'adherent': 'sum'
}).reset_index()

resultado.rename(columns={'congreg': 'number of temples'}, inplace=True)

resultado['adherent per temple'] = resultado['adherent'] / resultado['number of temples']

transposta = resultado.set_index('reltrad_name').T
transposta = transposta.applymap(lambda x: f'{x:,.0f}')

In [14]:
# transposta.to_excel(r"C:\Users\tiago\Downloads\table.xlsx")
transposta

reltrad_name,Catholic,Evangelicals,Mainlines
number of temples,87151,493891,469898
adherent,221821925,136863314,135780318
adherent per temple,2545,277,289


# templos por condado em cada ano

In [15]:
temples_by_year_county = df.groupby(['year', 'fipsmerg'])['congreg'].sum().unstack(fill_value=0)
print(temples_by_year_county)

fipsmerg  1001.0   1003.0   1005.0   1007.0   1009.0   1011.0   1013.0   \
year                                                                      
1980.0       56.0    164.0     75.0     59.0    131.0     24.0     87.0   
1990.0       62.5    178.5     67.0     59.0    133.0     24.0     87.0   
2000.0       69.0    199.0     64.0     66.0    130.0     22.0     81.0   
2010.0       80.0    216.0     59.0     67.0    145.0     21.0     76.0   

fipsmerg  1015.0   1017.0   1019.0   ...  56027.0  56029.0  56031.0  56033.0  \
year                                 ...                                       
1980.0      198.0    100.0     91.0  ...     11.0     37.0     23.0     27.0   
1990.0      197.0    102.0     87.0  ...     11.0     39.0     26.0     26.0   
2000.0      207.5    100.0     79.0  ...     12.0     43.0     24.0     28.0   
2010.0      194.0     89.0     71.0  ...     11.0     44.0     26.0     36.0   

fipsmerg  56035.0  56037.0  56039.0  56041.0  56043.0  56045.0  
yea

# templos por estado em cada ano

In [16]:
temples_by_year_state = df.groupby(['year', 'stateab'])['congreg'].sum().unstack(fill_value=0)
print(temples_by_year_state)

stateab      AK      AL      AR      AZ       CA      CO      CT     DC  \
year                                                                      
1980.0   4963.0  7898.0  5756.0  1886.0  12296.0  2438.0  1857.0  452.0   
1990.0    720.5  7949.5  5625.5  2254.0  12440.5  2595.0  1917.0  339.0   
2000.0    764.0  7885.0  5662.0  2510.5  13705.0  2804.0  1938.5  367.0   
2010.0    840.0  7877.0  5575.0  2718.0  14964.0  2954.0  1969.0  391.0   

stateab     DE       FL  ...      SD      TN       TX     UT      VA     VT  \
year                     ...                                                  
1980.0   508.0   7098.0  ...  2073.0  8763.0  16533.0  328.0  7060.0  757.0   
1990.0   513.0   8275.5  ...  2001.5  8859.0  17060.5  400.5  7333.0  752.5   
2000.0   539.0   9168.0  ...  1900.5  8964.0  17794.0  461.5  7322.5  747.0   
2010.0   572.0  10335.0  ...  1816.0  9432.0  20734.0  511.0  7890.0  734.0   

stateab      WA       WI      WV     WY  
year                            

In [26]:
df_lista_denominacoes = df[['grpname','reltrad_name']]

In [28]:
df_lista_denominacoes.drop_duplicates(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)


In [37]:
df_lista_denominacoes.sort_values(['reltrad_name', 'grpname'], inplace=True)

In [38]:
for index, row in df_lista_denominacoes.iterrows():
    print('{:>63} | {:>15}'.format(row['grpname'], row['reltrad_name']))

                                                Catholic Church |        Catholic
                        Allegheny Wesleyan Methodist Connection |    Evangelicals
                                  American  Baptist Association |    Evangelicals
                          Apostolic Christian Church (Nazarean) |    Evangelicals
                    Apostolic Christian Church of America, Inc. |    Evangelicals
                                              Assemblies of God |    Evangelicals
             Associate Reformed Presbyterian Church (Gen Synod) |    Evangelicals
              Baptist General Conference ('Converge Worldwide') |    Evangelicals
                      Baptist Missionary Association of America |    Evangelicals
                                Beachy Amish Mennonite Churches |    Evangelicals
                                Brethren Church (Ashland, Ohio) |    Evangelicals
                                      Brethren in Christ Church |    Evangelicals
                