# General Data Analysis

## Organization category count

In [1]:
from pathlib import Path
import pandas as pd
from docx import Document

csv_path = Path('data/pdf_list.csv')

data = pd.read_csv(csv_path)
category_counts = data['Category'].value_counts()
category_table = pd.DataFrame({'Category': category_counts.index, 'Count': category_counts.values})

doc = Document()
doc.add_heading('Category Counts Table', level=1)

table = doc.add_table(rows=1, cols=2)
table.style = 'Table Grid'
table.autofit = False

for col_num, col_name in enumerate(category_table.columns):
    table.cell(0, col_num).text = col_name

for row_num, (category, count) in enumerate(category_table.itertuples(index=False), start=1):
    table.add_row()
    table.cell(row_num, 0).text = str(category)
    table.cell(row_num, 1).text = str(count)

doc.save(f'results/general/category_counts.docx')
category_table

Unnamed: 0,Category,Count
0,Citoyens et particuliers,45
1,Organismes communautaires et à but non-lucratif,32
2,Organismes municipaux et paramunicipaux,13
3,Chercheurs et experts,13
4,Regroupements et réseaux,4
5,Personalités et organisations politiques,3


## Organization Category And Document Type Crosstable

In [2]:
import pandas as pd

csv_path = Path('data/pdf_list.csv')
data = pd.read_csv(csv_path)

cross_table = pd.crosstab(data['Category'], data['Document Type'], margins=True, margins_name='Total')

excel_file = f'results/general/category_document_type_cross_table.xlsx'
cross_table.to_excel(excel_file)

cross_table

Document Type,Article de journal,Article scientifique,Mémoire,Recommendations,Transcription,Témoignage,Vidéo,Total
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Chercheurs et experts,0,4,7,0,2,0,0,13
Citoyens et particuliers,2,1,6,2,19,14,1,45
Organismes communautaires et à but non-lucratif,0,0,16,0,16,0,0,32
Organismes municipaux et paramunicipaux,0,0,12,0,1,0,0,13
Personalités et organisations politiques,0,0,2,0,1,0,0,3
Regroupements et réseaux,0,0,3,0,1,0,0,4
Total,2,5,46,2,40,14,1,110


## Category And Clientele Crosstable

In [3]:
import pandas as pd

csv_path = Path('data/pdf_list.csv')
data = pd.read_csv(csv_path)

cross_table = pd.crosstab(data['Category'], data['Clientele'], margins=True, margins_name='Total')

excel_file = f'results/general/category_clientele_cross_table.xlsx'
cross_table.to_excel(excel_file)

cross_table

Clientele,Artistes,Cabinet d'avocats,Citoyens,Communautés LGBTQ+,Communautés autochtones,Communautés juives hassidiques,Communautés religieuses,Entrepreneurs,Femmes,Général,Jeunes,Logement,Personnes en situation de handicap,Personnes en situation de précarité économique,Personnes issues de l'immigration,Personnes racisées,S.O.,Services policiers,Étudiants,Total
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Chercheurs et experts,0,1,0,0,0,0,0,0,1,1,0,0,0,0,1,4,2,3,0,13
Citoyens et particuliers,0,0,0,0,2,1,0,1,1,0,0,0,1,3,1,7,28,0,0,45
Organismes communautaires et à but non-lucratif,0,0,1,0,2,0,2,0,7,1,4,0,2,2,3,7,1,0,0,32
Organismes municipaux et paramunicipaux,3,0,3,1,0,0,0,0,2,0,2,1,0,0,1,0,0,0,0,13
Personalités et organisations politiques,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,3
Regroupements et réseaux,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,2,4
Total,3,1,5,1,4,1,2,2,11,2,6,1,4,5,6,18,33,3,2,110
