# Extract stats from sirene enterprise database
### create a database with relevant content from sirene / insee
Current database structure is as follows:
```sql
+--------------------+--------------------------+
| Column             | Type                     |
|--------------------+--------------------------+
| id_internal        | integer                  |
| nom                | text                     |
| enseigne           | text                     |
| enseignes          | text[]                   |
| siret              | character varying(14)    |
| naf                | character varying(5)     |
| addr               | text[]                   |
| taille             | company_size             |
| pmsmp_interest     | boolean                  |
| pmsmp_count_recent | integer                  |
| rating_us          | rating                   |
| comments           | text                     |
| source             | text                     |
| import_tag         | text                     |
| flags              | text[]                   |
| date_created       | timestamp with time zone |
| date_updated       | timestamp with time zone |
| label              | text                     |
| numero             | character varying(10)    |
| rue                | character varying(128)   |
| quartier           | character varying(128)   |
| commune            | character varying(128)   |
| postal_code        | character varying(10)    |
| commune_code       | character varying(10)    |
| region             | character varying(128)   |
| departement        | character varying(128)   |
| siege              | boolean                  |
| lat                | numeric                  |
| lon                | numeric                  |
| phone_official_1   | character varying(32)    |
| phone_official_2   | character varying(32)    |
| email_official     | character varying(64)    |
| contact_1_name     | character varying(64)    |
| contact_1_role     | character varying(64)    |
| contact_1_mail     | character varying(64)    |
| contact_1_phone    | character varying(32)    |
| contact_2_name     | character varying(64)    |
| contact_2_role     | character varying(64)    |
| contact_2_mail     | character varying(64)    |
| contact_2_phone    | character varying(32)    |
+--------------------+--------------------------+
```

### add notebook user
Notebook uses a specific read-only user, "jupyter"
```sql
CREATE USER jupyter WITH PASSWORD 'jupyter';
GRANT CONNECT ON DATABASE andi TO jupyter;
GRANT SELECT ON ALL TABLES IN SCHEMA public TO jupyter;
```

In [1]:
# Connect to database
import psycopg2
import psycopg2.extras
connection = psycopg2.connect(dsn="postgres://jupyter:jupyter@localhost:5432/andi")

with connection.cursor() as cur:
    cur.execute("SELECT COUNT(*) FROM entreprises")
    res = cur.fetchone()[0]
    
print(f'Connected to database, {res} records found')

Connected to database, 6199615 records found


In [27]:
# Read ressource CSV's
import pandas as pd

naf_labels = pd.read_csv('../ressources/nomenclature_naf.csv', delimiter=';')
naf_labels.columns = ['naf', 'label', 'label_65', 'label_40']
naf_labels.set_index('naf')
naf_labels

Unnamed: 0,naf,label,label_65,label_40
0,1020Z,"Transformation et conservation de poisson, de ...","Transform. & conserv. poisson, crustacés & mol...","Transf. & conserv. poisson, crust., etc."
1,812,"Exploitation de gravières et sablières, extrac...","Exploit gravieres & sablieres, extraction argi...","Exploit. gravière & sabl., extr. argile"
2,1610B,Imprégnation du bois,Imprégnation du bois,Imprégnation du bois
3,0910Z,Activités de soutien à l'extraction d'hydrocar...,Activités de soutien à l'extraction d'hydrocar...,Act. de soutien à l'extr. hydrocarbures
4,7420Z,Activités photographiques,Activités photographiques,Activités photographiques
...,...,...,...,...
1702,2051,Fabrication de produits explosifs,Fabrication de produits explosifs,Fabrication de produits explosifs
1703,1431,Fabrication d'articles chaussants à mailles,Fabrication d'articles chaussants à mailles,Fabric. d'articles chaussants à mailles
1704,9525,Réparation d'articles d'horlogerie et de bijou...,Réparation d'articles d'horlogerie et de bijou...,Répar.articles horlogerie & bijouterie
1705,71,Extraction de minerais de fer,Extraction de minerais de fer,Extraction de minerais de fer


In [29]:
# Extract stats about naf and entreprise size
import pandas.io.sql as sqlio
sql = """
SELECT naf, taille, COUNT(*) as count
FROM entreprises
GROUP BY naf, taille
"""
df = sqlio.read_sql_query(sql, connection)
df

Unnamed: 0,naf,taille,count
0,6910Z,3-5,4514
1,2391Z,,6
2,2434Z,3-5,1
3,5531,0,3
4,3213Z,0,436
...,...,...,...
9398,4910Z,6-9,261
9399,132Z,,4
9400,454H,,63
9401,232Z,0,65


In [38]:
df2 = df[['naf', 'count']]
df3 = df2.groupby(['naf']).sum().sort_values(by=['count'], ascending=False)
df3

TypeError: 'DataFrame' object is not callable

In [46]:
df4 = df3.join(naf_labels.set_index('naf')).dropna().sort_values(by=['count'], ascending=False)
df4.columns = ['nombre', 'label', 'label_40', 'label_65']


with pd.option_context(
        'display.max_rows', None,
        'display.max_columns', None,
        'display.max_colwidth', 60):
    print(df4[['nombre', 'label']].head(100))

       nombre                                                        label
naf                                                                       
5610A  168338                                  Restauration traditionnelle
4399C  122744     Travaux de maçonnerie générale et gros œuvre de bâtiment
5610C  101098                                  Restauration de type rapide
9499Z   95264    Autres organisations fonctionnant par adhésion volontaire
7022Z   88470      Conseil pour les affaires et autres conseils de gestion
4771Z   81927       Commerce de détail d'habillement en magasin spécialisé
9602A   75001                                                     Coiffure
8110Z   73316             Activités combinées de soutien lié aux bâtiments
4334Z   61676                              Travaux de peinture et vitrerie
4321A   61097           Travaux d'installation électrique dans tous locaux
7112B   55964                                Ingénierie, études techniques
4520A   55400      Entret