In [1]:
import sys
sys.path.append('../1_format/')
sys.path.append('../2_analyse/')

In [2]:
import pandas as pd
import requests
import json
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import seaborn
import numpy as np
import glob
import geopandas
from matplotlib.pyplot import figure
seaborn.set()

In [3]:
pd.set_option('display.max_columns', None)

### Format BODACC

In [4]:
df_bodacc = pd.read_csv('../0_data/annonces-commerciales.csv', 
                        usecols=['id', 'dateparution', 'numeroannonce', 'jugement', 'numerodepartement', 'region_code',
                                 'tribunal', 'commercant', 'ville', 'registre'],
                        sep=';')

In [5]:
# get jugement info
df_bodacc = df_bodacc.dropna(subset='jugement')
df_bodacc['jugement_nature'] = df_bodacc['jugement'].apply(lambda x: json.loads(x)['nature'])
df_bodacc['jugement_famille'] = df_bodacc['jugement'].apply(lambda x: json.loads(x)['famille'])
df_bodacc['jugement_date'] = df_bodacc['jugement'].apply(lambda x: json.loads(x)['date'] if 'date' in json.loads(x) else '')
df_bodacc['jugement_complement'] = df_bodacc['jugement'].apply(lambda x: json.loads(x)['complementJugement'] 
                                                               if 'complementJugement' in json.loads(x) else '')
df_bodacc = df_bodacc.drop('jugement', axis=1)

In [6]:
# fix error import
df_bodacc['jugement_famille'] = df_bodacc['jugement_famille'].replace('Jugement prononÃ§ant', 'Jugement prononçant')
df_bodacc['jugement_famille'] = df_bodacc['jugement_famille'].replace('Avis de dÃ©pÃ´t', 'Avis de dépôt')
df_bodacc['jugement_famille'] = df_bodacc['jugement_famille'].replace('Jugement de clÃ´ture', 'Jugement de clôture')
df_bodacc['jugement_famille'] = df_bodacc['jugement_famille'].replace("ArrÃªt de la Cour d'Appel", "Arrêt de la Cour d'Appel")

In [7]:
# get rid of null siren with no info
df_bodacc = df_bodacc.dropna(subset='registre')
df_bodacc['registre'] = df_bodacc['registre'].astype(str)
df_bodacc['registre'] = df_bodacc['registre'].apply(lambda x : x.replace('000 000 000,000000000,', ''))
df_bodacc = df_bodacc[df_bodacc['registre'] != '000 000 000,000000000']

In [8]:
# extract SIREN
df_bodacc['SIREN'] = df_bodacc['registre'].apply(lambda x: x.split(',')[0].replace(' ', ''))
df_bodacc = df_bodacc.drop('registre', axis=1)

In [9]:
# format dates
df_bodacc['dateparution'] = pd.to_datetime(df_bodacc['dateparution'])
df_bodacc['jugement_date'] = pd.to_datetime(df_bodacc['jugement_date'], format='mixed', dayfirst=True, errors='ignore')

In [10]:
df_bodacc = df_bodacc.sort_values(by=['dateparution', 'SIREN'])

In [11]:
len(df_bodacc)

2451404

In [12]:
len(df_bodacc.SIREN.unique())

900242

In [13]:
# keep only relevant categories
df_bodacc = df_bodacc.loc[(df_bodacc['jugement_famille'] != 'Rétractation sur tierce opposition') & 
                          (df_bodacc['jugement_famille'] != 'Loi de 1967') &
                          (df_bodacc['jugement_famille'] != "Arrêt de la Cour d'Appel")]

In [14]:
# convert to simple sub categories of judgements
df_bodacc.loc[(df_bodacc['jugement_famille'] == 'Jugement prononçant') & (df_bodacc['jugement_nature'] != 'Jugement de conversion en liquidation judiciaire'), 'jugement_nature'] = 'Autre jugement'
df_bodacc.loc[(df_bodacc['jugement_famille'] == 'Jugement de clôture') & (df_bodacc['jugement_nature'] != "Jugement de clôture pour insuffisance d'actif"), 'jugement_nature'] = 'Autre jugement'
df_bodacc.loc[(df_bodacc['jugement_famille'] == "Jugement d'ouverture") & ((df_bodacc['jugement_nature'] != "Jugement d'ouverture de liquidation judiciaire") & (df_bodacc['jugement_nature'] != "Jugement d'ouverture d'une procédure de redressement judiciaire")), 'jugement_nature'] = 'Autre jugement'
df_bodacc.loc[(df_bodacc['jugement_famille'] == "Avis de dépôt") & (df_bodacc['jugement_nature'] != "Dépôt de l'état des créances"), 'jugement_nature'] = 'Autre jugement'

In [15]:
# simplify jugemetn nature for ouverture
df_bodacc.loc[df_bodacc['jugement_nature'] == "Jugement d'ouverture de liquidation judiciaire", "jugement_famille"] = "Jugement d'ouverture de liquidation"
df_bodacc.loc[df_bodacc['jugement_nature'] == "Jugement d'ouverture d'une procédure de redressement judiciaire", "jugement_famille"] = "Jugement d'ouverture de redressement"
df_bodacc.loc[df_bodacc['jugement_nature'] == "Autre jugement", "jugement_famille"] = "Jugement d'ouverture autre"

In [16]:
len(df_bodacc)

2443796

In [17]:
df_bodacc = df_bodacc[df_bodacc.numerodepartement.isin(['75', '77', '78', '91', '92', '93', '94', '95'])]

In [18]:
len(df_bodacc)

481844

### Format BODACC liquidation

In [20]:
df_bodacc_liq = df_bodacc[df_bodacc.jugement_famille == "Jugement d'ouverture de liquidation"].drop_duplicates('SIREN',
                                                                                                               keep='last')

In [19]:
siren_date = df_bodacc[(df_bodacc.dateparution > '2020-01-01')]
# format other type of date TO FIX
siren_date['year'] = siren_date['dateparution'].apply(lambda x: str(x)[:4])
siren_date = siren_date[siren_date['year'].isin(['2020', '2021', '2022', '2023'])]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  siren_date['year'] = siren_date['dateparution'].apply(lambda x: str(x)[:4])


In [21]:
df_bodacc_liq = df_bodacc[df_bodacc.SIREN.isin(list(siren_date.SIREN))]

In [82]:
cloture_list = list(df_bodacc[df_bodacc.jugement_famille == "Jugement de clôture"].drop_duplicates('SIREN', keep='last').SIREN)

In [89]:
df_bodacc_liq = df_bodacc_liq[~df_bodacc_liq['SIREN'].isin(cloture_list)]

In [90]:
len(df_bodacc_liq)

11369

In [91]:
df_bodacc_liq.head(3)

Unnamed: 0,id,dateparution,numeroannonce,numerodepartement,region_code,tribunal,commercant,ville,jugement_nature,jugement_famille,jugement_date,jugement_complement,SIREN,year
2034846,A201800912458,2018-05-15,2458,92,11.0,TRIBUNAL DE COMMERCE DE NANTERRE,GRENELLE EVENTS,Paris,Jugement d'ouverture de liquidation judiciaire,Jugement d'ouverture de liquidation,2020-05-03,"Jugement prononçant la liquidation judiciaire,...",820473312,2020
177512,A202000111777,2020-01-16,1777,77,11.0,TRIBUNAL DE COMMERCE DE MELUN,TSG,Vaux-le-Pénil,Jugement d'ouverture de liquidation judiciaire,Jugement d'ouverture de liquidation,2020-01-06,"Jugement prononçant la liquidation judiciaire,...",377517057,2020
731964,A202000111950,2020-01-16,1950,95,11.0,TRIBUNAL DE COMMERCE DE PONTOISE,"ALLURE FERMETURES, All.ferm",Baillet-en-France,Jugement d'ouverture de liquidation judiciaire,Jugement d'ouverture de liquidation,2020-01-06,"Jugement prononçant la liquidation judiciaire,...",508356821,2020


### Import other bases

In [24]:
# get SIREN of companies that are PM
SIREN = pd.read_csv('../0_data/base_sirene/StockUniteLegale_utf8.csv', 
                    usecols=['siren', 'denominationUniteLegale', 'prenom1UniteLegale'],
                    dtype = {'siren': str})
SIREN = SIREN[SIREN.prenom1UniteLegale.isna()]

  SIREN = pd.read_csv('../0_data/base_sirene/StockUniteLegale_utf8.csv',


In [25]:
df_bodacc_liq = df_bodacc_liq[df_bodacc_liq.SIREN.isin(list(SIREN.siren))]

In [26]:
len(df_bodacc_liq)

125538

In [None]:
df_parc1 = pd.concat([pd.read_csv(i,
                                  sep=';',
                                  encoding='latin',
                                  low_memory=False,
                                  dtype={'Département (Champ géographique)' : str,
                                         'Code Direction (Champ géographique)' : str,
                                         'Code Commune (Champ géographique)' : str,
                                         'Préfixe (Références cadastrales)' : str,
                                         'Section (Références cadastrales)' : str,
                                         'N° plan (Références cadastrales)' : str}) for i in glob.glob(
    "../0_data/parcelles/Fichier des parcelles (situation 2022)-dept 01 à 61/Fichier des parcelles (situation 2022)-dpts 01 à 61/*.txt", recursive=True)])

df_parc2 = pd.concat([pd.read_csv(i, sep=';',
                                  encoding='latin',
                                  low_memory=False,
                                  dtype={'Département (Champ géographique)' : str,
                                         'Code Direction (Champ géographique)' : str,
                                         'Code Commune (Champ géographique)' : str,
                                         'Préfixe (Références cadastrales)' : str,
                                         'Section (Références cadastrales)' : str,
                                         'N° plan (Références cadastrales)' : str}) for i in glob.glob(
    "../0_data/parcelles/Fichier des parcelles (situation 2022)-dept 62 à 976/Fichier des parcelles (situation 2022)-dpts 62 à 976/*.txt", recursive=True)])

df_parc = pd.concat([df_parc1, df_parc2], axis=0)

In [None]:
df_loc = pd.concat([pd.read_csv(i,
                                sep=';',
                                encoding='latin',
                                low_memory=False,
                                dtype={'Département (Champ géographique)' : str,
                                         'Code Direction (Champ géographique)' : str,
                                         'Code Commune (Champ géographique)' : str,
                                         'Préfixe (Références cadastrales)' : str,
                                         'Section (Références cadastrales)' : str,
                                         'N° plan (Références cadastrales)' : str}) for i in glob.glob(
    "../0_data/locaux/Fichier des locaux/*.txt",
    recursive=True)])

In [None]:
SIRET = pd.read_csv('../0_data/base_sirene/StockEtablissement_utf8.csv',
                    usecols=['siren', 'siret', 'libelleVoieEtablissement', 'libelleCommuneEtablissement'],
                    dtype = {'siren': str, 'siret': str, 'libelleVoieEtablissement': str, 'libelleCommuneEtablissement': str})

### Analysis

In [None]:
df = df_bodacc_liq.copy()

#### With parcelles

In [None]:
parc_bodacc = df.merge(df_parc, left_on='SIREN',
                       right_on = 'N° SIREN (Propriétaire(s) parcelle)',
                       how='left')

In [None]:
parc_bodacc = parc_bodacc[~parc_bodacc['N° SIREN (Propriétaire(s) parcelle)'].isna()]
parc_bodacc = parc_bodacc.drop_duplicates(['SIREN', 'jugement_date', 'Département (Champ géographique)', 
                                           'Code Commune (Champ géographique)', 'Section (Références cadastrales)',
                                           'Préfixe (Références cadastrales)', 'N° plan (Références cadastrales)'])

In [None]:
parc_bodacc

In [None]:
print('Number of parcelles concerned :', len(parc_bodacc))

In [None]:
print('Number of companies concerned :', len(parc_bodacc.SIREN.unique()))

In [None]:
parc_bodacc['Préfixe (Références cadastrales)'] = parc_bodacc['Section (Références cadastrales)'].apply(lambda x: '000' if len(x) == 2 else '0000')
parc_bodacc['parcelle_id'] = parc_bodacc['Département (Champ géographique)'] + parc_bodacc['Code Commune (Champ géographique)'] + parc_bodacc['Préfixe (Références cadastrales)'] + parc_bodacc['Section (Références cadastrales)']  + parc_bodacc['N° plan (Références cadastrales)']

In [None]:
list_cities = ['ALFORTVILLE', 'CHAMPIGNY SUR MARNE', 'FONTENAY SOUS BOIS',
               'ST MAUR DES FOSSES', 'ASNIERES-SUR-SEINE', 'CLICHY', 'LIVRY GARGAN']

parc_bodacc[parc_bodacc['Nom Commune (Champ géographique)'].isin(list_cities)]

#### With locaux

In [None]:
loc_bodacc = df.merge(df_loc,
                      left_on='SIREN',
                      right_on = 'N° SIREN (Propriétaire(s) du local)',
                      how='left')

In [None]:
loc_bodacc = loc_bodacc[~loc_bodacc['N° SIREN (Propriétaire(s) du local)'].isna()]
loc_bodacc = loc_bodacc.drop_duplicates(['SIREN', 'jugement_date', 'Département (Champ géographique)', 
                                         'Code Commune (Champ géographique)', 'Section (Références cadastrales)',
                                         'Préfixe (Références cadastrales)', 'N° plan (Références cadastrales)'])

In [None]:
loc_bodacc

In [None]:
print('Number of locaux concerned :', len(loc_bodacc))

In [None]:
loc_bodacc['Préfixe (Références cadastrales)'] = loc_bodacc['Section (Références cadastrales)'].apply(lambda x: '000' if len(x) == 2 else '0000')
df_loc['Préfixe (Références cadastrales)'] = df_loc['Section (Références cadastrales)'].apply(lambda x: '000' if len(str(x)) == 2 else '0000')

loc_bodacc['parcelle_id'] = loc_bodacc['Département (Champ géographique)'] + loc_bodacc['Code Commune (Champ géographique)']+ loc_bodacc['Préfixe (Références cadastrales)'] + loc_bodacc['Section (Références cadastrales)']  + loc_bodacc['N° plan (Références cadastrales)']
df_loc['parcelle_id'] = df_loc['Département (Champ géographique)'] + df_loc['Code Commune (Champ géographique)'] + df_loc['Préfixe (Références cadastrales)']  + df_loc['Section (Références cadastrales)'] + df_loc['N° plan (Références cadastrales)']

In [None]:
df_loc_perimetre = df_loc[df_loc['parcelle_id'].isin(loc_bodacc['parcelle_id'].unique())]
count_per_loc = df_loc_perimetre[['parcelle_id','N° SIREN (Propriétaire(s) du local)']].groupby('parcelle_id').count()
print('Proportion of locaux  where there is unique SIREN in it: ',
      round(100*len(count_per_loc[count_per_loc['N° SIREN (Propriétaire(s) du local)']!=1])/len(count_per_loc),2), '%' )

#### With SIRET

In [None]:
siret_bodacc = df.merge(SIRET, left_on='SIREN',
                               right_on = 'siren',
                               how='left')

In [None]:
len(siret_bodacc)

In [None]:
siret_bodacc_loc = siret_bodacc.merge(loc_bodacc, how='left',
                                      left_on=['siren', 'libelleVoieEtablissement', 'libelleCommuneEtablissement'],
                                      right_on=['N° SIREN (Propriétaire(s) du local)',
                                                'Nom voie (Adresse du local)', 'Nom Commune (Champ géographique)'])

In [None]:
siret_bodacc_loc = siret_bodacc_loc[['siren', 'siret', 'libelleVoieEtablissement', 'libelleCommuneEtablissement',
                  'Code Commune (Champ géographique)', 'Nom Commune (Champ géographique)',
                  'Bâtiment (Identification du local)',
                  'Entrée (Identification du local)', 'Niveau (Identification du local)',
                  'Porte (Identification du local)', 'N° voirie (Adresse du local)',
                  'Indice de répétition (Adresse du local)',
                  'Code voie MAJIC (Adresse du local)', 'Code voie rivoli (Adresse du local)', 'Nature voie (Adresse du local)',
                  'Nom voie (Adresse du local)', 'Code droit (Propriétaire(s) du local)',
                  'N° MAJIC (Propriétaire(s) du local)',
                  'N° SIREN (Propriétaire(s) du local)',
                  'Groupe personne (Propriétaire(s) du local)',
                  'Forme juridique (Propriétaire(s) du local)',
                  'Forme juridique abrégée (Propriétaire(s) du local)',
                  'Dénomination (Propriétaire(s) du local)', 'parcelle_id']]
siret_bodacc_loc = siret_bodacc_loc[~siret_bodacc_loc['parcelle_id'].isna()]

In [None]:
len(siret_bodacc_loc)

In [None]:
siret_bodacc_loc