# **Exploratory Data Analysis (EDA) - French Industry**#

In [None]:
import pandas as pd
import numpy as np
from google.colab import drive
drive.mount("/content/gdrive")

Mounted at /content/gdrive


## **ETABLISSEMENTS** ##

CODGEO : ID géographique de la ville  
LIBGEO : nom de la ville  
REG : numéro de région  
DEP : numéro de département  
E14TST : nombre total d'entreprises dans la ville  
E14TS0ND : nombre d'entreprises de taille inconnue ou nulle dans la ville  
E14TS1 : nombre d'entreprises de 1 à 5 employés dans la ville  
E14TS6 : nombre d'entreprises de 6 à 9 employés dans la ville  
E14TS10 : nombre d'entreprises de 10 à 19 employés dans la ville  
E14TS20 : nombre d'entreprises de 20 à 49 employés dans la ville  
E14TS50 : nombre d'entreprises de 50 à 99 employés dans la ville  
E14TS100 :  nombre d'entreprises de 100 à 199 employés dans la ville  
E14TS200 : nombre d'entreprises de 200 à 499 employés dans la ville  
E14TS500 : nombre d'entreprises de plus de 500 employés dans la ville  

In [None]:
ets = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/base_etablissement_par_tranche_effectif.csv')
ets.head()

Unnamed: 0,CODGEO,LIBGEO,REG,DEP,E14TST,E14TS0ND,E14TS1,E14TS6,E14TS10,E14TS20,E14TS50,E14TS100,E14TS200,E14TS500
0,1001,L'Abergement-Clémenciat,82,1,25,22,1,2,0,0,0,0,0,0
1,1002,L'Abergement-de-Varey,82,1,10,9,1,0,0,0,0,0,0,0
2,1004,Ambérieu-en-Bugey,82,1,996,577,272,63,46,24,9,3,2,0
3,1005,Ambérieux-en-Dombes,82,1,99,73,20,3,1,2,0,0,0,0
4,1006,Ambléon,82,1,4,4,0,0,0,0,0,0,0,0


In [None]:
#Combien de lignes?
print('Nombre de lignes : {}'.format(len(ets)))

Nombre de lignes : 36681


In [None]:
#Doublons?
ets.duplicated().value_counts()

False    36681
dtype: int64

In [None]:
#Mis à part LIBGEO, uniquement des colonnes avec des nombres
ets_numbers = ets.select_dtypes(include='number')

#On note aussi la disparition de la colonne 'DEP' qui est donc de dtype object
ets_numbers.head()

Unnamed: 0,REG,E14TST,E14TS0ND,E14TS1,E14TS6,E14TS10,E14TS20,E14TS50,E14TS100,E14TS200,E14TS500
0,82,25,22,1,2,0,0,0,0,0,0
1,82,10,9,1,0,0,0,0,0,0,0
2,82,996,577,272,63,46,24,9,3,2,0
3,82,99,73,20,3,1,2,0,0,0,0
4,82,4,4,0,0,0,0,0,0,0,0


In [None]:
#Quelles sont les valeurs non numériques dans DEP ?
DEP_no_numbers = []

for i in ets.DEP:
  try:
    int(i)
  except:
    DEP_no_numbers.append(i)

#Départements de la Corse
print(np.unique(DEP_no_numbers))

['2A' '2B']


In [None]:
#Est-ce que les 0 sont bien présents dans les DPT 01,02,etc.? --> OUI
ets[ets.DEP.isin(['01','02','03','04','05','06','07','08','09','10'])].DEP.value_counts(dropna=False).sort_index()

01    419
02    816
03    320
04    200
05    172
06    163
07    339
08    463
09    332
10    433
Name: DEP, dtype: int64

In [None]:
#pour les colonnes avec le nombre d'établissements, est-ce que les min et max sont cohérents?
for i in ets_numbers.columns[1:]:
  print('Colonne {} : min = {} / max = {}'.format(i, ets[i].min(), ets[i].max()))

Colonne E14TST : min = 0 / max = 427385
Colonne E14TS0ND : min = 0 / max = 316603
Colonne E14TS1 : min = 0 / max = 76368
Colonne E14TS6 : min = 0 / max = 14836
Colonne E14TS10 : min = 0 / max = 10829
Colonne E14TS20 : min = 0 / max = 5643
Colonne E14TS50 : min = 0 / max = 1658
Colonne E14TS100 : min = 0 / max = 812
Colonne E14TS200 : min = 0 / max = 456
Colonne E14TS500 : min = 0 / max = 180


In [45]:
#Quel est le poids de E14TS0ND (nombre d'entreprises de taille inconnue ou nulle dans la ville) dans le dataset?

#Nombre d'entreprises de taille inconnue ou nulle
E14TS0ND = ets.E14TS0ND.sum()
print('Nombre d\'entreprises de taille inconnue ou nulle : {}'.format(E14TS0ND))

ets_taille_connue = ets_numbers.drop(['REG', 'E14TS0ND'], axis=1)

total_ets_avec_taille = 0
for i in ets_taille_connue.columns:
  total_ets_avec_taille += ets_taille_connue[i].sum()

print('Nombre d\'entreprises avec taille connue : {}'.format(total_ets_avec_taille))
print('Proportion d\'entreprises avec taille inconnue ou nulle : {}%'.format(np.round(E14TS0ND / (E14TS0ND + total_ets_avec_taille) * 100),1))

Nombre d'entreprises de taille inconnue ou nulle : 3064892
Nombre d'entreprises avec taille connue : 5992092
Proportion d'entreprises avec taille inconnue ou nulle : 34.0%
