## Les bibliotheques

In [71]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import chi2

## Les donnees

In [72]:
femme = pd.read_csv("afc_femme.csv", sep=";")
femme

Unnamed: 0,maison,partiel,plein
double,13,142,106
plus,30,408,117
seul,241,573,94


On calcule la marginale suivant les colonnes.

In [73]:
nj = femme.sum(axis=0)
nj

maison      284
partiel    1123
plein       317
dtype: int64

On calcule la marginale suivant les lignes.

In [74]:
ni = femme.sum(axis=1)
ni

double    261
plus      555
seul      908
dtype: int64

On calcule l'effectif de l'echantillon.

In [75]:
n = femme.values.sum()
n

1724

En colonne, il s'agit de la densite de la variable "Source des revenus"/"Situation de l'epouse"

In [76]:
femme_col = femme.mul(1/nj, axis=1)
femme_col

Unnamed: 0,maison,partiel,plein
double,0.045775,0.126447,0.334385
plus,0.105634,0.363313,0.369085
seul,0.848592,0.51024,0.29653


On calcule maintenant la densite theorique dans le cas des variables independance.

In [77]:
femme_the = (np.outer(ni, nj)/n)
femme_the

array([[  42.99535963,  170.01334107,   47.9912993 ],
       [  91.42691415,  361.52262181,  102.05046404],
       [ 149.57772622,  591.46403712,  166.95823666]])

On calcule la valeur de la statistique du $\chi^2$(4)

In [78]:
femme_chi = ((femme - femme_the)**2/femme_the).values.sum()
femme_chi

233.43041665766299

La valeurs de la pi-value associe au test d'independance

In [79]:
femme_pvalue = chi2.sf(femme_chi, 4)
femme_pvalue

2.4102475171612144e-49

## Analyse ligne

On peut aussi parler d'analyse de Situation/Source.

Chacunes des lignes represente la variable aleatoire Situation conditionnellement a Source egal au facteur de la ligne.
Plus precisement, il s'agit de la densite conditionnelle empirique.

In [80]:
femme_row = femme.mul(1/ni, axis=0)
femme_row

Unnamed: 0,maison,partiel,plein
double,0.049808,0.544061,0.40613
plus,0.054054,0.735135,0.210811
seul,0.265419,0.631057,0.103524


On represente ces trois lignes dans l'espace $\mathrm{R}^3$

In [166]:
import plotly.graph_objs as go

z_data = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/api_docs/mt_bruno_elevation.csv')

scatter3d_femme_row = go.Scatter3d(
    x = femme_row['maison'],
    y = femme_row['partiel'],
    z = femme_row['plein'])

scatter3d_femme_col = go.Scatter3d(
    x = femme_col.loc['double'],
    y = femme_col.loc['plus'],
    z = femme_col.loc['seul'])

triangle = go.Mesh3d(
    x = [1, 0, 0],
    y = [0, 1, 0],
    z = [0, 0, 1], opacity=0.5)

data = [scatter3d_femme_row, 
        scatter3d_femme_col, 
        triangle]


layout = go.Layout(
    title='Distribution Conditionnelle dans le triangle des probabilites',
    autosize=False,
    width=1000,
    height=1000
)
fig_femme_row = go.Figure(data=data, layout=layout)
py.iplot(fig_femme_row, filename='femme_row')
