# Descriptive Statistics with Python and R


## Index:
* [Data-set](#1)
* [Selecting](#2)
* [Sampling](#3)
* [Filtering](#4)
* [Mutate](#5)
* [Arrange](#6)
* [Rename](#7)
* [Gather](#8)
* [Spread](#9)
* [Separate](#10)
* [Unite](#11)
* [Joins](#12)
* *  [Inner Join](#13)
* * [Full Join](#14)
* * [Left Join](#15)
* * [Right Join](#16)
* * [Semi Join](#17)
* * [Anti Join](#18)
* * [Union](#19)
* * [Intersect](#20)
* * [Difference](#21)
*  [Concatenate](#22)
*  [Group and Summarize](#23)
*  [Other usuful functions ](#24)

## Data-Set <a class="anchor" id="1"></a>

We load the data-set with which we are going to work mainly:

Working with `Python`:

In [2]:
import pandas as pd

from IPython.display import display
pd.options.display.max_columns = None

import warnings
warnings.filterwarnings('ignore')

In [3]:
url = 'https://raw.githubusercontent.com/FabioScielzoOrtiz/Estadistica4all-blog/main/Descriptive%20Statisitcs%20in%20Python%20and%20R/datosAragon.csv'

data_Python = pd.read_csv(url)

data_Python

Unnamed: 0,ca,datosECVmas16.prov,nomprov,gen,edad,nac,neduc,sitlab,ingnorm,horas,factorel
0,2,22,Huesca,1,3,1,3,1,21237.1,36.42,393.7
1,2,22,Huesca,2,2,1,2,1,17810.8,31.72,393.7
2,2,22,Huesca,1,1,1,2,1,11889.1,31.88,393.7
3,2,22,Huesca,1,1,1,2,1,16000.5,38.18,393.7
4,2,22,Huesca,1,1,1,2,3,21169.6,0.00,393.7
...,...,...,...,...,...,...,...,...,...,...,...
1231,2,50,Zaragoza,1,2,1,2,1,11760.6,28.79,2206.1
1232,2,50,Zaragoza,1,2,1,2,2,19321.6,0.00,124.4
1233,2,50,Zaragoza,2,2,1,2,1,19924.8,37.21,124.4
1234,2,50,Zaragoza,2,3,1,1,3,13042.5,0.00,246.5


In [4]:
# pip install dfply 

In [5]:
from dfply import *

In [6]:
list(range(2,10)) 

[2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
data_Python = (data_Python.T >> row_slice( list(range(2,10)) ) ).T

data_Python

Unnamed: 0,nomprov,gen,edad,nac,neduc,sitlab,ingnorm,horas
0,Huesca,1,3,1,3,1,21237.1,36.42
1,Huesca,2,2,1,2,1,17810.8,31.72
2,Huesca,1,1,1,2,1,11889.1,31.88
3,Huesca,1,1,1,2,1,16000.5,38.18
4,Huesca,1,1,1,2,3,21169.6,0.0
...,...,...,...,...,...,...,...,...
1231,Zaragoza,1,2,1,2,1,11760.6,28.79
1232,Zaragoza,1,2,1,2,2,19321.6,0.0
1233,Zaragoza,2,2,1,2,1,19924.8,37.21
1234,Zaragoza,2,3,1,1,3,13042.5,0.0


In [8]:
data_Python = data_Python >> rename( genero=X.gen , provincia=X.nomprov , ingresos=X.ingnorm ) 

data_Python

Unnamed: 0,provincia,genero,edad,nac,neduc,sitlab,ingresos,horas
0,Huesca,1,3,1,3,1,21237.1,36.42
1,Huesca,2,2,1,2,1,17810.8,31.72
2,Huesca,1,1,1,2,1,11889.1,31.88
3,Huesca,1,1,1,2,1,16000.5,38.18
4,Huesca,1,1,1,2,3,21169.6,0.0
...,...,...,...,...,...,...,...,...
1231,Zaragoza,1,2,1,2,1,11760.6,28.79
1232,Zaragoza,1,2,1,2,2,19321.6,0.0
1233,Zaragoza,2,2,1,2,1,19924.8,37.21
1234,Zaragoza,2,3,1,1,3,13042.5,0.0


Working with `R`

In [9]:
import rpy2

In [10]:
%load_ext rpy2.ipython

Unable to determine R home: [WinError 2] El sistema no puede encontrar el archivo especificado


In [11]:
import rpy2.robjects as robjects

In [12]:
%%R

library(tidyverse)

url = 'https://raw.githubusercontent.com/FabioScielzoOrtiz/Estadistica4all-blog/main/Descriptive%20Statisitcs%20in%20Python%20and%20R/datosAragon.csv'

data_R <- read_csv(url)

data_R <- data_R %>% select(3:10)

data_R <- data_R %>% rename("genero"="gen",
         "provincia"="nomprov", "ingresos"="ingnorm")

data_R <- as.data.frame(data_R)

R[write to console]: -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

R[write to console]: v ggplot2 3.3.6     v purrr   0.3.4
v tibble  3.1.7     v dplyr   1.0.9
v tidyr   1.2.0     v stringr 1.4.0
v readr   2.1.2     v forcats 0.5.1

R[write to console]: -- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()



Rows: 1236 Columns: 11
-- Column specification --------------------------------------------------------
Delimiter: ","
chr  (1): nomprov
dbl (10): ca, datosECVmas16.prov, gen, edad, nac, neduc, sitlab, ingnorm, ho...

i Use `spec()` to retrieve the full column specification for this data.
i Specify the column types or set `show_col_types = FALSE` to quiet this message.


In [13]:
%%R

head(data_R)

  provincia genero edad nac neduc sitlab ingresos horas
1    Huesca      1    3   1     3      1  21237.1 36.42
2    Huesca      2    2   1     2      1  17810.8 31.72
3    Huesca      1    1   1     2      1  11889.1 31.88
4    Huesca      1    1   1     2      1  16000.5 38.18
5    Huesca      1    1   1     2      3  21169.6  0.00
6    Huesca      1    2   1     2      1  16001.3 34.52


The definition of the variables are the following:

-   **provincia**: indicates the province of the Aragon community which belong the sample individuals.

-   **genero**: indicates the sex of the sample individuals. Take 1 if it's male and 2 if it's female.

-   **edad**: indicates the age range of the sample individuals.
    Take 1 if age is between 16 and 24 ages,  2 if age is between 25 and 49 ages, and 3 if age is between 50 and 64 ages, and 4 if age is greater or equal than 65 ages.

-   **nacionalidad** (**nac**): indicates the nacionality of the sample individuals. If they are from Spain, it takes 1, and if they are from other country, it takes 2.

-   **situacion laboral** (**sitlab**): indicates the labor situation of the sample individuals. It takes 1 if they are working, 2 if they are unemployed, and 3 if they are inactive.

-   **ingresos** : indicates the incomes of the individuals in the sample.

-   **horas** : indicates the number of working hours of the individuals in the sample.

## Statistical Variable <a class="anchor" id="2"></a>

$$
X_k= \begin{pmatrix}
x_{1k} \\
x_{2k}\\
... \\
x_{nk} 
\end{pmatrix} 
$$

is una **variable estadística** porque es un vector con los
valores/observaciones de la variable $X_k$ para $n$ indiviuos/elementos
de una muestra.

Donde:  $x_{ik}$ es el valor u observación de la variable $X_k$ para el
elemento $i$ de la muestra ($i$-esima observación de la variable $X_k$)

## Data Martrix   <a class="anchor" id="3"></a>

En general, si hemos observado $p$ variables sobre una muestra
$\varepsilon$ de $n$ elementos o individuos ,

La matriz de datos $X$ de las variables $X_1,...,X_p$ medidas sobre los
$n$ individuos o elementos de $\varepsilon$ es:

$$
X= \begin{pmatrix}
x_{11} & x_{12}&...&x_{1p}\\
x_{21} & x_{22}&...&x_{2p}\\
...&...&...&...\\
x_{n1}& x_{n2}&...&x_{np}
\end{pmatrix}
$$

Observación: $X$ es una matriz $nxp$

## Data Martrix Representation by Rows   <a class="anchor" id="4"></a>

$$
X= \begin{pmatrix}
x_{1}^{t} \\
x_{2} ^t \\
... \\
x_{n} ^t 
\end{pmatrix}
$$

Donde:

$x_i ^t = (x_{i1}, x_{i2}, ..., x_{ip} )$ es el vector con los valores
de las $p$ variables $X_1,...,X_p$ para el individuo/elemento $i$ de la
muestra, con $i=1,...,n$

## Data Martrix Representation by Columns   <a class="anchor" id="5"></a>


Podemos expresar:

$$
X= (X_1 , X_2 ,..., X_p )
$$

Donde: 
$$
X_k= \begin{pmatrix}
x_{1k} \\
x_{2k}\\
... \\
x_{nk} 
\end{pmatrix} 
$$

para $k=1,2,...,p$


## Range of a Statistical Variable   <a class="anchor" id="6"></a>



El **recorrido** de una variable estadistica $X_k$ es el conjunto de
valores que puede tomar la variable.

En funcion del recorrido de una variable podemos determinar si es
**cuantitativa** o **categorica**. Clasificación que tiene una
relevancia central en la estadística.

\

Ejemplos:

\vspace{0.1cm}

$X_k =$ Ingresos de 1000 empleados de Amazon $\Rightarrow$
$Recorrido(X_k) =[0, \infty )$

\vspace{0.2cm}

$X_k =$ Marca del coche de 50 futbolistas $\Rightarrow$
$Recorrido(X_k) = \lbrace Mercedes, Audi, ... \rbrace$

\vspace{0.2cm}

$X_k =$ Numero de chalets de 10 urbanizaciones $\Rightarrow$
$Recorrido(X_k) = \lbrace 0, 1, 2,... \rbrace$

## Types of Statistical Variable   <a class="anchor" id="7"></a>



Tipos de variables estadísticas:

La variable $X_k$ es **cuantitativa** si los elementos de su recorrido
son conceptualmente numeros

La variable $X_k$ es **categorica** si los elementos de su recorrido son
etiquetas o categorías (pueden ser numeros a nivel símbolico pero no a
nivel conceptual)

En este trabajo se asumira que el recorrido de las variables categoricas
son numeros, puesto que esto permitirá poder aplicarle algunos conceptos
que no podrian aplicarse si su recorrido no fueran numeros, aunque, como
se ha comentado, actuarán como etiquetas o categorías.

### Types of Quantitative Variables <a class="anchor" id="8"></a>


 

#### Discrete and Continuous Variables <a class="anchor" id="9"></a>
 

Sea $X_k$ una variable {cuantitativa},

 

La variable $X_k$ es **discreta** si su recorrido es un conjunto
numerable

La variable $X_k$ es **continua** si su recorrido no es numerable

**Observación:**

En particular, variables cuyo **recorrido** sea un conjunto **finito**
serán **discretas**.

Variables cuyo **recorrido** sea un conjunto **infinito** serán
**continuas**.

 

### Types of Categorical Variables   <a class="anchor" id="10"></a>

 

Sea $X_k$ una variable **categorica** ,

$X_k$ es **r-aria** si su recorrido tiene **r** elementos que son
categorias o etiquetas

En estadistica tienen particular importancia las variables categoricas
**binarias** (2-aria).

 

#### Nominal and Ordinal Variables <a class="anchor" id="11"></a>


Sea $X_k$ una variable categorica $r$-aria,

La variable $X_k$ es **nominal** si **no existe una ordenacion** entre
las $r$ categorias de su recorrido

La variable $X_k$ es **ordinal** si **existe una ordenacion** entre las
$r$ categorias de su recorrido.

 

**Ejemplos:** \vspace{0.25cm}

$Recorrido(X_k)= \lbrace Apple , Samsung, Oppo \rbrace \Rightarrow X_k$
es categorica nominal \vspace{0.20cm}

$Recorrido(X_k)= \lbrace mal , regular, bien \rbrace \Rightarrow X_k$ es
categorica ordinal

 



## Descriptive Statistic   <a class="anchor" id="11"></a>

Un estadistico descriptivo es una funcion de los elementos de una
muestra.

\vspace{0.3cm}

En general, toda funcion aplicada sobre una variable estadistica $X_k$
es un estadistico.

\vspace{0.3cm}

A continuacion veremos algunos de los estadisticos descriptivos mas
utilizados.

\

### Mean   <a class="anchor" id="12"></a>


\

La media aritmetica de la variable $X_k$ se define como: \begin{gather*}
\overline{X_k}=  \frac{1}{n} \cdot \sum_{i=1}^{n} x_{ik} 
\end{gather*}

\vspace{0.3cm}

Observación: en general a la media aritmetica se le llama simplemente
media.

\vspace{0.2cm}

**Propiedades:**

```{=tex}
\begin{gather*}
\sum_{i=1}^{n} \left( x_{ik} - \overline{X_k} \right) = 0
\end{gather*}
```
\



#### Mean in R   <a class="anchor" id="12"></a>


In [14]:
%%R
head(data_R)

  provincia genero edad nac neduc sitlab ingresos horas
1    Huesca      1    3   1     3      1  21237.1 36.42
2    Huesca      2    2   1     2      1  17810.8 31.72
3    Huesca      1    1   1     2      1  11889.1 31.88
4    Huesca      1    1   1     2      1  16000.5 38.18
5    Huesca      1    1   1     2      3  21169.6  0.00
6    Huesca      1    2   1     2      1  16001.3 34.52


In [15]:
%%R
mean(data_R$ingresos)

[1] 14078.77



#### Mean in Python   <a class="anchor" id="12"></a>





In [17]:
data_Python >> head()

Unnamed: 0,provincia,genero,edad,nac,neduc,sitlab,ingresos,horas
0,Huesca,1,3,1,3,1,21237.1,36.42
1,Huesca,2,2,1,2,1,17810.8,31.72
2,Huesca,1,1,1,2,1,11889.1,31.88
3,Huesca,1,1,1,2,1,16000.5,38.18
4,Huesca,1,1,1,2,3,21169.6,0.0


In [21]:
data_Python[['ingresos']].mean() 

ingresos    14078.766909
dtype: float64

In [31]:
( data_Python >> select(X.ingresos) ).mean() 


ingresos    14078.766909
dtype: float64


### Mean Vector   <a class="anchor" id="12"></a>

Dada una matriz de datos $X$ de tamaño $nxp$,

El vector de medias de X es: \begin{gather*}
\overline{X}=( \overline{X_1} , \overline{X_2} , ... , \overline{X_p} ) ^t
\end{gather*}

\

#### Matrix Expression of the Mean Vector   <a class="anchor" id="12"></a>


La expresión matricial del vector de medias de X es: 
$$
\overline{X}= \dfrac{1}{n} \cdot X\hspace{0.05cm}^t \cdot \overrightarrow{1}_{nx1}
$$

\

### Ponderate Mean   <a class="anchor" id="12"></a>

\

Dada la variable $X_k=(x_{1k}, x_{2k},...,x_{nk})^t$

\vspace{0.25cm}

Dados unos pesos para cada una de las n observaciones de la variable
$X_k$ : $w=(w_1,w_2,...,w_n)^t$

\vspace{0.25cm}

La **media ponderada** de la variable $X_k$ con el vector de pesos $w$
es: 
$$
\overline{X_k} (w) =   \dfrac{\sum_{i=1}^{n}  x_{ik}\cdot w_i  }{ \sum_{i=1}^{n}  w_{i} }  
$$

\

### Geometric Mean   <a class="anchor" id="12"></a>


\

Dada la variable $X_k=(x_{1k}, x_{2k},...,x_{nk})^t$

\vspace{0.25cm}

La **media geometrica** de la variable $X_k$ es: \begin{gather*}
\overline{X_k}_{geom} =   \sqrt{\Pi_{i=1}^{n}  x_{ik}} = \sqrt{x_{1k}\cdot x_{2k}\cdot...\cdot x_{nk}} 
\end{gather*}

\

### Median  <a class="anchor" id="12"></a>

\

La **mediana** de la variable $X_k$ es un valor tal que la {mitad} de
las observaciones de $X_k$ son **inferiores** a él.

 

Dada la variable $X_k=(x_{1k}, x_{2k},...,x_{nk})^t$

\vspace{0.2cm}

Ordenamos sus valores de menor a mayor
$x_{(1)k} < x_{(2)k} < ...< x_{(n)k}$

\vspace{0.2cm}

La mediana de la variable $X_k$ es:

$$
Mediana(X_k)=  \left\lbrace\begin{array}{l} \dfrac{ x_{(n/2)k} + x_{(n/2 + 1)k} }{2} \hspace{0.3cm},\text{ si n es  {par}} \\ x_{(\lceil n/2 \rceil)k} \hspace{0.3cm},\text{   si n es  {impar}  }  \end{array}\right.
$$
\



#### Median in R   <a class="anchor" id="12"></a>



Podemos calcular la mediana en R usando la función \textit{median()}


In [32]:
%%R

median(data_R$ingresos) 

[1] 12331



Podemos comprobar que efectivamente la mitad de las observaciones de la
variable ingresos son menores que la mediana.


In [33]:
%%R

sum(data_R$ingresos < median(data_R$ingresos) )/length(data_R$ingresos)

[1] 0.5



#### Median in Python   <a class="anchor" id="12"></a>

