<a href="https://colab.research.google.com/github/r2x4/machine_alura_oracle/blob/main/frecuencia_medidas/colab_estadistica.ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

***
# <font color=#56B4E9 size=10>CURSO DE ESTADÍSTICA</font>
***

<font color=#56B4E9 size = 5>*Preparando el ambiente*</font>

# <font color=#56B4E9>1 CONOCIENDO LOS DATOS</font>
***

## <font color=#56B4E9>1.1 Dataset del proyecto</font>
***

### Muestra de domicilios Colombia - 2018

Las investigaciones por muestras de domicilios realizadas anualmente, buscan encontrar característcias generales de la población, de educación, trabajo, rendimiento y otras, de acuerdo con las necesidades de información del país, tales como las características de migración, fertilidad, casamientos, salud, nutrición, entre otros temas. Estas muestras al pasar de los años consistuyen una herramienta importante para la formulación, validación y evaluación de políticas dirigidas al desarrollo socioeconómico y la mejora de las condiciones de vida en Colombia.


### Datos

Los datos fueron creados  de manera didáctica para este curso.

### Variables utilizadas

> ### Ingreso
> ***

Ingresos mensuales (en miles de pesos) del trabajo principal para personas de 10 años o más.

> ### Edad
> ***

Edad del entrevistado en la fecha de referencia en años.

> ### Altura
> ***

Altura del entrevistado em metros.

> ### Ciudad
> ***

Código de referência a 27 ciudades analizadas.


> ### Sexo
> ***

|Código|Descripción|
|---|---|
|0|Masculino|
|1|Femenino|

> ### Años de Estudio
> ***

|Código|Descripción|
|---|---|
|1|Sin estudios y menos de 1 año|
|2|1 año|
|3|2 años|
|4|3 años|
|5|4 años|
|6|5 años|
|7|6 años|
|8|7 años|
|9|8 años|
|10|9 años|
|11|10 años|
|12|11 años|
|13|12 años|
|14|13 años|
|15|14 años|
|16|15 años o más|
|17|No se sabe|
||No aplica|

> ### Color
> ***

|Código|Descripción|
|---|---|
|0|Indio|
|2|Blanco|
|4|Negro|
|6|Amarillo|
|8|Moreno|
|9|Sin declarar|

> ### Tratamiento a los datos
***

> Algunos de los tratamientos de datos más frecuentes son:
> 1. Eliminar las observaciones (líneas) con entradas de datos inválidos;
> 2. Eliminar observaciones donde hay datos perdidos (missing data);
> 3. Filtros própios de la investigación, por ejemplo: considerar solo las encuestas realizadas a la cabeza de familia (responsable por el domicilio).

### Importando pandas y leyendo el dataset del projecto

https://pandas.pydata.org/

In [None]:
import pandas as pd

In [None]:
datos = pd.read_csv("/content/datos.csv")

In [None]:
datos.sample(10)

## <font color=#56B4E9>1.2 Tipos de datos</font>
***

### Clasificación de una variable
<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img001.png' width='70%'>

### Variables cualitativas ordinales

► Variables que pueden ser ordenadas o que responen algun tipo de jerarquía

In [None]:
sorted(datos['Años de Estudio'].unique())

### Variables cualitativas nominales

► Variables que no pueden ser ordenadas ni responden alguna jerarquía.

In [None]:
sorted(datos['Sexo'].unique())

In [None]:
sorted(datos['Color'].unique())

In [None]:
sorted(datos['Ciudad'].unique())

### Variables cuantitativas discretas

► Variables que representan un conteo donde los valores posibles forman un conjunto finito o numerable.


In [None]:
datos.Edad.max()

In [None]:
print(f"La edad mínima es {datos.Edad.min()} y la edad máxima es {datos.Edad.max()}")

#### <font color='red'>Observación</font>
***
> La variable edad puede ser clasificada de tres formas diferentes:
> 1. <b>CUANTITATIVA DISCRETA</b> - cuando representa años completos (números enteros);
> 2. <b>CUANTITATIVA CONTINUA</b> - cuando representa la edad exacta, siendo representada por fracciones de años;
> 3. <b>CUALITATIVA ORDINAL</b> - cuando representa  intervalos de edad.

### Variables cuantitativas continuas

► Variables que representan un conteo o medición que asume valores en escalas continuas (números reales).

In [None]:
print(f"La Altura mínima es {datos['Altura'].min()} y la altura máxima es {datos['Altura'].max()}")

# <font color=#56B4E9>2 DISTRIBUCIÓN DE FRECUENCIAS</font>
***

El primer paso en un análisis es conocer el comportamiento de las variables involucradas en el estudio. Utilizando técnicas estadísticas como el análisis de las <b> DISTRIBUCIONES DE FRECUENCIAS </b> e <b> HISTOGRAMAS </b> podemos evaluar mejor cómo se distribuyen los fenómenos del estudio.



## <font color=#56B4E9>2.1 Distribución de frecuencias para variables cualitativas</font>
***

### Método 1

https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.Series.value_counts.html

In [None]:
# ve rpor grupos de hombres y mujeres

datos.Sexo.value_counts()

In [None]:
# lo vamos a ver por poorcentaje

datos.Sexo.value_counts(normalize = True).round(4) * 100

In [None]:
# varibale
frecuencia_sexo = datos.Sexo.value_counts()
frecuencia_sexo

In [None]:
# porcentaje

porcentaje_sexo = datos.Sexo.value_counts(normalize = True).round(4) * 100
porcentaje_sexo

In [None]:
# crear tabla= crear dataframe

dist_frec_cualitativa = pd.DataFrame({'Frecuencia': frecuencia_sexo, 'Porcentaje': porcentaje_sexo})
dist_frec_cualitativa

In [None]:
# renombrar los datos de la columna en este caso 0 - 1

dist_frec_cualitativa.rename(index = {0: 'Masculino', 1: 'Femenino'}, inplace = True)
dist_frec_cualitativa

In [None]:
# ponemos nombre ala columna

dist_frec_cualitativa.rename_axis('Sexo', axis = 'columns', inplace = True)
dist_frec_cualitativa

### Método 2

https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.crosstab.html

In [None]:
sexo = {0: 'Masculino',
        1: 'Femenino'}

color = {0: 'Indigena',
         2: 'Blanco',
         4: 'Negro',
         6: 'Amarillo',
         8: 'Pardo',
         9: 'Sin declarar'}

In [None]:
# columnas y filas

frecuencia = pd.crosstab(datos.Sexo,
                    datos.Color)
frecuencia

In [None]:
# renombrar

frecuencia.rename(index = sexo, inplace = True)
frecuencia.rename(columns = color, inplace = True)
frecuencia

In [None]:
# porcentaje

frecuencia_porc = pd.crosstab(datos.Sexo,
                    datos.Color,
                    normalize = True).round(4) * 100
frecuencia_porc

In [None]:
# renombrar

frecuencia_porc.rename(index = sexo, inplace = True)
frecuencia_porc.rename(columns = color, inplace = True)
frecuencia_porc

## <font color=#56B4E9>2.2 Distribución de frecuencia para variables cuantitativas (clases personalizadas)</font>
***

### Paso 1 - Especifique los límites de cada clase

Utilice la siguiente clasificación:

<b>A</b> ► Más de 20 SM

<b>B</b> ► De 10 a 20 SM

<b>C</b> ► De 4 a 10 SM

<b>D</b> ► De 2 a 4 SM

<b>E</b> ► Hasta 2 SM

donde <b>SM</b> es el valor del salario mínimo en ese momento. En nuestro caso <b>788 mil pesos colombianos</b> (2018):

<b>A</b> ► Más de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Hasta 1.576


In [None]:
datos.Ingreso.min()

In [None]:
datos.Ingreso.max()

In [None]:
clases = [0, 1.576, 3.152, 7.880, 15.760, 200000]
clases

In [None]:
label = ['E', 'D', 'C', 'B', 'A']
label

### Paso 2 - Crear la tabla de frecuencias

https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.cut.html

In [None]:
# creamos tabla de frecuencia

frecuencia_ingreso = pd.cut(x = datos.Ingreso,
                            bins = clases,
                            labels = label,
                            include_lowest = True)
frecuencia_ingreso.sample(10)

In [None]:
# creamos tabla de frecuencia conteo general

frecuencia_ingreso = pd.value_counts(pd.cut(x = datos.Ingreso,
                            bins = clases,
                            labels = label,
                            include_lowest = True))
frecuencia_ingreso

In [None]:
# otra forma
# Crear tabla de frecuencia con conteo general (frecuencia absoluta)
frecuencia_ingreso = pd.cut(x=datos.Ingreso,
                            bins=clases,
                            labels=label,
                            include_lowest=True).value_counts(sort=True)

frecuencia_ingreso


In [None]:
# porcentaje

porcentaje_ingreso = pd.cut(x = datos.Ingreso,
                            bins = clases,
                            labels = label,
                            include_lowest = True).value_counts(sort = True, normalize = True).round(5) * 100
porcentaje_ingreso

In [None]:
# crear tabla= crear dataframe

dist_frec_cuant_personalizada = pd.DataFrame({'Frecuencia': frecuencia_ingreso, 'Porcentaje %': porcentaje_ingreso})

dist_frec_cuant_personalizada.sort_index(ascending = False)

## <font color=#56B4E9>2.3 Distribución de frecuencia para variables cuantitativas (clases de amplitud fija)</font>
***

### Importando bibliotecas

http://www.numpy.org/

In [None]:
import numpy as np

### Paso 1 - Difiniendo el número de clases

#### Regla de Sturges

# $$k = 1 + \frac {10}{3}\log_{10}n$$

In [None]:
# calcular el tamo de la base de datos

n = datos.shape[0]

In [None]:
# regla de sturges

k = 1 + (10/3) * np.log10(n)
k

### Paso 2 - Crear la tabla de frecuencias

In [None]:
# crear la frecuencia

frecuencia_sturges = pd.cut(x=datos.Ingreso,
                            bins=17,
                            include_lowest=True).value_counts(sort=False)

frecuencia_sturges

In [None]:
# porcentaje

porcentaje_sturges = pd.cut(x = datos.Ingreso,
                            bins = 17,
                            include_lowest = True).value_counts(
                                normalize = True,
                                sort = False).round(5) * 100

porcentaje_sturges


In [None]:
# crear la tabla

dist_frec_cuant_amplitud_fija = pd.DataFrame({'Frecuencia': frecuencia_sturges, 'Porcentaje %': porcentaje_sturges})

dist_frec_cuant_amplitud_fija.sort_index(ascending = False)

## <font color=#56B4E9>2.4 Histograma</font>
***

El <b>HISTOGRAMA</b> es la representación gráfica de una distribución de frecuencia. Es un gráfico formado por un conjunto de rectángulos colocados uno al lado del otro, donde el área de cada rectángulo es proporcional a la frecuencia de la clase que representa.

### Importando la biblioteca

https://seaborn.pydata.org/

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# hacer histograma

ax = sns.distplot(datos.Altura, kde=False)

ax.figure.set_size_inches(12, 6)
ax.set_title('Histograma de Altura', fontsize=18)
ax.set_xlabel('Altura (m)', fontsize=16)
ax


In [None]:
# hacer histograma

ax = sns.distplot(datos.Altura, kde=True)

ax.figure.set_size_inches(12, 6)
ax.set_title('Histograma de Altura', fontsize=18)
ax.set_xlabel('Altura (m)', fontsize=16)
ax

In [None]:
ax = sns.histplot(datos.Altura, kde=True)

# Ajustar tamaño y etiquetas
ax.figure.set_size_inches(12, 6)
ax.set_title('Histograma de Altura', fontsize=18)
ax.set_xlabel('Altura (m)', fontsize=16)

ax

# <font color=#56B4E9>3 MEDIDAS DE TENDENCIA CENTRAL</font>
***

## DataFrame de ejemplo

In [None]:
df = pd.DataFrame(data = {'María': [8, 10, 4, 8, 6, 10, 8],
                          'Pedro': [10, 2, 0.5, 1, 3, 9.5, 10],
                          'Pablo': [7.5, 8, 7, 8, 8, 8.5, 7]},
                  index = ['Matemática',
                           'Portugués',
                           'Inglés',
                           'Geografía',
                           'Historia',
                           'Física',
                           'Química'])
df.rename_axis('Asignaturas', axis = 'columns', inplace = True)
df

## <font color=#56B4E9>3.1 Media aritmética</font>
***

Es representada por $\mu$ cuando se refiere a la población y por $\bar{X}$ cuando se refiere a la muestra

# $$\mu = \frac 1n\sum_{i=1}^{n}X_i$$

donde

$n$ = número de observaciones (registros)

$X_i$ = valor de la i-ésima observación (registro)

In [None]:
# calcular la media de valores

(8 + 10 + 4 + 8 + 6 + 10 + 8) / 7

In [None]:
# funcion para la media

df['María'].mean()

In [None]:
# media por los sexos de las personas que ingresan

datos.groupby(['Sexo'])['Ingreso'].mean()

## <font color=#56B4E9>3.2 Mediana</font>
***

Para obtener la mediana de un conjunto de datos, debemos proceder de la siguiente manera:
1. Ordenar el conjunto de datos;
2. Identificar el número de observaciones (registros) del conjunto de datos ($n$);
3. Identicar el elemento del medio:

> Cuando $n$ sea impar, la posición del elemento del medio se obtendrá de la siguiente manera:


# $$Elemento_{Md} = \frac{n+1}{2}$$

> Cuando $n$ sea par, la posición del elemento mediano se obtendrá de la siguiente manera:


# $$Elemento_{Md} = \frac{n}2$$

4. Obtener la mediana:

> Cuando $n$ sea impar:


# $$Md = X_{Elemento_{Md}}$$

> Cuando $n$ sea par:


# $$Md = \frac{X_{Elemento_{Md}} + X_{Elemento_{Md}+1}}2$$
***

### Ejemplo 1 - n impar

<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img002.png' width='40%' style="float:left">

In [None]:
# notas de maria

notas_maria = df['María']
notas_maria

In [None]:
# ordenar las notas de maria

notas_maria = df['María']
notas_maria = notas_maria.sort_values()
notas_maria

In [None]:
# ver los datos

notas_maria.shape[0]

In [None]:
# se pone eun una variable

n = notas_maria.shape[0]

In [None]:
# se toma la columna numerica y el index

notas_maria = notas_maria.reset_index()
notas_maria

In [None]:
# elemento del medio

elemento_md = (n + 1) / 2
elemento_md

In [None]:
notas_maria.loc[elemento_md - 1]

In [None]:
# forma facil de la mediana

notas_maria['María'].median()

### Ejemplo 2 - n par

<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img003.png' width='50%' style="float:left">

In [None]:
# ejemplo con pares

notas_pedro = df['Pedro'].sample(6, random_state= 200 )
notas_pedro

In [None]:
# odenar
notas_pedro = notas_pedro.sort_values()
notas_pedro

In [None]:
notas_pedro.shape[0]

In [None]:
n = notas_pedro.shape[0]

In [None]:
notas_pedro = notas_pedro.reset_index()
notas_pedro

In [None]:
# mediana debemos volver entero
elemento_md = int(n / 2)
elemento_md

In [None]:
(notas_pedro.iloc[elemento_md - 1][1] + notas_pedro.iloc[elemento_md][1]) / 2

In [None]:
datos.Ingreso.median()

### Obtener la mediana en nuestro conjunto de datos

## <font color=#56B4E9>3.3 Moda</font>
***

La moda se puede definir como el valor más frecuente de un conjunto de datos. La moda es ampliamente utilizada para datos cualitativos.

In [None]:
# ejemplo de moda

df.mode()

In [None]:
ejemplo = pd.Series([1, 2, 2, 3, 4, 4, 5, 6, 7])
ejemplo

In [None]:
ejemplo.mode()

In [None]:
datos.Ingreso.mode()

In [None]:
# moda multimodal
datos.Altura.mode()

### Obteniendo la moda de nuestro dataset

In [None]:
datos.Ingreso.mode()

In [None]:
# moda multimodal
datos.Altura.mode()

## <font color=#56B4E9>3.4 Relación entre media, mediana e moda</font>
***

<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img004.png' width='80%'>

### Evaluando la variable INGRESO

In [None]:
# datos_ingreso

ax = sns.distplot(datos.query("Ingreso < 20000").Ingreso)
ax.figure.set_size_inches(12, 6)
ax

In [None]:
# calcular la moda

moda = datos.Ingreso.mode()[0]
moda

In [None]:
# calcular la mediana

mediana = datos.Ingreso.median()
mediana

In [None]:
# calcular la media

media = datos.Ingreso.mean()
media

In [None]:
moda < mediana < media

***

### Evaluando la variable ALTURA

In [None]:
# altura

ax = sns.distplot(datos.Altura)
ax.figure.set_size_inches(12, 6)
ax

In [None]:
# moda

moda = datos.Altura.mode()
moda

In [None]:
# Media

media = datos.Altura.mean()
media

In [None]:
# mediana

mediana = datos.Altura.median()
mediana

***

### Evaluando la variable AÑOS DE ESTUDIO

In [None]:
# Años de estudio

ax = sns.distplot(datos['Años de Estudio'],bins=17)
ax.figure.set_size_inches(12, 6)
ax

In [None]:
# moda
moda = datos['Años de Estudio'].mode()[0]
moda

In [None]:
# mediana
mediana = datos['Años de Estudio'].median()
mediana

In [None]:
# media
media = datos['Años de Estudio'].mean()
media

In [None]:
moda > mediana > media

# <font color=#56B4E9>4 MEDIDAS DE LOCALIZACIÓN</font>
***

## <font color=#56B4E9>4.1 Cuartiles, deciles y percentiles</font>
***

Hay una serie de medidas de posición similares en su diseño a la mediana, aunque no son medidas de tendencia central. Como se sabe, la mediana divide la distribución en dos partes iguales en términos del número de elementos en cada parte. Los cuartiles, por otro lado, permiten que la distribución se divida en cuatro partes iguales en términos del número de elementos en cada uno; deciles en diez partes y centiles en cien partes iguales.

In [None]:
# cuartiles

datos.Ingreso.quantile([0.25, 0.5, 0.75])

In [None]:
# deciles

[i/10 for i in range(1, 10)]

In [None]:
# deciles segunda parte

datos.Ingreso.quantile([i/10 for i in range(1, 10)])

In [None]:
# perceltiles

datos.Ingreso.quantile([i/100 for i in range(1, 100)])

In [None]:
# grafico

ax = sns.distplot(datos.Edad,
                  hist_kws={'cumulative': True},
                  kde_kws={'cumulative': True},
                  bins= 10)
ax.figure.set_size_inches(12, 6)
ax.set_title('Distribucion de la Frecuencia Acumulada', fontsize=18)
ax.set_ylabel('Acumulado', fontsize=14)
ax.set_xlabel('Años', fontsize=14)
ax

In [None]:
# Estilo claro
sns.set_style("whitegrid")

# Crear figura y ejes
fig, ax = plt.subplots(figsize=(12, 6))
fig.set_facecolor('white')  # Fondo blanco o #f5f5f5 si quieres un tono más suave

# Histograma acumulado con relleno azul claro
sns.histplot(data=datos,
             x="Edad",
             bins=10,
             stat="density",
             cumulative=True,
             fill=True,
             element="step",
             color='skyblue',
             ax=ax)

# Línea KDE acumulada en azul medio (como la de la imagen)
sns.kdeplot(data=datos,
            x="Edad",
            cumulative=True,
            color='#2980b9',
            linewidth=2,
            ax=ax)

# Títulos y etiquetas
ax.set_title('Distribución de la Frecuencia Acumulada', fontsize=18)
ax.set_ylabel('Acumulado', fontsize=14)
ax.set_xlabel('Años', fontsize=14)

# Opcional: quitar la cuadrícula si prefieres más limpio
ax.grid(False)

# Fondo del gráfico
ax.set_facecolor('white')  # fondo del área de datos

In [None]:
datos.Edad.quantile([i/10 for i in range(1,10)])

## <font color=#56B4E9>4.2 Box-plot</font>
***

El *box plot* da una idea de la posición, dispersión, asimetría, colas y valores extremos. La posición central está dada por la mediana y la dispersión por $IIQ$ (distancia inter cuartil). Las posiciones relativas de $Q1$, $Mediana$ y $Q3$ dan una idea de la simetría de la distribución. Las longitudes de las colas están dadas por las líneas que van desde el rectángulo a los valores remotos y por los valores extremos.

<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img005.png' width='65%'>

In [None]:
# graficar

ax = sns.boxplot(x='Altura', data=datos, orient= 'h')
ax.figure.set_size_inches(12, 6)
ax.set_title('Altura', fontsize=18)
ax.set_xlabel('Metros', fontsize=16)
ax.grid(False)
ax

In [None]:
# Crear gráfico básico
ax = sns.boxplot(x='Altura', data=datos, orient='h',
                 boxprops=dict(facecolor='#d5f5e3', edgecolor='#283747'),
                 medianprops=dict(color='#283747'),
                 whiskerprops=dict(color='black'),
                 capprops=dict(color='black'),
                 flierprops=dict(marker='o', markerfacecolor='#566573', markeredgecolor='#212f3d'))

ax.figure.set_size_inches(12, 6)
ax.set_title('Altura', fontsize=18)
ax.set_xlabel('Metros', fontsize=16)
ax.set_facecolor('white')
ax.figure.set_facecolor('white')
ax.grid(False)

<img src='https://caelum-online-public.s3.amazonaws.com/ESP-1752-estadistica-con-python-parte1/img006.png' width='80%'>

# <font color=#56B4E9>5 MEDIDAS DE DISPERSIÓN</font>
***

Aunque las medidas de tendencia central y de localización proporcionan un resumen muy importante de los datos, pueden no ser suficientes para caracterizar diferentes conjuntos, especialmente cuando las observaciones de una distribución dada presentan datos muy dispersos.

## <font color=#56B4E9>5.1 Desviación media absoluta</font>
***


# $$DM = \frac 1n\sum_{i=1}^{n}|X_i-\bar{X}|$$


## <font color=#56B4E9>5.2 Varianza</font>
***

### Varianza

La varianza se construye a partir de las diferencias entre cada observación y la media de los datos, es decir, la desviación alrededor de la media. Al calcular la varianza, las desviaciones alrededor de la media son elevadas al cuadrado.

### Varianza de la población

# $$\sigma^2 = \frac 1n\sum_{i=1}^{n}(X_i-\mu)^2$$

### Varianza de la muestra

# $$S^2 = \frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$

## <font color=#56B4E9>5.3 Desviación estándar</font>
***

Una de las restricciones de la varianza es el hecho de que proporciona medidas cuadráticas de las unidades originales; la varianza de las medidas de longitud, por ejemplo, está en unidades de área. Por lo tanto, el hecho de que las unidades sean diferentes dificulta la comparación de la dispersión con las variables que la definen. Una forma de eliminar esta dificultad es considerar su raíz cuadrada.

### Desviación estándar de la población

# $$\sigma = \sqrt{\frac 1n\sum_{i=1}^{n}(X_i-\mu)^2} \Longrightarrow \sigma = \sqrt{\sigma^2}$$


### Desviación estándar de la muestra

# $$S = \sqrt{\frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2} \Longrightarrow S = \sqrt{S^2}$$