# **4. Estadística Descriptiva**

# **I. Gestión de directorios y archivos en la nube**

La gestión de archivos y directorios en Google Drive es el proceso de organizar, proteger y compartir información digital en la nube, aprovechando sus funciones de colaboración en tiempo real, control de versiones, permisos de acceso y sincronización multiplataforma, lo que facilita el trabajo individual y grupal de manera eficiente.

## 1.1. Montar Google drive a Colaboratory




Montar Google Drive en Colab es el proceso mediante el cual el entorno de ejecución de Colab obtiene acceso autorizado a los archivos de Google Drive, de forma que se pueden leer, escribir y modificar archivos durante la sesión.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'imp'

## 1.2. Explorar contenido de Google Drive

Explorar contenido de Google Drive se refiere a la acción de navegar, buscar, visualizar y gestionar los archivos y carpetas almacenados en Google Drive, la plataforma de almacenamiento en la nube de Google.



In [2]:
def listar_carpeta(ruta_carpeta):
  import os
  ruta_drive ="/content/drive/MyDrive/"
  contenido_carpeta = os.listdir(ruta_drive + ruta_carpeta)
  n_elem = len(contenido_carpeta)

  print(f"Ruta: {ruta_drive + ruta_carpeta}")
  print(f"Numero de elementos: {n_elem}")

  for i in range(n_elem):
    print(f"({i}) {contenido_carpeta[i]}")

La siguiente celda de código, genera una lista de archivos y directorios contenidos en el directorio ó carpeta **`Base_datos`**

In [3]:
listar_carpeta("Base_datos")

Ruta: /content/drive/MyDrive/Base_datos
Numero de elementos: 4
(0) fuente_de_datos.gdoc
(1) shapes
(2) biomedicina
(3) meteorologia


La siguiente celda de código, genera una lista de archivos y directorios contenidos en el directorio ó carpeta **`Base_datos/biomedicina`**

In [4]:
listar_carpeta("Base_datos/biomedicina")

Ruta: /content/drive/MyDrive/Base_datos/biomedicina
Numero de elementos: 12
(0) datos_abiertos_vigilancia_dengue_2000_2023.csv
(1) datos_abiertos_vigilancia_malaria_2000_2008.csv
(2) datos_abiertos_vigilancia_malaria_2009_2023.csv
(3) Dataset_ExamenesLaboratorio_ConsultaExterna_PatologíasRelacionadas_Diabetes_202001_202404.csv
(4) datos_abiertos_vigilancia_zoonosis_2000_2023.csv
(5) datos_abiertos_vigilancia_iras_2000_2023.csv
(6) datos_abiertos_vigilancia_enfermedad_carrion_2000_2023.csv
(7) pmGenoma_25Septiembre2021.csv
(8) pmGenoma_27Sep2023.csv
(9) TB_DIGTEL_ANEMIA_TRATAMIENTOS.csv
(10) primeras_100_filas_anemia.xlsx
(11) primeras_100_filas_anemia.gsheet


La siguiente celda de código, genera una lista de archivos y directorios contenidos en el directorio ó carpeta **`Base_datos/meteorologia`**

In [5]:
listar_carpeta("Base_datos/meteorologia")

Ruta: /content/drive/MyDrive/Base_datos/meteorologia
Numero de elementos: 1
(0) data_estacion_madrid.xlsx


# **II. Importar base de datos**

## 2.1. Preparar entorno

In [6]:
# Paquete especializado en metodos numericos
import numpy as np

# Paquete especialozado manejo de estructuras de datos tipo tablas (Data Frames)
import pandas as pd

# Paquetes especializado para generar graficas
import seaborn as sns
import matplotlib.pyplot as plt

# Paquete especializados de estadística y metodos numéricos
from scipy import stats

# Paquete especializado en estadística
import statsmodels.api as sm
import statsmodels.formula.api as smf

## 2.2. Archivos en formato EXCEL



Las mediciones de temperatura del aire, humedad relativa y radiación solar (variables ambientales), realizadas por una estación meteorológica en un punto geográfico específico son datos **cuantitativos contínuos**.

In [9]:
excel_data_file = "/content/drive/MyDrive/Base_datos/meteorologia/data_estacion_madrid.xlsx"

In [8]:
# immportando el archivo Excel
df_excel = pd.read_excel(excel_data_file)
print(df_excel)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   1.329167  60.625000   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  69.541667  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]


In [10]:
df_met = df_excel.copy()
print(df_met)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   1.329167  60.625000   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  69.541667  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]


## 2.3. Archivos en formato CSV

Importar archivos en formato CSV (Comma-Separated Values, o Valores Separados por Comas) consiste en el proceso de cargar o transferir datos almacenados en un archivo CSV a un programa, aplicación o base de datos para su procesamiento, análisis o almacenamiento. Un archivo CSV es un formato de texto plano que organiza datos en filas y columnas, donde los valores están separados por comas (u otros delimitadores, como punto y coma o tabulaciones) y cada fila representa un registro.

In [12]:
csv_data_file = "/content/drive/My Drive/Base_datos/biomedicina/TB_DIGTEL_ANEMIA_TRATAMIENTOS.csv"

df_csv = pd.read_csv(csv_data_file)
print(df_csv)

       Sexo  id_persona  Edad Tipo_edad  id_ubigeo  Fecha_atencion    Etapa  \
0         F    41031388    20         A        NaN        20230208  18a-29a   
1         F    40489600     2         A     1128.0        20230107  00a-11a   
2         M    40315865     1         A        NaN        20230207  00a-11a   
3         F    38917347    19         D     1460.0        20210511  00a-11a   
4         M    40507941     3         A     1668.0        20230224  00a-11a   
...     ...         ...   ...       ...        ...             ...      ...   
248888    M     9206744     6         A     1631.0        20230119  00a-11a   
248889    M    25824229     4         A      163.0        20210528  00a-11a   
248890    F    19472530     6         A     1161.0        20230107  00a-11a   
248891    F    33840534     4         A      242.0        20210412  00a-11a   
248892    F    19486739    84         A     1703.0        20230525     60a+   

        Diagnostico Tipo_Dx  Lab  id_eess  
0      

In [13]:
df_anemia = df_csv.copy()
print(df_anemia)

       Sexo  id_persona  Edad Tipo_edad  id_ubigeo  Fecha_atencion    Etapa  \
0         F    41031388    20         A        NaN        20230208  18a-29a   
1         F    40489600     2         A     1128.0        20230107  00a-11a   
2         M    40315865     1         A        NaN        20230207  00a-11a   
3         F    38917347    19         D     1460.0        20210511  00a-11a   
4         M    40507941     3         A     1668.0        20230224  00a-11a   
...     ...         ...   ...       ...        ...             ...      ...   
248888    M     9206744     6         A     1631.0        20230119  00a-11a   
248889    M    25824229     4         A      163.0        20210528  00a-11a   
248890    F    19472530     6         A     1161.0        20230107  00a-11a   
248891    F    33840534     4         A      242.0        20210412  00a-11a   
248892    F    19486739    84         A     1703.0        20230525     60a+   

        Diagnostico Tipo_Dx  Lab  id_eess  
0      

# **III. Estadística Descriptiva**

La **estadística descriptiva** tiene como objetivo resumir, organizar y presentar datos de manera clara y comprensible, permitiendo identificar patrones, tendencias o características principales de un conjunto de datos sin hacer inferencias sobre una población mayor.

## 3.1. Organizar datos

* Tablas de frecuencias (absolutas, relativas, acumuladas)
* Distribuciones de frecuencia
* Percentiles y cuartiles



### 3.1.1. Tablas de frecuencia

In [17]:
# Calcular la tabla de frecuencias absolutas para la columna 'Sexo'
frecuencia_absoluta_sexo = df_anemia['Sexo'].value_counts()
print("Tabla de Frecuencia Absoluta para 'Sexo':")
print(frecuencia_absoluta_sexo)

Tabla de Frecuencia Absoluta para 'Sexo':
Sexo
M    126255
F    122638
Name: count, dtype: int64


In [18]:
# Calcular la tabla de frecuencias relativas para la columna 'Sexo'
frecuencia_relativa_sexo = df_anemia['Sexo'].value_counts(normalize=True)
print("\nTabla de Frecuencia Relativa para 'Sexo':")
print(frecuencia_relativa_sexo)


Tabla de Frecuencia Relativa para 'Sexo':
Sexo
M    0.507266
F    0.492734
Name: proportion, dtype: float64


### 3.1.2. Distribuciones de frecuencia

### 3.1.3. Percentiles y cuartiles

$Q_1$ (Percentil 25): Posición = $\frac{25(n+1)}{100} = \frac{n+1}{4}$$\frac{25(n+1)}{100} = \frac{n+1}{4}$

## 3.2. Medidas de tendencia central

### 3.2.1. Media aritmética

$x = (x_{1}, x_{2}, \dots, x_{n})$

$$\overline{x} = \frac{1}{n} \sum_{i=1}^{n}x_{i}$$(eq:mediaAritmetica)

### 3.2.2. Mediana y moda

## 3.3. Medidas de dispesión

### 3.3.1. Varianza

$x = (x_{1}, x_{2}, \dots, x_{n})$

$$\mathbf{S}_{x}=\mathbf{\sigma}^{2}_{x} = \frac{1}{n}\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}$$(eq:varianza)

### 3.3.2. Desviación estándar

$x = (x_{1}, x_{2}, \dots, x_{n})$

$$\mathbf{\sigma}_{x} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}$$(eq:desviacionEstandar)

### 3.3.3. Rango intercuartil

$x = (x_{1}, x_{2}, \dots, x_{n})$

$$RIQ = Q_{3} - Q_{1}$$(eq:rangoIntercuartil)

### 3.4. Medidas de relación

### 3.4.1. Covarianza

Sean $x$ e $y$ dos conjuntos de datos:

$x = (x_{1}, x_{2}, \dots, x_{n})$

$y = (y_{1}, y_{2}, \dots, y_{n})$

$$\mathbf{S}_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})$$(eq:covarianza)

# **IV. Referencias**

**Libros y manuales**

- Libro de estadisitica con python

  https://www.editorial-sciela.org/index.php/sciela/article/view/16/49

- Introducción a la teoria de probabilidades

  https://ciladi.org/wp-content/uploads/Version_final_Introduccion-Probabilidad-Python-vf_Bayas-3.pdf

- Guía practica de análsis exploratorio de python

  https://datos.gob.es/sites/default/files/doc/file/guia_eda_python.pdf


**Cursos en linea**

- Estadística W3School:

  https://www.w3schools.com/statistics/index.php

- Estadística con python:

  https://docs.python.org/es/3/library/statistics.html

- Kaggle:

  https://www.kaggle.com/code/saurav9786/statistics-for-data-scientists

**Aplicaciones IA**

- Gemini iA

  https://gemini.google.com

- DeepSeek

  https://www.deepseek.com/

- Chat GPT

  https://chatgpt.com/

- Claude IA

  https://claude.ai/

- Julius IA:

  https://julius.ai

