# **Manejo, Preprocesamiento y Procesamiento de datos**

| Etapa                | Objetivo principal                | Ejemplos                                     |
| -------------------- | --------------------------------- | -------------------------------------------- |
| **Manejo**           | Administración y control de datos | Almacenamiento, seguridad, bases de datos    |
| **Preprocesamiento** | Preparar datos para el análisis   | Analisis exploratorio, control de calidad, normalización, codificación        |
| **Procesamiento**    | Extraer conocimiento de los datos | Estadística, machine learning, visualización |


Estos tres procesos son interdependientes y forman parte del flujo de trabajo en cualquier proyecto de análisis de datos o ciencia de datos.

# **I. Gestión de directorios y archivos en la nube**

La gestión de archivos y directorios en Google Drive es el proceso de organizar, proteger y compartir información digital en la nube, aprovechando sus funciones de colaboración en tiempo real, control de versiones, permisos de acceso y sincronización multiplataforma, lo que facilita el trabajo individual y grupal de manera eficiente.

## **1.1. Montar Google drive a Colaboratory**

Montar Google Drive en Colab es el proceso mediante el cual el entorno de ejecución de Colab obtiene acceso autorizado a los archivos de Google Drive, de forma que se pueden leer, escribir y modificar archivos durante la sesión.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## **1.2. Explorar contenido de Google Drive**

Explorar contenido de Google Drive se refiere a la acción de navegar, buscar, visualizar y gestionar los archivos y carpetas almacenados en Google Drive, la plataforma de almacenamiento en la nube de Google.



In [2]:
import os

ruta_drive ="/content/drive/MyDrive/"

print(os.listdir(ruta_drive))

['Osystemgoes', 'latex', 'maestria_met', 'models', 'igp', 'grupo_unmsm', 'make_books_latex', 'make_paper', 'proyectos', 'tools', 'varios', 'documentos', 'cursos_talleres', 'datasample', 'utec', 'fiware', 'Classroom', 'ingles', 'work_job', 'Postulaciones', 'serie de tiempo', 'Google Earth', 'contaminantes_atmosfericos', 'inventario_csv', 'informes', 'Shapes', 'actividades_TDR', 'book_cluster', 'resultados', 'oefa_control_calidad', 'wrfchem_app', 'sacha', 'Colab Notebooks', 'consultorias_pagos', 'EstadisticaIA2025', 'Google AI Studio', 'Estadistica2025_estudiantes', 'Estadistica2025_Tareas_estudiantes', 'Estadistica4Finanzas', 'agroexportacion_peru', 'Bruce-Gedeck-Estadistica-Practica-para-Ciencia-de-Datos-con-R-y-Python.pdf', 'Bioestadistica', 'Base_datos', 'Ciencia_datos_pythonAI', 'clase_jose.ipynb', 'estadistica_python_ai_modulo1']


El bloque de código de la siguiente celda permite visualizar el contenido de Google Drive enumerada de manera vertical.

In [3]:
lista_dir_drive = os.listdir(ruta_drive)
n_elem = len(lista_dir_drive)
print(f"Numero de elementos: {n_elem}")

for i in range(n_elem):
  print(f"({i}) {lista_dir_drive[i]}")

Numero de elementos: 46
(0) Osystemgoes
(1) latex
(2) maestria_met
(3) models
(4) igp
(5) grupo_unmsm
(6) make_books_latex
(7) make_paper
(8) proyectos
(9) tools
(10) varios
(11) documentos
(12) cursos_talleres
(13) datasample
(14) utec
(15) fiware
(16) Classroom
(17) ingles
(18) work_job
(19) Postulaciones
(20) serie de tiempo
(21) Google Earth
(22) contaminantes_atmosfericos
(23) inventario_csv
(24) informes
(25) Shapes
(26) actividades_TDR
(27) book_cluster
(28) resultados
(29) oefa_control_calidad
(30) wrfchem_app
(31) sacha
(32) Colab Notebooks
(33) consultorias_pagos
(34) EstadisticaIA2025
(35) Google AI Studio
(36) Estadistica2025_estudiantes
(37) Estadistica2025_Tareas_estudiantes
(38) Estadistica4Finanzas
(39) agroexportacion_peru
(40) Bruce-Gedeck-Estadistica-Practica-para-Ciencia-de-Datos-con-R-y-Python.pdf
(41) Bioestadistica
(42) Base_datos
(43) Ciencia_datos_pythonAI
(44) clase_jose.ipynb
(45) estadistica_python_ai_modulo1


Definir la función **`explorar_drive`** para explorar de manera más eficiente y rápida las carpertas y sub carpetas que se encuentran en Google Drive.

In [4]:
def explorar_drive(nombre_carpeta):
  import os
  ruta_drive ="/content/drive/MyDrive/"
  contenido_carpeta = os.listdir(ruta_drive + nombre_carpeta)
  n_elem = len(contenido_carpeta)

  print(f"Ruta: {ruta_drive + nombre_carpeta}")
  print(f"Numero de elementos: {n_elem}")

  for i in range(n_elem):
    print(f"({i}) {contenido_carpeta[i]}")

Forma de usar la función `explorar_drive` para explorar el contenido de Google Drive.

In [5]:
explorar_drive("Base_datos")

Ruta: /content/drive/MyDrive/Base_datos
Numero de elementos: 4
(0) fuente_de_datos.gdoc
(1) shapes
(2) biomedicina
(3) meteorologia


In [6]:
explorar_drive("Ciencia_datos_pythonAI/")

Ruta: /content/drive/MyDrive/Ciencia_datos_pythonAI/
Numero de elementos: 3
(0) Modulo_01
(1) Modulo_02
(2) Modulo_03


# **II. Importar base de datos**

**¿Qué es una base de datos?**

Una base de datos es una colección organizada de información o datos estructurados, que normalmente se almacena electrónicamente en un sistema de computadora. Esencialmente, es un sistema diseñado para almacenar, gestionar y recuperar grandes cantidades de información de manera eficiente.

pregunta para gemini: efinir, describir, detallar y comparar tipos de datos cuantitativos y cualitativos. Finalmente dar tres ejemplos de cada uno de ellos.

**Datos Cuantitativos:**
* **Definición:** Los datos cuantitativos (discretos ó contínuos) son aquellos que se pueden medir y expresar numéricamente. Responden a la pregunta "¿cuánto?" o "¿cuántos?". Estos datos se pueden someter a operaciones matemáticas y análisis estadísticos.

* **Descripción:** Son datos numéricos que representan magnitudes, cantidades, frecuencias, etc. Tienen un orden natural y distancias significativas entre sus valores.



**Datos Cualitativos:**
* **Definición:**Los datos cualitativos son aquellos que describen cualidades, características o atributos. No se pueden medir numéricamente de manera significativa. Responden a la pregunta "¿cómo?" o "¿qué tipo?".

* **Descripción:**  Son datos que representan categorías o etiquetas. No tienen un orden numérico inherente y las operaciones matemáticas no suelen ser aplicables a menos que se codifiquen.

**Comparación entre Datos Cuantitativos y Cualitativos:**


| Característica       | Datos Cuantitativos                     | Datos Cualitativos                       |
| :------------------- | :-------------------------------------- | :--------------------------------------- |
| **Naturaleza**       | Numérica, medible                       | Categórica, descriptiva                  |
| **Responde a**       | ¿Cuánto? ¿Cuántos?                      | ¿Cómo? ¿Qué tipo?                        |
| **Operaciones Mat.** | Sí (suma, promedio, etc.)               | No (a menos que se codifiquen)           |
| **Orden**            | Sí, orden natural                       | Nominal: No; Ordinal: Sí (jerarquía)     |
| **Análisis Típico**  | Estadísticas descriptivas (media, desv. estándar), regresión, etc. | Frecuencias, proporciones, análisis de texto, etc. |
| **Visualización**    | Histogramas, líneas, dispersión         | Barras, circulares                       |
| **Objetividad**      | Generalmente objetivo                   | Puede ser subjetivo                      |

## **2.1. Importar archivos en formato EXCEL**

Las mediciones de temperatura del aire, humedad relativa y radiación solar (variables ambientales), realizadas por una estación meteorológica en un punto geográfico específico son datos **cuantitativos contínuos**

In [7]:
excel_data_file = "/content/drive/MyDrive/Base_datos/meteorologia/data_estacion_madrid.xlsx"

In [8]:
# immportando el archivo Excel
import pandas as pd

df_met = pd.read_excel(excel_data_file)
print(df_met)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   1.329167  60.625000   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  69.541667  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]


## **2.2. Importar archivos en formato CSV**

Importar archivos en formato CSV (Comma-Separated Values, o Valores Separados por Comas) consiste en el proceso de cargar o transferir datos almacenados en un archivo CSV a un programa, aplicación o base de datos para su procesamiento, análisis o almacenamiento. Un archivo CSV es un formato de texto plano que organiza datos en filas y columnas, donde los valores están separados por comas (u otros delimitadores, como punto y coma o tabulaciones) y cada fila representa un registro.

* <a href="https://www.datosabiertos.gob.pe">Plataforma Nacional de Datos Abiertos</a>.

* Datos para caso estudio: <a href="https://www.datosabiertos.gob.pe/dataset/anemia">Anemia</a>.

In [9]:
csv_data_file = "/content/drive/My Drive/Base_datos/biomedicina/TB_DIGTEL_ANEMIA_TRATAMIENTOS.csv"

df_anemia = pd.read_csv(csv_data_file)
print(df_anemia)

       Sexo  id_persona  Edad Tipo_edad  id_ubigeo  Fecha_atencion    Etapa  \
0         F    41031388    20         A        NaN        20230208  18a-29a   
1         F    40489600     2         A     1128.0        20230107  00a-11a   
2         M    40315865     1         A        NaN        20230207  00a-11a   
3         F    38917347    19         D     1460.0        20210511  00a-11a   
4         M    40507941     3         A     1668.0        20230224  00a-11a   
...     ...         ...   ...       ...        ...             ...      ...   
248888    M     9206744     6         A     1631.0        20230119  00a-11a   
248889    M    25824229     4         A      163.0        20210528  00a-11a   
248890    F    19472530     6         A     1161.0        20230107  00a-11a   
248891    F    33840534     4         A      242.0        20210412  00a-11a   
248892    F    19486739    84         A     1703.0        20230525     60a+   

        Diagnostico Tipo_Dx  Lab  id_eess  
0      

# **III. Preprocesamiento de datos**

Dado que los datos suelen estar incompletos, inconsistentes o con errores, el preprocesamiento busca mejorar su calidad y estructuración. Es un paso fundamental para garantizar resultados confiables en análisis estadístico, machine learning o inteligencia artificial.

## **3.1. Análisis exploratorio de datos**

El Análisis Exploratorio de Datos (EDA) es una metodología para analizar conjuntos de datos y resumir sus características principales, a menudo usando medidas estadísticas y métodos visuales. El objetivo del EDA es comprender los datos, descubrir patrones, detectar anomalías y probar hipótesis antes de realizar un modelado formal. No es un enfoque formal de modelado estadístico, sino más bien una filosofía para ver y comprender los datos.

**¿En qué consiste el EDA?**

* **Resumen de datos:** Calcular estadísticas descriptivas (media, mediana, desviación estándar, cuartiles, etc.) para comprender la distribución y las características centrales de las variables.

* **Identificación de valores faltantes:** Detectar y cuantificar la presencia de valores nulos o faltantes en el conjunto de datos.

* **Detección de valores atípicos:** Identificar observaciones que se desvían significativamente de otras observaciones y que podrían indicar un error de medición o una característica inusual del fenómeno que se está estudiando.

**Métodos en Python y Pandas para EDA:**

Pandas es la biblioteca fundamental en Python para la manipulación y análisis de datos, y ofrece numerosos métodos para realizar EDA:

*   **`.head()` y `.tail()`:** Muestran las primeras o últimas filas del DataFrame, respectivamente, para obtener una vista rápida de los datos.
*   **`.info()`:** Proporciona un resumen conciso del DataFrame, incluyendo el índice, los tipos de datos de las columnas, el número de valores no nulos y el uso de memoria.
*   **`.describe()`:** Genera estadísticas descriptivas (conteo, media, desviación estándar, mínimo, cuartiles, máximo) para las columnas numéricas. Se puede usar `.describe(include='all')` para incluir columnas no numéricas.
*   **`.shape`:** Atributo que devuelve una tupla que representa las dimensiones del DataFrame (número de filas, número de columnas).
*   **`.columns`:** Atributo que devuelve un objeto Index que contiene los nombres de las columnas.
*   **`.value_counts()`:** Para Series, devuelve una Serie que contiene los recuentos de valores únicos. Útil para variables categóricas.
*   **`.unique()` y `.nunique()`:** Devuelven los valores únicos en una Serie y el número de valores únicos, respectivamente.
*   **`.isnull()` / `.isna()` y `.sum()`:** Se utilizan en combinación para contar los valores faltantes por columna.
*   **`.duplicated()` y `.drop_duplicates()`:** Ayudan a identificar y eliminar filas duplicadas.
*   **`.corr()`:** Calcula la correlación de Pearson (por defecto) entre las columnas numéricas.
*   **`.groupby()`:** Permite agrupar datos por una o más columnas para realizar análisis agregados.

Además de pandas, bibliotecas como **Matplotlib** y **Seaborn** son esenciales para la visualización de datos en el EDA.

### **3.1.1. Ambientales**

In [30]:
print(df_met.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 334 entries, 0 to 333
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Unnamed: 0  334 non-null    int64         
 1   fecha       334 non-null    datetime64[ns]
 2   temp_aire   333 non-null    float64       
 3   hr          332 non-null    float64       
 4   rxn_solar   334 non-null    float64       
dtypes: datetime64[ns](1), float64(3), int64(1)
memory usage: 13.2 KB
None


In [31]:
# Contar valores nulos por columna usando isna()
valores_nulos_por_columna = df_met.isna().sum()
print("Valores nulos por columna:")
print(valores_nulos_por_columna)

Valores nulos por columna:
Unnamed: 0    0
fecha         0
temp_aire     1
hr            2
rxn_solar     0
dtype: int64


In [32]:
# Contar el total de valores nulos en todo el DataFrame
total_valores_nulos = df_met.isna().sum().sum()
print(f"\nTotal de valores nulos en el DataFrame: {total_valores_nulos}")


Total de valores nulos en el DataFrame: 3


In [12]:
nombres_columnas_met = df_met.columns.values.tolist()
print(nombres_columnas_met)
print(type(nombres_columnas_met))

['Unnamed: 0', 'fecha', 'temp_aire', 'hr', 'rxn_solar']
<class 'list'>


In [13]:
met_interes = df_met[[ "rxn_solar", "hr", "temp_aire"]]
print(met_interes)

      rxn_solar         hr  temp_aire
0     99.833333  73.583333   3.625000
1     74.333333  60.625000   1.329167
2    101.500000  63.958333   1.920833
3    101.958333  57.791667   3.433333
4    106.666667  69.541667   0.445833
..          ...        ...        ...
329   87.833333  69.875000   5.562500
330   93.041667  61.500000   5.500000
331  117.750000  60.291667   4.783333
332  108.750000  61.541667  10.112500
333  102.958333  74.000000   6.691667

[334 rows x 3 columns]


In [14]:
print(met_interes.describe())

        rxn_solar          hr   temp_aire
count  334.000000  334.000000  334.000000
mean   207.164172   57.978917   15.556999
std     96.113257   17.174558    7.641851
min     14.583333   23.583333   -4.841667
25%    130.625000   45.031250   10.026042
50%    199.625000   57.937500   14.929167
75%    293.416667   70.885417   21.714583
max    369.958333  100.000000   31.920833


In [15]:
print(met_interes.describe()["hr"])

count    334.000000
mean      57.978917
std       17.174558
min       23.583333
25%       45.031250
50%       57.937500
75%       70.885417
max      100.000000
Name: hr, dtype: float64


In [16]:
std_hr = met_interes.describe()["hr"]["std"]
p75_hr = met_interes.describe()["hr"]["75%"]
print(std_hr)
print(p75_hr)
suma = std_hr + p75_hr
print(suma)

producto= std_hr * p75_hr
print(producto)

17.174557680329734
70.88541666666667
88.0599743469964
1217.4256772358733


In [17]:
fil_rxs = df_met[(df_met["rxn_solar"]>=300) & (df_met["rxn_solar"]<=360)]

print(fil_rxs)
print(fil_rxs.shape)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
106         106 2021-04-17   8.916667  43.416667  308.916667
107         107 2021-04-18  10.641667  46.458333  304.708333
123         123 2021-05-04  14.425000  62.541667  331.375000
124         124 2021-05-05  17.350000  47.083333  330.166667
125         125 2021-05-06  18.420833  47.000000  331.791667
..          ...        ...        ...        ...         ...
223         223 2021-08-12  29.416667  35.291667  306.500000
227         227 2021-08-16  27.720833  23.583333  306.416667
228         228 2021-08-17  24.191667  32.375000  311.125000
231         231 2021-08-20  26.283333  40.041667  300.791667
232         232 2021-08-21  26.433333  27.208333  302.541667

[71 rows x 5 columns]
(71, 5)


In [18]:
print(df_met)

print(df_met.loc[1,"hr"])
print(df_met.iloc[1,3])   # [fila, columna] indexacion considerando todo el data frame

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   1.329167  60.625000   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  69.541667  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]
60.625
60.625


### **3.1.2. Biomedicos**

In [25]:
print(df_anemia.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248893 entries, 0 to 248892
Data columns (total 11 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Sexo            248893 non-null  object 
 1   id_persona      248893 non-null  int64  
 2   Edad            248893 non-null  int64  
 3   Tipo_edad       248893 non-null  object 
 4   id_ubigeo       243110 non-null  float64
 5   Fecha_atencion  248893 non-null  int64  
 6   Etapa           248893 non-null  object 
 7   Diagnostico     248893 non-null  float64
 8   Tipo_Dx         248893 non-null  object 
 9   Lab             248893 non-null  object 
 10  id_eess         248893 non-null  int64  
dtypes: float64(2), int64(4), object(5)
memory usage: 20.9+ MB
None


In [26]:
df_anemia_interes_ordenado = df_anemia.sort_values(by="Fecha_atencion")
print(df_anemia_interes_ordenado)

       Sexo  id_persona  Edad Tipo_edad  id_ubigeo  Fecha_atencion    Etapa  \
188769    M    13815163     6         M      636.0        20210101  00a-11a   
239800    F    33892383     3         A      604.0        20210101  00a-11a   
207352    F    29311370     6         M      959.0        20210101  00a-11a   
206101    F    30962033     5         M      893.0        20210101  00a-11a   
194656    F    23040846     6         M     1247.0        20210101  00a-11a   
...     ...         ...   ...       ...        ...             ...      ...   
177519    M    40636027     6         M     1496.0        20230731  00a-11a   
198759    M    24004832     3         A     1018.0        20230731  00a-11a   
140464    M    40293673    11         M     1317.0        20230731  00a-11a   
156284    M    40307755    10         M      919.0        20230731  00a-11a   
178689    F    35619327     2         A     1492.0        20230731  00a-11a   

        Diagnostico Tipo_Dx  Lab  id_eess  
188769 

## **3.2. Control de calidad de datos**

In [21]:
def encontrar_nan(df):
    # Verificar valores NaN en cada columna
    nan_por_columna = df.isna().sum()

    # Verificar valores NaN en todo el DataFrame
    total_nan = df.isna().sum().sum()

    # Mostrar resultados
    print("DataFrame original:")
    print("\nValores NaN por columna:")
    print(nan_por_columna)
    print(f"\nTotal de valores NaN en el DataFrame: {total_nan}")

In [22]:
encontrar_nan(df_met)

DataFrame original:

Valores NaN por columna:
Unnamed: 0    0
fecha         0
temp_aire     1
hr            2
rxn_solar     0
dtype: int64

Total de valores NaN en el DataFrame: 3


### **3.2.1. Ambientales**

In [19]:
fil_temp_aire = df_met[(df_met["temp_aire"]>=-1) & (df_met["temp_aire"]<=5)]

print(fil_temp_aire)
print(fil_temp_aire.shape)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   1.329167  60.625000   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  69.541667  106.666667
5             5 2021-01-06  -0.045833  69.000000  106.625000
6             6 2021-01-07  -0.708333  82.416667   14.583333
9             9 2021-01-10   0.829167  84.916667  117.791667
14           14 2021-01-15   0.466667  79.791667  116.208333
15           15 2021-01-16   0.425000  78.541667  124.291667
16           16 2021-01-17   0.462500  72.041667  127.958333
17           17 2021-01-18   2.366667  76.166667  122.291667
18           18 2021-01-19   1.379167  83.750000  123.083333
19           19 2021-01-20   2.333333  95.625000   35.166667
326         326 2021-11-23   4.512500  85.791667   38.541667
327         327 2021-11-

In [20]:
import numpy as np

df_met.loc[1,"hr"]= np.nan
df_met.iloc[4,3]= np.nan

df_met.loc[1,"temp_aire"]= np.nan
print(df_met)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02        NaN        NaN   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833        NaN  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]


### **3.2.2. Biomédicos**

In [23]:
encontrar_nan(df_anemia)

DataFrame original:

Valores NaN por columna:
Sexo                 0
id_persona           0
Edad                 0
Tipo_edad            0
id_ubigeo         5783
Fecha_atencion       0
Etapa                0
Diagnostico          0
Tipo_Dx              0
Lab                  0
id_eess              0
dtype: int64

Total de valores NaN en el DataFrame: 5783


In [24]:
df_interpolado = df_met.interpolate() # method: linear
#df_interpolado = df.interpolate(method="spline", order=2) # method: polynomial, spline

print(df_interpolado)

     Unnamed: 0      fecha  temp_aire         hr   rxn_solar
0             0 2021-01-01   3.625000  73.583333   99.833333
1             1 2021-01-02   2.772917  68.770833   74.333333
2             2 2021-01-03   1.920833  63.958333  101.500000
3             3 2021-01-04   3.433333  57.791667  101.958333
4             4 2021-01-05   0.445833  63.395833  106.666667
..          ...        ...        ...        ...         ...
329         329 2021-11-26   5.562500  69.875000   87.833333
330         330 2021-11-27   5.500000  61.500000   93.041667
331         331 2021-11-28   4.783333  60.291667  117.750000
332         332 2021-11-29  10.112500  61.541667  108.750000
333         333 2021-11-30   6.691667  74.000000  102.958333

[334 rows x 5 columns]


# **IV. Referencias**

**Libros y manuales**

- Libro de estadisitica con python

  https://www.editorial-sciela.org/index.php/sciela/article/view/16/49

- Introducción a la teoria de probabilidades

  https://ciladi.org/wp-content/uploads/Version_final_Introduccion-Probabilidad-Python-vf_Bayas-3.pdf

- Guía practica de análsis exploratorio de python

  https://datos.gob.es/sites/default/files/doc/file/guia_eda_python.pdf


**Cursos en linea**

- Estadística W3School:

  https://www.w3schools.com/statistics/index.php

- Estadística con python:

  https://docs.python.org/es/3/library/statistics.html

- Kaggle:

  https://www.kaggle.com/code/saurav9786/statistics-for-data-scientists

**Aplicaciones IA**

- Gemini iA

  https://gemini.google.com

- DeepSeek

  https://www.deepseek.com/

- Chat GPT

  https://chatgpt.com/

- Claude IA

  https://claude.ai/

- Julius IA:

  https://julius.ai

