# Datasets de Tomás Duque


In [1]:
import pandas as pd

## Dataset 1: Covid

 El dataset "Covid" contiene información relacionada con casos de COVID-19. Incluye datos sobre pacientes afectados por la enfermedad, como su nivel de atención médica, unidad médica asignada, sexo, tipo de paciente, fecha de fallecimiento, intubación, neumonía, edad, embarazo, diabetes, enfermedad pulmonar obstructiva crónica (COPD), asma, inmunosupresión, hipertensión, otras enfermedades, enfermedades cardiovasculares, obesidad, enfermedad renal crónica, tabaquismo, clasificación final y admisión a la unidad de cuidados intensivos (UCI). Estos datos pueden utilizarse para realizar análisis y estudios epidemiológicos relacionados con la pandemia de COVID-19.

USMER: Esta columna indica el nivel de atención médica requerido por el paciente. Los posibles valores pueden ser "1" para atención ambulatoria, "2" para hospitalización y "3" para hospitalización en unidad de cuidados intensivos (UCI).

MEDICAL_UNIT: Representa la unidad médica a la que fue asignado el paciente. Esta columna puede contener información sobre el lugar donde se está tratando al paciente.

SEX: Indica el sexo del paciente. Los valores posibles son "M" para masculino y "F" para femenino.

PATIENT_TYPE: Esta columna indica si el paciente es ambulatorio ("1") o está hospitalizado ("2").

DATE_DIED: Representa la fecha de fallecimiento del paciente, si aplica. Si el paciente no falleció, el valor será nulo.

INTUBED: Indica si el paciente fue intubado o no. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

PNEUMONIA: Esta columna registra si el paciente ha desarrollado neumonía. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

AGE: Representa la edad del paciente.

DIABETES: Indica si el paciente tiene diabetes. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

OBESITY: Esta columna registra si el paciente tiene obesidad. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

RENAL_CHRONIC: Indica si el paciente tiene enfermedad renal crónica. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

TOBACCO: Representa si el paciente es fumador o no. Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

ICU: Indica si el paciente fue admitido a una unidad de cuidados intensivos (UCI). Los valores posibles son "1" para sí, "2" para no y "97" para datos no aplicables.

In [5]:
# Cargando el dataset Covid
covid_path = "Data Set 1/Covid.csv"
covid_df = pd.read_csv(covid_path)

In [25]:
# Mostrar la cantidad de registros en el dataset
print("Cantidad de registros en el dataset Covid:", len(covid_df))



Cantidad de registros en el dataset Covid: 1048575


In [24]:
# Mostrar las primeras 5 filas del dataset
print("Primeras 5 filas del dataset Covid:")
print(covid_df.head())



Primeras 5 filas del dataset Covid:
   USMER  MEDICAL_UNIT  SEX  PATIENT_TYPE   DATE_DIED  INTUBED  PNEUMONIA  \
0      2             1    1             1  03/05/2020       97          1   
1      2             1    2             1  03/06/2020       97          1   
2      2             1    2             2  09/06/2020        1          2   
3      2             1    1             1  12/06/2020       97          2   
4      2             1    2             1  21/06/2020       97          2   

   AGE  PREGNANT  DIABETES  ...  ASTHMA  INMSUPR  HIPERTENSION  OTHER_DISEASE  \
0   65         2         2  ...       2        2             1              2   
1   72        97         2  ...       2        2             1              2   
2   55        97         1  ...       2        2             2              2   
3   53         2         2  ...       2        2             2              2   
4   68        97         1  ...       2        2             1              2   

   CARDIOVASCU

In [23]:
# Obtener estadísticas básicas de las columnas numéricas
print("Estadísticas básicas del dataset Covid:")
print(covid_df.describe())



Estadísticas básicas del dataset Covid:
              USMER  MEDICAL_UNIT           SEX  PATIENT_TYPE       INTUBED  \
count  1.048575e+06  1.048575e+06  1.048575e+06  1.048575e+06  1.048575e+06   
mean   1.632194e+00  8.980565e+00  1.499259e+00  1.190765e+00  7.952288e+01   
std    4.822084e-01  3.723278e+00  4.999997e-01  3.929041e-01  3.686889e+01   
min    1.000000e+00  1.000000e+00  1.000000e+00  1.000000e+00  1.000000e+00   
25%    1.000000e+00  4.000000e+00  1.000000e+00  1.000000e+00  9.700000e+01   
50%    2.000000e+00  1.200000e+01  1.000000e+00  1.000000e+00  9.700000e+01   
75%    2.000000e+00  1.200000e+01  2.000000e+00  1.000000e+00  9.700000e+01   
max    2.000000e+00  1.300000e+01  2.000000e+00  2.000000e+00  9.900000e+01   

          PNEUMONIA           AGE      PREGNANT      DIABETES          COPD  \
count  1.048575e+06  1.048575e+06  1.048575e+06  1.048575e+06  1.048575e+06   
mean   3.346831e+00  4.179410e+01  4.976558e+01  2.186404e+00  2.260569e+00   
std    1.19

In [22]:
# Contar la cantidad de pacientes por nivel de atención médica
print("Cantidad de pacientes por nivel de atención médica:")
print(covid_df['USMER'].value_counts())



Cantidad de pacientes por nivel de atención médica:
2    662903
1    385672
Name: USMER, dtype: int64


In [21]:
# Calcular el promedio de edad de los pacientes
promedio_edad = covid_df['AGE'].mean()
print("Promedio de edad de los pacientes:", promedio_edad)

Promedio de edad de los pacientes: 41.794102472403026


## Dataset 2: Titan

El dataset "Titan" contiene información sobre los movimientos de un stock en el mercado de la empresa Titan. Incluye datos como la fecha de los movimientos, el símbolo del stock, la serie del stock, precios de apertura y cierre, precios máximos y mínimos alcanzados durante la sesión, el volumen de transacciones, el monto total de las transacciones, el número de operaciones realizadas y el volumen de acciones entregadas físicamente en las transacciones. Estos datos pueden utilizarse para analizar y estudiar el comportamiento y rendimiento del stock de la empresa Titan en el mercado.


Date: Esta columna representa la fecha de los movimientos en el mercado del stock de la empresa Titan.

Symbol: Indica el símbolo del stock de la empresa Titan.

Series: Representa la serie del stock.

Prev Close: Es el precio de cierre del stock en la sesión anterior.

Open: Representa el precio de apertura del stock en la sesión actual.

High: Indica el precio más alto alcanzado por el stock durante la sesión actual.

Low: Representa el precio más bajo alcanzado por el stock durante la sesión actual.

Last: Es el precio de la última transacción realizada en el stock durante la sesión actual.

Close: Indica el precio de cierre del stock al final de la sesión actual.

VWAP: Representa el precio promedio ponderado por volumen (Volume Weighted Average Price) del stock durante la sesión actual.

Volume: Indica el volumen de transacciones realizado para el stock durante la sesión actual.

Turnover: Representa el monto total de las transacciones realizadas para el stock durante la sesión actual.

Trades: Indica el número total de operaciones realizadas para el stock durante la sesión actual.

Deliverable Volume: Representa el volumen de acciones entregadas físicamente en las transacciones realizadas para el stock durante la sesión actual.

%Deliverble: Indica el porcentaje de acciones entregadas físicamente en relación con el volumen total de transacciones para el stock durante la sesión actual.

### Importamos el Data Set

In [7]:
# Cargando el dataset Titan
titan_path = "Data Set 2/Titan.csv"
titan_df = pd.read_csv(titan_path)

### Hacemos Pruebas con el Data Set

In [8]:
# Mostrar la cantidad de registros en el dataset
print("Cantidad de registros en el dataset Titan:", len(titan_df))




=== Dataset Titan ===
         Date Symbol Series  Prev Close   Open    High    Low    Last   Close  \
0  2000-01-03  TITAN     EQ      144.95  146.0  156.45  146.0  155.00  155.70   
1  2000-01-04  TITAN     EQ      155.70  152.0  152.00  144.0  148.05  147.40   
2  2000-01-05  TITAN     EQ      147.40  144.0  148.80  136.0  139.95  138.40   
3  2000-01-06  TITAN     EQ      138.40  142.0  149.50  141.0  149.50  149.50   
4  2000-01-07  TITAN     EQ      149.50  149.5  153.00  145.0  147.75  146.35   

     VWAP  Volume      Turnover  Trades  Deliverable Volume  %Deliverble  
0  154.36   23000  3.550370e+11     NaN                 NaN          NaN  
1  146.72   26300  3.858700e+11     NaN                 NaN          NaN  
2  142.95   20600  2.944850e+11     NaN                 NaN          NaN  
3  147.87   31600  4.672750e+11     NaN                 NaN          NaN  
4  148.63   36600  5.439965e+11     NaN                 NaN          NaN  


In [19]:
# Mostrar las primeras 5 filas del dataset
print("Primeras 5 filas del dataset Titan:")
print(titan_df.head())



Primeras 5 filas del dataset Titan:
         Date Symbol Series  Prev Close   Open    High    Low    Last   Close  \
0  2000-01-03  TITAN     EQ      144.95  146.0  156.45  146.0  155.00  155.70   
1  2000-01-04  TITAN     EQ      155.70  152.0  152.00  144.0  148.05  147.40   
2  2000-01-05  TITAN     EQ      147.40  144.0  148.80  136.0  139.95  138.40   
3  2000-01-06  TITAN     EQ      138.40  142.0  149.50  141.0  149.50  149.50   
4  2000-01-07  TITAN     EQ      149.50  149.5  153.00  145.0  147.75  146.35   

     VWAP  Volume      Turnover  Trades  Deliverable Volume  %Deliverble  
0  154.36   23000  3.550370e+11     NaN                 NaN          NaN  
1  146.72   26300  3.858700e+11     NaN                 NaN          NaN  
2  142.95   20600  2.944850e+11     NaN                 NaN          NaN  
3  147.87   31600  4.672750e+11     NaN                 NaN          NaN  
4  148.63   36600  5.439965e+11     NaN                 NaN          NaN  


In [18]:
# Obtener estadísticas básicas de las columnas numéricas
print("Estadísticas básicas del dataset Titan:")
print(titan_df.describe())



Estadísticas básicas del dataset Titan:
        Prev Close         Open         High          Low         Last  \
count  5306.000000  5306.000000  5306.000000  5306.000000  5306.000000   
mean    709.230692   709.989926   723.312816   696.430767   709.449114   
std     785.170900   785.435092   799.085424   772.183889   784.995523   
min      27.500000    27.000000    28.800000    27.000000    27.750000   
25%     192.262500   192.625000   198.800000   189.500000   192.837500   
50%     396.150000   398.250000   404.525000   391.125000   397.025000   
75%    1017.725000  1018.925000  1046.500000   991.187500  1020.000000   
max    4714.600000  4730.000000  4754.950000  4559.900000  4734.000000   

             Close         VWAP        Volume      Turnover         Trades  \
count  5306.000000  5306.000000  5.306000e+03  5.306000e+03    2456.000000   
mean    709.484499   710.415443  1.172596e+06  7.796053e+13   47241.859935   
std     785.206121   786.266584  1.763858e+06  1.378542e+14

In [17]:
# Calcular el promedio de volumen de transacciones
promedio_volumen = titan_df['Volume'].mean()
print("Promedio de volumen de transacciones:", promedio_volumen)



Promedio de volumen de transacciones: 1172596.481530343


In [16]:
# Contar la cantidad de transacciones por serie de stock
print("Cantidad de transacciones por serie de stock:")
print(titan_df['Series'].value_counts())

Cantidad de transacciones por serie de stock:
EQ    5306
Name: Series, dtype: int64


# Data Set 3: Diabetes

El dataset "Diabetes" contiene datos de pacientes con diabetes recopilados durante un período de 10 años. Incluye información sobre la raza, género, edad, peso, tipo de admisión, tipo de alta, fuente de admisión, tiempo de hospitalización, código de pagador, especialidad médica, procedimientos de laboratorio, medicamentos administrados, visitas ambulatorias, visitas de emergencia, diagnósticos, resultados de pruebas de glucosa en sangre, resultados de A1C, medicamentos específicos para la diabetes, cambios en el tratamiento, si se sigue el tratamiento de la diabetes, y si se produjo una readmisión. Estos datos pueden utilizarse para realizar análisis y estudios relacionados con la diabetes, como el control de la enfermedad, tratamientos y factores de riesgo.


race: Esta columna registra la raza del paciente.

gender: Indica el género del paciente.

age: Representa la edad del paciente.

weight: Registra el peso del paciente.

admission_type_id: Indica el tipo de admisión del paciente.

discharge_disposition_id: Representa el tipo de alta del paciente.

admission_source_id: Indica la fuente de admisión del paciente.

time_in_hospital: Representa el tiempo de hospitalización del paciente en días.

payer_code: Registra el código del pagador del paciente.

medical_specialty: Indica la especialidad médica asociada al paciente.

num_lab_procedures: Representa el número de procedimientos de laboratorio realizados para el paciente.

num_procedures: Indica el número total de procedimientos realizados para el paciente.

num_medications: Registra el número de medicamentos administrados al paciente.

number_outpatient: Indica el número de visitas ambulatorias realizadas por el paciente después de la hospitalización.

number_emergency: Representa el número de visitas de emergencia realizadas por el paciente después de la hospitalización.

### Importamos el Data Set

In [9]:
# Cargando el dataset diabetes
diabetes_path = "Data Set 3/diabetes.csv"
diabetes_df = pd.read_csv(diabetes_path)

### Realizamos Pruebas con el Data Set


In [12]:
# Mostrar la cantidad de registros en el dataset
print("Cantidad de registros en el dataset Diabetes:", len(diabetes_df))



Cantidad de registros en el dataset Diabetes: 101766


In [11]:
# Mostrar las primeras 5 filas del dataset
print("Primeras 5 filas del dataset Diabetes:")
print(diabetes_df.head())



Primeras 5 filas del dataset Diabetes:
   id  encounter_id  patient_nbr             race  gender      age weight  \
0   1       2278392      8222157        Caucasian  Female   [0-10)      ?   
1   2        149190     55629189        Caucasian  Female  [10-20)      ?   
2   3         64410     86047875  AfricanAmerican  Female  [20-30)      ?   
3   4        500364     82442376        Caucasian    Male  [30-40)      ?   
4   5         16680     42519267        Caucasian    Male  [40-50)      ?   

   admission_type_id  discharge_disposition_id  admission_source_id  ...  \
0                  6                        25                    1  ...   
1                  1                         1                    7  ...   
2                  1                         1                    7  ...   
3                  1                         1                    7  ...   
4                  1                         1                    7  ...   

   citoglipton insulin glyburide.metformi

In [15]:
# Obtener estadísticas básicas de las columnas numéricas
print("Estadísticas básicas del dataset Diabetes:")
print(diabetes_df.describe())



Estadísticas básicas del dataset Diabetes:
                  id  encounter_id   patient_nbr  admission_type_id  \
count  101766.000000  1.017660e+05  1.017660e+05      101766.000000   
mean    50883.500000  1.652016e+08  5.433040e+07           2.024006   
std     29377.458084  1.026403e+08  3.869636e+07           1.445403   
min         1.000000  1.252200e+04  1.350000e+02           1.000000   
25%     25442.250000  8.496119e+07  2.341322e+07           1.000000   
50%     50883.500000  1.523890e+08  4.550514e+07           1.000000   
75%     76324.750000  2.302709e+08  8.754595e+07           3.000000   
max    101766.000000  4.438672e+08  1.895026e+08           8.000000   

       discharge_disposition_id  admission_source_id  time_in_hospital  \
count             101766.000000        101766.000000     101766.000000   
mean                   3.715642             5.754437          4.395987   
std                    5.280166             4.064081          2.985108   
min                  

In [14]:
# Contar la cantidad de pacientes por raza
print("Cantidad de pacientes por raza:")
print(diabetes_df['race'].value_counts())



Cantidad de pacientes por raza:
Caucasian          76099
AfricanAmerican    19210
?                   2273
Hispanic            2037
Other               1506
Asian                641
Name: race, dtype: int64


In [13]:
# Calcular el promedio de tiempo de hospitalización
promedio_hospitalizacion = diabetes_df['time_in_hospital'].mean()
print("Promedio de tiempo de hospitalización:", promedio_hospitalizacion)

Promedio de tiempo de hospitalización: 4.395986871843248
