# **Ejercicio 3**
En este cuaderno se realiza la construcción y análisis descriptivo de un conjunto de datos correspondiente a 8 estudiantes universitarios.

El **objetivo** es aplicar conceptos fundamentales de manipulación de datos en Python utilizando la librería pandas.

## **1. Data frame**

### **1.1. Creación de un diccionario**
Se construye un diccionario en Python que simula una estructura tabular.

In [2]:
# Crear un diccionario
datos={
    "MASA":[71,45,50,60,61,84,55,60], # Lista de nombres se plantea con corchetes
    "ESTATURA":[183,168,164,164,167,182,168,170],
    "GENERO":["HOMBRE","HOMBRE","HOMBRE","MUJER","HOMBRE","HOMBRE","MUJER","HOMBRE"],
    "ESTRATO":[2,1,1,3,3,3,3,3],
    "FUMA":["NO","NO","NO","SI","SI","NO","NO","SI"]
}   

# Imprimir los datos
print(datos) 

{'MASA': [71, 45, 50, 60, 61, 84, 55, 60], 'ESTATURA': [183, 168, 164, 164, 167, 182, 168, 170], 'GENERO': ['HOMBRE', 'HOMBRE', 'HOMBRE', 'MUJER', 'HOMBRE', 'HOMBRE', 'MUJER', 'HOMBRE'], 'ESTRATO': [2, 1, 1, 3, 3, 3, 3, 3], 'FUMA': ['NO', 'NO', 'NO', 'SI', 'SI', 'NO', 'NO', 'SI']}


### **1.2. Importe de la librería pandas**

In [3]:
# Libreria 
import pandas as pd

### **1.3. Conversión del diccionario a data frame**
Posteriormente, dicho diccionario es convertido en un DataFrame utilizando la librería pandas, lo que permite trabajar los datos de forma estructurada y eficiente.

In [4]:
# DataFrame es una función que está dentro del módulo pandas
df=pd.DataFrame(datos) 
df

Unnamed: 0,MASA,ESTATURA,GENERO,ESTRATO,FUMA
0,71,183,HOMBRE,2,NO
1,45,168,HOMBRE,1,NO
2,50,164,HOMBRE,1,NO
3,60,164,MUJER,3,SI
4,61,167,HOMBRE,3,SI
5,84,182,HOMBRE,3,NO
6,55,168,MUJER,3,NO
7,60,170,HOMBRE,3,SI


## **2. Análisis descriptivo básico de las variables** 
Se realiza un análisis exploratorio inicial con el fin de conocer la estructura del conjunto de datos, sus dimensiones, tipos de variables y estadísticas descriptivas básicas.

### **2.1. Estructura del data frame** 

In [5]:
# Obtener información sobre la estructura del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   MASA      8 non-null      int64 
 1   ESTATURA  8 non-null      int64 
 2   GENERO    8 non-null      object
 3   ESTRATO   8 non-null      int64 
 4   FUMA      8 non-null      object
dtypes: int64(3), object(2)
memory usage: 448.0+ bytes


In [6]:
#Acceder a los nombres de las columnas
df.columns

Index(['MASA', 'ESTATURA', 'GENERO', 'ESTRATO', 'FUMA'], dtype='object')

In [7]:
# Obtener las dimensiones del DataFrame
df.shape

(8, 5)

Dado a que la variable "ESTRATO" no se puede tratar como una cuantitativa real, la convertimos en categórica ordinal.

In [16]:
df['ESTRATO'] = df['ESTRATO'].astype('object')

In [17]:
# Verificamos de nuevo la estructura del DataFrame con ESTRATO ahora como categórica
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   MASA      8 non-null      int64 
 1   ESTATURA  8 non-null      int64 
 2   GENERO    8 non-null      object
 3   ESTRATO   8 non-null      object
 4   FUMA      8 non-null      object
dtypes: int64(2), object(3)
memory usage: 448.0+ bytes


### **2.2.Descripción variables numéricas**

In [13]:
# Seleccionar solo variables numéricas 
numericas = df[['MASA', 'ESTATURA']]

# Crear resumen manual
resumen = pd.DataFrame({
    'Promedio': numericas.mean(),
    'Desv. Estandar': numericas.std(),
    'Minimo': numericas.min(),
    'Maximo': numericas.max(),
    'Mediana': numericas.median(),
    'Cuartil 1 (25%)': numericas.quantile(0.25),
    'Cuartil 3 (75%)': numericas.quantile(0.75)
})

# Mostrar resultados
resumen.T

Unnamed: 0,MASA,ESTATURA
Promedio,60.75,170.75
Desv. Estandar,12.209481,7.53563
Minimo,45.0,164.0
Maximo,84.0,183.0
Mediana,60.0,168.0
Cuartil 1 (25%),53.75,166.25
Cuartil 3 (75%),63.5,173.0


El análisis descriptivo de las variables cuantitativas MASA y ESTATURA muestra que la masa promedio de los estudiantes es 60.75 kg y la estatura promedio es 170.75 cm, valores que representan el centro de la distribución. La mediana (60 kg para masa y 168 cm para estatura) es cercana a la media en ambos casos, lo que sugiere distribuciones relativamente equilibradas sin asimetrías marcadas. La desviación estándar indica mayor variabilidad en la masa (12.21 kg) que en la estatura (7.54 cm), lo que implica que el peso presenta mayor dispersión entre los estudiantes. El valor mínimo y máximo en masa (45 kg y 84 kg) evidencian un rango amplio, mientras que en estatura (164 cm y 183 cm) la variación es más moderada. En cuanto a los cuartiles, el 25% de los estudiantes pesa menos de 53.75 kg y mide menos de 166.25 cm, mientras que el 75% pesa menos de 63.5 kg y mide menos de 173 cm, concentrándose el 50% central de los datos en intervalos relativamente estrechos (IQR de 9.75 kg en masa y 6.75 cm en estatura), lo que sugiere mayor homogeneidad en la estatura respecto a la masa dentro de la muestra analizada.

### **2.3.Descripción variables categóricas**

In [18]:
df.describe(include="object")

Unnamed: 0,GENERO,ESTRATO,FUMA
count,8,8,8
unique,2,3,2
top,HOMBRE,3,NO
freq,6,5,5


#### **2.3.1. Distribución de frecuencias**

In [20]:
frec_gen = df["GENERO"].value_counts()
print("Frecuencia absoluta de género:\n", frec_gen)
print("------------------------------------------------")
frec_porc_gen = df["GENERO"].value_counts(normalize=True) * 100
print("Frecuencia relativa de género:\n", frec_porc_gen)


Frecuencia absoluta de género:
 GENERO
HOMBRE    6
MUJER     2
Name: count, dtype: int64
------------------------------------------------
Frecuencia relativa de género:
 GENERO
HOMBRE    75.0
MUJER     25.0
Name: proportion, dtype: float64


In [22]:
frec_est = df["ESTRATO"].value_counts()
print("Frecuencia absoluta de estrato:\n", frec_est)
print("------------------------------------------------")
frec_porc_est = df["ESTRATO"].value_counts(normalize=True) * 100
print("Frecuencia relativa de estrato:\n", frec_porc_est)

Frecuencia absoluta de estrato:
 ESTRATO
3    5
1    2
2    1
Name: count, dtype: int64
------------------------------------------------
Frecuencia relativa de estrato:
 ESTRATO
3    62.5
1    25.0
2    12.5
Name: proportion, dtype: float64


In [81]:
frec_fuma = df["FUMA"].value_counts()
print("Frecuencia absoluta de fuma:\n", frec_fuma)
print("------------------------------------------------")
frec_porc_fuma = df["FUMA"].value_counts(normalize=True) * 100
print("Frecuencia relativa de fuma:\n", frec_porc_fuma)

Frecuencia absoluta de fuma:
 FUMA
NO    5
SI    3
Name: count, dtype: int64
------------------------------------------------
Frecuencia relativa de fuma:
 FUMA
NO    62.5
SI    37.5
Name: proportion, dtype: float64


El análisis de las variables categóricas muestra que la muestra está compuesta mayoritariamente por hombres, quienes representan el 75% (6 estudiantes), mientras que las mujeres constituyen el 25% (2 estudiantes), evidenciando un claro predominio masculino. En cuanto al estrato socioeconómico, la mayoría pertenece al estrato 3 (62.5%), seguido del estrato 1 (25%) y en menor proporción el estrato 2 (12.5%), lo que indica una concentración en niveles socioeconómicos medios dentro del grupo analizado. Respecto al hábito de fumar, el 62.5% de los estudiantes no fuma y el 37.5% sí lo hace, mostrando que, aunque predomina la población no fumadora, existe una proporción relevante de estudiantes que mantienen este hábito.

## **3. Creación de subconjuntos**
Se generan subconjuntos del DataFrame original con el objetivo de practicar técnicas de extracción de datos por filas y por tipo de variable.

### **3.1. Extracción de los 4 primeros estudiantes**

In [26]:
subc1=df.iloc[0:4]
subc1

Unnamed: 0,MASA,ESTATURA,GENERO,ESTRATO,FUMA
0,71,183,HOMBRE,2,NO
1,45,168,HOMBRE,1,NO
2,50,164,HOMBRE,1,NO
3,60,164,MUJER,3,SI


### **3.2. Extracción de variables categóricas**

In [None]:
subc2=df.iloc[:,[2,3,4]]
subc2

#Otra forma
#subc22=df.loc[:,['GENERO','ESTRATO','FUMA']]
#Otra forma
#subc222 = df[["GENERO", "ESTRATO","FUMA"]]
#Alternativa automática:
# subc2222 = df.select_dtypes(include=['object']).copy()

Unnamed: 0,GENERO,ESTRATO,FUMA
0,HOMBRE,2,NO
1,HOMBRE,1,NO
2,HOMBRE,1,NO
3,MUJER,3,SI
4,HOMBRE,3,SI
5,HOMBRE,3,NO
6,MUJER,3,NO
7,HOMBRE,3,SI


### **3.3. Extracción de variables numméricas**

In [24]:
subc3=df.iloc[:,[0,1]]
subc3

#Alternativa automática
#subc33 = df.select_dtypes(include=["int64", "float64"])

Unnamed: 0,MASA,ESTATURA
0,71,183
1,45,168
2,50,164
3,60,164
4,61,167
5,84,182
6,55,168
7,60,170


### **3.4. Resumen de los subconjuntos**

In [27]:
print("df     -> filas:", df.shape[0],     "| columnas:", df.shape[1])
print("subc1  -> filas:", subc1.shape[0],  "| columnas:", subc1.shape[1])
print("subc2  -> filas:", subc2.shape[0],  "| columnas:", subc2.shape[1])
print("subc3  -> filas:", subc3.shape[0],  "| columnas:", subc3.shape[1])

df     -> filas: 8 | columnas: 5
subc1  -> filas: 4 | columnas: 5
subc2  -> filas: 8 | columnas: 3
subc3  -> filas: 8 | columnas: 2
