# **Ejercicio 3**
En este cuaderno se realiza la construcción y análisis descriptivo de un conjunto de datos correspondiente a 8 estudiantes universitarios.

El **objetivo** es aplicar conceptos fundamentales de manipulación de datos en Python utilizando la librería pandas.

## **1. Data frame**

### **1.1. Creación de un diccionario**
Se construye un diccionario en Python que simula una estructura tabular.

In [None]:
# Crear un diccionario
datos={
    "MASA":[71,45,50,60,61,84,55,60], # Lista de nombres se plantea con corchetes
    "ESTATURA":[183,168,164,164,167,182,168,170],
    "GENERO":["HOMBRE","HOMBRE","HOMBRE","MUJER","HOMBRE","HOMBRE","MUJER","HOMBRE"],
    "ESTRATO":[2,1,1,3,3,3,3,3],
    "FUMA":["NO","NO","NO","SI","SI","NO","NO","SI"]
}   

# Imprimir los datos
print(datos) 

{'MASA': [71, 45, 50, 60, 61, 84, 55, 60], 'ESTATURA': [183, 168, 164, 164, 167, 182, 168, 170], 'GENERO': ['HOMBRE', 'HOMBRE', 'HOMBRE', 'MUJER', 'HOMBRE', 'HOMBRE', 'MUJER', 'HOMBRE'], 'ESTRATO': [2, 1, 1, 3, 3, 3, 3, 3], 'FUMA': ['NO', 'NO', 'NO', 'SI', 'SI', 'NO', 'NO', 'SI']}


### **1.2. Importe de la librería pandas**

In [60]:
# Libreria 
import pandas as pd

### **1.3. Conversión del diccionario a data frame**
Posteriormente, dicho diccionario es convertido en un DataFrame utilizando la librería pandas, lo que permite trabajar los datos de forma estructurada y eficiente.

In [61]:
# DataFrame es una función que está dentro del módulo pandas
df=pd.DataFrame(datos) 
df

Unnamed: 0,MASA,ESTATURA,GENERO,ESTRATO,FUMA
0,71,183,HOMBRE,2,NO
1,45,168,HOMBRE,1,NO
2,50,164,HOMBRE,1,NO
3,60,164,MUJER,3,SI
4,61,167,HOMBRE,3,SI
5,84,182,HOMBRE,3,NO
6,55,168,MUJER,3,NO
7,60,170,HOMBRE,3,SI


## **2. Análisis descriptivo básico de las variables** 
Se realiza un análisis exploratorio inicial con el fin de conocer la estructura del conjunto de datos, sus dimensiones, tipos de variables y estadísticas descriptivas básicas.

### **2.1. Estructura del data frame** 

In [62]:
# Obtener información sobre la estructura del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   MASA      8 non-null      int64 
 1   ESTATURA  8 non-null      int64 
 2   GENERO    8 non-null      object
 3   ESTRATO   8 non-null      int64 
 4   FUMA      8 non-null      object
dtypes: int64(3), object(2)
memory usage: 448.0+ bytes


In [63]:
#Acceder a los nombres de las columnas
df.columns

Index(['MASA', 'ESTATURA', 'GENERO', 'ESTRATO', 'FUMA'], dtype='object')

In [64]:
# Obtener las dimensiones del DataFrame
df.shape

(8, 5)

### **2.2.Descripción variables numéricas**

In [65]:
df.describe()

Unnamed: 0,MASA,ESTATURA,ESTRATO
count,8.0,8.0,8.0
mean,60.75,170.75,2.375
std,12.209481,7.53563,0.916125
min,45.0,164.0,1.0
25%,53.75,166.25,1.75
50%,60.0,168.0,3.0
75%,63.5,173.0,3.0
max,84.0,183.0,3.0


In [98]:
# Medidas de dispersión adicionales para numéricas
print("=== MEDIDAS ADICIONALES ===\n")
print("Mediana:\n")
print("MASA:", df['MASA'].median())
print("ESTATURA:", df['ESTATURA'].median())
print("ESTRATO:", df['ESTRATO'].median())
print("------------------------------------------------")
print("Varianza:\n")
print("MASA:", df['MASA'].var())
print("ESTATURA:", df['ESTATURA'].var())
print("ESTRATO:", df['ESTRATO'].var())
print("------------------------------------------------")
print("Rango (max - min):\n")
print("MASA:", df['MASA'].max() - df['MASA'].min())
print("ESTATURA:", df['ESTATURA'].max() - df['ESTATURA'].min())
print("ESTRATO:", df['ESTRATO'].max() - df['ESTRATO'].min())

=== MEDIDAS ADICIONALES ===

Mediana:

MASA: 60.0
ESTATURA: 168.0
ESTRATO: 3.0
------------------------------------------------
Varianza:

MASA: 149.07142857142858
ESTATURA: 56.785714285714285
ESTRATO: 0.8392857142857143
------------------------------------------------
Rango (max - min):

MASA: 39
ESTATURA: 19
ESTRATO: 2


La masa promedio de los estudiantes es aproximadamente 61 kg. La mediana es cercana a la media, lo que sugiere una distribución relativamente simétrica. Sin embargo, el rango amplio (39 kg) indica variabilidad considerable entre los estudiantes.

Por otro lado, la estatura promedio es de aproximadamente 171 cm. La dispersión es moderada (19 cm de rango), lo que indica que las estaturas no presentan variaciones extremas.

En cuanto al estrato, la mayoría de los estudiantes pertenecen al 3. La distribución no es muy dispersa, lo que indica concentración en niveles socioeconómicos similares.

### **2.3.Descripción variables categóricas**

In [78]:
df.describe(include="object")

Unnamed: 0,GENERO,FUMA
count,8,8
unique,2,2
top,HOMBRE,NO
freq,6,5


#### **2.3.1. Distribución de frecuencias**

In [82]:
frec_gen = df["GENERO"].value_counts()
print("Frecuencia absoluta de género:\n", frec_gen)
print("------------------------------------------------")
frec_porc_gen = df["GENERO"].value_counts(normalize=True) * 100
print("Frecuencia relativa de género:\n", frec_porc_gen)


Frecuencia absoluta de género:
 GENERO
HOMBRE    6
MUJER     2
Name: count, dtype: int64
------------------------------------------------
Frecuencia relativa de género:
 GENERO
HOMBRE    75.0
MUJER     25.0
Name: proportion, dtype: float64


In [81]:
frec_fuma = df["FUMA"].value_counts()
print("Frecuencia absoluta de fuma:\n", frec_fuma)
print("------------------------------------------------")
frec_porc_fuma = df["FUMA"].value_counts(normalize=True) * 100
print("Frecuencia relativa de fuma:\n", frec_porc_fuma)

Frecuencia absoluta de fuma:
 FUMA
NO    5
SI    3
Name: count, dtype: int64
------------------------------------------------
Frecuencia relativa de fuma:
 FUMA
NO    62.5
SI    37.5
Name: proportion, dtype: float64


La muestra presenta que el género masculina supera en proporción al femenino. A su vez, revela que la mayoría de los estudiantes no fuma, aunque existe una proporción significativa (37,5%) que sí lo hace.

## **3. Creación de subconjuntos**
Se generan subconjuntos del DataFrame original con el objetivo de practicar técnicas de extracción de datos por filas y por tipo de variable.

### **3.1. Extracción de los 4 primeros estudiantes**

In [70]:
subc1=df.iloc[0:4]
subc1

Unnamed: 0,MASA,ESTATURA,GENERO,ESTRATO,FUMA
0,71,183,HOMBRE,2,NO
1,45,168,HOMBRE,1,NO
2,50,164,HOMBRE,1,NO
3,60,164,MUJER,3,SI


### **3.2. Extracción de variables categóricas**

In [71]:
subc2=df.iloc[:,[2,4]]
subc2

#Otra forma
#subc22=df.loc[:,['GENERO','FUMA']]
#Otra forma
#subc222 = df[["GENERO", "FUMA"]]
#Alternativa automática:
# subc2222 = df.select_dtypes(include=['object']).copy()

Unnamed: 0,GENERO,FUMA
0,HOMBRE,NO
1,HOMBRE,NO
2,HOMBRE,NO
3,MUJER,SI
4,HOMBRE,SI
5,HOMBRE,NO
6,MUJER,NO
7,HOMBRE,SI


### **3.3. Extracción de variables numméricas**

In [72]:
subc3=df.iloc[:,[0,1,3]]
subc3

#Alternativa automática
#subc33 = df.select_dtypes(include=["int64", "float64"])

Unnamed: 0,MASA,ESTATURA,ESTRATO
0,71,183,2
1,45,168,1
2,50,164,1
3,60,164,3
4,61,167,3
5,84,182,3
6,55,168,3
7,60,170,3


### **3.4. Resumen de los subconjuntos**

In [73]:
print("df     -> filas:", df.shape[0],     "| columnas:", df.shape[1])
print("subc1  -> filas:", subc1.shape[0],  "| columnas:", subc1.shape[1])
print("subc2  -> filas:", subc2.shape[0],  "| columnas:", subc2.shape[1])
print("subc3  -> filas:", subc3.shape[0],  "| columnas:", subc3.shape[1])

df     -> filas: 8 | columnas: 5
subc1  -> filas: 4 | columnas: 5
subc2  -> filas: 8 | columnas: 2
subc3  -> filas: 8 | columnas: 3
