# Introducci√≥n a Pandas - Series y DataFrames

### üéØ Objetivo general
Comprender la estructura y funcionamiento de las principales estructuras de datos de Pandas (**Series** y **DataFrames**) y aprender a explorarlas mediante sus m√©todos fundamentales.

---

## üß† Motivaci√≥n: ¬øPor qu√© Pandas en Ciencia de Datos?

En Ciencia de Datos, el 80% del tiempo se dedica a **limpiar, explorar y preparar datos**.  
Pandas es la herramienta base para:
- Leer y transformar archivos (CSV, Excel, JSON, SQL, etc.)
- Manipular informaci√≥n estructurada de forma eficiente
- Integrarse con *NumPy*, *Matplotlib* y *Scikit-learn*

üìä **Ejemplo real:**  
Antes de crear un modelo de predicci√≥n de precios de vivienda, debemos entender c√≥mo est√°n organizadas las columnas, si hay valores faltantes y c√≥mo se distribuyen las variables.  
Todo esto se logra con **Pandas**.

---


### 1. Importaci√≥n de la libreria

```python

import pandas as pd



In [1]:
import pandas as pd


### 2. Creaci√≥n de Series

Una **Serie** es una estructura unidimensional (como una lista con etiquetas).



In [2]:
import pandas as pd

# Crear una Serie
numeros = pd.Series([10, 20, 30, 40])
print(numeros)


0    10
1    20
2    30
3    40
dtype: int64


In [4]:
# Serie con √≠ndice personalizado
edades = pd.Series([23.1, 45, 31], index=['Ana', 'Luis', 'Sof√≠a'])
print(edades)


Ana      23.1
Luis     45.0
Sof√≠a    31.0
dtype: float64


##  Las Series en Pandas como instancias de una clase (POO)

En **Pandas**, una **Serie** es un **objeto** creado a partir de la clase `pandas.Series`.  
Esto significa que, al igual que los objetos en Programaci√≥n Orientada a Objetos (POO),  
las Series tienen **atributos** (propiedades) y **m√©todos** (acciones que pueden realizar).

**Atributos**:

+ `numeros.values`: array con los valores
+ `numeros.index`: etiquetas o √≠ndices
+ `numeros.dtype`: tipo de datos

**M√©todos**:
+ `numeros.mean()`: promedio
+ `numeros.sum()`:  suma total
+ `numeros.head(2)`:  primeras posiciones

In [13]:
#print("Valores:", edades.values)
print("√çndices:", edades.index)
print("Tipo de datos:", edades.dtype)
print("Promedio de los datos:", edades.mean())
print("Suma de datos:", edades.sum())
print("Las primeras filas de datos:\n",edades.head())

√çndices: Index(['Ana', 'Luis', 'Sof√≠a'], dtype='object')
Tipo de datos: float64
Promedio de los datos: 33.03333333333333
Suma de datos: 99.1
Las primeras filas de datos:
 Ana      23.1
Luis     45.0
Sof√≠a    31.0
dtype: float64


### 3. Creaci√≥n de DataFrames

Un DataFrame est√° compuesto de Series:

Cada columna de un DataFrame es, en esencia, una Serie de pandas.

In [14]:
# Crear Series individuales
serie_productos = pd.Series(['Laptop', 'Mouse', 'Teclado'])
serie_precios = pd.Series([999.9, 25.50, 75.00])
serie_stock = pd.Series([10, 50, 30])

# Combinarlas en un DataFrame
df_inventario = pd.DataFrame({
    'Producto': serie_productos,
    'Precio': serie_precios,
    'Stock': serie_stock
})
df_inventario


Unnamed: 0,Producto,Precio,Stock
0,Laptop,999.9,10
1,Mouse,25.5,50
2,Teclado,75.0,30





Un **DataFrame** es una tabla con filas y columnas (similar a Excel o SQL).



In [19]:
datos = {
    'Nombre': ['Ana', 'Luis', 'Sof√≠a', "Jose"],
    'Edad': [23, 45, 31, 27],
    'Ciudad': ['Bogot√°', 'Medell√≠n', 'Cali', "Pasto"]
}

df = pd.DataFrame(datos)
df = pd.DataFrame(datos, index=[2,5,8,9])
df


Unnamed: 0,Nombre,Edad,Ciudad
2,Ana,23,Bogot√°
5,Luis,45,Medell√≠n
8,Sof√≠a,31,Cali
9,Jose,27,Pasto


In [20]:
# Columnas y filas
print(df.columns)
print(df.index)
print(df.shape)


Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')
Index([2, 5, 8, 9], dtype='int64')
(4, 3)


In [36]:
import numpy as np

# Semilla para reproducibilidad
np.random.seed(1)

# Listas de ejemplo
nombres = [
    "Ana", "Ana", "Mar√≠a", "Carlos", "Sof√≠a", "Andr√©s", "Valentina", "Camilo", "Laura", "Jorge",
    "Diana", "Felipe", "Natalia", "Ricardo", "Daniela", "Sebasti√°n", "Paula", "Juan", "Carolina", "Santiago",
    "M√≥nica", "Andr√©s F.", "Lorena", "Jos√©", "Tatiana", "Miguel", "Alejandra", "Cristian", "Manuela", "Ana"
]

# Generar columnas
edades = np.random.randint(17, 25, size=30)            # entre 17 y 24 a√±os
semestres = np.random.randint(1, 10, size=30)          # entre 1 y 9 semestres
promedios = np.round(np.random.uniform(2.5, 5.0, 30), 2)  # promedio entre 2.5 y 5.0
generos = np.random.choice(["F", "M"], size=30)        # femenino o masculino

# Crear DataFrame
df = pd.DataFrame({
    "Nombre": nombres,
    "Edad": edades,
    "Semestres": semestres,
    "Promedio": promedios,
    "G√©nero": generos
})

# Mostrar primeras filas
df.head(2)

Unnamed: 0,Nombre,Edad,Semestres,Promedio,G√©nero
0,Ana,22,3,4.97,M
1,Ana,20,5,4.37,M


In [31]:
# Columnas y filas
print(df.columns)
print(df.index)
print(df.shape)

Index(['Nombre', 'Edad', 'Semestres', 'Promedio', 'G√©nero'], dtype='object')
RangeIndex(start=0, stop=30, step=1)
(30, 5)



### 4. Exploraci√≥n r√°pida de un DataFrame
Estos m√©todos te permiten obtener una visi√≥n general del dataset.



In [32]:
df.tail(4)     # √öltimas filas

Unnamed: 0,Nombre,Edad,Semestres,Promedio,G√©nero
26,Alejandra,19,5,4.16,F
27,Cristian,21,1,3.79,F
28,Manuela,22,4,4.86,F
29,Ana,23,3,3.97,F


In [33]:
df.info()      # Estructura general del DataFrame. Dato nulo == None


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Nombre     30 non-null     object 
 1   Edad       30 non-null     int64  
 2   Semestres  30 non-null     int64  
 3   Promedio   30 non-null     float64
 4   G√©nero     30 non-null     object 
dtypes: float64(1), int64(2), object(2)
memory usage: 1.3+ KB


In [34]:
df.describe()  # Estad√≠sticas de columnas num√©ricas

Unnamed: 0,Edad,Semestres,Promedio
count,30.0,30.0,30.0
mean,20.666667,5.1,3.636333
std,2.122675,2.795933,0.710937
min,17.0,1.0,2.55
25%,19.0,2.25,3.0625
50%,21.0,5.0,3.675
75%,22.0,8.0,4.19
max,24.0,9.0,4.97


In [37]:
df.describe(include='object') # Estad√≠sticas de columnas categoricas

Unnamed: 0,Nombre,G√©nero
count,30,30
unique,28,2
top,Ana,F
freq,3,17


In [None]:
df.describe(include='all')

###  5. Selecci√≥n de datos

In [39]:
df['Nombre']
df[['Nombre', 'Semestres']]



Unnamed: 0,Nombre,Semestres
0,Ana,3
1,Ana,5
2,Mar√≠a,8
3,Carlos,8
4,Sof√≠a,2
5,Andr√©s,8
6,Valentina,1
7,Camilo,7
8,Laura,8
9,Jorge,7


In [42]:
df

Unnamed: 0,Nombre,Edad,Semestres,Promedio,G√©nero
0,Ana,22,3,4.97,M
1,Ana,20,5,4.37,M
2,Mar√≠a,21,8,3.2,F
3,Carlos,17,8,4.47,M
4,Sof√≠a,24,2,2.76,F
5,Andr√©s,18,8,3.62,M
6,Valentina,20,1,4.77,F
7,Camilo,22,7,3.23,F
8,Laura,24,8,3.22,F
9,Jorge,17,7,2.83,M


In [56]:
dff = pd.DataFrame({
    "Nombre": nombres,
    "Edad": edades,
    "Semestres": semestres,
    "Promedio": promedios,
    "G√©nero": generos
}, index=[x for x in range(4,34)])
dff.head(4)

Unnamed: 0,Nombre,Edad,Semestres,Promedio,G√©nero
4,Ana,22,3,4.97,M
5,Ana,20,5,4.37,M
6,Mar√≠a,21,8,3.2,F
7,Carlos,17,8,4.47,M


In [59]:
#dff.loc[7]         # Fila por etiqueta (√≠ndice)
#df.iloc[3]        # Fila por indexaci√≥n
dff.loc[5, 'Promedio'] # Elemento espec√≠fico


np.float64(4.37)

In [60]:
df["Edad"].mean() # promedio de la edad

np.float64(20.666666666666668)

In [61]:

df['G√©nero'].value_counts() # Contar categorias


Unnamed: 0_level_0,count
G√©nero,Unnamed: 1_level_1
F,17
M,13


In [62]:
df["Nombre"].nunique() #cantidad de valores √∫nicos

28

# Taller

## üì±  Uso de una Aplicaci√≥n Tecnol√≥gica

El siguiente conjunto de datos simula informaci√≥n recolectada de **100 usuarios** de una aplicaci√≥n tecnol√≥gica (por ejemplo, una *app de aprendizaje en l√≠nea* o una *plataforma de productividad personal*).  
Los registros contienen variables demogr√°ficas y de comportamiento de uso, √∫tiles para realizar an√°lisis exploratorios, segmentaci√≥n de usuarios y estudios de satisfacci√≥n.

---

### üßæ Descripci√≥n general
Cada fila del DataFrame representa un usuario √∫nico, e incluye informaci√≥n sobre:
- Su edad y pa√≠s de residencia.  
- Su nivel de interacci√≥n con la aplicaci√≥n (tiempo y sesiones).  
- Su nivel de satisfacci√≥n reportado con la experiencia de uso.

---

### üìö Diccionario de variables

| Variable | Tipo de dato | Descripci√≥n |
|-----------|---------------|-------------|
| `Usuario` | *string* | Identificador √∫nico del usuario (ej. `user_001`) |
| `Edad` | *int* | Edad del usuario en a√±os |
| `Pa√≠s` | *string* | Pa√≠s de residencia del usuario (ej. Colombia, M√©xico, Espa√±a) |
| `Tiempo_uso_min` | *int* | Tiempo promedio de uso diario de la aplicaci√≥n (en minutos) |
| `Sesiones_dia` | *int* | N√∫mero promedio de sesiones abiertas por d√≠a |
| `Satisfacci√≥n` | *string* | Nivel de satisfacci√≥n del usuario con la aplicaci√≥n (`Bajo`, `Medio`, `Alto`) |

---


In [63]:
import pandas as pd
import numpy as np

# Semilla para reproducibilidad
np.random.seed(123)

# N√∫mero de registros
n = 100

# Variables simuladas
usuarios = [f"user_{i:03d}" for i in range(1, n+1)]
edades = np.random.randint(18, 50, size=n)
pais = np.random.choice(["Colombia", "M√©xico", "Argentina", "Chile", "Per√∫", "Espa√±a"], size=n)
tiempo_uso_min = np.random.randint(5, 240, size=n)              # minutos diarios de uso
sesiones = np.random.randint(1, 10, size=n)                     # sesiones por d√≠a
nivel_satisfaccion = np.random.choice(["Bajo", "Medio", "Alto"], size=n, p=[0.2, 0.5, 0.3])

# Crear DataFrame
df_app = pd.DataFrame({
    "Usuario": usuarios,
    "Edad": edades,
    "Pa√≠s": pais,
    "Tiempo_uso_min": tiempo_uso_min,
    "Sesiones_dia": sesiones,
    "Satisfacci√≥n": nivel_satisfaccion
})

# Mostrar primeras filas
df_app.head()


Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
0,user_001,48,M√©xico,106,4,Medio
1,user_002,31,Per√∫,135,4,Medio
2,user_003,48,Argentina,151,2,Bajo
3,user_004,20,M√©xico,51,8,Alto
4,user_005,46,M√©xico,50,9,Medio


# Preguntas:



1. ¬øCu√°l es la edad promedio de todos los usuarios en el conjunto de datos?

2. ¬øCu√°l es la edad m√°xima y m√≠nima registrada entre los usuarios?

3. ¬øCu√°ntos usuarios hay por cada pa√≠s?

4. ¬øCu√°ntos usuarios son espec√≠ficamente de Colombia?

5. ¬øCu√°ntos usuarios hay en cada nivel de satisfacci√≥n (Bajo, Medio, Alto)?

6. ¬øCu√°ntos minutos en total han usado la aplicaci√≥n todos los usuarios?

7. ¬øCu√°l es el promedio de sesiones por d√≠a entre los usuarios? rta: 4.53

8. ¬øCu√°ntos usuarios tienen menos sesiones al d√≠a que el promedio calculado? rta 53