<a href="https://colab.research.google.com/github/Maria-Saldivia/sic_ai_2025_sept/blob/main/2_preprocesamiento/contribuciones_estudiantes/Actividad_316_339.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### 2.4 Clasificación de marco de datos y multiíndice

### Manipulación del DataFrame

## **Ordenación:**  
Es posible ordenar un DataFrame utilizando una o más columnas. Para ello, se utiliza el método **`sort_values()`**, que permite ordenar un DataFrame o una Serie en función de los valores de una o más columnas (o del índice, en el caso de Series).

#### 📌 Sintaxis simple
```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)
```
*   `by`: *str or list of str*. Especifica la columna o lista de columnas por las que se desea ordenar.
*   `axis`(0 = filas, 1=columas): Define el eje sobre el cual se va a ordenar. Por defecto es 0.
*   `ascending`: *bool or list of bools*, default True. Indica si el orden debe ser ascendente (True) o descendente (False).
*   `inplace`: *bool*, default False. Si es True, modifica el DataFrame original; si es False, devuelve una copia ordenada.
#### 📌 Sintaxis completa
```python
DataFrame.sort_values(
    by,    axis=0,    ascending=True,    inplace=False,    
    kind='quicksort',    na_position='last',    ignore_index=False,    key=None
)
```
Revisar: [pandas.DataFrame.sort_values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) para más información.


>Los ejemplos a continuación son con `axis = 0`. Es decir ordena las filas según los valores de una o más columnas


In [None]:
import pandas as pd
import numpy as np

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Ethan', 'Fiona'],
    'age': [28, 34, np.nan, 45, 30, 25],
    'gender': ['F', 'M', 'M', 'F', 'M', 'F'],
    'bloodtype': ['A', 'B', 'O', 'AB', 'A', 'A'],
    'weight': [55.0, np.nan, 68.0, 62.0, 85.0, 51.5],
    'height': [162, 175, 168, np.nan, 180, 160]
}

pacientes_df = pd.DataFrame(data)

In [None]:
#Ordenar por un valor por defecto será ascendente
pacientes_df.sort_values(by='age')

Unnamed: 0,name,age,gender,bloodtype,weight,height
0,Alice,28.0,F,A,55.0,162.0
4,Ethan,30.0,M,A,85.0,180.0
5,Fiona,25.0,F,A,51.5,160.0
3,Diana,45.0,F,AB,62.0,
1,Bob,34.0,M,B,,175.0
2,Charlie,,M,O,68.0,168.0


In [None]:
# Ordenar en en forma descendente
pacientes_df.sort_values(by='bloodtype', ascending=False)

Unnamed: 0,name,age,gender,bloodtype,weight,height
2,Charlie,,M,O,68.0,168.0
1,Bob,34.0,M,B,,175.0
3,Diana,45.0,F,AB,62.0,
0,Alice,28.0,F,A,55.0,162.0
4,Ethan,30.0,M,A,85.0,180.0
5,Fiona,25.0,F,A,51.5,160.0


In [None]:
# Ordenar utilizando dos columnas
pacientes_df.sort_values(by=['bloodtype','gender'], ascending=[False,False])

Unnamed: 0,name,age,gender,bloodtype,weight,height
2,Charlie,,M,O,68.0,168.0
1,Bob,34.0,M,B,,175.0
3,Diana,45.0,F,AB,62.0,
4,Ethan,30.0,M,A,85.0,180.0
0,Alice,28.0,F,A,55.0,162.0
5,Fiona,25.0,F,A,51.5,160.0


In [None]:
pacientes_df.sort_values(by='height')

Unnamed: 0,name,age,gender,bloodtype,weight,height
5,Fiona,25.0,F,A,51.5,160.0
0,Alice,28.0,F,A,55.0,162.0
2,Charlie,,M,O,68.0,168.0
1,Bob,34.0,M,B,,175.0
4,Ethan,30.0,M,A,85.0,180.0
3,Diana,45.0,F,AB,62.0,


In [None]:
pacientes_df.sort_values(by='height', na_position='first')

Unnamed: 0,name,age,gender,bloodtype,weight,height
3,Diana,45.0,F,AB,62.0,
5,Fiona,25.0,F,A,51.5,160.0
0,Alice,28.0,F,A,55.0,162.0
2,Charlie,,M,O,68.0,168.0
1,Bob,34.0,M,B,,175.0
4,Ethan,30.0,M,A,85.0,180.0


> Utilizando `axis = 1`. Es decir ordena las columnas según los valores de una o más filas
##### ⚠️ Advertencia: Error al ordenar con `axis=1` si hay mezcla de tipos

Cuando se utiliza `sort_values()` con `axis=1`, se intenta **ordenar las columnas** utilizando los valores de una **fila específica**. Esto puede generar un error si esa fila contiene **tipos de datos incompatibles**, como números (`float`, `int`) y cadenas de texto (`str`), ya que **no pueden compararse entre sí**.

#### 🧪 Ejemplo que genera error

```python
# DataFrame con mezcla de tipos (numéricos y strings)
pacientes_df.sort_values(by=0, axis=1)
```
💥 Error esperado:
```txt
TypeError: ufunc 'greater' did not contain a loop with signature matching types
(<class 'numpy.dtype[float64]'>, <class 'numpy.dtype[str_]'>) -> None
```

In [None]:
# Opción para evitar el error
# Solo columnas numéricas para evitar errores
numericas = pacientes_df.select_dtypes(include='number')

# Ordenar columnas según los valores de la fila 0
ordenadas1 = numericas.sort_values(by=3, axis=1, na_position='first')
ordenadas2 = numericas.sort_values(by=3, axis=1)
print(ordenadas1)
print('-'*26)
print(ordenadas2)


   height   age  weight
0   162.0  28.0    55.0
1   175.0  34.0     NaN
2   168.0   NaN    68.0
3     NaN  45.0    62.0
4   180.0  30.0    85.0
5   160.0  25.0    51.5
--------------------------
    age  weight  height
0  28.0    55.0   162.0
1  34.0     NaN   175.0
2   NaN    68.0   168.0
3  45.0    62.0     NaN
4  30.0    85.0   180.0
5  25.0    51.5   160.0


#### 2.4 Clasificación de marco de datos y multiíndice

### Manipulación del DataFrame

## **Indexación Jerarquica con MultiIndex:**

Un MultiIndex en Pandas es una estructura que permite tener índices jerárquicos en las filas o columnas de un DataFrame o Series. En lugar de un único índice, puedes tener múltiples niveles de etiquetas, lo que facilita la organización y el acceso a datos complejos.

**Para qué sirve un MultiIndex**

* Organizar mejor la información

* Puedes agrupar filas por categorías y subcategorías.

In [None]:
# Importamos las librerías necesarias: pandas para manejo de datos y numpy para generar números aleatorios
import pandas as pd
import numpy as np

In [None]:
# Definimos los nombres de las columnas del DataFrame
my_header = ['A', 'B', 'C']

# Creamos la primera parte del índice (nivel externo) con etiquetas de grupo: 'G1', 'G2', 'G3', cada una repetida dos veces
my_index_out = ['G1']*2 + ['G2']*2 + ['G3']*2
# Creamos la segunda parte del índice (nivel interno) con sub-etiquetas: '1', '2' repetidas tres veces
my_index_in = ['1', '2']*3

# Combinamos los dos niveles de índice en una lista de tuplas, una por cada fila
my_index_zipped = list(zip(my_index_out, my_index_in))

# Creamos un MultiIndex a partir de la lista de tuplas
my_multi_index = pd.MultiIndex.from_tuples(my_index_zipped)

# Creamos el DataFrame con:
# - 6 filas (una por cada tupla del índice)
# - 3 columnas ('A', 'B', 'C')

# Aplicación de MultiIndex en el índice
df = pd.DataFrame(data=np.random.randn(6, 3), # valores aleatorios (filas, columnas)
                  index=my_multi_index, ## 🔴 AQUÍ está la diferencia
                  columns=my_header)
df

Unnamed: 0,Unnamed: 1,A,B,C
G1,1,1.179609,-1.334867,0.476122
G1,2,0.382804,-0.210483,0.368354
G2,1,1.322718,1.468276,0.816419
G2,2,1.180264,-1.580455,-0.957372
G3,1,-1.31008,-0.450214,0.99781
G3,2,-0.419661,0.560148,1.544483


In [None]:
# Accede a todas las filas que tienen 'G1' en el primer nivel del índice (nivel externo del MultiIndex)
# Devuelve un sub-DataFrame con las subetiquetas del segundo nivel (por ejemplo: '1' y '2')
df.loc['G1']

Unnamed: 0,A,B,C
1,1.179609,-1.334867,0.476122
2,0.382804,-0.210483,0.368354


In [None]:
# Indexing followed by another indexing.
# Esto selecciona todas las filas del DataFrame que tienen 'G1' como valor en el primer nivel
df.loc['G1'].loc['1']
# Sobre el sub-DataFrame anterior, accedemos a la fila con índice '1'.
#G1	1	1.179609	-1.334867	0.476122

Unnamed: 0,1
A,1.179609
B,-1.334867
C,0.476122


In [None]:
# Indexing followed by another indexing.
df.loc['G1'].loc['1','B']
# Sigue la lógica del ejemplo anterior pero accede a la celda específica que está en:
# La fila con índice '1' y la columna con nombre 'B'

np.float64(-1.3348672726724162)

## MultiIndex con el ejemplo de las flores



In [None]:
# Cargar el DataFrame desde un url conocido con wget

!wget https://raw.githubusercontent.com/davidlealo/sic_ai_2025_jun/refs/heads/main/02preprocesamiento/chapter3/data_Iris.csv

--2025-09-15 01:13:45--  https://raw.githubusercontent.com/davidlealo/sic_ai_2025_jun/refs/heads/main/02preprocesamiento/chapter3/data_Iris.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3858 (3.8K) [text/plain]
Saving to: ‘data_Iris.csv’


2025-09-15 01:13:45 (55.1 MB/s) - ‘data_Iris.csv’ saved [3858/3858]



In [None]:
import pandas as pd
iris_df = pd.read_csv('data_Iris.csv')
# iris_df

In [None]:
# Crear un nuevo MultiIndex para las columnas para Iris
# Aplicación de MultiIndex en columnas
new_columns = pd.MultiIndex.from_tuples([
    ('Sépalo', 'Length'),
    ('Sépalo', 'Width'),
    ('Pétalo', 'Length'),
    ('Pétalo', 'Width'),
    ('Info', 'Species')
])

# Aplicar al DataFrame
iris_df.columns = new_columns  # 🔴 AQUÍ está la diferencia

In [None]:
iris_df

Unnamed: 0_level_0,Sépalo,Sépalo,Pétalo,Pétalo,Info
Unnamed: 0_level_1,Length,Width,Length,Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
iris_df['Sépalo']

Unnamed: 0,Length,Width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [None]:
iris_df[('Sépalo', 'Length')]

Unnamed: 0_level_0,Sépalo
Unnamed: 0_level_1,Length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


In [None]:
# Valor en la fila 0, columna ('Sépalo', 'Length')
iris_df.loc[0, ('Sépalo', 'Length')]  # → 5.1
# Recordar que .loc necesita fila, columana

np.float64(5.1)

In [None]:
# Filas 0 a 2, columnas relacionadas al Sépalo
iris_df.loc[0:2, [('Sépalo', 'Length'), ('Sépalo', 'Width')]]

Unnamed: 0_level_0,Sépalo,Sépalo
Unnamed: 0_level_1,Length,Width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2


## Resumen conceptos de DataFrame
Para este resumen se utiliza el archivo data_studenlist.csv que se encuentra [aquí](https://drive.google.com/file/d/14wXBObtPtdq_qGuqFujiVZ856TH5Q01W/view?usp=drive_link).


## **Agrugación y Recapitulación**
El método `groupby()` de pandas se utiliza para **agrupar filas** de un DataFrame según una o más columnas que tengan **valores iguales**.

Una vez agrupados los datos, se pueden aplicar funciones de agregación como:

- `.mean()` — promedio
- `.sum()` — suma
- `.count()` — cantidad de elementos
- `.max()` / `.min()` — valor máximo o mínimo

Esto permite **resumir** la información de forma clara y segmentada por grupos.

[Más información ](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

In [None]:
import pandas as pd
df = pd.read_csv('data_studentlist.csv',header='infer')

In [None]:
df.head(3)

Unnamed: 0,name,gender,age,grade,absence,bloodtype,height,weight
0,Jared Diamond,M,23,3,Y,O,165.3,68.2
1,Sarah O'Donnel,F,22,2,N,AB,170.1,53.0
2,Brian Martin,M,24,4,N,B,175.0,80.1


In [None]:
# Promedio de altura y peso por género
df.groupby('gender')[['height','weight']].mean()

Unnamed: 0_level_0,height,weight
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,166.642857,50.442857
M,172.41,68.5


In [None]:
# Desviación estándar por género de la curso y la edad
df.groupby('gender')[['grade','age']].std()


Unnamed: 0_level_0,grade,age
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.755929,1.069045
M,1.159502,1.159502


In [None]:
df.groupby('gender')['height'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
F,7.0,166.642857,8.487414,155.2,160.1,168.0,173.1,176.9
M,10.0,172.41,6.804647,162.2,167.475,172.1,177.9,182.1


In [None]:
type(df)

In [None]:
# Agrupar por género y tipo de sangre, y calcular el promedio de altura para cada grupo.
# El resultado es una Series con un índice múltiple (MultiIndex).
# Series: Es el nombre técnico de la clase que representa una estructura de datos unidimensional con índice.
sr = df.groupby(['gender', 'bloodtype'])['height'].mean()
sr

Unnamed: 0_level_0,Unnamed: 1_level_0,height
gender,bloodtype,Unnamed: 2_level_1
F,A,172.45
F,AB,170.1
F,B,158.2
F,O,164.433333
M,A,165.7
M,AB,181.05
M,B,174.55
M,O,166.2


In [None]:
type(sr)

In [None]:
sr.loc['F']

Unnamed: 0_level_0,height
bloodtype,Unnamed: 1_level_1
A,172.45
AB,170.1
B,158.2
O,164.433333


In [None]:
sr.loc['F'].loc['A']

np.float64(172.45)

## **Pivotante**
Pivotar un DataFrame significa reorganizar los datos:
Pasas de un formato largo (filas con muchas repeticiones) a un formato ancho (filas resumidas con columnas más informativas).
### ¿Para qué sirve pivotar?

- **Comparar datos fácilmente** al convertir valores de una columna en columnas separadas.
- **Preparar datos para gráficos** que requieren formato ancho.
- **Resumir y organizar datos agrupados** para una lectura rápida.
- **Facilitar la creación de informes** claros y estructurados.

In [2]:
import pandas as pd

my_dict = {
    "Size": ["L", "L", "M", "M", "M", "S", "S", "S", "S"],
    "Type": ["A", "A", "A", "B", "B", "A", "A", "B", "B"],
    "Location": ["L1", "L1", "L1", "L2", "L2", "L1", "L2", "L2", "L1"],
    "A": [1, 2, 2, 3, 3, 4, 5, 6, 7],
    "B": [2, 4, 5, 5, 6, 6, 8, 9, 9]
}

df = pd.DataFrame(my_dict)
df


Unnamed: 0,Size,Type,Location,A,B
0,L,A,L1,1,2
1,L,A,L1,2,4
2,M,A,L1,2,5
3,M,B,L2,3,5
4,M,B,L2,3,6
5,S,A,L1,4,6
6,S,A,L2,5,8
7,S,B,L2,6,9
8,S,B,L1,7,9


In [None]:
# Índice por 'Size' y 'Type'. Columnas por 'Location'. Valores proporcionados por la columna 'B'.
dfr = pd.pivot_table(df, index=['Size', 'Type'], columns='Location', values='B')
dfr

Unnamed: 0_level_0,Location,L1,L2
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,3.0,
M,A,5.0,
M,B,,5.5
S,A,6.0,8.0
S,B,9.0,9.0


In [None]:
dfr.columns

Index(['L1', 'L2'], dtype='object', name='Location')

In [None]:
dfr.index

MultiIndex([('L', 'A'),
            ('M', 'A'),
            ('M', 'B'),
            ('S', 'A'),
            ('S', 'B')],
           names=['Size', 'Type'])

In [None]:
dfr = pd.pivot_table(df, index=['Size', 'Type'], columns='Location', values='B')
dfr

Unnamed: 0_level_0,Location,L1,L2
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,3.0,
M,A,5.0,
M,B,,5.5
S,A,6.0,8.0
S,B,9.0,9.0


## Advertencia al usar `aggfunc=np.median` en `pivot_table`

Cuando usamos el código de la presentación:

```python
import numpy as np
pd.pivot_table(df, index=['Size', 'Type'], columns='Location', values='B', aggfunc=np.median, fill_value=0)
```
Arroja una advertencia
```txt
FutureWarning: The provided callable <function median> is currently using DataFrameGroupBy.median.. In a future version of pandas, the provided callable will be used directly. To keep current behavior pass the string "median" instead.
```
Lo que quiere decir que en el futuro, Pandas usará directamente la función que le pases para calcular la mediana, lo que podría cambiar ligeramente los resultados si la función y el método interno funcionan diferente.




In [None]:
dfr2 = pd.pivot_table(df, index=['Size', 'Type'], columns='Location', values='B', aggfunc='median', fill_value=0)
dfr2

Unnamed: 0_level_0,Location,L1,L2
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,3.0,0.0
M,A,5.0,0.0
M,B,0.0,5.5
S,A,6.0,8.0
S,B,9.0,9.0


In [4]:
# Ocurre lo mismo con el promedio
#pd.pivot_table(df, index=['Size', 'Type'], values=['A','B'], aggfunc= np.mean)
pd.pivot_table(df, index=['Size', 'Type'], values=['A','B'], aggfunc= 'mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,1.5,3.0
M,A,2.0,5.0
M,B,3.0,5.5
S,A,4.5,7.0
S,B,6.5,9.0


In [7]:
df.groupby(['Size', 'Type'])[['A','B']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,1.5,3.0
M,A,2.0,5.0
M,B,3.0,5.5
S,A,4.5,7.0
S,B,6.5,9.0


In [9]:
pd.pivot_table(df, index=['Size', 'Type'], values=['A', 'B'], aggfunc={'A': 'max', 'B': 'min'})


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Size,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
L,A,2,2
M,A,2,5
M,B,3,5
S,A,5,6
S,B,7,9


##**Detección y procesamiento de valores faltantes**

In [10]:
# Detección y procesamiento de valores faltantes
print(f"df.isnull()=\n{df.isnull()}")                          # Muestra True en las posiciones donde hay valores faltantes
print(f"(df.isnull()).sum(axis=0)=\n{(df.isnull()).sum(axis=0)}")  # Cuenta cuántos valores faltan por cada columna
print(f"(df.isnull()).mean(axis=0)=\n{(df.isnull()).mean(axis=0)}")# Proporción de valores faltantes por cada columna
print(f"df.dropna(axis=0)=\n{df.dropna(axis=0)}")              # Elimina filas con uno o más valores faltantes
print(f"df.dropna(axis=1)=\n{df.dropna(axis=1)}")              # Elimina columnas con uno o más valores faltantes
print(f"df.dropna(axis=0, thresh=3)=\n{df.dropna(axis=0, thresh=3)}") # Elimina filas con menos de 3 valores no nulos
print(f"df.fillna(value=0)=\n{df.fillna(value=0)}")            # Rellena valores faltantes con 0

df.isnull()=
    Size   Type  Location      A      B
0  False  False     False  False  False
1  False  False     False  False  False
2  False  False     False  False  False
3  False  False     False  False  False
4  False  False     False  False  False
5  False  False     False  False  False
6  False  False     False  False  False
7  False  False     False  False  False
8  False  False     False  False  False
(df.isnull()).sum(axis=0)=
Size        0
Type        0
Location    0
A           0
B           0
dtype: int64
(df.isnull()).mean(axis=0)=
Size        0.0
Type        0.0
Location    0.0
A           0.0
B           0.0
dtype: float64
df.dropna(axis=0)=
  Size Type Location  A  B
0    L    A       L1  1  2
1    L    A       L1  2  4
2    M    A       L1  2  5
3    M    B       L2  3  5
4    M    B       L2  3  6
5    S    A       L1  4  6
6    S    A       L2  5  8
7    S    B       L2  6  9
8    S    B       L1  7  9
df.dropna(axis=1)=
  Size Type Location  A  B
0    L    A       L

##**Estadisticas Descriptivas**

In [None]:
#pagina 333-3339 (chapter 3)
data = {
    "A": [1, 2, np.nan, 4, 5],
    "B": [5, np.nan, 7, 8, 9],
    "C": [10, 11, 12, np.nan, 14]
}

df1 = pd.DataFrame(data)
# Estadísticas descriptivas
# aqui "numeric_only=True" se consideran solo las columnas numericas.
# aqui "skipna=false" incluye los valores nan en las operacion.
print(f"df.sum(axis=0, numeric_only=True)=\n{df1.sum(axis=0, numeric_only=True)}")     # Suma por columnas
print(f"df.sum(axis=1, numeric_only=True)=\n{df1.sum(axis=1, numeric_only=True)}")     # Suma por filas
print(f"df.mean(axis=0, skipna=False, numeric_only=True)=\n{df1.mean(axis=0, skipna=False, numeric_only=True)}")  # Promedio por columnas
print(f"df.describe()=\n{df1.describe()}")                                             # Estadísticas descriptivas de todas las columnas numéricas
print(f"df.count(axis=0)=\n{df1.count(axis=0)}")                                       # Cuenta de valores no nulos por columna
print(f"df.A.corr(df.B)=\n{df1.A.corr(df.B)}")                                         # Correlación entre columna A y B
print(f"df.corr(numeric_only=True)=\n{df1.corr(numeric_only=True)}")                   # Matriz de correlación solo numéricas
print(f"df.corrwith(df.A)=\n{df1.corrwith(df.A)}")                                     # Correlación de cada columna con A


**Codigo ex_0108:
Metodos con Dataframes**

In [None]:
# Codigo ex_0108

# dataframe con multindex
my_header = ['A','B','C']                         # Nombres de columnas
my_index_out = ['G1']*2 + ['G2']*2 + ['G3']*2     # Índice externo (grupos G1, G2, G3)
my_index_in = ['a', 'b']*3                        # Índice interno (a, b)
my_index_zipped = list(zip(my_index_out, my_index_in))  # Combina índices externo e interno
my_multi_index = pd.MultiIndex.from_tuples(my_index_zipped)  # Crea un MultiIndex

# Crea un DataFrame con 6 filas, 3 columnas y MultiIndex
df2 = pd.DataFrame(data=np.random.randn(6,3), index=my_multi_index, columns=my_header)                                       # Muestra el DataFrame
#Indexación y slicing con MultiIndex
df.loc['G1']                                  # Selecciona todas las filas del grupo 'G1'
df.loc['G1'].loc['a']                         # Selecciona la subfila 'a' dentro de 'G1'
df.loc['G1'].loc['a','B']                     # Selecciona el valor de columna 'B' en 'G1'-'a'
print(df2)

             A         B         C
G1 a -0.040533 -1.002005  1.363938
   b -0.205984  1.111493  1.014618
G2 a  0.383508  0.334239  0.795381
   b  1.039014 -0.556069 -0.342723
G3 a -0.449822  0.933133  0.189954
   b  0.787111 -0.768206 -1.423129


In [None]:
# Codigo ex_0108
# Método groupby

# Crear DataFrame de ejemplo (simulando data_studentlist.csv)
df3 = pd.DataFrame({
    "gender": ["M", "F", "M", "F", "M", "F", "F", "M"],
    "height": [175, 160, 180, 158, 170, 165, 162, 182],
    "weight": [70, 55, 80, 52, 75, 60, 58, 85],
    "grade":  [5.5, 6.2, 4.8, 5.9, 5.0, 6.5, 6.0, 4.9],
    "age":    [20, 21, 22, 20, 23, 21, 22, 24],
    "bloodtype": ["A", "A", "B", "B", "O", "O", "A", "B"]
})

print("DataFrame de ejemplo:")
print(df3)
# df.groupby('gender').mean()                 # Esto da error si hay columnas no numéricas

df3.groupby('gender')['height'].mean()         # Altura promedio por género
df3.groupby('gender')[['height','weight']].mean()   # Altura y peso promedio por género
df3.groupby('gender')[['grade','age']].std()        # Desviación estándar de nota y edad por género
df3.groupby('gender')['height'].describe()          # Estadísticas descriptivas de altura por género

# Groupby con dos columnas: género y tipo de sangre
sr = df3.groupby(['gender','bloodtype'])['height'].mean()  # Resultado con MultiIndex

print(f"Altura promedio por género y tipo de sangre=\n{sr}")
print(f"Altura promedio (solo mujeres)=\n{sr.loc['F']}")
print(f"Altura promedio de mujeres con sangre tipo A=\n{sr.loc['F'].loc['A']}")

DataFrame de ejemplo:
  gender  height  weight  grade  age bloodtype
0      M     175      70    5.5   20         A
1      F     160      55    6.2   21         A
2      M     180      80    4.8   22         B
3      F     158      52    5.9   20         B
4      M     170      75    5.0   23         O
5      F     165      60    6.5   21         O
6      F     162      58    6.0   22         A
7      M     182      85    4.9   24         B
Altura promedio por género y tipo de sangre=
gender  bloodtype
F       A            161.0
        B            158.0
        O            165.0
M       A            175.0
        B            181.0
        O            170.0
Name: height, dtype: float64
Altura promedio (solo mujeres)=
bloodtype
A    161.0
B    158.0
O    165.0
Name: height, dtype: float64
Altura promedio de mujeres con sangre tipo A=
161.0


In [None]:
# Codigo ex_0108
# Métodos de DataFrame
print(f"Altura en metros=\n{df3['height'].apply(lambda x: x/100)}")   # Convierte altura de cm a metros
print(f"Ordenado por bloodtype ascendente=\n{df3.sort_values(by='bloodtype')}")
print(f"Ordenado por bloodtype descendente=\n{df3.sort_values(by='bloodtype', ascending=False)}")
print(f"Ordenado por bloodtype y gender=\n{df3.sort_values(by=['bloodtype','gender'])}")

print(f"Tipos de sangre únicos=\n{df3['bloodtype'].unique()}")        # Tipos de sangre únicos
print(f"Número de tipos de sangre distintos=\n{df3['bloodtype'].nunique()}")  # Número de tipos únicos
print(f"Frecuencia de cada tipo de sangre=\n{df3['bloodtype'].value_counts()}")  # Frecuencia de bloodtype
print(f"Frecuencia de cada género=\n{df3['gender'].value_counts()}")  # Frecuencia de gender

Altura en metros=
0    1.75
1    1.60
2    1.80
3    1.58
4    1.70
5    1.65
6    1.62
7    1.82
Name: height, dtype: float64
Ordenado por bloodtype ascendente=
  gender  height  weight  grade  age bloodtype
0      M     175      70    5.5   20         A
1      F     160      55    6.2   21         A
6      F     162      58    6.0   22         A
2      M     180      80    4.8   22         B
3      F     158      52    5.9   20         B
7      M     182      85    4.9   24         B
4      M     170      75    5.0   23         O
5      F     165      60    6.5   21         O
Ordenado por bloodtype descendente=
  gender  height  weight  grade  age bloodtype
4      M     170      75    5.0   23         O
5      F     165      60    6.5   21         O
2      M     180      80    4.8   22         B
3      F     158      52    5.9   20         B
7      M     182      85    4.9   24         B
0      M     175      70    5.5   20         A
1      F     160      55    6.2   21         A
6  

In [None]:
# Codigo ex_0108
# Pivoting
# Crea un DataFrame de ejemplo
my_dict = {
    "Size": ["L", "L", "M", "M", "M", "S", "S", "S", "S"],
    "Type": ["A", "A", "A", "B", "B", "A", "A", "B", "B"],
    "Location": ["L1", "L1", "L1", "L2", "L2", "L1", "L2", "L2", "L1"],
    "A": [1, 2, 2, 3, 3, 4, 5, 6, 7],
    "B": [2, 4, 5, 5, 6, 6, 8, 9, 9]
}
df = pd.DataFrame(my_dict)
df
# Tabla pivote: índice por Size y Type, columnas Location, valores B
dfr = pd.pivot_table(df, index=['Size','Type'], columns='Location', values='B')
print(f"Pivot table (Size, Type vs Location con B)=\n{dfr}")

print(f"dfr.columns=\n{dfr.columns}")    # Nombres de columnas
print(f"dfr.index=\n{dfr.index}")        # MultiIndex de filas

In [None]:
# Igual que arriba pero con valores faltantes llenados con 0
print(f"Pivot table con fill_value=0=\n{pd.pivot_table(df, index=['Size','Type'], columns='Location', values='B', fill_value=0)}")

In [None]:
# Igual pero con función de agregación = promedio
print(f"Pivot table con aggfunc=np.mean=\n{pd.pivot_table(df, index=['Size','Type'], columns='Location', values='B', aggfunc=np.mean, fill_value=0)}")

In [None]:
# Índice por Location, columnas Size y Type, valores B
dfr = pd.pivot_table(df, index='Location', columns=['Size','Type'], values='B')
print(f"Pivot table (Location vs Size,Type con B)=\n{dfr}")

print(f"dfr.index=\n{dfr.index}")        # Índices
print(f"dfr.columns=\n{dfr.columns}")    # MultiIndex en columnas

In [None]:
# Agregación con mediana
print(f"Pivot table con aggfunc=np.median=\n{pd.pivot_table(df, index=['Size','Type'], columns='Location', values='B', aggfunc=np.median, fill_value=0)}")

In [None]:
# Promedio agrupado de A y B
print(f"Pivot table promedio de A y B=\n{pd.pivot_table(df, index=['Size','Type'], values=['A','B'], aggfunc=np.mean)}")

In [None]:
# Lo mismo pero con groupby
print(f"groupby promedio de A y B=\n{df.groupby(['Size','Type'])[['A','B']].mean()}")

In [None]:
# Agregación distinta: A = máximo, B = mínimo
print(f"Pivot table con A=max y B=min=\n{pd.pivot_table(df, index=['Size','Type'], values=['A','B'], aggfunc={'A':np.max,'B':np.min})}")

**Codigo ex_0109:
Visualización básica con Matplotlib**

In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
import matplotlib.pyplot as plt
import numpy as np
get_ipython().run_line_magic('matplotlib', 'inline')  # Para que los gráficos se muestren en Jupyter

# Bar plot / Grafico de barras
x = np.array(['Q1', 'Q2', 'Q3','Q4'])               # Categorías en eje X
y = np.array([234.0, 254.7, 144.6, 317.6])          # Valores en eje Y
plt.bar(x, y, color='purple')                       # Gráfico de barras
plt.title('BAR CHART')                              # Título
plt.show()


In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
# Histograma
x = np.random.randn(10000)                          # 10000 valores aleatorios (normal estándar)
plt.hist(x, bins=20, color='green', density=True)   # Histograma con densidad normalizada
plt.title('HISTOGRAM')
plt.show()

x = np.random.randn(10000)
plt.hist(x, bins=100, color='blue', density=False, alpha=0.3)  # Histograma con 100 bins
plt.title('HISTOGRAM')
plt.show()

In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
# Box plot / Grafica de caja
x = np.random.randn(10000)*10 + 3                   # Serie 1 de datos
y = np.random.randn(10000)*10 + 5                   # Serie 2 de datos
z = np.random.randn(10000)*10 + 1                   # Serie 3 de datos
plt.boxplot([x, y, z], 0)                           # Boxplots verticales
plt.title('BOX PLOTS')
plt.show()

plt.boxplot([x, y, z], 0, vert=False)               # Boxplots horizontales
plt.title('BOX PLOTS')
plt.show()

In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
# Line plot / Grafico de lineas
x = np.linspace(0, 10, 100)                         # Valores equiespaciados entre 0 y 10
y = np.sin(x)                                       # Función seno
plt.plot(x, y, color='orange', linewidth=2)         # Línea continua
plt.xlabel('X')
plt.ylabel('Sin')
plt.title('LINE PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='blue', linestyle=':', linewidth=2)   # Línea punteada
plt.xlabel('X')
plt.ylabel('Sin')
plt.title('LINE PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='red', linestyle='-.', linewidth=2)   # Línea punto-guion
plt.xlabel('X')
plt.ylabel('Sin')
plt.title('LINE PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='green', linestyle='--', linewidth=2) # Línea discontinua
plt.xlabel('X')
plt.ylabel('Sin')
plt.title('LINE PLOT')
plt.show()

# Ejemplo de error: linestyle no acepta 'steps'
# plt.plot(x, y, color='purple', linestyle='steps')

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='purple', linestyle='-', linewidth=2) # Línea continua
plt.xlabel('X')
plt.ylabel('Sin')
plt.title('LINE PLOT')
plt.xlim([0, 5])                                    # Límite del eje X
plt.ylim([-2, +2])                                  # Límite del eje Y
plt.show()

In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
# Scatterplot / Grafica de dispersion
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='red', marker='o', linestyle='none', markersize=5, alpha=0.5)
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, color='#FF8C00', marker='o', linestyle='none', markersize=5, alpha=0.5)  # Color en RGB
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y, marker='o', linestyle='none', markersize=15,
         markerfacecolor='yellow', markeredgecolor='purple', markeredgewidth=2)
plt.title('SCATTER PLOT')
plt.show()

In [None]:
# Codigo ex_0109
# Visualización básica con Matplotlib
# Scatterplot / Grafica de dispersion (con scatter)
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.scatter(x, y, c='red', marker='.', alpha=0.5)   # Puntos rojos
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.scatter(x, y, c='blue', marker='v', alpha=0.5)  # Triángulos hacia abajo
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.scatter(x, y, c='green', marker='^', alpha=0.5) # Triángulos hacia arriba
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.scatter(x, y, c='orange', marker='s', alpha=0.5) # Cuadrados
plt.title('SCATTER PLOT')
plt.show()

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.scatter(x, y, c='purple', marker='*', alpha=0.5) # Estrellas
plt.title('SCATTER PLOT')
plt.show()