# **Obtención y preparación de datos**

# OD09. Inspección de Estructuras en Pandas

In [1]:
import pandas as pd
import numpy as np

## <font color='blue'>**Inspección de series y dataframes**</font>

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos `head`, `tail` y `sample`, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos `describe` e `info`
 nos proporcionan información adicional sobre los datos.


El método `pandas.Series.head` para series y `pandas.DataFrame.head` para dataframes, devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.

In [2]:
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                     index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
entradas

Unnamed: 0,0
ene,11
feb,18
mar,12
abr,16
may,9
jun,16
jul,22
ago,28
sep,31
oct,29


In [3]:
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
salidas

Unnamed: 0,0
ene,9
feb,26
mar,18
abr,15
may,6
jun,22
jul,19
ago,25
sep,34
oct,22


In [4]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen

Unnamed: 0,entradas,salidas
ene,11,9
feb,18,26
mar,12,18
abr,16,15
may,9,6
jun,16,22
jul,22,19
ago,28,25
sep,31,34
oct,29,22


In [5]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen["neto"] = almacen.entradas - almacen.salidas
almacen

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


In [6]:
neto = almacen["neto"]
type(neto)

En este ejemplo estamos mostrando todos los elementos de la estructura pues son apenas 12. En un caso real podemos estar hablando de miles o de millones de elementos.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el método `head`:

In [7]:
entradas.head(7)

Unnamed: 0,0
ene,11
feb,18
mar,12
abr,16
may,9
jun,16
jul,22


In [8]:
almacen["neto"].head()

Unnamed: 0,neto
ene,2
feb,-8
mar,-6
abr,1
may,3


In [9]:
almacen.head()

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3


Los métodos `pandas.Series.tail` (para series) y `pandas.DataFrame.tail` (para dataframes) son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren:

In [10]:
entradas.tail()

Unnamed: 0,0
ago,28
sep,31
oct,29
nov,30
dic,12


In [11]:
almacen.tail()

Unnamed: 0,entradas,salidas,neto
ago,28,25,3
sep,31,34,-3
oct,29,22,7
nov,30,21,9
dic,12,14,-2


Es frecuente que los datos que hayamos leído estén ordenados según algún criterio, y que el bloque de datos mostrado por los métodos `head` o `tail` estén formados por datos muy parecidos. Y en ocasiones nos puede convenir ver datos aleatorios de nuestra estructura. Para esto podemos utilizar los métodos `pandas.Series.sample` para series y `pandas.DataFrame.sample` para dataframes. Al contrario que `head` o `tail`, el número de elementos devueltos por defecto es uno, por lo que, si deseamos extraer una muestra mayor, tendremos que indicarlo como primer argumento:

In [12]:
entradas.sample(5)

Unnamed: 0,0
abr,16
ago,28
ene,11
jul,22
nov,30


In [13]:
almacen.sample(5)

Unnamed: 0,entradas,salidas,neto
may,9,6,3
mar,12,18,-6
dic,12,14,-2
feb,18,26,-8
jun,16,22,-6


El método `describe` devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Siguiendo con el ejemplo visto en la sección anterior:

In [14]:
almacen.describe()

Unnamed: 0,entradas,salidas,neto
count,12.0,12.0,12.0
mean,19.5,19.25,0.25
std,8.16311,7.641097,5.310795
min,9.0,6.0,-8.0
25%,12.0,14.75,-3.75
50%,17.0,20.0,1.5
75%,28.25,22.75,3.0
max,31.0,34.0,9.0


El método acepta el parámetro `percentiles` conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros `include` y `exclude` para espcificar los tipos de las características a incluir o excluir del resultado.

El método `info` muestra un resumen de un dataframe, incluyendo información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada:

In [15]:
almacen.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, ene to dic
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   entradas  12 non-null     int64
 1   salidas   12 non-null     int64
 2   neto      12 non-null     int64
dtypes: int64(3)
memory usage: 684.0+ bytes


Solo los dataframes tienen implementado este método.

Un método de las series pandas extremadamente útil es `pandas.Series.value_counts`. Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [16]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

Unnamed: 0,count
1.0,4
2.0,2
3.0,1
4.0,1


Como puede apreciarse, por defecto no se incluyen los valores nulos. Este comportamiento puede modificarse haciendo uso del parámetro `dropna`:

In [17]:
s.value_counts(dropna = False)

Unnamed: 0,count
1.0,4
2.0,2
3.0,1
4.0,1
,1


En lugar de devolver los valores distintos y el número de ocurrencias, este método también puede agrupar los datos en `bins` y devolver una lista de bins (indicando sus márgenes) con el número de valores en cada uno de ellos. Por ejemplo, si quisiéramos agrupar los valores de la serie anterior en dos bins podríamos hacerlo de la siguiente forma:

In [18]:
s.value_counts(bins = 2)

Unnamed: 0,count
"(0.996, 2.5]",6
"(2.5, 4.0]",2


Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

### <font color='green'>Actividad 1</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de los integrantes del grupo y devuelva una serie con la altura mínima, la máxima, media y la desviación estándar.


In [26]:
# Tu código aquí ...
def st_measures(alturas : dict) -> dict:
    res = {}
    h = list(alturas.values())
    res["Áltura mínima"] = min(h)
    res["Áltura máxima"] = max(h)
    res["Áltura media"] = sum(h)/len(h)
    res["Desv Estándar"] = (sum([(i - res["Áltura media"])**2 for i in h])/len(h))**.5

    return pd.Series(res)

In [27]:
alturas = {
    "Cata": 1.64,
    "Monse": 1.62,
    "Felipe": 1.8,
    "Nico": 1.73
}

st_measures(alturas)

Unnamed: 0,0
Áltura mínima,1.62
Áltura máxima,1.8
Áltura media,1.6975
Desv Estándar,0.072241


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Crea un DataFrame a partir del siguiente diccionario y examina las primeras 3 filas y las últimas 2 filas.

```
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
```



In [31]:
# Tu código aquí ...
import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
df = pd.DataFrame(data)

print(f"Las primeras 3 filas del DataFrame son:")
display(df.head(3))
print(f"\nLas últimas dos filas del DataFrame son:")
display(df.tail(2))

Las primeras 3 filas del DataFrame son:


Unnamed: 0,A,B,C
0,1,10,p
1,2,20,q
2,3,30,r



Las últimas dos filas del DataFrame son:


Unnamed: 0,A,B,C
3,4,40,s
4,5,50,t


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Utilizando el DataFrame de la actividad anterior, calcular:

* La media de la columna 'A'.
* La suma total de la columna 'B'.
* La descripción estadística del DataFrame.

In [40]:
# Tu código aquí ...
print(f"La media de la columna A es: {df['A'].mean()}")
print(f"La suma de la columbda B es: {df['B'].sum()}")
print(f"La descripción estadística del Data frame es:")
display(df.describe())

La media de la columna A es: 3.0
La suma de la columbda B es: 150
La descripción estadística del Data frame es:


Unnamed: 0,A,B
count,5.0,5.0
mean,3.0,30.0
std,1.581139,15.811388
min,1.0,10.0
25%,2.0,20.0
50%,3.0,30.0
75%,4.0,40.0
max,5.0,50.0


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

A partir del siguiente DataFrame:

```
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})
```
* Filtre las filas donde Value sea mayor a 30.
* Ordena el DataFrame por la columna Value en orden descendente.


In [43]:
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})
display(df)

Unnamed: 0,ID,Value,Category
0,101,23,A
1,102,45,B
2,103,12,A
3,104,67,C
4,105,34,B


In [45]:
print(f"Las filas donde Value es mayor que 30 son:")
display(df[df["Value"]>30])

print("\n\n")
print(f"El DataFrame ordenado por los valores de Value es:")
display(df.sort_values("Value", ascending = False))

Las filas donde Value es mayor que 30 son:


Unnamed: 0,ID,Value,Category
1,102,45,B
3,104,67,C
4,105,34,B





El DataFrame ordenado por los valores de Value es:


Unnamed: 0,ID,Value,Category
3,104,67,C
1,102,45,B
4,105,34,B
0,101,23,A
2,103,12,A


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Utilizando el DataFrame df de la actividad anterior, crea una nueva columna llamada 'Adjusted', donde cada valor sea el valor original de 'Value' multiplicado por 0.75 si pertenece a la categoría 'A'.

Agrupa el DataFrame por 'Category' y calcula el promedio de las columnas 'Value' y 'Adjusted'.


In [24]:
# Tu código aquí ...
print(f"Luego de agregar la columna adjusted el DataFrame queda dado por:")
df["Adjusted"] = df["Value"]*[
    (.75 if cat == "A" else 1) for cat in df["Category"]
    ]
display(df)
print("\n\n")
print(f"Al ser agrupadas por categoría, los promedios quedan dados por:")
display(df.groupby("Category").agg({
    "Value": "mean",
    "Adjusted": "mean"
}))

Luego de agregar la columna adjusted el DataFrame queda dado por:


Unnamed: 0,ID,Value,Category,Adjusted
0,101,23,A,17.25
1,102,45,B,45.0
2,103,12,A,9.0
3,104,67,C,67.0
4,105,34,B,34.0





Al ser agrupadas por categoría, los promedios quedan dados por:


Unnamed: 0_level_0,Value,Adjusted
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,17.5,13.125
B,39.5,39.5
C,67.0,67.0


<font color='green'>Fin Actividad 5</font>