# **Obtención y preparación de datos**

# OD09. Inspección de Estructuras en Pandas

In [None]:
import pandas as pd
import numpy as np

## <font color='blue'>**Inspección de series y dataframes**</font>

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos **head**, **tail** y **sample**, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos **describe** e **info** nos proporcionan información adicional sobre los datos.


El método **pandas.Series.head** para series y **pandas.DataFrame.head** para dataframes, devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.

In [None]:
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                     index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
entradas

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [None]:
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
salidas

ene     9
feb    26
mar    18
abr    15
may     6
jun    22
jul    19
ago    25
sep    34
oct    22
nov    21
dic    14
dtype: int64

In [None]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen

Unnamed: 0,entradas,salidas
ene,11,9
feb,18,26
mar,12,18
abr,16,15
may,9,6
jun,16,22
jul,22,19
ago,28,25
sep,31,34
oct,29,22


In [None]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen["neto"] = almacen.entradas - almacen.salidas
almacen

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


In [None]:
neto = almacen["neto"]
type(neto)

pandas.core.series.Series

En este ejemplo estamos mostrando todos los elementos de la estructura pues son apenas 12. En un caso real podemos estar hablando de miles o de millones.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el **método head**:

In [None]:
entradas.head(7)

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
dtype: int64

In [None]:
almacen["neto"].head()

ene    2
feb   -8
mar   -6
abr    1
may    3
Name: neto, dtype: int64

In [None]:
almacen.head()

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3


Los métodos **pandas.Series.tail** (para series) y **pandas.DataFrame.tail** (para dataframes) son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren:

In [None]:
entradas.tail()

ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [None]:
almacen.tail()

Unnamed: 0,entradas,salidas,neto
ago,28,25,3
sep,31,34,-3
oct,29,22,7
nov,30,21,9
dic,12,14,-2


Es frecuente que los datos que hayamos leído estén ordenados según algún criterio, y que el bloque de datos mostrado por los métodos head o tail estén formados por datos muy parecidos. Y en ocasiones nos puede convenir ver datos aleatorios de nuestra estructura. Para esto podemos utilizar los métodos **pandas.Series.sample** para series y **pandas.DataFrame.sample** para dataframes. Al contrario que head o tail, el número de elementos devueltos por defecto es uno, por lo que, si deseamos extraer una muestra mayor, tendremos que indicarlo como primer argumento:

In [None]:
entradas.sample(5)

sep    31
feb    18
ene    11
jul    22
oct    29
dtype: int64

In [None]:
almacen.sample(5)

Unnamed: 0,entradas,salidas,neto
abr,16,15,1
ago,28,25,3
ene,11,9,2
oct,29,22,7
sep,31,34,-3


El método **describe** devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Siguiendo con el ejemplo visto en la sección anterior:

In [None]:
almacen.describe()

Unnamed: 0,entradas,salidas,neto
count,12.0,12.0,12.0
mean,19.5,19.25,0.25
std,8.16311,7.641097,5.310795
min,9.0,6.0,-8.0
25%,12.0,14.75,-3.75
50%,17.0,20.0,1.5
75%,28.25,22.75,3.0
max,31.0,34.0,9.0


El método acepta el parámetro **percentiles** conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros **include** y **exclude** para especificar los tipos de las características a incluir o excluir del resultado.

El método **info** muestra un resumen de un dataframe, incluyendo información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada:

In [None]:
almacen.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, ene to dic
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   entradas  12 non-null     int64
 1   salidas   12 non-null     int64
 2   neto      12 non-null     int64
dtypes: int64(3)
memory usage: 704.0+ bytes


Solo los dataframes tienen implementado este método.

Un método de las series pandas extremadamente útil es **pandas.Series.value_counts**. Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [None]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

1.0    4
2.0    2
4.0    1
3.0    1
dtype: int64

Como puede apreciarse, por defecto no se incluyen los valores nulos. Este comportamiento puede modificarse haciendo uso del parámetro **dropna**:

In [None]:
s.value_counts(dropna = False)

1.0    4
2.0    2
NaN    1
4.0    1
3.0    1
dtype: int64

En lugar de devolver los valores distintos y el número de ocurrencias, este método también puede agrupar los datos en "bins" y devolver una lista de bins (indicando sus márgenes) con el número de valores en cada uno de ellos. Por ejemplo, si quisiéramos agrupar los valores de la serie anterior en dos bins podríamos hacerlo de la siguiente forma:

In [None]:
s.value_counts(bins = 2)

(0.996, 2.5]    6
(2.5, 4.0]      2
dtype: int64

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

## <font color='green'>Actividad 1</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de l@s alumn@s del grupo y devuelva una serie con la altura mínima, la máxima, media y la desviación estándar.


In [None]:
#Solución
def grupo_desc(alturas):
  grupo = pd.Series(alturas)
  resultado = grupo.describe()

  min = resultado['min']
  max = resultado['max']
  std = resultado['std']
  mean = resultado['mean']

  salidas = pd.Series([min ,max, std, mean],
                      index = ["min", "max", "std", "mean"])
  return salidas
   

def grupo_desc2(alturas):
  grupo = pd.Series(alturas)
  
  min = grupo.min()
  max = grupo.max()
  std = grupo.std()
  mean = grupo.mean()

  salidas = pd.Series([min ,max, std, mean],
                      index = ["min", "max", "std", "mean"])
  return salidas
  

def grupo_desc3(alturas):
  grupo = pd.Series(alturas)  
  return grupo.describe()[["min", "max", "std", "mean"]]
  


alturas = {'A':1.7, 'B': 1.75, 'C': 1.80, 'D': 1.65, 'E': 1.68, 'F': 1.99}
print(grupo_desc(alturas))
print(grupo_desc2(alturas))
print(grupo_desc3(alturas))




min     1.650000
max     1.990000
std     0.123841
mean    1.761667
dtype: float64
min     1.650000
max     1.990000
std     0.123841
mean    1.761667
dtype: float64
min     1.650000
max     1.990000
std     0.123841
mean    1.761667
dtype: float64


<font color='green'>Fin Actividad 1</font>