# Inspección de series y dataframes
Una vez cargado un bloque de datos en una serie o un dataframe, lo primero que se debe hacer inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente.

Para ello se tiene los métodos **head**, **tail** y **sample**, con un comportamiento semejante en series y dataframe, que nos muestran un subconjunto de los datos cargados. Ademas los métodos **describe** e **info** nos proporcionan información adicional sobre los datos.

In [1]:
import pandas as pd
import numpy as np

## Método head
El método ***pandas.Series.head*** y ***pandas.DataFrame.head*** para dataframes, devuelve los primeros elementos de la estrcutura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). 


In [4]:
#Creamos la siguientes estructas, dos series y dataframe
#Un error en el nombre de la etiquetas puede causar resultados muy diferentes.
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago",
                             "sep", "oct", "nov", "dic"])
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago",
                    "sep", "oct", "nov", "dic"])

entradas

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [7]:
almacen = pd.DataFrame({"entradas": entradas, "salidas": salidas})
almacen["neto"] = almacen.entradas - almacen.salidas #Creando una nueva columna llamada nete y le asignamos la diferencia
almacen

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


In [8]:
#Para mostrar los primeros elementos de la estructura
entradas.head()

ene    11
feb    18
mar    12
abr    16
may     9
dtype: int64

In [9]:
#Tambien funciona para los dataframe
almacen.head()

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3


In [11]:
#Podemos pasar como argumento un valor entero para indicar cuantas filas o elementos queremos ver 
almacen.head(10)

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


## Método tail

De forma similar que el método anterior, este metodo existe para
* **pandas.Series.tail**
* **pandas.DataFrame.tail**

Este método muestra los **ultimos elementos** de la estructura. Si no se especifica un argumento, por defecto muestra los ultimos 5 elementos.

In [10]:
#Muestra los ultimos elementos de una serie
entradas.tail()

ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [9]:
#Muestra las ultimas filas de un DataFrame
almacen.tail(7)

Unnamed: 0,entradas,salidas,neto
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7
nov,30,21,9
dic,12,14,-2


## Método sample
En ocasiones puede que los métodos anteriores no sean de mucha ayuda, cuando el bloque de datos mostrados son muy parecidos. Y aveces es mejor ver datos aleatorios de nuestra estructura.
* **pandas.Series.sample**
* **pandas.DataFrame.sample**

Devuelve por defecto un elemento aleatorio, para indicar un rango mayor, hay quye pasarle un numero entero en el argumento.

In [11]:
entradas.sample(5)

sep    31
mar    12
may     9
feb    18
nov    30
dtype: int64

In [12]:
almacen.sample(7)

Unnamed: 0,entradas,salidas,neto
abr,16,15,1
may,9,6,3
feb,18,26,-8
jun,16,22,-6
oct,29,22,7
dic,12,14,-2
mar,12,18,-6


## Método describe

Devuelve información estadistica descriptiva del conjunto de datos (dataframe o serie), dicho metodo devuelve un dataframe con la información estadistica, la cual contiene:
* numero de muestras
* valor medio
* desviación estandar
* valor minimo
* valor maximo
* mediana
* valores correspondientes a los percentiles 25% y 75%

**Nota:** Se aplican aquellas columnas con valores numericos.

El método acepta el parámetro percentiles conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros include y exclude para especificar los tipos de las características a incluir o excluir del resultado


In [29]:
#Recordar que nuestro DataFrame es almacene
almacen.describe()

Unnamed: 0,entradas,salidas,neto
count,12.0,12.0,12.0
mean,19.5,19.25,0.25
std,8.16311,7.641097,5.310795
min,9.0,6.0,-8.0
25%,12.0,14.75,-3.75
50%,17.0,20.0,1.5
75%,28.25,22.75,3.0
max,31.0,34.0,9.0


## Método info

Muestra un resumen de un dataframe, incluyendo información sobre el tipo de los indices de filas y columnas, los valores no nulos y la memoria usada.

**Nota Solo aplica para los DataFrame**

In [30]:
almacen.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, ene to dic
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   entradas  12 non-null     int64
 1   salidas   12 non-null     int64
 2   neto      12 non-null     int64
dtypes: int64(3)
memory usage: 684.0+ bytes


## Método value_counts

Método exclusivo para **pandas.Series.value_counts**. Devuelve una estructura conteniendo los valores presentes en la serie y el numero de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [31]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

1.0    4
2.0    2
3.0    1
4.0    1
dtype: int64

Por defecto no se incluyen valores nulos. Para ello se utiliza el parametro **dropna**

In [32]:
s.value_counts(dropna=False)

1.0    4
2.0    2
3.0    1
4.0    1
NaN    1
dtype: int64

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

In [35]:
#El argumento bins devuelve una lista de bins.
s.value_counts(bins = 2)

(0.996, 2.5]    6
(2.5, 4.0]      2
dtype: int64