# **Obtención y preparación de datos**

# OD09. Inspección de Estructuras en Pandas

In [None]:
import pandas as pd
import numpy as np

## <font color='blue'>**Inspección de series y dataframes**</font>

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos `head`, `tail` y `sample`, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos `describe` e `info`
 nos proporcionan información adicional sobre los datos.


El método `pandas.Series.head` para series y `pandas.DataFrame.head` para dataframes, devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.

In [None]:
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                     index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
entradas

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [None]:
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
salidas

ene     9
feb    26
mar    18
abr    15
may     6
jun    22
jul    19
ago    25
sep    34
oct    22
nov    21
dic    14
dtype: int64

In [None]:
salidas_dos = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 100, 999],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])

In [None]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas, "salidas dos":salidas_dos})
almacen

Unnamed: 0,entradas,salidas,salidas dos
ene,11,9,9
feb,18,26,26
mar,12,18,18
abr,16,15,15
may,9,6,6
jun,16,22,22
jul,22,19,19
ago,28,25,25
sep,31,34,34
oct,29,22,22


In [None]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen["neto"] = almacen.entradas - almacen.salidas
almacen

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


In [None]:
neto = almacen["neto"]
type(neto)

pandas.core.series.Series

En este ejemplo estamos mostrando todos los elementos de la estructura pues son apenas 12. En un caso real podemos estar hablando de miles o de millones de elementos.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el método `head`:

In [None]:
entradas.head(3)

ene    11
feb    18
mar    12
dtype: int64

In [None]:
almacen["neto"].head()

ene    2
feb   -8
mar   -6
abr    1
may    3
Name: neto, dtype: int64

In [None]:
almacen.head()

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3


Los métodos `pandas.Series.tail` (para series) y `pandas.DataFrame.tail` (para dataframes) son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren:

In [None]:
entradas.tail()

ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [None]:
almacen.tail(2)

Unnamed: 0,entradas,salidas,neto
nov,30,21,9
dic,12,14,-2


Es frecuente que los datos que hayamos leído estén ordenados según algún criterio, y que el bloque de datos mostrado por los métodos `head` o `tail` estén formados por datos muy parecidos. Y en ocasiones nos puede convenir ver datos aleatorios de nuestra estructura. Para esto podemos utilizar los métodos `pandas.Series.sample` para series y `pandas.DataFrame.sample` para dataframes. Al contrario que `head` o `tail`, el número de elementos devueltos por defecto es uno, por lo que, si deseamos extraer una muestra mayor, tendremos que indicarlo como primer argumento:

In [None]:
entradas.sample(5)

may     9
abr    16
sep    31
jun    16
nov    30
dtype: int64

In [None]:
almacen.sample(5)

Unnamed: 0,entradas,salidas,neto
jun,16,22,-6
sep,31,34,-3
jul,22,19,3
abr,16,15,1
ago,28,25,3


El método `describe` devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Siguiendo con el ejemplo visto en la sección anterior:

In [None]:
almacen.describe()

Unnamed: 0,entradas,salidas,neto
count,12.0,12.0,12.0
mean,19.5,19.25,0.25
std,8.16311,7.641097,5.310795
min,9.0,6.0,-8.0
25%,12.0,14.75,-3.75
50%,17.0,20.0,1.5
75%,28.25,22.75,3.0
max,31.0,34.0,9.0


In [None]:
# transponer para una mejor visualizacion
almacen.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
entradas,12.0,19.5,8.16311,9.0,12.0,17.0,28.25,31.0
salidas,12.0,19.25,7.641097,6.0,14.75,20.0,22.75,34.0
neto,12.0,0.25,5.310795,-8.0,-3.75,1.5,3.0,9.0


El método acepta el parámetro `percentiles` conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros `include` y `exclude` para espcificar los tipos de las características a incluir o excluir del resultado.

El método `info` muestra un resumen de un dataframe, incluyendo información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada:

In [None]:
almacen.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, ene to dic
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   entradas  12 non-null     int64
 1   salidas   12 non-null     int64
 2   neto      12 non-null     int64
dtypes: int64(3)
memory usage: 684.0+ bytes


Solo los dataframes tienen implementado este método.

Un método de las series pandas extremadamente útil es `pandas.Series.value_counts`. Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [None]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

1.0    4
2.0    2
3.0    1
4.0    1
dtype: int64

Como puede apreciarse, por defecto no se incluyen los valores nulos. Este comportamiento puede modificarse haciendo uso del parámetro `dropna`:

In [None]:
s.value_counts(dropna = False)

1.0    4
2.0    2
3.0    1
4.0    1
NaN    1
dtype: int64

En lugar de devolver los valores distintos y el número de ocurrencias, este método también puede agrupar los datos en `bins` y devolver una lista de bins (indicando sus márgenes) con el número de valores en cada uno de ellos. Por ejemplo, si quisiéramos agrupar los valores de la serie anterior en dos bins podríamos hacerlo de la siguiente forma:

In [None]:
s.value_counts(bins = 2)

(0.996, 2.5]    6
(2.5, 4.0]      2
dtype: int64

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

### <font color='green'>Actividad 1</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de los integrantes del grupo y devuelva una serie con la altura mínima, la máxima, media y la desviación estándar.


In [None]:
import pandas as pd

# Alturas de integrantes
alturas_integrantes = {
    'Mauricio': 1.75,
    'Carol': 1.68,
    'Cristian': 1.72,
    'Javier': 1.70,
    'Jorge': 1.67
}

#Funcion calcular estadisticas
def calcular_estadisticas_alturas(alturas):
    # Crear una serie a partir del diccionario de alturas
    serie_alturas = pd.Series(alturas)
    # Calcular la altura mínima, máxima, media y desviación estándar
    altura_minima = serie_alturas.min()
    altura_maxima = serie_alturas.max()
    altura_media = serie_alturas.mean()
    desviacion_estandar = serie_alturas.std()
    # Crear una serie con los resultados
    estadisticas = pd.Series({
        'Altura Mínima': round(altura_minima,2),
        'Altura Máxima': round(altura_maxima,2),
        'Altura Media': round(altura_media,2),
        'Desviación Estándar': round(desviacion_estandar,2)
    })
    return estadisticas



resultado = calcular_estadisticas_alturas(alturas_integrantes)
print(resultado)


Altura Mínima          1.67
Altura Máxima          1.75
Altura Media           1.70
Desviación Estándar    0.03
dtype: float64


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Crea un DataFrame a partir del siguiente diccionario y examina las primeras 3 filas y las últimas 2 filas.

```
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
```



In [None]:
import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}

df = pd.DataFrame(data)

# Examinar las primeras 3 filas
primeras_tres_filas = df.head(3)

# Examinar las últimas 2 filas
ultimas_dos_filas = df.tail(2)

print("Primeras 3 filas:")
print(primeras_tres_filas)

print("\nÚltimas 2 filas:")
print(ultimas_dos_filas)


Primeras 3 filas:
   A   B  C
0  1  10  p
1  2  20  q
2  3  30  r

Últimas 2 filas:
   A   B  C
3  4  40  s
4  5  50  t


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Utilizando el DataFrame de la actividad anterior, calcular:

* La media de la columna 'A'.
* La suma total de la columna 'B'.
* La descripción estadística del DataFrame.

In [None]:
import pandas as pd

# Calcular la media de la columna 'A'
media_columna_A = df['A'].mean()

# Calcular la suma total de la columna 'B'
suma_columna_B = df['B'].sum()

# Obtener una descripción estadística del DataFrame
descripcion_estadistica = df.describe()

print("Media de la columna 'A':", media_columna_A)
print("Suma total de la columna 'B':", suma_columna_B)
print("\nDescripción estadística del DataFrame:")

print(descripcion_estadistica)



Media de la columna 'A': 3.0
Suma total de la columna 'B': 150

Descripción estadística del DataFrame:
              A          B
count  5.000000   5.000000
mean   3.000000  30.000000
std    1.581139  15.811388
min    1.000000  10.000000
25%    2.000000  20.000000
50%    3.000000  30.000000
75%    4.000000  40.000000
max    5.000000  50.000000


<font color='green'>Fin Actividad 3</font>


## <font color='purple'> __EXPERIMENTO__: </font>

### Ordenar por puntuación a jugadores de Juego de Azar

**Experimento: **
para una mejor visualización de los datos, es posible recurrir a la propiedad Transponer índice y columnas, para esto se debe acceder a la con la letra T al dataframe.



In [None]:
descripcion_estadistica=descripcion_estadistica.T
print(descripcion_estadistica)



   count  mean        std   min   25%   50%   75%   max
A    5.0   3.0   1.581139   1.0   2.0   3.0   4.0   5.0
B    5.0  30.0  15.811388  10.0  20.0  30.0  40.0  50.0


<font color='purple'>Fin experimento </font>

### <font color='green'>Actividad 4</font>

A partir del siguiente DataFrame:

```
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})
```
* Filtre las filas donde Value sea mayor a 30.
* Ordena el DataFrame por la columna Value en orden descendente.


In [None]:
import pandas as pd

df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})

# Filtrar las filas donde 'Value' sea mayor a 30

df_filtrado = df[df['Value'] > 30]

# Ordenar el DataFrame filtrado por 'Value' en orden descendente
df_ordenado = df_filtrado.sort_values(by='Value', ascending=False)

print("Filas con 'Value' mayor a 30:")
print(df_filtrado)

print("\nDataFrame ordenado por 'Value' en orden descendente:")
print(df_ordenado)



Filas con 'Value' mayor a 30:
    ID  Value Category
1  102     45        B
3  104     67        C
4  105     34        B

DataFrame ordenado por 'Value' en orden descendente:
    ID  Value Category
3  104     67        C
1  102     45        B
4  105     34        B


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Utilizando el DataFrame df de la actividad anterior, crea una nueva columna llamada 'Adjusted', donde cada valor sea el valor original de 'Value' multiplicado por 0.75 si pertenece a la categoría 'A'.

Agrupa el DataFrame por 'Category' y calcula el promedio de las columnas 'Value' y 'Adjusted'.


In [None]:
import pandas as pd

# Crear la nueva columna 'Adjusted' basada en la condición
df['Adjusted'] = df.apply(lambda row: row['Value'] * 0.75 if row['Category'] == 'A' else row['Value'], axis=1)

# Agrupar por 'Category' y calcular el promedio de 'Value' y 'Adjusted'
promedio_por_categoria = df.groupby('Category')[['Value', 'Adjusted']].mean()

print("DataFrame con la columna 'Adjusted':")
print(df)

print("\nPromedio por categoría de 'Value' y 'Adjusted':")
print(promedio_por_categoria)


DataFrame con la columna 'Adjusted':
    ID  Value Category  Adjusted
0  101     23        A     17.25
1  102     45        B     45.00
2  103     12        A      9.00
3  104     67        C     67.00
4  105     34        B     34.00

Promedio por categoría de 'Value' y 'Adjusted':
          Value  Adjusted
Category                 
A          17.5    13.125
B          39.5    39.500
C          67.0    67.000


<font color='green'>Fin Actividad 5</font>


## <font color='purple'> __EXPERIMENTO__: </font>


**Experimento:**

Aplicar función de la forma clásica al DF y Comparar los tiempos de ejecución con la función lambda, nos percatamos que esta última es mas eficiente.

In [None]:
from timeit import timeit

def f_Adjusted(row):
    if row['Category'] == 'A':
      return row['Value'] * 0.75
    else:
      return row['Value']

%timeit df.apply(f_Adjusted, axis=1)

%timeit df.apply(lambda row: row['Value'] * 0.75 if row['Category'] == 'A' else row['Value'], axis=1)


585 µs ± 25.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
568 µs ± 14.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


<font color='purple'>Fin experimento </font>