# **Obtención y preparación de datos**

# OD09. Inspección de Estructuras en Pandas - SOLUCION

In [1]:
import pandas as pd
import numpy as np

## <font color='blue'>**Inspección de series y dataframes**</font>

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos `head`, `tail` y `sample`, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos `describe` e `info`
 nos proporcionan información adicional sobre los datos.


El método `pandas.Series.head` para series y `pandas.DataFrame.head` para dataframes, devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.

In [2]:
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                     index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
entradas

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [3]:
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
salidas

ene     9
feb    26
mar    18
abr    15
may     6
jun    22
jul    19
ago    25
sep    34
oct    22
nov    21
dic    14
dtype: int64

In [4]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen

Unnamed: 0,entradas,salidas
ene,11,9
feb,18,26
mar,12,18
abr,16,15
may,9,6
jun,16,22
jul,22,19
ago,28,25
sep,31,34
oct,29,22


In [5]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen["neto"] = almacen.entradas - almacen.salidas
almacen

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3
jun,16,22,-6
jul,22,19,3
ago,28,25,3
sep,31,34,-3
oct,29,22,7


In [6]:
neto = almacen["neto"]
type(neto)

pandas.core.series.Series

En este ejemplo estamos mostrando todos los elementos de la estructura pues son apenas 12. En un caso real podemos estar hablando de miles o de millones de elementos.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el método `head`:

In [7]:
entradas.head(7)

ene    11
feb    18
mar    12
abr    16
may     9
jun    16
jul    22
dtype: int64

In [8]:
almacen["neto"].head()

ene    2
feb   -8
mar   -6
abr    1
may    3
Name: neto, dtype: int64

In [9]:
almacen.head()

Unnamed: 0,entradas,salidas,neto
ene,11,9,2
feb,18,26,-8
mar,12,18,-6
abr,16,15,1
may,9,6,3


Los métodos `pandas.Series.tail` (para series) y `pandas.DataFrame.tail` (para dataframes) son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren:

In [10]:
entradas.tail()

ago    28
sep    31
oct    29
nov    30
dic    12
dtype: int64

In [11]:
almacen.tail()

Unnamed: 0,entradas,salidas,neto
ago,28,25,3
sep,31,34,-3
oct,29,22,7
nov,30,21,9
dic,12,14,-2


Es frecuente que los datos que hayamos leído estén ordenados según algún criterio, y que el bloque de datos mostrado por los métodos `head` o `tail` estén formados por datos muy parecidos. Y en ocasiones nos puede convenir ver datos aleatorios de nuestra estructura. Para esto podemos utilizar los métodos `pandas.Series.sample` para series y `pandas.DataFrame.sample` para dataframes. Al contrario que `head` o `tail`, el número de elementos devueltos por defecto es uno, por lo que, si deseamos extraer una muestra mayor, tendremos que indicarlo como primer argumento:

In [12]:
entradas.sample(5)

jul    22
jun    16
feb    18
dic    12
may     9
dtype: int64

In [13]:
almacen.sample(5)

Unnamed: 0,entradas,salidas,neto
jun,16,22,-6
feb,18,26,-8
sep,31,34,-3
dic,12,14,-2
may,9,6,3


El método `describe` devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Siguiendo con el ejemplo visto en la sección anterior:

In [14]:
almacen.describe()

Unnamed: 0,entradas,salidas,neto
count,12.0,12.0,12.0
mean,19.5,19.25,0.25
std,8.16311,7.641097,5.310795
min,9.0,6.0,-8.0
25%,12.0,14.75,-3.75
50%,17.0,20.0,1.5
75%,28.25,22.75,3.0
max,31.0,34.0,9.0


El método acepta el parámetro `percentiles` conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros `include` y `exclude` para espcificar los tipos de las características a incluir o excluir del resultado.

El método `info` muestra un resumen de un dataframe, incluyendo información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada:

In [15]:
almacen.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, ene to dic
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   entradas  12 non-null     int64
 1   salidas   12 non-null     int64
 2   neto      12 non-null     int64
dtypes: int64(3)
memory usage: 684.0+ bytes


Solo los dataframes tienen implementado este método.

Un método de las series pandas extremadamente útil es `pandas.Series.value_counts`. Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [16]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

1.0    4
2.0    2
3.0    1
4.0    1
dtype: int64

Como puede apreciarse, por defecto no se incluyen los valores nulos. Este comportamiento puede modificarse haciendo uso del parámetro `dropna`:

In [17]:
s.value_counts(dropna = False)

1.0    4
2.0    2
3.0    1
4.0    1
NaN    1
dtype: int64

En lugar de devolver los valores distintos y el número de ocurrencias, este método también puede agrupar los datos en `bins` y devolver una lista de bins (indicando sus márgenes) con el número de valores en cada uno de ellos. Por ejemplo, si quisiéramos agrupar los valores de la serie anterior en dos bins podríamos hacerlo de la siguiente forma:

In [18]:
s.value_counts(bins = 2)

(0.996, 2.5]    6
(2.5, 4.0]      2
dtype: int64

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

### <font color='green'>Actividad 1</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de los integrantes del grupo y devuelva una serie con la altura mínima, la máxima, media y la desviación estándar.


In [19]:
# Tu código aquí ...

import numpy as np

# Se genera la función, la cual toma un diccionario como argumento
def resumen(diccionario):
    # pasa los valores del diccionario a una lista
    v = list(diccionario.values())
    # genera una serie con los estadísticos requeridos como valores y sus etiquetas en los índices
    serie = pd.Series([min(v), max(v), np.mean(v), np.std(v)],
                      index=['Mínimo','Máximo','Media','Desv. Std.'],
                      name='Altura en Metros')
    # regresa la serie
    return serie

# Se genera un diccionario con las alturas y se llama a la función
grupo = {"José":1.60,
         "Cristian":1.80,
         "Carolina":1.85,
         "Andrés":1.70,
         "Pamela":1.75,
         "Francisco":1.90}

# se aplica la función al diccionario 'grupo'
resumen(grupo)

Mínimo        1.600000
Máximo        1.900000
Media         1.766667
Desv. Std.    0.098601
Name: Altura en Metros, dtype: float64

<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Crea un DataFrame a partir del siguiente diccionario y examina las primeras 3 filas y las últimas 2 filas.

```
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
```



In [20]:
# Tu código aquí ...

# Creando el DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
df = pd.DataFrame(data)

# Mostrando las primeras 3 filas
print("Primeras 3 filas:")
print(df.head(3))

# Mostrando las últimas 2 filas
print("\nÚltimas 2 filas:")
print(df.tail(2))


Primeras 3 filas:
   A   B  C
0  1  10  p
1  2  20  q
2  3  30  r

Últimas 2 filas:
   A   B  C
3  4  40  s
4  5  50  t


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Utilizando el DataFrame de la actividad anterior, calcular:

* La media de la columna 'A'.
* La suma total de la columna 'B'.
* La descripción estadística del DataFrame.

In [21]:
# Tu código aquí ...

# Creando el DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': ['p', 'q', 'r', 's', 't']
}
df = pd.DataFrame(data)

# Calculando la media de la columna 'A'
media_A = df['A'].mean()
print(f"Media de la columna 'A': {media_A}")

# Calculando la suma total de la columna 'B'
suma_B = df['B'].sum()
print(f"Suma total de la columna 'B': {suma_B}")

# Descripción estadística del DataFrame
descripcion = df.describe()
print("\nDescripción estadística del DataFrame:")
print(descripcion)


Media de la columna 'A': 3.0
Suma total de la columna 'B': 150

Descripción estadística del DataFrame:
              A          B
count  5.000000   5.000000
mean   3.000000  30.000000
std    1.581139  15.811388
min    1.000000  10.000000
25%    2.000000  20.000000
50%    3.000000  30.000000
75%    4.000000  40.000000
max    5.000000  50.000000


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

A partir del siguiente DataFrame:

```
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})
```
* Filtre las filas donde Value sea mayor a 30.
* Ordena el DataFrame por la columna Value en orden descendente.


In [22]:
# Tu código aquí ...

# Creando el DataFrame
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})

# Filtrando las filas donde Value sea mayor a 30
df_filtered = df[df['Value'] > 30]
print("Filas donde Value es mayor a 30:")
print(df_filtered)

# Ordenando el DataFrame por la columna Value en orden descendente
df_sorted = df.sort_values(by='Value', ascending=False)
print("\nDataFrame ordenado por Value en orden descendente:")
print(df_sorted)


Filas donde Value es mayor a 30:
    ID  Value Category
1  102     45        B
3  104     67        C
4  105     34        B

DataFrame ordenado por Value en orden descendente:
    ID  Value Category
3  104     67        C
1  102     45        B
4  105     34        B
0  101     23        A
2  103     12        A


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Utilizando el DataFrame df de la actividad anterior, crea una nueva columna llamada 'Adjusted', donde cada valor sea el valor original de 'Value' multiplicado por 0.75 si pertenece a la categoría 'A'.

Agrupa el DataFrame por 'Category' y calcula el promedio de las columnas 'Value' y 'Adjusted'.


In [23]:
# Tu código aquí ...

# Creando el DataFrame
df = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105],
    'Value': [23, 45, 12, 67, 34],
    'Category': ['A', 'B', 'A', 'C', 'B']
})

# Creando la columna 'Adjusted'
df['Adjusted'] = df['Value']
df['Adjusted'][df['Category'] == 'A'] = df['Value'][df['Category'] == 'A'] * 0.75

print("DataFrame con la columna 'Adjusted':")
print(df)

# Agrupando por 'Category' y calculando el promedio
categories = df['Category'].unique()
values_avg = {}
adjusted_avg = {}

for category in categories:
    category_rows = df[df['Category'] == category]
    values_avg[category] = category_rows['Value'].sum() / len(category_rows)
    adjusted_avg[category] = category_rows['Adjusted'].sum() / len(category_rows)

avg_df = pd.DataFrame({
    'Category': list(categories),
    'Value Avg': [values_avg[category] for category in categories],
    'Adjusted Avg': [adjusted_avg[category] for category in categories]
}).set_index('Category')

print("\nPromedio agrupado por 'Category':")
print(avg_df)

DataFrame con la columna 'Adjusted':
    ID  Value Category  Adjusted
0  101     23        A     17.25
1  102     45        B     45.00
2  103     12        A      9.00
3  104     67        C     67.00
4  105     34        B     34.00

Promedio agrupado por 'Category':
          Value Avg  Adjusted Avg
Category                         
A              17.5        13.125
B              39.5        39.500
C              67.0        67.000


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Adjusted'][df['Category'] == 'A'] = df['Value'][df['Category'] == 'A'] * 0.75


<font color='green'>Fin Actividad 5</font>