# Métodos básicos de DataFrames


* ``head(n=5)``: Devuelve las primeras n filas del DataFrame. Por defecto, n es 5.

In [4]:
import pandas as pd

data = {'Nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Carlos'], 'Edad': [23, 35, 29, 40, 22]}
df = pd.DataFrame(data)
print(df.head(3))

  Nombre  Edad
0    Ana    23
1   Luis    35
2  Marta    29


* ``tail(n=5)``: Devuelve las últimas n filas del DataFrame. Por defecto, n es 5.

In [8]:
print(df.tail(2))

   Nombre  Edad
3    Juan    40
4  Carlos    22


* ``to_numpy()``: Este método devuelve los datos del DataFrame como un array de NumPy. Se recomienda utilizar to_numpy() en lugar de values, ya que es más flexible y menos propenso a errores cuando se trabaja con diferentes tipos de datos y estructuras.

In [10]:
print(df.to_numpy())

[['Ana' 23]
 ['Luis' 35]
 ['Marta' 29]
 ['Juan' 40]
 ['Carlos' 22]]


* ``info()``: Proporciona un resumen conciso del DataFrame, incluyendo el índice, el tipo de datos de cada columna y el uso de memoria.

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  5 non-null      object
 1   Edad    5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes


* ``describe()``: Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo valores NaN.

In [16]:
print(df.describe())

            Edad
count   5.000000
mean   29.800000
std     7.726578
min    22.000000
25%    23.000000
50%    29.000000
75%    35.000000
max    40.000000


* ``mean()``: Devuelve el promedio de los valores de cada columna numérica.

In [19]:
print(df['Edad'].mean())

29.8


* ``sum()``: Devuelve la suma de los valores de cada columna numérica.


In [22]:
print(df['Edad'].sum())

149


* ``max()``: Devuelve el valor máximo de cada columna.

In [25]:
print(df['Edad'].max())

40


* ``min()``: Devuelve el valor mínimo de cada columna.


In [28]:
print(df['Edad'].min())

22


* ``count()``: Devuelve el número de valores no nulos en cada columna.


In [31]:
print(df.count())

Nombre    5
Edad      5
dtype: int64


* ``value_counts()``: Devuelve una serie con la frecuencia de cada valor único en una columna.

In [34]:
print(df['Nombre'].value_counts())

Nombre
Ana       1
Luis      1
Marta     1
Juan      1
Carlos    1
Name: count, dtype: int64


* ``drop(columns)``: Elimina una o más columnas del DataFrame.


In [37]:
df_sin_edad = df.drop(columns=['Edad'])
print(df_sin_edad)

   Nombre
0     Ana
1    Luis
2   Marta
3    Juan
4  Carlos


*  <span style="background-color: yellow">``dropna()``: Elimina las filas con valores nulos (NaN).</span>


In [40]:
df_con_na = pd.DataFrame({'Nombre': ['Ana', 'Luis', None], 'Edad': [23, None, 29]})
df_sin_na = df_con_na.dropna()
print(df_sin_na)

  Nombre  Edad
0    Ana  23.0


* ``fillna(valor)``: Rellena los valores nulos (NaN) con un valor especificado.

In [43]:
df_rellenado = df_con_na.fillna(0)
print(df_rellenado)

  Nombre  Edad
0    Ana  23.0
1   Luis   0.0
2      0  29.0


* ``sort_values(by)``: Ordena el DataFrame por los valores de una o más columnas.

In [46]:
df_ordenado = df.sort_values(by='Edad')
print(df_ordenado)

   Nombre  Edad
4  Carlos    22
0     Ana    23
2   Marta    29
1    Luis    35
3    Juan    40


* ``groupby(by)``: Agrupa el DataFrame utilizando una o más columnas y aplica una función agregada a cada grupo.

In [49]:
import pandas as pd

data = {'Nombre': ['Ana', 'Luis', 'Marta', 'Ana', 'Luis'],
        'Edad': [23, 35, 29, 22, 36],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Barcelona']}
df = pd.DataFrame(data)
df_agrupado = df.groupby('Ciudad').mean(numeric_only=True)
print(df_agrupado)

           Edad
Ciudad         
Barcelona  35.5
Madrid     22.5
Valencia   29.0
