In [1]:
import pandas as pd

In [59]:
data = {'Nombre': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve', "Luis"],
        'Edad': [-25, 32, 18, 47, 18, None],
        'País': ['USA', 'Canada', 'Mexico', 'USA', 'Canada', "Guatemala"]}
df = pd.DataFrame(data)

In [30]:
df

Unnamed: 0,Nombre,Edad,País
0,Alice,25,USA
1,Bob,32,Canada
2,Charlie,18,Mexico
3,Dave,47,USA
4,Eve,22,Canada


## Ordenando por una columna
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values)

In [33]:
df.sort_values('Edad', ascending=False, inplace=True)
df.reset_index(inplace=True, drop=True)

In [34]:
df

Unnamed: 0,Nombre,Edad,País
0,Dave,47,USA
1,Bob,32,Canada
2,Alice,25,USA
3,Eve,22,Canada
4,Charlie,18,Mexico


In [64]:
df.sort_values('Edad', key=lambda edad: abs(edad))

Unnamed: 0,Nombre,Edad,País
2,Charlie,18.0,Mexico
4,Eve,18.0,Canada
0,Alice,-25.0,USA
1,Bob,32.0,Canada
3,Dave,47.0,USA
5,Luis,,Guatemala


## Ordenando por varias columnas


In [39]:
df.sort_values(['País', 'Edad'])

Unnamed: 0,Nombre,Edad,País
4,Eve,22,Canada
1,Bob,32,Canada
2,Charlie,18,Mexico
0,Alice,25,USA
3,Dave,47,USA


In [46]:
df.sort_values(['Edad', 'País'])

Unnamed: 0,Nombre,Edad,País
4,Eve,18.0,Canada
2,Charlie,18.0,Mexico
0,Alice,25.0,USA
1,Bob,32.0,Canada
3,Dave,47.0,USA
5,Luis,,Guatemala


## Renombrando columnas
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html#pandas.DataFrame.rename)

In [65]:
df.rename(columns={'País': 'Nacionalidad'})

Unnamed: 0,Nombre,Edad,Nacionalidad
0,Alice,-25.0,USA
1,Bob,32.0,Canada
2,Charlie,18.0,Mexico
3,Dave,47.0,USA
4,Eve,18.0,Canada
5,Luis,,Guatemala


In [66]:
df

Unnamed: 0,Nombre,Edad,País
0,Alice,-25.0,USA
1,Bob,32.0,Canada
2,Charlie,18.0,Mexico
3,Dave,47.0,USA
4,Eve,18.0,Canada
5,Luis,,Guatemala


In [72]:
df.rename(
    columns={
        'País': 'nacionalidad',
        'Nombre': 'primer nombre',
        'Edad': 'edad'
    },
    inplace=True
)

In [73]:
df

Unnamed: 0,primer nombre,edad,nacionalidad
0,Alice,-25.0,USA
1,Bob,32.0,Canada
2,Charlie,18.0,Mexico
3,Dave,47.0,USA
4,Eve,18.0,Canada
5,Luis,,Guatemala


## Selección de una muestra aleatoria
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html#pandas.DataFrame.sample)

In [104]:
df.sample(frac=1/3)

Unnamed: 0,primer nombre,edad,nacionalidad
5,Luis,,Guatemala
2,Charlie,18.0,Mexico


## Selección de los n mayores o menores valores
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nlargest.html#pandas.DataFrame.nlargest)

In [106]:
df.nlargest(3, 'edad')

Unnamed: 0,primer nombre,edad,nacionalidad
3,Dave,47.0,USA
1,Bob,32.0,Canada
2,Charlie,18.0,Mexico


In [107]:
df.sort_values('edad', ascending=False).head(3)

Unnamed: 0,primer nombre,edad,nacionalidad
3,Dave,47.0,USA
1,Bob,32.0,Canada
2,Charlie,18.0,Mexico


In [116]:
df.nsmallest(2, 'edad')

Unnamed: 0,primer nombre,edad,nacionalidad
0,Alice,-25.0,USA
2,Charlie,18.0,Mexico


In [110]:
df.sort_values('edad').head(3)

Unnamed: 0,primer nombre,edad,nacionalidad
0,Alice,-25.0,USA
2,Charlie,18.0,Mexico
4,Eve,18.0,Canada


## Selección de columnas por patrón
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.filter.html#pandas.DataFrame.filter)

In [None]:
df.filter(regex='e')

## Selección de filas por condición
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html#pandas.DataFrame.query)

In [None]:
df.query('Edad > 25')

## Selección de filas por patrón
[str doc](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.capitalize.html)

In [None]:
df.query('Nombre.str.startswith("A")')

## Conteo de valores únicos en una columna
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html#pandas.DataFrame.nunique)

In [117]:
df['nacionalidad'].nunique()

4

## Cálculo de la forma y longitud del DataFrame
Para conocer la forma y longitud de un DataFrame, podemos utilizar las funciones shape y len(), respectivamente. Por ejemplo, si queremos conocer la forma del DataFrame, podemos hacer lo siguiente:

In [118]:
df.shape

(6, 3)

In [119]:
len(df)

6

In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   primer nombre  6 non-null      object 
 1   edad           5 non-null      float64
 2   nacionalidad   6 non-null      object 
dtypes: float64(1), object(2)
memory usage: 272.0+ bytes


## Conteo de valores en una columna
[documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html?highlight=value_counts#pandas.DataFrame.value_counts)

In [123]:
df['nacionalidad'].value_counts(normalize=True)

USA          0.333333
Canada       0.333333
Mexico       0.166667
Guatemala    0.166667
Name: nacionalidad, dtype: float64

## Conteo de estadísticas en una columna


In [126]:
print('Media:', df['edad'].mean(skipna=True))
print('Mediana:', df['edad'].median())
print('Varianza:', df['edad'].var())
print('Desviación estándar:', df['edad'].std())

Media: 18.0
Mediana: 18.0
Varianza: 721.5
Desviación estándar: 26.860752037126584


## Suma de valores en una columna


In [128]:
df['edad'].sum()

90.0

## Aplicación de una función a una columna


In [133]:
def anos_bisiestos(edad):
    return int(edad/4)

df['Edad en años bisiestos'] = df['edad'].fillna(0).apply(abs)
df['Edad en años bisiestos'] = df['Edad en años bisiestos'].apply(anos_bisiestos)

In [134]:
df

Unnamed: 0,primer nombre,edad,nacionalidad,Edad en años bisiestos
0,Alice,-25.0,USA,6
1,Bob,32.0,Canada,8
2,Charlie,18.0,Mexico,4
3,Dave,47.0,USA,11
4,Eve,18.0,Canada,4
5,Luis,,Guatemala,0
