## Introducción a los métodos básicos de Pandas

In [17]:
import pandas as pd
pd.set_option('display.max_columns', None)

### <span style="color:red;">¿Qué hace index_col=0 en pd.read_csv()?</span>


El argumento index_col en la función pd.read_csv() de Pandas se utiliza para especificar qué columna de tu archivo CSV debe ser utilizada como el índice (etiquetas de fila) de tu DataFrame resultante, en lugar de generar un 

índice numérico predeterminado (0, 1, 2, ...).

Cuando usas index_col=0, le estás diciendo a Pandas:

"Toma la primera columna de mi archivo CSV (la columna en la posición 0, ya que Python usa indexación base cero) y úsala como el índice de las filas de mi DataFrame."

In [18]:

df_presidents = pd.read_csv('president_heights.csv')
df_presidents

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183
5,6,John Quincy Adams,171
6,7,Andrew Jackson,185
7,8,Martin Van Buren,168
8,9,William Henry Harrison,173
9,10,John Tyler,183


### Establecer una columna como índice

In [19]:
#colocamos Order como index
df_presidents = pd.read_csv('president_heights.csv', index_col=0)
df_presidents

Unnamed: 0_level_0,name,height(cm)
order,Unnamed: 1_level_1,Unnamed: 2_level_1
1,George Washington,189
2,John Adams,170
3,Thomas Jefferson,189
4,James Madison,163
5,James Monroe,183
6,John Quincy Adams,171
7,Andrew Jackson,185
8,Martin Van Buren,168
9,William Henry Harrison,173
10,John Tyler,183


In [20]:
#colocamos height como index
df_presidents = pd.read_csv('president_heights.csv', index_col=2)
df_presidents

Unnamed: 0_level_0,order,name
height(cm),Unnamed: 1_level_1,Unnamed: 2_level_1
189,1,George Washington
170,2,John Adams
189,3,Thomas Jefferson
163,4,James Madison
183,5,James Monroe
171,6,John Quincy Adams
185,7,Andrew Jackson
168,8,Martin Van Buren
173,9,William Henry Harrison
183,10,John Tyler


### <span style="color:red;">1- .head( )</span>
¿Qué hace?

El método head() se utiliza para mostrar las primeras N filas de un DataFrame o una Serie. 
Es una de las primeras cosas que haces al cargar datos para obtener una vista rápida y entender su estructura, qué columnas tienen, qué tipo de datos contienen, y si la carga inicial fue correcta.

Sintaxis:
```python
df.head(n=5)
serie.head(n=5)
```

Argumento Clave:

n: Un número entero opcional. Especifica cuántas filas deseas ver. Si no se especifica, por defecto muestra las primeras 5 filas.

In [21]:
df_presidents.head()

Unnamed: 0_level_0,order,name
height(cm),Unnamed: 1_level_1,Unnamed: 2_level_1
189,1,George Washington
170,2,John Adams
189,3,Thomas Jefferson
163,4,James Madison
183,5,James Monroe


In [22]:
df_presidents.head(10)

Unnamed: 0_level_0,order,name
height(cm),Unnamed: 1_level_1,Unnamed: 2_level_1
189,1,George Washington
170,2,John Adams
189,3,Thomas Jefferson
163,4,James Madison
183,5,James Monroe
171,6,John Quincy Adams
185,7,Andrew Jackson
168,8,Martin Van Buren
173,9,William Henry Harrison
183,10,John Tyler


### <span style="color:red;">2- .tail( )</span>

¿Qué hace?

Similar a head(), pero muestra las últimas N filas del DataFrame o Serie. Es útil para ver cómo termina el conjunto de datos o si hay algún dato anómalo al final.

Sintaxis:
df.tail(n=5)

Argumento Clave:

n: Un número entero opcional. Por defecto, muestra las últimas 5 filas.

In [23]:
df_presidents.tail(2)

Unnamed: 0_level_0,order,name
height(cm),Unnamed: 1_level_1,Unnamed: 2_level_1
182,43,George W. Bush
185,44,Barack Obama


### <span style="color:red;">3- .sample( )</span>
Qué hace?

El método sample() se utiliza para obtener una muestra aleatoria de filas (o columnas) de tu DataFrame o Serie.

 Es increíblemente útil cuando tienes un conjunto de datos muy grande y quieres echarle un vistazo a una porción representativa sin cargar ni mostrarlo todo. 
 
 También es fundamental para tareas como la creación de conjuntos de datos de entrenamiento y prueba en machine learning.

In [24]:
df_presidents.sample(10)

Unnamed: 0_level_0,order,name
height(cm),Unnamed: 1_level_1,Unnamed: 2_level_1
185,7,Andrew Jackson
173,9,William Henry Harrison
182,43,George W. Bush
173,18,Ulysses S. Grant
175,13,Millard Fillmore
185,44,Barack Obama
180,28,Woodrow Wilson
183,38,Gerald Ford
179,34,Dwight D. Eisenhower
183,29,Warren G. Harding


### <span style="color:red;">4- .shape</span>
Qué hace?

A diferencia de los métodos que hemos visto (head(), tail(), sample(), info(), describe()), shape no es un método, sino un atributo de los DataFrames y Series de Pandas. 

Un atributo es una característica o propiedad de un objeto, no una acción que realiza.

df.shape devuelve una tupla que representa las dimensiones de tu DataFrame o Serie. Para un DataFrame, la tupla contendrá dos valores:

- El número de filas.

- El número de columnas.

In [25]:
df_presidents.shape

(42, 2)

Porque dos columnas y 42 filas ? porque pusimo la columna de heigh como index, si la quitaramos del index veamos que pasa:

In [26]:
df_presidents=df_presidents.reset_index() #reiniciamos el index

In [27]:
df_presidents.shape

(42, 3)

### <span style="color:red;">5- .size</span>
Qué hace?

Al igual que shape, .size es un atributo (no un método, así que no lleva paréntesis ()) de los DataFrames y Series de Pandas.

Devuelve un número entero que representa la cantidad total de elementos en el DataFrame o Serie.

Esencialmente, es el producto del número de filas por el número de columnas (filas * columnas). 

Si tienes un DataFrame de 42 filas y 3 columnas, df.size será 126. 

Para una Serie, es simplemente el número de elementos que contiene.

In [28]:
df_presidents.size

126

### <span style="color:red;">6- .columns</span>
Qué hace?

.columns es otro atributo (no un método, por lo tanto, no lleva paréntesis ()) de los DataFrames de Pandas.

Devuelve un objeto Index que contiene los nombres de todas las columnas de tu DataFrame.

Es fundamental para la exploración de datos, ya que te permite ver exactamente cómo se llaman tus columnas, lo cual es crucial para seleccionarlas, renombrarlas o realizar operaciones específicas sobre ellas.

In [29]:
df_presidents.columns

Index(['height(cm)', 'order', 'name'], dtype='object')

### <span style="color:red;">7- .info( )</span>
Qué hace?

El método info() proporciona un resumen conciso y muy útil de tu DataFrame. 

Es una de las primeras cosas que deberías ejecutar después de cargar un conjunto de datos, ya que te da una visión general invaluable de su estructura y contenido sin mostrar los datos en sí.

La información que df.info() suele incluir es:

- Clase del objeto: Que es un pandas.core.frame.DataFrame.

- Rango de índices: El número total de entradas (filas) y el tipo de índice (ej., RangeIndex).

- Número de columnas: Cuántas columnas tiene tu DataFrame.

- Información de cada columna: Para cada columna, muestra:

        - El nombre de la columna.

        - El número de valores no nulos ( non-null count). Esto es crucial para identificar columnas con datos faltantes, ya que si este número es menor que el número total de filas,  significa que hay valores nulos.

- El tipo de dato (Dtype) de la columna (ej., int64, float64, object para texto, datetime64, bool). Esto te ayuda a entender cómo Pandas interpreta tus datos y si necesitas realizar conversiones de tipo.

- Tipos de datos únicos: Un resumen de cuántas columnas son de cada tipo (dtypes: float64(1), int64(2), object(1)).

- Uso de memoria: La cantidad de memoria que el DataFrame está ocupando.

In [30]:
df_presidents.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   height(cm)  42 non-null     int64 
 1   order       42 non-null     int64 
 2   name        42 non-null     object
dtypes: int64(2), object(1)
memory usage: 1.1+ KB


### <span style="color:red;">8- .dtypes</span>
Qué hace?

Similar a shape, .size, y .columns, .dtypes es un atributo (no un método, ¡sin paréntesis!) de los DataFrames y Series de Pandas. 

Devuelve una Serie de Pandas donde el índice son los nombres de las columnas del DataFrame, y los valores son los tipos de datos (Data Types o Dtypes) de cada columna.

Es esencial para comprender cómo Pandas está interpretando los datos en cada una de tus columnas. 

Saber el tipo de dato es crucial para realizar operaciones correctas (por ejemplo, no puedes sumar texto, y las operaciones con fechas son diferentes a las operaciones con números).


In [32]:
df_presidents.dtypes

height(cm)     int64
order          int64
name          object
dtype: object

### <span style="color:red;">9- .select_dtypes( )</span>
Qué hace?

El método select_dtypes( ) se utiliza para seleccionar columnas de un DataFrame basándose en sus tipos de datos (Dtypes). 

Es extremadamente útil cuando quieres trabajar solo con columnas numéricas, solo con columnas de texto, o solo con columnas de fecha y hora, sin tener que listarlas manualmente.

Sintaxis:
```python
df.select_dtypes(include=None, exclude=None)
```


Argumentos Clave:

- Include: Un solo tipo de dato (string) o una lista de tipos de datos. Especifica los tipos de columnas que deseas incluir en la selección.

- exclude: Un solo tipo de dato (string) o una lista de tipos de datos. Especifica los tipos de columnas que deseas excluir de la selección.

Puedes usar cadenas para representar los tipos de datos:

- 'number' o np.number: Incluye todos los tipos numéricos (enteros, flotantes).
- 'object': Incluye columnas de texto (strings).
- 'datetime', 'datetime64', 'datetime64[ns]': Incluye columnas de fecha y hora.
- 'bool': Incluye columnas booleanas (True/False).

También puedes usar los nombres de los tipos de Python directamente: int, float, bool.


In [None]:
#Solo listara las columnas numericas
df_presidents.select_dtypes(include='number')

Unnamed: 0,height(cm),order
0,189,1
1,170,2
2,189,3
3,163,4
4,183,5
5,171,6
6,185,7
7,168,8
8,173,9
9,183,10


In [34]:
#Solo listara las columnas texto
df_presidents.select_dtypes(include='object')

Unnamed: 0,name
0,George Washington
1,John Adams
2,Thomas Jefferson
3,James Madison
4,James Monroe
5,John Quincy Adams
6,Andrew Jackson
7,Martin Van Buren
8,William Henry Harrison
9,John Tyler


In [None]:
#solo listara los columnas con true o false con 1 o 0 -> ojo en es este caso no tenemos por eso retorna vacio
df_presidents.select_dtypes(include=bool)

0
1
2
3
4
5
6
7
8
9
10


In [36]:
#solo listara los columnas con formatos fechas -> ojo en es este caso no tenemos por eso retorna vacio
df_presidents.select_dtypes(include='datetime')

0
1
2
3
4
5
6
7
8
9
10


### <span style="color:red;">10- .isnull( )</span>
Qué hace?

El método isnull() (también puedes usar su alias .isna()) se utiliza para detectar valores nulos o faltantes dentro de tu DataFrame o Serie.

Por cada celda del DataFrame, isnull() devuelve un valor booleano:

- True si el valor en esa celda es nulo (missing).

- False si el valor en esa celda no es nulo (existe).

El resultado de df.isnull() es un DataFrame booleano que tiene las mismas dimensiones que tu DataFrame original, pero lleno de True/False en lugar de los datos reales.

In [37]:
df_presidents.isnull()

Unnamed: 0,height(cm),order,name
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


### veamos otro ejemplo:

In [53]:
import pandas as pd
import numpy as np
# Crear un DataFrame de ejemplo con valores nulos
data = {'Producto': ['A', 'B', 'C', 'D', 'E', 'F'],
        'Ventas_Q1': [100, 150, np.nan, 200, np.nan, 250],
        'Ventas_Q2': [120, np.nan, 180, 220, 280, np.nan],
        'Calificacion': [5, 4, 3, np.nan, 5, 4]}
df_sales = pd.DataFrame(data)

print("DataFrame original:")
print(df_sales)

DataFrame original:
  Producto  Ventas_Q1  Ventas_Q2  Calificacion
0        A      100.0      120.0           5.0
1        B      150.0        NaN           4.0
2        C        NaN      180.0           3.0
3        D      200.0      220.0           NaN
4        E        NaN      280.0           5.0
5        F      250.0        NaN           4.0


In [54]:
# Paso 1: Usar .isnull() para obtener el DataFrame booleano de nulos
df_nulos_booleano = df_sales.isnull()
print("\nDataFrame booleano de nulos (df_sales.isnull()):")
print(df_nulos_booleano)



DataFrame booleano de nulos (df_sales.isnull()):
   Producto  Ventas_Q1  Ventas_Q2  Calificacion
0     False      False      False         False
1     False      False       True         False
2     False       True      False         False
3     False      False      False          True
4     False       True      False         False
5     False      False       True         False


In [55]:
# Paso 2: Aplicar .sum() al DataFrame booleano para contar los nulos por columna
print("\nConteo de valores nulos por columna (df_sales.isnull().sum()):")
print(df_nulos_booleano.sum())


Conteo de valores nulos por columna (df_sales.isnull().sum()):
Producto        0
Ventas_Q1       2
Ventas_Q2       2
Calificacion    1
dtype: int64


In [56]:
# O directamente: print(df_sales.isnull().sum())
#No nulos
print("\nConteo de valores no nulos por columna (df_sales.notnull().sum()):")
print(df_sales.notnull().sum()) # .notnull() es lo opuesto a .isnull()




Conteo de valores no nulos por columna (df_sales.notnull().sum()):
Producto        6
Ventas_Q1       4
Ventas_Q2       4
Calificacion    5
dtype: int64


In [57]:
#nulos
print("\nConteo total de nulos en todo el DataFrame (df_sales.isnull().sum().sum()):")
print(df_sales.isnull().sum().sum())


Conteo total de nulos en todo el DataFrame (df_sales.isnull().sum().sum()):
5


### <span style="color:red;">11- .isna( )</span>
Qué hace?

El método isna( ) es un alias directo de isnull(). 

Hacen exactamente lo mismo: detectan valores nulos o faltantes (NaN, None, NaT, u otros marcadores de valores ausentes) en tu DataFrame o Serie.

Por cada celda, devuelve True si el valor es nulo y False si no lo es.

El resultado es un DataFrame booleano con las mismas dimensiones que el original.

In [38]:
df_presidents.isna()

Unnamed: 0,height(cm),order,name
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


### <span style="color:red;">11- .sum( ) (Aplicado a DataFrames Booleanos)</span>
Qué hace?

El método sum( ) en Pandas, cuando se aplica a un DataFrame o Serie de valores booleanos (como el que resulta de df.isnull() o df.isna()), cuenta el número de veces que aparece True en cada columna (por defecto, o fila si se especifica el eje).

Esto es posible porque, en un contexto numérico, Pandas trata True como 1 y False como 0. 

Por lo tanto, sumar los valores booleanos es equivalente a contar las ocurrencias de True.

Es excepcionalmente útil para obtener un recuento de valores nulos por columna.

In [39]:
df_presidents.isnull().sum()


height(cm)    0
order         0
name          0
dtype: int64

### <span style="color:red;">12- .duplicated( )</span>
Qué hace?

El método duplicated() en Pandas se utiliza para identificar filas duplicadas dentro de un DataFrame. 

Para cada fila, devuelve un valor booleano:

True si la fila es un duplicado de una fila anterior (o posterior, dependiendo del argumento keep).

False si la fila es única (no es un duplicado).

El resultado de df.duplicated() es una Serie de Pandas booleana que tiene el mismo número de filas que tu DataFrame original.

In [40]:
df_presidents.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
dtype: bool

In [41]:
df_presidents.duplicated().sum()

np.int64(0)

### veamos otro ejemplo:

In [45]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo con algunas filas duplicadas
data = {'ID_Cliente': [1, 2, 3, 1, 4, 2, 5],
        'Nombre': ['Ana', 'Luis', 'Pedro', 'Ana', 'María', 'Luis', 'Laura'],
        'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Madrid', 'Valencia', 'Barcelona', 'Zaragoza'],
        'Edad': [30, 25, 40, 30, 35, 25, 28]}
df_sales = pd.DataFrame(data)

In [47]:
print("DataFrame original:")
print(df_sales)

DataFrame original:
   ID_Cliente Nombre     Ciudad  Edad
0           1    Ana     Madrid    30
1           2   Luis  Barcelona    25
2           3  Pedro    Sevilla    40
3           1    Ana     Madrid    30
4           4  María   Valencia    35
5           2   Luis  Barcelona    25
6           5  Laura   Zaragoza    28


In [48]:
# Uso básico: identificar filas duplicadas (considerando todas las columnas, keep='first' por defecto)
print("\nSerie booleana de duplicados (df_sales.duplicated()):")
print(df_sales.duplicated())


Serie booleana de duplicados (df_sales.duplicated()):
0    False
1    False
2    False
3     True
4    False
5     True
6    False
dtype: bool


In [49]:
# Contar el número total de filas duplicadas
print("\nNúmero total de filas duplicadas (df_sales.duplicated().sum()):")
print(df_sales.duplicated().sum())


Número total de filas duplicadas (df_sales.duplicated().sum()):
2


In [50]:
# Mostrar solo las filas que son duplicados
print("\nFilas que son duplicados (df_sales[df_sales.duplicated()]):")
print(df_sales[df_sales.duplicated()])


Filas que son duplicados (df_sales[df_sales.duplicated()]):
   ID_Cliente Nombre     Ciudad  Edad
3           1    Ana     Madrid    30
5           2   Luis  Barcelona    25


In [52]:
# Es muy común usar .drop_duplicates() para eliminar duplicados
print("\nDataFrame después de eliminar duplicados (usando .drop_duplicates()):")
print(df_sales.drop_duplicates())


DataFrame después de eliminar duplicados (usando .drop_duplicates()):
   ID_Cliente Nombre     Ciudad  Edad
0           1    Ana     Madrid    30
1           2   Luis  Barcelona    25
2           3  Pedro    Sevilla    40
4           4  María   Valencia    35
6           5  Laura   Zaragoza    28


### <span style="color:red;">13- .describe( )</span>
Qué hace?

El método describe() genera estadísticas descriptivas de las columnas numéricas (y a veces de las no numéricas, si se especifica) de tu DataFrame.

Proporciona un resumen rápido de la distribución central y la dispersión de tus datos.

Para las columnas numéricas, las estadísticas que incluye son:

- count: El número de valores no nulos en la columna.
- mean: La media aritmética (promedio) de los valores.
- std: La desviación estándar, que mide la dispersión de los datos alrededor de la media.
- min: El valor mínimo en la columna.
- 25% (primer cuartil): El valor por debajo del cual se encuentra el 25% de los datos.
- 50% (mediana o segundo cuartil): El valor central de los datos cuando están ordenados.
- 75% (tercer cuartil): El valor por debajo del cual se encuentra el 75% de los datos.
- max: El valor máximo en la columna.

Si se aplica a columnas no numéricas (con el argumento include='object' o include='all'), describe() proporciona un resumen diferente, incluyendo count, unique, top (valor más frecuente) y freq (frecuencia del valor más frecuente).

¿Por qué es útil?

- Exploración Inicial: Es una de las herramientas más valiosas para la primera exploración de tus datos. Te da una idea rápida de los rangos de valores, la presencia de valores atípicos (outliers), la dispersión y el número de valores no nulos.

- Identificación de Problemas: Puedes detectar rápidamente si una columna numérica tiene un rango inesperado de valores (ej., edades negativas, ventas extremadamente altas o bajas) o si hay muchos valores faltantes (si count es mucho menor que df.shape[0]).

- Comprender la Distribución: Los cuartiles (25%, 50%, 75%) te dan una idea de cómo se distribuyen los datos y si están sesgados.


In [58]:
df_presidents.describe( )

Unnamed: 0,height(cm),order
count,42.0,42.0
mean,179.738095,22.47619
std,7.015869,13.152461
min,163.0,1.0
25%,174.25,11.25
50%,182.0,22.0
75%,183.0,33.75
max,193.0,44.0


df.describe( ).T: Transponer el resultado (.T) es una práctica muy común y recomendada porque hace que la salida sea mucho más legible, con los nombres de las columnas como filas y las estadísticas como columnas. Esto facilita la comparación de estadísticas entre diferentes variables.

In [59]:
df_presidents.describe( ).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
height(cm),42.0,179.738095,7.015869,163.0,174.25,182.0,183.0,193.0
order,42.0,22.47619,13.152461,1.0,11.25,22.0,33.75,44.0


### Veamos ahora que hace para las variables no numericas , agregando include='object'

¿Qué estadísticas ofrece describe() para variables no numéricas?

Cuando se usa con include='object' o include='all', describe() para columnas no numéricas muestra:

- count: El número de valores no nulos en la columna.

- unique: El número de valores únicos distintos en la columna. Esto es muy útil para saber cuántas categorías diferentes hay.

- top: El valor más frecuente (la categoría que más se repite).

- freq: La frecuencia (cantidad de veces que aparece) del valor más frecuent

In [61]:
df_presidents.describe(include='object' )

Unnamed: 0,name
count,42
unique,42
top,George Washington
freq,1


### Veamos ahora que hace si l epedimos que muestre las estadisticas de todo, agregando include='all'

In [63]:
df_presidents.describe(include='all')

Unnamed: 0,height(cm),order,name
count,42.0,42.0,42
unique,,,42
top,,,George Washington
freq,,,1
mean,179.738095,22.47619,
std,7.015869,13.152461,
min,163.0,1.0,
25%,174.25,11.25,
50%,182.0,22.0,
75%,183.0,33.75,


### <span style="color:red;">14- .unique( )</span>
Qué hace?

El método unique( ) es una función de Series de Pandas que se utiliza para obtener todos los valores únicos y distintos que existen en una Serie (es decir, en una sola columna de tu DataFrame). 

Devuelve un array de NumPy con estos valores únicos, en el orden en que aparecen por primera vez. 

Es muy útil para entender la diversidad de los datos en una columna.

¿Por qué es útil?

- Exploración de Categorías: Te permite ver rápidamente todas las categorías o niveles distintos en una columna categórica (como países, tipos de producto, métodos de pago, etc.).

- Detección de Errores: Ayuda a identificar inconsistencias o errores de tipeo en los datos. Por ejemplo, si esperas solo 'Sí' y 'No' en una columna, pero ves 'Si', 'No ', 'si', unique() te lo revelaría.

- Preparación de Datos: Es el primer paso para la codificación de variables categóricas o para entender la cardinalidad (número de valores únicos) de una columna.

- Contar valores únicos: A menudo se combina con nunique() (que veremos después) para obtener solo el conteo, pero unique() te da los valores en sí.

In [64]:
df_presidents['height(cm)'].unique()

array([189, 170, 163, 183, 171, 185, 168, 173, 175, 178, 193, 174, 182,
       180, 188, 179, 177])

### <span style="color:red;">15- .value_counts( )</span>
Qué hace?

El método value_counts() es una de las herramientas más potentes y utilizadas en Pandas para la exploración inicial de datos.

Se aplica a una Serie (una sola columna de un DataFrame) y devuelve una Serie nueva que contiene el recuento de las ocurrencias únicas de cada valor. 

En otras palabras, te dice cuántas veces aparece cada valor distinto en esa columna. Los resultados se ordenan en orden descendente por defecto.


Sintaxis:
```python
serie.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

```
Al igual que unique(), value_counts() debe aplicarse a una columna específica (una Serie), no a un DataFrame completo directamente.

Argumentos Clave (para un uso más avanzado):

- normalize (booleano, por defecto es False): Si se establece en True, el resultado se mostrará como frecuencias relativas (porcentajes) de las ocurrencias únicas en lugar de los recuentos absolutos.

- sort (booleano, por defecto es True): Si se establece en False, los valores no se ordenarán por su frecuencia.

- ascending (booleano, por defecto es False): Si se establece en True, los valores se ordenarán de forma ascendente.

- dropna (booleano, por defecto es True): Si se establece en False, los valores NaN (nulos) también se incluirán en el conteo.

In [65]:
df_presidents['height(cm)'].value_counts()

height(cm)
183    8
182    4
173    4
178    4
185    3
188    3
189    2
168    2
170    2
175    2
193    2
163    1
171    1
174    1
180    1
179    1
177    1
Name: count, dtype: int64