**Pandas** es una de las bibliotecas más populares en Python para la manipulación y análisis de datos. Proporciona estructuras de datos y herramientas de análisis de datos fáciles de usar que son esenciales en ciencia de datos y análisis de datos. Algunos de los fundamentos clave de Pandas incluyen:

***Estructuras de Datos Principales:***

`DataFrame:`Es una estructura de datos bidimensional que se utiliza para almacenar y analizar datos tabulares similares a una hoja de cálculo. Cada columna en un DataFrame se llama una Serie.

**`Serie`**: Es una estructura de datos unidimensional que contiene un conjunto de datos y una etiqueta para cada elemento. Puede pensar en una Serie como una columna en una tabla de datos.

***Creación de DataFrames y Series:***

Para crear un DataFrame, puede utilizar diccionarios, listas, matrices NumPy u otros DataFrames.

Para crear una Serie, puede utilizar una lista, una matriz NumPy o un diccionario.

***Carga de Datos Externos:***
        Pandas permite cargar datos desde una variedad de fuentes, como archivos CSV, Excel, bases de datos SQL y más.

***Acceso y Selección de Datos:***
        Puede acceder y seleccionar datos de un DataFrame o una Serie utilizando etiquetas de columnas, etiquetas de índice, números de fila y columna, condiciones booleanas, y más.

***Manipulación de Datos:***
        Pandas proporciona herramientas para filtrar, limpiar, transformar y combinar datos.

***Operaciones Básicas:***
        Puede realizar operaciones básicas en columnas y filas, como suma, resta, multiplicación y división, junto con operaciones más avanzadas como agrupación y agregación.

***Exportación de Datos:***
        Puede guardar los datos procesados en diversos formatos, como CSV, Excel, SQL y más.

Un **DataFrame** se compone de filas y columnas, y cada columna puede contener datos de diferentes tipos (enteros, flotantes, cadenas, etc.). Puedes pensar en un DataFrame como una colección de Series (estructuras de datos unidimensionales) que comparten el mismo índice.

Para crear un DataFrame en Pandas, puedes utilizar varias formas, pero la forma más común es mediante la creación de un DataFrame a partir de un diccionario de Python o mediante la lectura de datos desde una fuente externa, como un archivo CSV o una hoja de cálculo de Excel.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## **Crear un DataFrame a partir de un diccionario:**

Lo primero que tendremos que haces es importar la libreria de pandas que vamos a usar, la importaremos bajo el alias de ***pd***

In [None]:
import pandas as pd

AttributeError: module 'numpy' has no attribute '__version__'

In [10]:
#Crear un DataFrame desde un diccionario:

# Crear un diccionario de datos
data = {
    'Nombre': ['Juan', 'María', 'Carlos', 'Laura', 'Ana', 'Risto', 'Coral', 'Leo'],
    'Edad': [28, 22, 32, 25, 12, 67, 23, 34],
    'Ciudad': ['Madrid', 'Barcelona', 'Burgos', 'Soria','Mérida', 'Cáceres', 'Valencia', 'Sevilla' ]
}

# Crear un DataFrame a partir del diccionario
df = pd.DataFrame(data)

# Mostrar el DataFrame
print(df)


NameError: name 'pd' is not defined

*Describe()* : genera estadísticas descriptivas de las columnas de un DataFrame en Python.

<li><strong>count</strong>: Número de valores no nulos en cada columna.</li><li><strong>mean</strong>: Media (promedio) de los valores de cada columna.</li><li><strong>std</strong>: Desviación estándar, que muestra cuánto varían los datos respecto a la media.</li><li><strong>min</strong>: Valor mínimo en cada columna.</li><li><strong>25%</strong> (primer cuartil): Valor que deja el 25% de los datos por debajo.</li><li><strong>50%</strong> (mediana): Valor central, que divide los datos en dos mitades.</li><li><strong>75%</strong> (tercer cuartil): Valor que deja el 75% de los datos por debajo.</li><li><strong>max</strong>: Valor máximo en cada columna.</li>




In [8]:
print(df.describe())

            Edad
count   8.000000
mean   30.375000
std    16.273884
min    12.000000
25%    22.750000
50%    26.500000
75%    32.500000
max    67.000000


## **Crear un DataFrame a partir de un archivo CSV:**

Lo primero que tendremos que hacer para trabajar con el dataset será leerlo desde el fichero CSV para usarlo en **Python**.
Así, existen distintas alternativas, aunque en este artículo usaremos la librería de ***Python Pandas***. Esta librería ofrece una gran cantidad de herramientas y funcionalidades que nos harán la vida más fácil a la hora de preprocesar datasets.

Para cargar el dataset usaremos el siguiente código:

Leemos el fichero CSV desde la url definida con el método read_csv.
Estamos leyendo desde una URL remota, pero si tenemos el fichero localmente en nuestra máquina lo podremos leer igual usando la ruta al mismo.

Por último mostramos el objeto devuelto, que en este caso se llama ***dataframe***, que Pandas usa como unidad de información fundamental, y que podemos asimilar a una tabla de datos.

In [13]:

url = "bar_locations.xls"
bares_df = pd.read_csv(url)
bares_df

NameError: name 'pd' is not defined

Este dataset podría ser útil para estudios de comportamiento o incidentes en áreas de entretenimiento, ayudando a identificar zonas con más actividad o necesidad de atención.

<h3>1. Carga y Exploración Básica de Datos</h3>

<ul><li><p><strong><code>pd.read_csv()</code>: Carga datos desde archivos CSV o Excel.</p></li><li><p><strong><code>df.head()</code></strong>: Muestra las primeras filas del DataFrame, útil para una vista rápida.</p></li><li><p><strong><code>df.info()</code></strong>: Muestra un resumen de los tipos de datos y la cantidad de valores nulos. Útil para entender la estructura del dataset.</p></li><li><p><strong><code>df.describe()</code></strong>: Genera estadísticas descriptivas para las columnas numéricas, como la media, desviación estándar, mínimo, máximo y percentiles.</p></li><li><p><strong><code>df.columns</code></strong>: Muestra los nombres de las columnas. Útil para verificar los nombres o usarlos en operaciones específicas.</p></li></ul>

## Un primer acercamiento al contenido del *dataframe*

**1. Exploración Básica**

Ahora que tenemos cargado el dataset dentro de un dataframe, podemos empezar a usar la gran cantidad de funcionalidad de la librería Pandas. Algo bastante útil es usar el método «describe» del dataframe que nos indica un resumen del contenido del mismo.

In [12]:
bares_df.describe()

NameError: name 'bares_df' is not defined

In [11]:
bares_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2440 entries, 0 to 2439
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Location Type  2440 non-null   object 
 1   Incident Zip   2440 non-null   float64
 2   City           2440 non-null   object 
 3   Borough        2440 non-null   object 
 4   Latitude       2440 non-null   float64
 5   Longitude      2440 non-null   float64
 6   num_calls      2440 non-null   int64  
dtypes: float64(3), int64(1), object(3)
memory usage: 133.6+ KB


In [13]:
# exploratorio de datos
# mostrar las 5 primeras filas de mi dataset
df.head()


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Madrid
1,María,22,Barcelona
2,Carlos,32,Burgos
3,Laura,25,Soria
4,Ana,12,Mérida


In [None]:
bares_df.head()

Unnamed: 0,Location Type,Incident Zip,City,Borough,Latitude,Longitude,num_calls
0,Club/Bar/Restaurant,10308.0,STATEN ISLAND,STATEN ISLAND,40.544096,-74.141155,40
1,Club/Bar/Restaurant,10012.0,NEW YORK,MANHATTAN,40.729793,-73.998842,18
2,Club/Bar/Restaurant,10308.0,STATEN ISLAND,STATEN ISLAND,40.544209,-74.14104,21
3,Club/Bar/Restaurant,10034.0,NEW YORK,MANHATTAN,40.866376,-73.928258,160
4,Club/Bar/Restaurant,11220.0,BROOKLYN,BROOKLYN,40.635207,-74.020285,17


In [None]:
# 5 últimas filas
df.tail()


Unnamed: 0,Nombre,Edad,Ciudad
3,Laura,25,Soria
4,Ana,12,Mérida
5,Risto,67,Cáceres
6,Coral,23,Valencia
7,Leo,34,Sevilla


In [None]:
#10 últimas filas
df.tail(10)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Madrid
1,María,22,Barcelona
2,Carlos,32,Burgos
3,Laura,25,Soria
4,Ana,12,Mérida
5,Risto,67,Cáceres
6,Coral,23,Valencia
7,Leo,34,Sevilla


In [None]:
#estructura: nos muestra filas y columnas del dataset
print(bares_df.shape)
#Si sólo necesitamos obtener el número de filas
print( bares_df.shape[0])
#Si sólo necesitamos obtener el número de columnas
print( bares_df.shape[1])

(2440, 7)


In [None]:
bares_df.columns

Index(['Location Type', 'Incident Zip', 'City', 'Borough', 'Latitude',
       'Longitude', 'num_calls'],
      dtype='object')

In [None]:
df.columns

Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')

¿Para qué puede ser útil este comando ?.....



In [None]:
#ordenamos datos
dataframeOrdenado = bares_df.sort_values(by ="City", ascending= True)
dataframeOrdenado.head()

Unnamed: 0,Location Type,Incident Zip,City,Borough,Latitude,Longitude,num_calls
0,Club/Bar/Restaurant,10308.0,STATEN ISLAND,STATEN ISLAND,40.544096,-74.141155,40
1,Club/Bar/Restaurant,10012.0,NEW YORK,MANHATTAN,40.729793,-73.998842,18
2,Club/Bar/Restaurant,10308.0,STATEN ISLAND,STATEN ISLAND,40.544209,-74.14104,21
3,Club/Bar/Restaurant,10034.0,NEW YORK,MANHATTAN,40.866376,-73.928258,160
4,Club/Bar/Restaurant,11220.0,BROOKLYN,BROOKLYN,40.635207,-74.020285,17


¿Por qué lo guardamos en otro dataframe?

### **2. Limpieza de Datos**

<ul><li><p><strong><code>df.isnull()</code> y <code>df.isnull().sum()</code></strong>: Identifica valores nulos. <code>df.isnull().sum()</code> muestra cuántos valores faltan en cada columna.</p></li><li><p><strong><code>df.dropna()</code></strong>: Elimina filas o columnas con valores nulos.</p></li><li><p><strong><code>df.fillna(value)</code></strong>: Rellena valores nulos con un valor específico, como la media o mediana de la columna.</p></li><li><p><strong><code>df.drop(columns=['col1', 'col2'])</code></strong>: Elimina columnas no deseadas. Útil si tienes columnas que no son relevantes para el análisis.</p></li><li><p><strong><code>df.duplicated()</code> y <code>df.drop_duplicates()</code></strong>: Identifica y elimina filas duplicadas.</p></li></ul>



In [22]:
# Crear una fila con valores nulos
filas_nulas = pd.DataFrame({
    'Nombre': [None, "Yo", None],
    'Edad': [None, None, None],
    'Ciudad': [None, "Hervás", None]
})

# Añadir la fila nula al DataFrame original
df = pd.concat([df, filas_nulas])

# Mostrar el DataFrame
print(df)

   Nombre  Edad     Ciudad
0    Juan    28     Madrid
1   María    22  Barcelona
2  Carlos    32     Burgos
3   Laura    25      Soria
4     Ana    12     Mérida
5   Risto    67    Cáceres
6   Coral    23   Valencia
7     Leo    34    Sevilla
0    None  None       None
1      Yo  None     Hervás
2    None  None       None


In [24]:
# Mostrar un DataFrame con True/False para valores nulos
print(df.isnull(), "\n\n")

# Mostrar la cantidad de valores nulos por columna
df.isnull().sum()


   Nombre   Edad  Ciudad
0   False  False   False
1   False  False   False
2   False  False   False
3   False  False   False
4   False  False   False
5   False  False   False
6   False  False   False
7   False  False   False
0    True   True    True
1   False   True   False
2    True   True    True 




Nombre    2
Edad      3
Ciudad    2
dtype: int64

In [None]:
# Eliminar filas con valores nulos
df_sin_nulos = df.dropna() #Así mantenemos el DataFrame original intacto.
df_sin_nulos


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Madrid
1,María,22,Barcelona
2,Carlos,32,Burgos
3,Laura,25,Soria
4,Ana,12,Mérida
5,Risto,67,Cáceres
6,Coral,23,Valencia
7,Leo,34,Sevilla


In [None]:
df.dropna(inplace=True) # así sobreescribimos

In [26]:
# Eliminar columnas 'Edad' y 'Ciudad' si no son necesarias para el análisis
df_sin_col = df.drop(columns=['Edad', 'Ciudad'])
df_sin_col


Unnamed: 0,Nombre
0,Juan
1,María
2,Carlos
3,Laura
4,Ana
5,Risto
6,Coral
7,Leo
0,
1,Yo


In [None]:
# Identificar filas duplicadas (devuelve True para las filas duplicadas)
print(df.duplicated())

# Eliminar filas duplicadas y mantener la primera aparición de cada fila
df = df.drop_duplicates()


0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
12     True
13     True
dtype: bool


In [27]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28.0,Madrid
1,María,22.0,Barcelona
2,Carlos,32.0,Burgos
3,Laura,25.0,Soria
4,Ana,12.0,Mérida
5,Risto,67.0,Cáceres
6,Coral,23.0,Valencia
7,Leo,34.0,Sevilla
0,,,
1,Yo,,Hervás


In [None]:
# Eliminar la fila con etiqueta 1
df_sin_maria = df.drop(1)
df_sin_maria

In [None]:
# Eliminar la columna 'Ciudad'
df_sin_ciudad = df.drop('Ciudad', axis=1)
df_sin_ciudad


In [None]:
df_sin_ciudad = df.drop(columns=['Ciudad'])
df_sin_ciudad

Unnamed: 0,Nombre,Edad
0,Juan,28.0
1,María,22.0
2,Carlos,32.0
3,Laura,25.0
4,Ana,12.0
5,Risto,67.0
6,Coral,23.0
7,Leo,34.0
8,Unknown,30.375
9,Yo,30.375


In [1]:
# Rellenar valores nulos en la columna "num_calls" con la media de la columna
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())

# Rellenar valores nulos en la columna "City" con un valor constante
df.Ciudad = df['Ciudad'].fillna("Unknown")

df

NameError: name 'df' is not defined

### **3.  Selección y Filtrado de Datos**

**Seleccionar una columna**

Podemos seleccionar toda una columna. Para esto únicamente debemos incluir entre corchetes el nombre de la columna a seleccionar.

In [None]:
# #FILTRAMOS para que muestre solo una columna
#Seleccionar la columna 'Nombre'
nombre = df['Nombre']
nombre

0        Juan
1       María
2      Carlos
3       Laura
4         Ana
5       Risto
6       Coral
7         Leo
8     Unknown
9          Yo
10    Unknown
11         Yo
12    Unknown
Name: Nombre, dtype: object

In [None]:
df.Nombre

0        Juan
1       María
2      Carlos
3       Laura
4         Ana
5       Risto
6       Coral
7         Leo
8     Unknown
9          Yo
10    Unknown
11         Yo
12    Unknown
Name: Nombre, dtype: object

In [None]:
# Más maneras
df[["Nombre"]]


Unnamed: 0,Nombre
0,Juan
1,María
2,Carlos
3,Laura
4,Ana
5,Risto
6,Coral
7,Leo
8,Unknown
9,Yo


***¿Qué diferencia hay entre df['Nombre'] y df[['Nombre']]?***

La diferencia está en la estructura del resultado que obtienes.


> `df['Nombre'] `:
Devuelve una **serie** de pandas. Es decir, un objeto unidimensional que es una columna del DataFrame. Formato: Solo muestra los valores de la columna y su índice, no tiene estructura de tabla.
Uso: Útil si deseas trabajar solo con los datos de una columna específica como una lista o vector (por ejemplo, para aplicar operaciones matemáticas o análisis sobre una sola columna).

> `df[['Nombre']] `:
Devuelve un nuevo **DataFrame** de pandas. El resultado es un DataFrame que consta de una sola columna, que es la columna "Nombre".Formato: Mantiene la estructura de tabla, con las columnas y el índice, aunque tenga solo una columna.
Uso: Útil si deseas mantener la estructura de un DataFrame, ya sea para concatenar, aplicar operaciones en más columnas, o mantener compatibilidad con otras funciones que requieren un DataFrame.



Filtrando con más de una columna:

In [None]:
# nuevo dataframe con las columnas 'Nombre' y 'Edad'
df_nombre_edad = df[['Nombre', 'Edad']]
# convertir edad a int
df_nombre_edad['Edad'] = df_nombre_edad['Edad'].astype(int)

NameError: name 'df' is not defined

Rebanamos sólo en filas concretas

In [37]:
# Selecciona las últimas 5 filas de la columna 'Nombre' como una Serie
ultimas_5_filas = df['Nombre'][-5:]
ultimas_5_filas



3    Laura
4      Ana
5    Risto
6    Coral
7      Leo
Name: Nombre, dtype: object

In [None]:
## Selecciona las últimas 5 filas de la columna 'Nombre' como una Serie
df['Nombre'][3:8]

0      Juan
1     María
2    Carlos
3     Laura
4       Ana
5     Risto
Name: Nombre, dtype: object

In [None]:
 #obtenemos la posición 5 y 6
df["Nombre"][5:7]

5    Risto
6    Coral
Name: Nombre, dtype: object

# ***Filtramos con condiciones***
Para filtrar con condiciones, o bien definimos un filtro:

In [None]:
# definimos el filtro, con True si tiene nombre Juan, y False si no lo tiene
es_juan = df.Nombre =="Juan"
df[es_juan]

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28.0,Madrid


O bien escribimos la condición dentro de corchetes:

In [None]:
df[df.Nombre=="Juan"]

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Madrid


...Más filtros

In [None]:
edad_filtro = df.Edad > 30
#data set filtrado solo con mayores de 30
df[edad_filtro]

# *Filtrado de las columnas que no tienen un valor*

De forma análoga a como se ha conseguido seleccionar los registros que cumplen una condición se puede seleccionar aquellos que no la cumple. Ahora simplemente el filtro se puede conseguir mediante el operador no igual.

In [None]:
df = df[df['Nombre'] != "Juan"]
df

Unnamed: 0,Nombre,Edad,Ciudad
1,María,22,Barcelona
2,Carlos,32,Burgos
3,Laura,25,Soria
4,Ana,12,Mérida
5,Risto,67,Cáceres
6,Coral,23,Valencia
7,Leo,34,Sevilla


# *Filtrado en base a valores nulos*

En muchos conjuntos de datos es habitual que existan registros con valores nulos. Para identificar los registros nulos objetos de Pandas cuentan con los métodos isnull() y notnull(). Tal como indica el nombre, el primero de ellos devuelve verdadero en los registros nulos y el segundo en los que no son nulos.

In [38]:
# Crear un nuevo diccionario con un valor nulo (NaN)
nuevos_elementos = {
    'Nombre': ["Pepe", "Yo", None],
    'Edad': [None, None, None],
    'Ciudad': [None, "Hervás", None]}

df2 = pd.DataFrame(nuevos_elementos)


# Concatenar el nuevo elemento al DataFrame original
df = pd.concat([df, df2], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28.0,Madrid
1,María,22.0,Barcelona
2,Carlos,32.0,Burgos
3,Laura,25.0,Soria
4,Ana,12.0,Mérida
5,Risto,67.0,Cáceres
6,Coral,23.0,Valencia
7,Leo,34.0,Sevilla
8,Pepe,,
9,Yo,,Hervás


In [None]:
#¿Dataframe sólo con los datos de aquellas filas que tienen edades nulas ?
df[df.Edad.isnull()]

In [None]:
#¿Dataframe sólo con los datos de aquellas filas que tienen edades no nulas ?
df[df.Edad.notnull()]

# *Filtrados por elementos en una lista*

Los filtros anteriores bastante útiles, pero en muchas ocasiones se desea seleccionar datos cuyos valores se encuentra en una lista. Para ello se puede aplicar el método isin() a las columnas para obtener un filtro.

In [None]:
df[df.Nombre.isin(["Juan","Risto"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28.0,Madrid
5,Risto,67.0,Cáceres


# *Filtrado con dos condiciones*

Si tenemos dos condiciones a cumplir, cada condición la ponemos dentro de paréntesis y las unimos usando un operador lógico (&, |).


In [None]:
df[(df.Edad>30) & (df.Nombre=="Risto")]

Unnamed: 0,Nombre,Edad,Ciudad
5,Risto,67.0,Cáceres


**Selección Basada en Condiciones Específicas con .loc**

Usando **df.loc[condición, 'col']**, puedes seleccionar o asignar valores en filas o columnas específicas según una condición.

In [41]:
# Seleccionar todo donde la ciudad es 'Madrid'
nombres_en_madrid = df.loc[df['Ciudad'] == 'Madrid']
print(nombres_en_madrid)




  Nombre Edad  Ciudad
0   Juan   28  Madrid


In [None]:
# Seleccionar nombres cuya ciudad es 'Madrid'

In [None]:
# Asignar una edad específica a las personas que viven en 'Madrid'
df.loc[df['Ciudad'] == 'Madrid', 'Edad'] = 30
print(df)

In [42]:
# Filtrar filas donde la edad es mayor que 25 y seleccionar la columna 'Nombre' como Serie
serie_nombres = df.loc[df['Edad'] > 25, 'Nombre']
serie_nombres


0      Juan
2    Carlos
5     Risto
7       Leo
Name: Nombre, dtype: object

In [None]:
# Filtrar usando múltiples condiciones y obtener una Serie de 'Nombre'
serie_nombres = df.loc[(df['Edad'] > 25) & (df['Ciudad'] == 'Madrid'), 'Nombre']
serie_nombres

0    Juan
Name: Nombre, dtype: object


# ¡Más funciones útiles!

*sort_values, len, value_counts, contains, drop*




---


**sort_values**: Esta función se utiliza para ordenar el DataFrame según los valores de una o más columnas. Puedes especificar una o varias columnas por las cuales deseas ordenar y la dirección de la clasificación (ascendente o descendente).


In [None]:
# Ordenar el DataFrame por la columna 'Edad' de forma descendente
df_ordenado = df.sort_values(by='Edad', ascending=False)
df_ordenado

Unnamed: 0,Nombre,Edad,Ciudad
5,Risto,67.0,Cáceres
7,Leo,34.0,Sevilla
2,Carlos,32.0,Burgos
9,Yo,30.375,Hervás
8,Unknown,30.375,Unknown
11,Yo,30.375,Hervás
10,Unknown,30.375,Unknown
12,Unknown,30.375,Unknown
0,Juan,28.0,Madrid
3,Laura,25.0,Soria


In [None]:
df_ordenado = df.sort_values(by=['Ciudad', 'Edad'], ascending=[True, False])
df_ordenado


Unnamed: 0,Nombre,Edad,Ciudad
1,María,22.0,Barcelona
2,Carlos,32.0,Burgos
5,Risto,67.0,Cáceres
9,Yo,30.375,Hervás
11,Yo,30.375,Hervás
0,Juan,28.0,Madrid
4,Ana,12.0,Mérida
7,Leo,34.0,Sevilla
3,Laura,25.0,Soria
8,Unknown,30.375,Unknown


*Parámetros Adicionales*

- inplace: Si inplace=True, el DataFrame original se ordena directamente, sin necesidad de crear una nueva variable.
- na_position: Controla la posición de los valores nulos (NaN). Puede ser 'first' (al principio) o 'last' (al final).


In [None]:
df.sort_values(by='Edad', ascending=True, inplace=True)
#df.sort_values(by='Edad', ascending=True, na_position='first')



---


**len**: La función len se utiliza para obtener el número de filas en un DataFrame.

In [None]:
cantidad_de_filas = len(df)
print("Número de filas en el DataFrame: ", cantidad_de_filas)

Número de filas en el DataFrame:  9




---
**value_counts** :  se utiliza para contar la cantidad de ocurrencias de valores únicos en una columna y devuelve un objeto serie con los valores únicos y sus ocurrencias.



In [None]:
df['Ciudad'].value_counts()

Ciudad
Unknown      3
Hervás       2
Barcelona    1
Madrid       1
Burgos       1
Soria        1
Cáceres      1
Mérida       1
Sevilla      1
Valencia     1
Name: count, dtype: int64

**sort=False**: Por defecto, value_counts() ordena los resultados de mayor a menor frecuencia. Si quieres desactivar la ordenación, usa sort=False.

In [None]:
frecuencia_nombres_sin_orden = df['Nombre'].value_counts(sort=False)
frecuencia_nombres_sin_orden

Nombre
Juan       1
María      1
Carlos     1
Laura      1
Ana        1
Risto      1
Coral      1
Leo        1
Unknown    3
Yo         2
Pepe       3
Name: count, dtype: int64

In [None]:
cont_ciudades = df['Ciudad'].value_counts()
print(cont_ciudades)

Madrid       1
Barcelona    1
Burgos       1
Soria        1
Mérida       1
Cáceres      1
Valencia     1
Sevilla      1
Name: Ciudad, dtype: int64




---
**contains**: se usa para verificar si una subcadena o valor específico está presente en una serie o columna del DataFrame. Devuelve una serie booleana donde cada valor es True si el elemento contiene la subcadena o valor y False en caso contrario.

Sintaxis Básica

df['columna'].str.contains('texto', case=True)

    'texto': La cadena de texto o el patrón de expresión regular que estás buscando.
    case=True: Indica si la búsqueda es sensible a mayúsculas o minúsculas (por defecto True).
    

In [None]:
contiene_sevilla = df['Ciudad'].str.contains('Sevilla')
contiene_sevilla

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7      True
8     False
9     False
10    False
11    False
12    False
13      NaN
14      NaN
15     None
Name: Ciudad, dtype: object

In [None]:
 #no case sensitive
df_juan = df[df['Nombre'].str.contains('Juan', case=False)]
df_juan


NameError: name 'df' is not defined


---


---


Además, con los filtros aplicados, podemos hacer uso de cualquiera de las funciones que hamos obtenido de aplicar *describe* a nuestro dataframe:

In [None]:
mean = df[df.Edad>30].Edad.mean()

cont_val = df[df.Edad>30].Edad.value_counts() 
#contar la cantidad de ocurrencias de valores en una serie de datos

print("Media: ", mean)
cont_val

Media:  44.333333333333336


32.0    1
67.0    1
34.0    1
Name: Edad, dtype: int64

#! Completa !

In [None]:

# Nuevo dataframe sólo con las columnas 'Nombre' y 'Edad'
df_nombre_edad = df[['Nombre', 'Edad']]

In [None]:
#DataFrame con los mayores de 25
df_mayores_25 = df[df['Edad'] > 25]

In [None]:

# Agregar una nueva columna 'Salario'
df['Salario'] = [30000, 35000, 40000, 45000, 50000, 55000, 60000, 65000, 70000]

In [None]:

# Incrementar la edad de las personas en 1 año
df['Edad'] = df['Edad'] + 1

In [None]:

# Calcular la media de la columna 'Edad'
media_edad = df['Edad'].mean()

In [None]:

# Ordenar el DataFrame por la columna 'Edad' en orden ascendente
df = df.sort_values(by='Edad', ascending=True)

In [None]:

# Contar valores únicos en la columna 'Edad'
valores_unicos = df['Edad'].nunique()


In [None]:

# Eliminar la columna 'Edad'
df = df.drop(columns=['Edad'])

In [None]:

# Agrupar por la columna 'Ciudad' y calcular el promedio de 'Edad' para cada ciudad
df_agrupado = df.groupby('Ciudad').mean()