#PANDAS Operaciones Básicas con Datos en Python

Trabajar con datos estructurados es esencial en el análisis de datos y la ciencia de datos. Pandas, una biblioteca de Python, facilita la manipulación, transformación y análisis de datos de manera eficiente. Este tutorial cubre las operaciones básicas que puedes realizar con Pandas.


In [6]:
#@title Importar Pandas y Crear un DataFrame

#Primero, importamos la biblioteca y creamos un DataFrame para trabajar.
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Sofía', 'Juan'],
    'Edad': [23, 34, 29, 31],
    'Ciudad': ['Bogotá', 'Lima', 'Santiago', 'Quito'],
    'Salario': [3000, 4000, 3500, 4200]
}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)


data1 = {
    'Nombre': ['Ana', 'Luis', 'Sofía', 'Juan', 'Anita', 'Luisa', 'Sofanor', 'Juanita'],
    'Edad': [23, 34, 29, 31, 23, 34, 29, 31],
    'Ciudad': ['Bogotá', 'Lima', 'Santiago', 'Quito','Bogotá', 'Lima', 'Santiago', 'Quito'],
    'Salario': [3000, 4000, 3500, 4200,3000, 4000, 3500, 4200]
}
df1 = pd.DataFrame(data1)
print("DataFrame SEGUNDO:")
print(df1)

DataFrame original:
  Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
DataFrame SEGUNDO:
    Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3000
5    Luisa    34      Lima     4000
6  Sofanor    29  Santiago     3500
7  Juanita    31     Quito     4200


##Inspección de los Datos

In [7]:
#@title Ver las primeras y últimas filas del DataFrame:
print("Dataframe ORIGINAL:\n")
print("Primeras filas:")
print(df.head())  # Primeras 5 filas

print("Últimas filas:")
print(df.tail(2))  # Últimas 2 filas

print("\nDataframe SEGUNDO:")
print("Primeras filas:")
print(df1.head(7))  # Primeras 5 filas


Dataframe ORIGINAL:

Primeras filas:
  Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
Últimas filas:
  Nombre  Edad    Ciudad  Salario
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

Dataframe SEGUNDO:
Primeras filas:
    Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3000
5    Luisa    34      Lima     4000
6  Sofanor    29  Santiago     3500


In [8]:
#@title Resumen de información del DataFrame:
print("Información del DataFrame:")
print(df.info())


Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   4 non-null      object
 1   Edad     4 non-null      int64 
 2   Ciudad   4 non-null      object
 3   Salario  4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes
None


In [9]:
#@title Estadísticas descriptivas:
print("Estadísticas descriptivas:")
print(df.describe())  # Solo aplica a columnas numéricas


Estadísticas descriptivas:
            Edad      Salario
count   4.000000     4.000000
mean   29.250000  3675.000000
std     4.645787   537.742193
min    23.000000  3000.000000
25%    27.500000  3375.000000
50%    30.000000  3750.000000
75%    31.750000  4050.000000
max    34.000000  4200.000000


##Selección de Datos

In [10]:
#@title Seleccionar una columna:
print("Dataframe ORIGINAL:\n",df)
print("Columna 'Nombre':")
print(df['Nombre'])


Dataframe ORIGINAL:
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
Columna 'Nombre':
0      Ana
1     Luis
2    Sofía
3     Juan
Name: Nombre, dtype: object


In [11]:
#@title Seleccionar varias columnas:
print("Dataframe ORIGINAL:\n",df)
print("Columnas 'Nombre' y 'Salario':")
print(df[['Nombre', 'Salario']])


Dataframe ORIGINAL:
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
Columnas 'Nombre' y 'Salario':
  Nombre  Salario
0    Ana     3000
1   Luis     4000
2  Sofía     3500
3   Juan     4200


In [12]:
#@title Seleccionar una fila por índice:
print("Dataframe ORIGINAL:\n",df)
print("Primera fila:")
print(df.iloc[2])  # Basado en la posición


Dataframe ORIGINAL:
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
Primera fila:
Nombre        Sofía
Edad             29
Ciudad     Santiago
Salario        3500
Name: 2, dtype: object


In [13]:
#@title Seleccionar un rango de filas:
print("Dataframe ORIGINAL:\n",df)
print("Primero y segundo registros:")
print(df.iloc[0:2])  # Filas de la posición 0 a la 1


Dataframe ORIGINAL:
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200
Primero y segundo registros:
  Nombre  Edad  Ciudad  Salario
0    Ana    23  Bogotá     3000
1   Luis    34    Lima     4000


In [14]:

#@title Seleccionar un elemento específico:
print("Elemento en la primera fila y tercera columna:")
print(df.iloc[0, 2])  # Fila 0, Columna 2


Elemento en la primera fila y tercera columna:
Bogotá


In [15]:
#@title Visualizando filas NO contínuas
print("Datos originales \n",df1)
print("\nVisualizando filas 0 y 2")
print(df1.iloc[[0,2,5,7]])

Datos originales 
     Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3000
5    Luisa    34      Lima     4000
6  Sofanor    29  Santiago     3500
7  Juanita    31     Quito     4200

Visualizando filas 0 y 2
    Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
2    Sofía    29  Santiago     3500
5    Luisa    34      Lima     4000
7  Juanita    31     Quito     4200


##Filtrado de Datos

In [16]:
#@title Filtrar por una condición:
print("Datos originales \n",df)
print("\nPersonas con salario mayor a 3500:")
print(df[df['Salario'] > 3500])

Datos originales 
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

Personas con salario mayor a 3500:
  Nombre  Edad Ciudad  Salario
1   Luis    34   Lima     4000
3   Juan    31  Quito     4200


In [19]:
#@title Filtrar por múltiples condiciones:
print("Datos originales \n",df)
print("\nPersonas mayores de 30 años en Lima:")
print(df[(df['Edad'] > 30) & (df['Ciudad'] == 'Lima')])

print("\nPersonas mayores de 32 años O menores de 25:")
print(df[(df['Edad'] > 32) | (df['Edad'] < 25)])


Datos originales 
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

Personas mayores de 30 años en Lima:
  Nombre  Edad Ciudad  Salario
1   Luis    34   Lima     4000

Personas mayores de 32 años O menores de 25:
  Nombre  Edad  Ciudad  Salario
0    Ana    23  Bogotá     3000
1   Luis    34    Lima     4000


In [20]:
#@title Uso de operadores isin para varios valores:
print("Datos originales \n",df)
print("\nPersonas en Bogotá o Lima:")
print(df[df['Ciudad'].isin(['Bogotá', 'Lima'])])


Datos originales 
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

Personas en Bogotá o Lima:
  Nombre  Edad  Ciudad  Salario
0    Ana    23  Bogotá     3000
1   Luis    34    Lima     4000


##Ordenar Datos

In [21]:
#@title Ordenar por una columna:
print("Datos originales \n",df)
print("\nOrdenar por Nombre ASCENDENTE:")
print(df.sort_values(by='Nombre', ascending=True))
print("\nOrdenar por Nombre DESCENDENTE:")
print(df.sort_values(by='Nombre', ascending=False))



Datos originales 
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

Ordenar por Nombre ASCENDENTE:
  Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
3   Juan    31     Quito     4200
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500

Ordenar por Nombre DESCENDENTE:
  Nombre  Edad    Ciudad  Salario
2  Sofía    29  Santiago     3500
1   Luis    34      Lima     4000
3   Juan    31     Quito     4200
0    Ana    23    Bogotá     3000


In [22]:
#@title Ordenar en orden descendente:
print("Ordenar por edad (descendente):")
print(df.sort_values(by='Edad', ascending=False))


Ordenar por edad (descendente):
  Nombre  Edad    Ciudad  Salario
1   Luis    34      Lima     4000
3   Juan    31     Quito     4200
2  Sofía    29  Santiago     3500
0    Ana    23    Bogotá     3000


##Agregar y Modificar Columnas

In [23]:
#@title Agregar una nueva columna:
print("Datos originales \n",df)
df['Años_Desde_Graduación'] = [2, 10, 6, 7]
print("\nDataFrame con nueva columna:")
print(df)


Datos originales 
   Nombre  Edad    Ciudad  Salario
0    Ana    23    Bogotá     3000
1   Luis    34      Lima     4000
2  Sofía    29  Santiago     3500
3   Juan    31     Quito     4200

DataFrame con nueva columna:
  Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0    Ana    23    Bogotá     3000                      2
1   Luis    34      Lima     4000                     10
2  Sofía    29  Santiago     3500                      6
3   Juan    31     Quito     4200                      7


In [24]:
#@title Agregar una nueva columna al PRINCIPIO:
#OJO si hago es debo ejecutar la primera instrucción de construcción del dataframe para seguir la secuencia

print("Datos originales \n",df)
df.insert(0,'Profesion',['Admin', 'Ingeniero','Secretaria', 'Sociologo'])
print("\nDataFrame con nueva columna:")
print(df)


Datos originales 
   Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0    Ana    23    Bogotá     3000                      2
1   Luis    34      Lima     4000                     10
2  Sofía    29  Santiago     3500                      6
3   Juan    31     Quito     4200                      7

DataFrame con nueva columna:
    Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá     3000                      2
1   Ingeniero   Luis    34      Lima     4000                     10
2  Secretaria  Sofía    29  Santiago     3500                      6
3   Sociologo   Juan    31     Quito     4200                      7


In [25]:
#@title eliminar una columna:
print("Datos Con la nueva columna PROFESION \n",df)
df.drop(1,axis=0,inplace=True)
print("\nDataFrame ORIGINAL (luego de eliminar PROFESION):")
print(df)

Datos Con la nueva columna PROFESION 
     Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá     3000                      2
1   Ingeniero   Luis    34      Lima     4000                     10
2  Secretaria  Sofía    29  Santiago     3500                      6
3   Sociologo   Juan    31     Quito     4200                      7

DataFrame ORIGINAL (luego de eliminar PROFESION):
    Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá     3000                      2
2  Secretaria  Sofía    29  Santiago     3500                      6
3   Sociologo   Juan    31     Quito     4200                      7


In [26]:
#@title Modificar una columna existente:
print("Datos luego de haber agregado una columna \n",df)
df['Salario'] = df['Salario'] * 1.10  # Incrementar salario en 10%
print("\nDataFrame con salario actualizado:")
print(df)


Datos luego de haber agregado una columna 
     Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá     3000                      2
2  Secretaria  Sofía    29  Santiago     3500                      6
3   Sociologo   Juan    31     Quito     4200                      7

DataFrame con salario actualizado:
    Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá   3300.0                      2
2  Secretaria  Sofía    29  Santiago   3850.0                      6
3   Sociologo   Juan    31     Quito   4620.0                      7


##Manejo de Valores Faltantes

In [27]:
#@title Identificar valores nulos:
import numpy as np
print("Dataframe 1:",df1)
df1[1,2]=np.nan
df1[3,2]=np.nan
df1[6,2]=np.nan
print("Dataframe 1 con NULOS:",df1)
print("Valores nulos por columna:")
print(df1.isnull().sum())


Dataframe 1:     Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3000
5    Luisa    34      Lima     4000
6  Sofanor    29  Santiago     3500
7  Juanita    31     Quito     4200
Dataframe 1 con NULOS:     Nombre  Edad    Ciudad  Salario  (1, 2)  (3, 2)  (6, 2)
0      Ana    23    Bogotá     3000     NaN     NaN     NaN
1     Luis    34      Lima     4000     NaN     NaN     NaN
2    Sofía    29  Santiago     3500     NaN     NaN     NaN
3     Juan    31     Quito     4200     NaN     NaN     NaN
4    Anita    23    Bogotá     3000     NaN     NaN     NaN
5    Luisa    34      Lima     4000     NaN     NaN     NaN
6  Sofanor    29  Santiago     3500     NaN     NaN     NaN
7  Juanita    31     Quito     4200     NaN     NaN     NaN
Valores nulos por columna:
Nombre     0
Edad       0
Ciudad     0
Salario    0
(1, 2)     8
(3, 2)  

In [28]:
#@title Rellenar valores nulos:
df['Salario'].fillna(3000, inplace=True)  # Rellenar con un valor


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salario'].fillna(3000, inplace=True)  # Rellenar con un valor


In [30]:
#@title Eliminar filas con valores nulos:
df.dropna(subset=['Salario'], inplace=True)


## Agrupación y Resumen de Datos

In [31]:
#@title Agrupar por una columna y calcular la media:
data1 = {
    'Nombre': ['Ana', 'Luis', 'Sofía', 'Juan', 'Anita', 'Luisa', 'Sofanor', 'Juanita'],
    'Edad': [23, 34, 29, 31, 23, 34, 29, 31],
    'Ciudad': ['Bogotá', 'Lima', 'Santiago', 'Quito','Bogotá', 'Lima', 'Santiago', 'Quito'],
    'Salario': [3000, 4000, 3500, 4200,3500, 4400, 4500, 5200]
}
df1 = pd.DataFrame(data1)
print("DataFrame SEGUNDO:")
print(df1)

agrupado = df1.groupby('Ciudad')['Salario'].mean()
print("Salario promedio por ciudad:")
print(agrupado)


DataFrame SEGUNDO:
    Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3500
5    Luisa    34      Lima     4400
6  Sofanor    29  Santiago     4500
7  Juanita    31     Quito     5200
Salario promedio por ciudad:
Ciudad
Bogotá      3250.0
Lima        4200.0
Quito       4700.0
Santiago    4000.0
Name: Salario, dtype: float64


In [32]:
#@title Calcular múltiples estadísticas por grupo:
print("Dataframe SEGUNDO:")
print(df1)
estadisticas = df1.groupby('Ciudad')['Salario'].agg(['mean', 'max', 'min','sum'])
print("\nEstadísticas de salario por ciudad:")
print(estadisticas)


Dataframe SEGUNDO:
    Nombre  Edad    Ciudad  Salario
0      Ana    23    Bogotá     3000
1     Luis    34      Lima     4000
2    Sofía    29  Santiago     3500
3     Juan    31     Quito     4200
4    Anita    23    Bogotá     3500
5    Luisa    34      Lima     4400
6  Sofanor    29  Santiago     4500
7  Juanita    31     Quito     5200

Estadísticas de salario por ciudad:
            mean   max   min   sum
Ciudad                            
Bogotá    3250.0  3500  3000  6500
Lima      4200.0  4400  4000  8400
Quito     4700.0  5200  4200  9400
Santiago  4000.0  4500  3500  8000


##Fusionar y Combinar DataFrames

In [33]:
#@title Concatenar DataFrames:
print("Datos originales \n",df)

df2 = pd.DataFrame({
    'Nombre': ['María', 'Pedro'],
    'Edad': [27, 32],
    'Ciudad': ['Buenos Aires', 'Bogotá'],
    'Salario': [3700, 4100]
})

print("Datos ADICIONALES\n",df2)

df_concatenado = pd.concat([df, df2], ignore_index=True)
print("DataFrame concatenado:")
print(df_concatenado)
estadisticas = df_concatenado.groupby('Ciudad')['Salario'].agg(['mean', 'max', 'min'])
print("Estadísticas de salario por ciudad:")
print(estadisticas)


Datos originales 
     Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá   3300.0                      2
2  Secretaria  Sofía    29  Santiago   3850.0                      6
3   Sociologo   Juan    31     Quito   4620.0                      7
Datos ADICIONALES
   Nombre  Edad        Ciudad  Salario
0  María    27  Buenos Aires     3700
1  Pedro    32        Bogotá     4100
DataFrame concatenado:
    Profesion Nombre  Edad        Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23        Bogotá   3300.0                    2.0
1  Secretaria  Sofía    29      Santiago   3850.0                    6.0
2   Sociologo   Juan    31         Quito   4620.0                    7.0
3         NaN  María    27  Buenos Aires   3700.0                    NaN
4         NaN  Pedro    32        Bogotá   4100.0                    NaN
Estadísticas de salario por ciudad:
                mean     max     min
Ciudad                              
B

In [34]:
#@title Fusionar DataFrames:
print("Datos originales \n",df)
detalles = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Sofía'],
    'Puesto': ['Analista', 'Gerente', 'Desarrolladora']
})
df_merged = pd.merge(df, detalles, on='Nombre', how='inner')
print("DataFrame fusionado:")
print(df_merged)


Datos originales 
     Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá   3300.0                      2
2  Secretaria  Sofía    29  Santiago   3850.0                      6
3   Sociologo   Juan    31     Quito   4620.0                      7
DataFrame fusionado:
    Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación  \
0       Admin    Ana    23    Bogotá   3300.0                      2   
1  Secretaria  Sofía    29  Santiago   3850.0                      6   

           Puesto  
0        Analista  
1  Desarrolladora  


##Exportar Datos

In [35]:
#@title Exportar a un archivo CSV:
df.to_csv('datos_limpios.csv', index=False)


In [36]:
#@title Exportar a un archivo Excel:
df.to_excel('datos_EXCEL.xlsx', index=False)


In [37]:
#@title Leer un archivo de EXCEL anteriormente creado con un DATAFRAME
import pandas as pd
import os

# Get the current working directory
current_directory = os.getcwd()
print(f"Current working directory: {current_directory}")

# Construct the full file path
ruta_archivo = os.path.join(current_directory, "datos_EXCEL.xlsx")

# Alternatively, if the file is indeed in a 'content' subdirectory:
# ruta_archivo = os.path.join(current_directory, "content", "datos_PRUEBA.xlsx")

# Leer el archivo Excel
df = pd.read_excel(ruta_archivo)
print(df)


Current working directory: /content
    Profesion Nombre  Edad    Ciudad  Salario  Años_Desde_Graduación
0       Admin    Ana    23    Bogotá     3300                      2
1  Secretaria  Sofía    29  Santiago     3850                      6
2   Sociologo   Juan    31     Quito     4620                      7


In [38]:
#@title Ejemplo IMPORTAR archivos CSV
import pandas as pd
import matplotlib.pyplot as plt

# 1. Cargar el archivo CSV desde la carpeta content
file_path = "/content/RUA.csv"  # Ruta al archivo
data = pd.read_csv(file_path)

# 2. Mostrar las primeras filas del DataFrame
print("Primeras filas del archivo RUA.csv:")
print(data.head())

# 3. Mostrar información básica del DataFrame
print("\nInformación del DataFrame:")
print(data.info())

print("\nEstadísticas descriptivas:")
print(data.describe())

FileNotFoundError: [Errno 2] No such file or directory: '/content/RUA.csv'

In [None]:
#@title Actualización de la FECHA
data['FECHA ACTUALIZACIÓN'] = pd.to_datetime(data['FECHA ACTUALIZACIÓN'])


In [None]:
print("Primeras filas del archivo RUA.csv:")
print(data.head())

Primeras filas del archivo RUA.csv:
   CONSECUTIVO           FECHA ACTUALIZACIÓN  VIGENCIA PRIMER NOMBRE  \
0            1 1970-01-01 00:00:00.000043866    2020.0        CARLOS   
1            2 1970-01-01 00:00:00.000043866    2020.0          LUIS   
2            3 1970-01-01 00:00:00.000043866    2020.0        WILSON   
3            4 1970-01-01 00:00:00.000043866    2020.0         PABLO   
4            5 1970-01-01 00:00:00.000043866    2020.0      REINALDO   

  SEGUNDO NOMBRE PRIMER APELLIDO SEGUNDO APELLIDO    SEXO    ETNIA  \
0         ANDRES          SUAREZ         MOSQUERA  HOMBRE  NINGUNA   
1        ALBERTO          ARDILA        NO APLICA  HOMBRE  NINGUNA   
2         JAVIER           ROJAS            ROJAS  HOMBRE  NINGUNA   
3        ANTONIO            RUIZ         CHAPARRO  HOMBRE  NINGUNA   
4      NO APLICA            RUIZ           ARDILA  HOMBRE  NINGUNA   

   DISCAPACIDAD DEPARTAMENTO        MUNICIPIO  CODIGO MUNICIPIO  \
0         False    SANTANDER  PUENTE NACION

In [None]:
estadisticas = data.groupby('SEXO')['HECTAREAS'].agg(['mean', 'max', 'min','sum'])
print("\nEstadísticas de HECTAREAS por SEXO del agricultor:")
print(estadisticas)



Estadísticas de HECTAREAS por SEXO del agricultor:
            mean   max   min       sum
SEXO                                  
HOMBRE  3.540413  33.0  0.08  2025.116
MUJER   3.058140  17.0  0.00   920.500


In [None]:
#@title OTRO ejemplo de importacion de archivo EXCEL

#@title Leer un archivo de EXCEL anteriormente creado con un DATAFRAME
import pandas as pd


file_path = "/content/CensoTurismo.xlsx"  # Ruta al archivo
dataEXCEL = pd.read_excel(file_path)

# 2. Mostrar las primeras filas del DataFrame
print("Primeras filas del archivo CensoTurismo.xlsx:")
print(dataEXCEL.head())

# 3. Mostrar información básica del DataFrame
print("\nInformación del DataFrame:")
print(dataEXCEL.info())

print("\nEstadísticas descriptivas:")
print(dataEXCEL.describe())



Primeras filas del archivo CensoTurismo.xlsx:
   Numero del RNT  Estado  Matricula Mercantil  \
0           1.270  Activo               95.495   
1          20.883  Activo              199.132   
2          29.158  Activo              134.832   
3          29.325  Activo              203.560   
4          31.624  Activo              245.145   

  Camara de Comercio Establecimiento  Municipio Municipio Notificaciones  \
0                             CUCUTA  CHINACOTA                CHINACOTA   
1                             CUCUTA  CHINACOTA                CHINACOTA   
2                             CUCUTA  CHINACOTA                   CUCUTA   
3                             CUCUTA  CHINACOTA                CHINACOTA   
4                             CUCUTA  CHINACOTA                CHINACOTA   

                            Nombre Comercial            NIT  \
0  HOTEL Y RESTAURANTE ISLAVITA DE CHINACOTA     13,256,746   
1                HOTEL COLONIAL DE CHINACOTA    900,330,128   
2      

In [None]:
estad_Categoria = dataEXCEL.groupby('Categoria')['Categoria'].agg(['count'])
print("\nEstadísticas de cantidad de ESTABLECIMIETNOS por Municipio:")
print(estad_Categoria)

estad_Estado = dataEXCEL.groupby('Estado')['Estado'].agg(['count'])
print("\nEstadísticas de cantidad de ESTABLECIMIENTOS por Estado:")
print(estad_Estado)




Estadísticas de cantidad de ESTABLECIMIETNOS por Municipio:
                                                  count
Categoria                                              
CONCESIONARIOS DE SERVICIOS TURÍSTICOS EN PARQUE      1
EMPRESA DE TRANSPORTE TERRESTRE AUTOMOTOR             1
ESTABLECIMIENTO DE ALOJAMIENTO Y HOSPEDAJE           87
PARQUES TEMÁTICOS                                     1

Estadísticas de cantidad de ESTABLECIMIENTOS por Estado:
            count
Estado           
Activo         88
Suspendido      2


#Ejercicio: Gestión de Datos con Pandas

**Enunciado:**
Eres un analista de ventas y necesitas procesar un conjunto de datos sobre productos vendidos en una tienda. Sigue los pasos descritos para completar el ejercicio:

1. Crea un DataFrame con los siguientes datos:
Producto: ['Manzanas', 'Plátanos', 'Naranjas', 'Uvas']
Cantidad Vendida: [50, 30, 20, 45]
Precio Unitario: [1.5, 0.8, 1.2, 2.5]
Almacenar el DataFrame en un archivo Excel:

2. Guarda el DataFrame en un archivo llamado ventas.xlsx.
Leer el archivo Excel:

3. Recupera los datos almacenados en el archivo Excel para verificar su contenido.
Realizar una operación con el DataFrame:

4. Calcula una nueva columna llamada Ingresos Totales que sea el resultado de multiplicar la Cantidad Vendida por el Precio Unitario.
Filtrar datos:

5. Filtra los productos con Ingresos Totales superiores a 50 y muestra los resultados.
Guardar el resultado final:

6. Guarda el DataFrame con los ingresos calculados y filtrados en un nuevo archivo llamado ventas_filtradas.xlsx.