
# 1) Introducción al manejo de archivos CSV y configuración inicial

## Temas a analizar:
* Establecer dependencias, importar librerías necesarias
* Verificar compatibilidad, mostrar mensajes si las librerías están instaladas
* Preparar herramientas necesarias
* Documentar

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

print(f"versión instalada de pandas: {pd.__version__}")
print(f"versión instalada de numpy: {np.__version__}")
print(f"versión instalada de matplotlib: {plt.matplotlib.__version__}")

versión instalada de pandas: 2.2.3
versión instalada de numpy: 2.2.5
versión instalada de matplotlib: 3.10.3



# 2) Leer archivos CSV

## Veremos:
* Creación de Dfs para generar archivos CSV
* Manejo de los diferentes delimitadores
* Opciones adicionales
* Nombres personalizados

In [7]:
#Diccionario de datos generado con datos de prueba para la gestión de archivos CSV
datos_ejemplo = {
    'Nombre': ['Chuck','Steven','Felipe','Nelson'],
    'Edad': [60,70,35,38],
    'Ciudad': ['New York','Seattle','Jaraguá','Santiago'],
    'Sueldo': [300, 400, 500, 600]
}

#Creación del DF a partir del diccionario

df = pd.DataFrame(datos_ejemplo)
df

Unnamed: 0,Nombre,Edad,Ciudad,Sueldo
0,Chuck,60,New York,300
1,Steven,70,Seattle,400
2,Felipe,35,Jaraguá,500
3,Nelson,38,Santiago,600


In [10]:
#Creación de un archivo CSV directo en la raíz del proyecto
#Configuración de INDEX - No inclusión de los indices del df en el CSV
df.to_csv('datos_ejemplo.csv', index=False)

#Creación de un CSV sin encabezado
#Configuración de HEADER - Usa la primera fila como nomre de columnas, por defecto está en 0
#HEADER NONE - No genera fila de encabezado, se puede asignar de forma automática y personalizada
df_sin_header = pd.read_csv('datos_ejemplo.csv', header=None)
print("Extracción correcta de datos desde el CSV pero sin la cabecera de los datos (header)\n")
df_sin_header

Extracción correcta de datos desde el CSV pero sin la cabecera de los datos (headder)



Unnamed: 0,0,1,2,3
0,Nombre,Edad,Ciudad,Sueldo
1,Chuck,60,New York,300
2,Steven,70,Seattle,400
3,Felipe,35,Jaraguá,500
4,Nelson,38,Santiago,600


In [12]:
#Asignación personalizada de nombres a las columnas
df_nombres_personalizados = pd.read_csv('datos_ejemplo.csv', header=None, names=['Persona', 'Años', 'Ubicación', 'Salario'])
df_nombres_personalizados.head()


Unnamed: 0,Persona,Años,Ubicación,Salario
0,Nombre,Edad,Ciudad,Sueldo
1,Chuck,60,New York,300
2,Steven,70,Seattle,400
3,Felipe,35,Jaraguá,500
4,Nelson,38,Santiago,600


In [15]:
#Especificar valores nulos personalizados
datos_con_nulos = {
    'Nombre': ['Juan', 'Marta', '?', 'Ana'],
    'Edad': [60,70,'N/A',38],
    'Ciudad': ['Santiago','Valdivia','Coquimbo','?'],
    'Sueldo': [300, 400, 500, 'N/A']
}

#Crear DF del diccionario
df_nulos = pd.DataFrame(datos_con_nulos)
#Crear CSV a partir del df
df_nulos.to_csv('datos_nulos.csv', index=False)

df_nulos_procesados = pd.read_csv('datos_nulos.csv', na_values=['?','N/A'])
print(df_nulos_procesados.head())
print("Valores nulos encontrados:\n")
print(df_nulos_procesados.isnull().sum())

  Nombre  Edad    Ciudad  Sueldo
0   Juan  60.0  Santiago   300.0
1  Marta  70.0  Valdivia   400.0
2    NaN   NaN  Coquimbo   500.0
3    Ana  38.0       NaN     NaN
Valores nulos encontrados:

Nombre    1
Edad      1
Ciudad    1
Sueldo    1
dtype: int64



# 3) Escribir en archivos CSV

## Acciones a realizar:
* Personalizar exportación
* Guardar un df en archivos CSV
* Preparar el Df para la exportación

In [16]:
#Creando nuevo df para la exportación
df_para_exportar = df.copy()

#Exportar de manera bien simple
df_para_exportar.to_csv('datos_para_exportar.csv', index=False)
print('Archivo creado exitosamente')

df_verificacion=pd.read_csv('datos_para_exportar.csv')
print("\n contenido del archivo exportado:")
print(df_verificacion)

Archivo creado exitosamente

 contenido del archivo exportado:
   Nombre  Edad    Ciudad  Sueldo
0   Chuck    60  New York     300
1  Steven    70   Seattle     400
2  Felipe    35   Jaraguá     500
3  Nelson    38  Santiago     600


In [19]:
#Personalizar la exportación de datos a CSV: Cambiar el delimitador de coma (,) a punto y coma (;)
df_para_exportar.to_csv('4_datos_puntoycoma.csv', index=False, sep =';')
print('Archivo con delimitador ";" creado exitosamente\n')

#Personalizar la exportación de datos a CSV: Cambiar el tipo de codificación
df_para_exportar.to_csv('5_datos_codificacion.csv', index=False, encoding='utf-8')
print('Archivo con codificación personalizada creado exitosamente\n')


df_para_exportar.to_csv('6_datos_sinheaders.csv', index=False, header=False)
print('Archivo con omisión de headers creado exitosamente\n')

Archivo con delimitador ";" creado exitosamente

Archivo con codificación personalizada creado exitosamente

Archivo con omisión de headers creado exitosamente



In [20]:
#Ejemplo completo de personalización en la exportación de datos a CSV
df_para_exportar.to_csv('7_datos_personalizados.csv', index=False, header=False, sep=';',encoding='utf-8')
print('Archivo personalizado creado exitosamente\n')
print("-Sin indice\n-Delimitador ;\n-Codificación UTF-8\n-Sin Encabezados")

Archivo personalizado creado exitosamente

-Sin indice
-Delimitador ;
-Codificación UTF-8
-Sin Encabezados


4) Lectura de datos en EXCEL

In [22]:
try:
    import openpyxl
    print("Libreria OpenPyXL está instalada")
except ImportError:
    print("Libreria OpenPyXL NO está instalada")

Libreria OpenPyXL está instalada


In [23]:
df_excel_ejemplo = pd.DataFrame({
    'Producto' : ['Laptop','Mouse','Teclado','Monitor'],
    'Precio' : [800,25,60,300],
    'Stock' : [10,20,30,40],
    'Categoría' : ['Tecnología','Accesorios','Accesorios','Tecnología']
})

df_excel_ejemplo.to_excel('8_productos.xlsx',index=False)

df_desde_excel=pd.read_excel('8_productos.xlsx')
print("Datos leidos desde Excel de forma exitosa:\n")
print(df_desde_excel)

Datos leidos desde Excel de forma exitosa:

  Producto  Precio  Stock   Categoría
0   Laptop     800     10  Tecnología
1    Mouse      25     20  Accesorios
2  Teclado      60     30  Accesorios
3  Monitor     300     40  Tecnología


In [24]:
#Trabajar con múltiples hojas del archivo EXCEL
with pd.ExcelWriter('9_inventario_multiple.xlsx') as writer:
    #Creación primera HOJA
    df_productos = pd.DataFrame({
        'ID' : [1,2,3],
        'Nombre': ['Laptop','Mouse','Teclado']
    })
    df_productos.to_excel(writer, sheet_name='Productos', index=False)

    #Creación segunda HOJA
    df_ventas = pd.DataFrame({
        'Producto_ID' : [1,2,3],
        'Fecha' : ['20-01-2025','20-01-2025','20-01-2025'],
        'Cantidad' : [6,10,15]
    })
    df_ventas.to_excel(writer, sheet_name='Ventas', index=False)

print("Excel con multiples hojas creado con éxito")

Excel con multiples hojas creado con éxito


In [27]:
#Leer un Excel, una hoja especifica
df_productos_leidos = pd.read_excel('9_inventario_multiple.xlsx', sheet_name='Productos',index_col=0)
print(f"Datos de hoja productos:\n")
print(df_productos_leidos.head())

Datos de hoja productos:

     Nombre
ID         
1    Laptop
2     Mouse
3   Teclado


In [28]:
#Leer multiples hojas de un Excel
df_dict = pd.read_excel('9_inventario_multiple.xlsx', sheet_name=['Productos', 'Ventas'])
print("Datos del Excel con 2 hojas:\n")
print(df_dict['Productos'])
print("\n",df_dict['Ventas'])

Datos del Excel con 2 hojas:

   ID   Nombre
0   1   Laptop
1   2    Mouse
2   3  Teclado

    Producto_ID       Fecha  Cantidad
0            1  20-01-2025         6
1            2  20-01-2025        10
2            3  20-01-2025        15


In [30]:
df_todas_hojas = pd.read_excel('9_inventario_multiple.xlsx',sheet_name=None)
print(f"Nombres de todas las hojas:{list(df_todas_hojas.keys())}")

Nombres de todas las hojas:['Productos', 'Ventas']


# ACTIVIDAD 1

In [35]:
#Leo el csv y transformo a df
df = pd.read_csv('medallas 18-06-25.csv')
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [36]:
#Información general del df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [37]:
#Renombro columnas del df
df.columns = ["Medallas Oro","Medallas Plata","Medallas Bronce","Total Medallas","País"]
df.head()

Unnamed: 0,Medallas Oro,Medallas Plata,Medallas Bronce,Total Medallas,País
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [38]:
#Cuento cantidad de nulos por columna
df.isnull().sum()

Medallas Oro       28
Medallas Plata     24
Medallas Bronce    17
Total Medallas      0
País                0
dtype: int64

In [39]:
#Reemplazo nulls por 0
df.fillna(0,inplace=True)
df.head()

Unnamed: 0,Medallas Oro,Medallas Plata,Medallas Bronce,Total Medallas,País
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan


In [40]:
#Paso df a un csv nuevo
df.to_csv('Act_medallas23-06-25.csv',index=False)

# ACTIVIDAD 2

In [50]:
df = pd.read_html('https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population')
df=df[0]

Unnamed: 0,Location,Population,% of world,Date,Source (official or from the United Nations),Notes
0,World,8232000000,100%,13 Jun 2025,UN projection[1][3],
1,India,1413324000,17.3%,1 Mar 2025,Official projection[4],[b]
2,China,1408280000,17.2%,31 Dec 2024,Official estimate[5],[c]
3,United States,340110988,4.2%,1 Jul 2024,Official estimate[6],[d]
4,Indonesia,282477584,3.5%,30 Jun 2024,National annual projection[7],
...,...,...,...,...,...,...
235,Niue (New Zealand),1681,0%,11 Nov 2022,2022 Census[246],
236,Tokelau (New Zealand),1647,0%,1 Jan 2019,2019 Census[247],
237,Vatican City,882,0%,31 Dec 2024,Official figure[248],[ah]
238,Cocos (Keeling) Islands (Australia),593,0%,30 Jun 2020,2021 Census[249],


In [51]:
df.describe()

Unnamed: 0,Population
count,240.0
mean,67553000.0
std,545994000.0
min,35.0
25%,382727.0
50%,5486725.0
75%,22635480.0
max,8232000000.0


In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 6 columns):
 #   Column                                        Non-Null Count  Dtype 
---  ------                                        --------------  ----- 
 0   Location                                      240 non-null    object
 1   Population                                    240 non-null    int64 
 2   % of world                                    240 non-null    object
 3   Date                                          240 non-null    object
 4   Source (official or from the United Nations)  240 non-null    object
 5   Notes                                         33 non-null     object
dtypes: int64(1), object(5)
memory usage: 11.4+ KB
