In [4]:
import pandas as pd
#CARGAR ARCHIVO CSV 
df_csv = pd.read_csv("datos_ventas.csv")
#Mostrar primeras filas
(df_csv.head(7))

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,,A
4,4,,18000.0,
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,


In [5]:
# ver cantidad de nulos Nan
df_csv.isnull().sum()


id_cliente    0
fecha         1
ventas        1
categoria     2
dtype: int64

In [6]:
# ver los índices
print(df_csv.index)


RangeIndex(start=0, stop=7, step=1)


In [7]:
#Elimino fila 4 ya que tiene dos NaN
df_csv = df_csv.drop(index=4)
(df_csv.head(7))


Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,


In [8]:
#se imputan: valor de venta faltante por el promedio y categoría faltante por "Sin información"
df_csv["ventas"] = df_csv["ventas"].fillna(df_csv["ventas"].mean())
df_csv["categoria"] = df_csv["categoria"].fillna("Sin información")
df_csv.head(7)

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
2,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [9]:
#Eliminar duplicado identificado por id cliente
df_csv = df_csv.drop_duplicates(subset="id_cliente")
df_csv.head(7)

Unnamed: 0,id_cliente,fecha,ventas,categoria
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [10]:
#Se realiza la conversión de tipos de datos para asegurar un análisis correcto: las ventas se transforman a formato numérico, las fechas a tipo datetime y las categorías a tipo categórico, manejando valores inválidos mediante la conversión a NaN.
df_csv["ventas"] = pd.to_numeric(df_csv["ventas"], errors="coerce")
df_csv["fecha"] = pd.to_datetime(df_csv["fecha"], errors="coerce")
df_csv["categoria"] = df_csv["categoria"].astype("category")

In [11]:
#Transformación y optimización de datos
#Selecciona las columnas más relevantes para el análisis.
df_csv = df_csv[["id_cliente", "fecha", "ventas", "categoria"]]
df_csv = df_csv.rename(columns={
    "id_cliente": "Cliente_id",
    "ventas": "Monto_ventas",
    "fecha": "Fecha",
    "categoria": "Categoría"
})
df_csv.head(7)

Unnamed: 0,Cliente_id,Fecha,Monto_ventas,Categoría
0,1,2024-01-10,15000.0,A
1,2,2024-01-12,23000.0,B
3,3,2024-01-15,20000.0,A
5,5,2024-01-13,20000.0,B
6,6,2024-01-14,19000.0,Sin información


In [12]:
#Ordena los datos en función de una columna clave.
#Monto ventas
df_csv = df_csv.sort_values(by="Monto_ventas", ascending=False)
df_csv.head(7)

Unnamed: 0,Cliente_id,Fecha,Monto_ventas,Categoría
1,2,2024-01-12,23000.0,B
5,5,2024-01-13,20000.0,B
3,3,2024-01-15,20000.0,A
6,6,2024-01-14,19000.0,Sin información
0,1,2024-01-10,15000.0,A


In [13]:
#Cargar datos de archivo Excel
import pandas as pd
df_excel = pd.read_excel("datos_clientes.xlsx")
df_excel.head()

Unnamed: 0,id_cliente,nombre,edad,region
0,1,Ana,34.0,Norte
1,2,Luis,45.0,Centro
2,3,María,,Sur
3,4,Pedro,29.0,Centro


In [14]:
#Veo la información de los datos
df_excel.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  4 non-null      int64  
 1   nombre      4 non-null      object 
 2   edad        3 non-null      float64
 3   region      4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 260.0+ bytes


In [15]:
# veo los que contienen valores nulos
df_excel.isna().sum()


id_cliente    0
nombre        0
edad          1
region        0
dtype: int64

In [16]:
#Relleno NaN de edad cliente a Sin información
df_excel["edad"] = df_excel["edad"].fillna("Sin información")
df_excel.head()

Unnamed: 0,id_cliente,nombre,edad,region
0,1,Ana,34.0,Norte
1,2,Luis,45.0,Centro
2,3,María,Sin información,Sur
3,4,Pedro,29.0,Centro


In [17]:
#Ajustar tipos de datos
df_excel["id_cliente"] = pd.to_numeric(df_excel["id_cliente"],errors="coerce")
# Convertir edad a numérico no se puede porque dejé uno como string
# Convertir columna de nombres a texto (string)
df_excel["nombre"] = df_excel["nombre"].astype("string")
# Convertir tipo de cliente a categórico
df_excel["region"] = df_excel["region"].astype("category")

In [22]:
#Renombrar columnas
df_excel = df_excel.rename(columns={
    "id_cliente": "Cliente_id",
    "nombre": "Nombre_cliente",
    "edad": "Edad_cliente",
    "region": "Region_cliente"
})
#Seleccionar columnas relevantes
df_excel_analisis = df_excel[["Cliente_id", "Nombre_cliente", "Edad_cliente", "Region_cliente"]
].copy()

# Ordenar por región
df_excel = df_excel.sort_values(by="Region_cliente",ascending=True)

df_excel.head()


Unnamed: 0,Cliente_id,Nombre_cliente,Edad_cliente,Region_cliente
1,2,Luis,45.0,Centro
3,4,Pedro,29.0,Centro
0,1,Ana,34.0,Norte
2,3,María,Sin información,Sur


In [19]:
#Extraer datos de una tabla web
import pandas as pd
#solicitud a pagina de manera estable y controlada requests
import requests
#StringIO Convierte texto (HTML en formato string) en un objeto similar a un archivo, que puede ser leído por funciones que esperan un archivo como entrada
from io import StringIO

url = "https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n"

#Simula navegación real y hace el acceso mas estable y realista
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36",
    "Accept-Language": "es-ES,es;q=0.9"
}
#realiza solicitud y extrae el contenido HTML de la página en formato texto.
html = requests.get(url, headers=headers, timeout=30).text
df_list = pd.read_html(StringIO(html))

#seleccionamos primera tabla y crea una copia
df_web = df_list[0].copy()
df_web.head()

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,1754,90,12 692 000,1547,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 407 934 000,1743,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,424,61,2 084 000,254,114,343 197 000,22/01/2026,R,www.census.gov
3,4,Indonesia,284 447 000,352,107,3 043 000,371,65,284 438 782,30/06/2025,E,www.bps.go.id
4,5,Pakistán,256 204 000,317,256,6 567 000,800,27,241 499 431,1/03/2023,C,www.pbs.gov.pk
