# Carga y análisis de datos con pandas

## Objetivo
Comprender la estructura de diferentes tipos de archivos (CSV, XML y Excel),
cargarlos en pandas y realizar análisis exploratorios básicos utilizando
herramientas de ciencia de datos.

In [1]:
import pandas as pd

In [2]:
csv_url = "https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-08-07/felicidad.csv"
xml_url = "https://www.w3schools.com/xml/cd_catalog.xml"
excel_url = "https://github.com/wantaprender-tech/Curso-Bigdata-Python/raw/refs/heads/main/Semana%20No.%201/base%20de%20datos%20excel%20tarea%20sem1.xlsx"

In [3]:
df_csv = pd.read_csv(csv_url)
df_xml = pd.read_xml(xml_url)
df_xlsx = pd.read_excel(excel_url)

In [4]:
df_csv.head()
df_xml.head()
df_xlsx.head()

Unnamed: 0,Empleado,Nombre del cliente,Ventas,Id de empleado,Id de producto,Id de cliente,Año,Mes,Producto,Cliente,Id de pedido,Fecha de pedido,Nombre del producto,Estado o provincia,País o región,Categoría
0,Francisco Chaves,Compañía AA,1400.0,9,34,27,2016,11,Cerveza Northwind Traders,Compañía AA,30,42696,Cerveza Northwind Traders,Madrid,España,Bebidas
1,Francisco Chaves,Compañía AA,105.0,9,80,27,2016,2,Ciruelas pasas Northwind Traders,Compañía AA,30,42417,Ciruelas pasas Northwind Traders,NV,Estados Unidos,Frutos secos
2,Luis Bonifaz,Compañía D,300.0,3,7,4,2016,10,Peras secas Northwind Traders,Compañía D,31,42647,Peras secas Northwind Traders,NY,Estados Unidos,Frutos secos
3,Luis Bonifaz,Compañía D,530.0,3,51,4,2016,7,Manzanas secas Northwind Traders,Compañía D,31,42577,Manzanas secas Northwind Traders,NY,Estados Unidos,Frutos secos
4,Luis Bonifaz,Compañía D,35.0,3,80,4,2016,1,Ciruelas pasas Northwind Traders,Compañía D,31,42377,Ciruelas pasas Northwind Traders,NY,Estados Unidos,Frutos secos


In [5]:
print(type(df_csv))
print(type(df_xml))
print(type(df_xlsx))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


## Análisis del archivo CSV

A continuación se presenta la información general del archivo CSV, incluyendo
tipos de datos, número de registros y columnas, lo que permite comprender
su estructura.

In [6]:
df_csv.info()
df_csv.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 17 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   pais                         1704 non-null   object 
 1   anio                         1704 non-null   int64  
 2   escalera_vida                1704 non-null   float64
 3   log_pib                      1676 non-null   float64
 4   soporte_social               1691 non-null   float64
 5   expectativa_vida             1676 non-null   float64
 6   libertad                     1675 non-null   float64
 7   generosidad                  1622 non-null   float64
 8   percepcion_corrupcion        1608 non-null   float64
 9   afecto_positivo              1685 non-null   float64
 10  afecto_negativo              1691 non-null   float64
 11  confianza                    1530 non-null   float64
 12  calidad_democracia           1558 non-null   float64
 13  calidad_entrega   

(1704, 17)

## Análisis del archivo XML

Se analiza la estructura del archivo XML convertido a DataFrame,
verificando tipos de datos y dimensiones.

In [7]:
df_xml.info()
df_xml.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   TITLE    26 non-null     object 
 1   ARTIST   26 non-null     object 
 2   COUNTRY  26 non-null     object 
 3   COMPANY  26 non-null     object 
 4   PRICE    26 non-null     float64
 5   YEAR     26 non-null     int64  
dtypes: float64(1), int64(1), object(4)
memory usage: 1.3+ KB


(26, 6)

## Análisis del archivo Excel

Se presenta la información del archivo Excel, permitiendo identificar
columnas relevantes para el análisis de ventas.

In [8]:
df_xlsx.info()
df_xlsx.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6860 entries, 0 to 6859
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Empleado             6860 non-null   object 
 1   Nombre del cliente   6860 non-null   object 
 2   Ventas               6860 non-null   float64
 3   Id de empleado       6860 non-null   int64  
 4   Id de producto       6860 non-null   int64  
 5   Id de cliente        6860 non-null   int64  
 6   Año                  6860 non-null   int64  
 7   Mes                  6860 non-null   int64  
 8   Producto             6860 non-null   object 
 9   Cliente              6860 non-null   object 
 10  Id de pedido         6860 non-null   int64  
 11  Fecha de pedido      6860 non-null   int64  
 12  Nombre del producto  6860 non-null   object 
 13  Estado o provincia   6860 non-null   object 
 14  País o región        6860 non-null   object 
 15  Categoría            6860 non-null   o

(6860, 16)

In [9]:
df_csv.columns

Index(['pais', 'anio', 'escalera_vida', 'log_pib', 'soporte_social',
       'expectativa_vida', 'libertad', 'generosidad', 'percepcion_corrupcion',
       'afecto_positivo', 'afecto_negativo', 'confianza', 'calidad_democracia',
       'calidad_entrega', 'de_escalera_pais_anio', 'gini_banco_mundial',
       'gini_banco_mundial_promedio'],
      dtype='object')

### Cantidad de países en la base de datos

Se calcula el número de países distintos presentes en el conjunto de datos,
lo cual permite conocer el alcance geográfico del archivo CSV.

In [10]:
df_csv["pais"].nunique()

164

### Media de percepción de corrupción por año

Se agrupan los datos por año y se calcula la media de la variable
percepción de corrupción, con el fin de analizar su comportamiento
a lo largo del tiempo.

In [11]:
df_csv.groupby("anio")["percepcion_corrupcion"].mean()

Unnamed: 0_level_0,percepcion_corrupcion
anio,Unnamed: 1_level_1
2005,0.715875
2006,0.755737
2007,0.792069
2008,0.76412
2009,0.763371
2010,0.757199
2011,0.75517
2012,0.757945
2013,0.763475
2014,0.738347


### Expectativa de vida promedio por país

Se calcula la expectativa de vida promedio por país, considerando
los diferentes años disponibles en el conjunto de datos.

In [12]:
df_csv.groupby("pais")["expectativa_vida"].mean().sort_values(ascending=False)

Unnamed: 0_level_0,expectativa_vida
pais,Unnamed: 1_level_1
Singapur,75.213333
Hong Kong S.A.R. of China,75.126760
Japón,74.160000
España,73.078461
Suiza,73.030000
...,...
Sierra Leona,45.105455
República Central Africana,43.356001
North Cyprus,
Somaliland region,


In [13]:
df_xml.columns

Index(['TITLE', 'ARTIST', 'COUNTRY', 'COMPANY', 'PRICE', 'YEAR'], dtype='object')

## Análisis del archivo XML

A continuación se filtran los discos publicados entre los años 1990 y 1997,
con el objetivo de analizar un rango específico de tiempo dentro del catálogo.

In [14]:
df_xml["YEAR"] = pd.to_numeric(df_xml["YEAR"], errors="coerce")

df_xml_1990_1997 = df_xml[
    (df_xml["YEAR"] >= 1990) & (df_xml["YEAR"] <= 1997)
]

df_xml_1990_1997

Unnamed: 0,TITLE,ARTIST,COUNTRY,COMPANY,PRICE,YEAR
3,Still got the blues,Gary Moore,UK,Virgin records,10.2,1990
4,Eros,Eros Ramazzotti,EU,BMG,9.9,1997
7,Maggie May,Rod Stewart,UK,Pickwick,8.5,1990
8,Romanza,Andrea Bocelli,EU,Polydor,10.8,1996
10,Black angel,Savage Rose,EU,Mega,10.9,1995
12,For the good times,Kenny Rogers,UK,Mucik Master,8.7,1995
13,Big Willie style,Will Smith,USA,Columbia,9.9,1997
15,Soulsville,Jorn Hoel,Norway,WEA,7.9,1996
16,The very best of,Cat Stevens,UK,Island,8.9,1990
21,Pavarotti Gala Concert,Luciano Pavarotti,UK,DECCA,9.9,1991


### Disco más antiguo y más reciente

Se ordena el conjunto de datos por año de publicación y se utiliza la función
iloc para identificar el disco más antiguo y el más reciente del catálogo.

In [15]:
df_xml_sorted = df_xml.sort_values("YEAR")

disco_mas_viejo = df_xml_sorted.iloc[0]
disco_mas_reciente = df_xml_sorted.iloc[-1]

disco_mas_viejo, disco_mas_reciente

(TITLE      The dock of the bay
 ARTIST            Otis Redding
 COUNTRY                    USA
 COMPANY           Stax Records
 PRICE                      7.9
 YEAR                      1968
 Name: 22, dtype: object,
 TITLE      1999 Grammy Nominees
 ARTIST                     Many
 COUNTRY                     USA
 COMPANY                  Grammy
 PRICE                      10.2
 YEAR                       1999
 Name: 11, dtype: object)

In [16]:
df_xlsx.columns

Index(['Empleado', 'Nombre del cliente', 'Ventas', 'Id de empleado',
       'Id de producto', 'Id de cliente', 'Año', 'Mes', 'Producto', 'Cliente',
       'Id de pedido', 'Fecha de pedido', 'Nombre del producto',
       'Estado o provincia', 'País o región', 'Categoría'],
      dtype='object')

## Análisis del archivo Excel

Se revisan las columnas del archivo Excel con el objetivo de identificar
aquellas que no aportan valor directo al análisis de ventas y pueden ser
eliminadas para simplificar el DataFrame.

In [17]:
df_xlsx.columns

Index(['Empleado', 'Nombre del cliente', 'Ventas', 'Id de empleado',
       'Id de producto', 'Id de cliente', 'Año', 'Mes', 'Producto', 'Cliente',
       'Id de pedido', 'Fecha de pedido', 'Nombre del producto',
       'Estado o provincia', 'País o región', 'Categoría'],
      dtype='object')

In [18]:
df_xlsx_clean = df_xlsx.copy()

df_xlsx_clean = df_xlsx_clean[["Empleado", "Ventas", "Categoría"]]

df_xlsx_clean.head(6)

Unnamed: 0,Empleado,Ventas,Categoría
0,Francisco Chaves,1400.0,Bebidas
1,Francisco Chaves,105.0,Frutos secos
2,Luis Bonifaz,300.0,Frutos secos
3,Luis Bonifaz,530.0,Frutos secos
4,Luis Bonifaz,35.0,Frutos secos
5,María Jesús Cuesta,270.0,Bebidas


### Total de ventas por vendedor

Se agrupan las ventas por empleado y se calcula el total de ventas de cada uno,
permitiendo identificar el desempeño de los vendedores.

In [19]:
df_xlsx_clean["Ventas"] = pd.to_numeric(df_xlsx_clean["Ventas"], errors="coerce")

ventas_por_empleado = (
    df_xlsx_clean
    .groupby("Empleado")["Ventas"]
    .sum()
    .sort_values(ascending=False)
)

ventas_por_empleado

Unnamed: 0_level_0,Ventas
Empleado,Unnamed: 1_level_1
Francisco Chaves,1658151.75
Pilar Pinilla Gallego,1608053.75
María González,918540.0
Juan Carlos Rivas,892920.0
María Jesús Cuesta,878920.0
Humberto Acevedo,731728.5
Jesús Escolar,366450.0
Luis Bonifaz,234021.0


### Categoría con mayores y menores ventas

Se agrupan las ventas por categoría para identificar cuál genera el mayor
y el menor volumen de ventas.

In [20]:
ventas_por_categoria = (
    df_xlsx_clean
    .groupby("Categoría")["Ventas"]
    .sum()
    .sort_values(ascending=False)
)

categoria_mas_vende = ventas_por_categoria.iloc[0]
categoria_menos_vende = ventas_por_categoria.iloc[-1]

ventas_por_categoria, categoria_mas_vende, categoria_menos_vende

(Categoría
 Bebidas                        3169040.0
 Mermeladas y confituras         803600.0
 Frutos secos                    519750.0
 Productos lácteos               438480.0
 Sopas                           391790.0
 Salsas                          364000.0
 Golosinas                       357000.0
 Carne enlatada                  309120.0
 Pasta                           273000.0
 Frutas y verduras enlatadas     218400.0
 Condimentos                     193200.0
 Productos horneados             137480.0
 Aceite                           74725.0
 Granos                           39200.0
 Name: Ventas, dtype: float64,
 np.float64(3169040.0),
 np.float64(39200.0))

## Conclusión

El desarrollo de esta actividad permitió comprender de manera práctica la
estructura y características de distintos tipos de archivos de datos, tales
como CSV, XML y Excel, así como su correcta carga y manipulación mediante la
librería pandas en Python.

A través del uso de funciones como `read_csv`, `read_xml` y `read_excel`, fue
posible adquirir datos desde fuentes externas, simulando escenarios reales de
análisis de datos. Asimismo, el uso de métodos exploratorios como `head()`,
`info()` y `shape` facilitó la comprensión de la estructura, tipos de datos y
dimensiones de cada conjunto de datos.

El análisis específico de cada archivo permitió aplicar operaciones de
agrupación, filtrado y cálculo de estadísticas básicas, como el promedio de
percepción de corrupción por año, la expectativa de vida por país, la
identificación de registros más antiguos y recientes, así como el análisis de
ventas por empleado y por categoría.

En conclusión, esta actividad fortaleció mis habilidades en el manejo de datos
con pandas, el análisis exploratorio de información y la interpretación de
resultados, competencias fundamentales dentro del ámbito de la ciencia de datos
y la inteligencia de negocios.

## Referencias

McKinney, W. (2023). *pandas documentation*. https://pandas.pydata.org/docs/

Ciencia de Datos. (2019). *Felicidad.csv* [Conjunto de datos]. GitHub.
https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-08-07/felicidad.csv

W3Schools. (s. f.). *XML CD catalog*. https://www.w3schools.com/xml/cd_catalog.xml

WantAprender Tech. (s. f.). *Base de datos Excel tarea semana 1* [Conjunto de datos].
https://github.com/wantaprender-tech/Curso-Bigdata-Python/raw/refs/heads/main/Semana%20No.%201/base%20de%20datos%20excel%20tarea%20sem1.xlsx