---
# **Pandas - WhitePaper**
# **Data Analysis with Pandas üêº**
---

Notebook Created by:

- **V. D. Betancourt**

**WhitePaper**



*   Enache, Maria Cristina (2019). [Data Analysis with Pandas](https://web.archive.org/web/20191211022945id_/http://www.eia.feaa.ugal.ro/images/eia/2019_2/Enache1.pdf). *Journal of Data Analysis*.  

    *  DOI: [10.35219/eai1584040933](http://dx.doi.org/10.35219/eai1584040933)





---
# **√çndice**
---



* [1. Introducci√≥n](#1)

    
* [2. Principales Ideas](#2)


* [3. Settings](#3)


* [4. Comparaci√≥n de Datos](#4)


* [5. Selecci√≥n de Datos](#5)


* [6. Filtrado de Datos con Condici√≥n Simple](#6)



* [7. Filtrado de Datos con Condiciones M√∫ltiples](#7)



* [8. Conclusiones](#8)



* [9. Bibliograf√≠a](#9)



---
<a id="1"></a>

## üåÑ **Introducci√≥n**

---

El ***An√°lisis de Datos (Data Analysis, DA)*** se ha convertido en una herramienta clave para las empresas modernas, no solo como un medio para limpiar, analizar y modelar informaci√≥n, sino como un pilar fundamental para desarrollar estrategias de marketing efectivas y alcanzar resultados comerciales deseados.

A pesar de que no todas las compa√±√≠as han reconocido a√∫n la importancia de emplear an√°lisis de Big Data para maximizar sus beneficios, el An√°lisis de Datos se destaca por su velocidad y precisi√≥n en la toma de decisiones de negocio. Esta disciplina no solo proporciona exactitud, sino que tambi√©n ofrece m√≥dulos estad√≠sticos robustos y herramientas de alta tecnolog√≠a para el An√°lisis de Datos.

Dentro de este panorama, ***Python*** se destaca como un lenguaje id√≥neo para el An√°lisis de Datos, principalmente gracias a su fant√°stico ecosistema de paquetes orientados a datos. Entre estos paquetes se encuentra ***Pandas***, una librer√≠a de c√≥digo abierto que simplifica significativamente la importaci√≥n y el An√°lisis de Datos, siendo un componente esencial en el kit de herramientas de cualquier analista.

El presente Notebook explora las ideas presentadas en el paper denominado:

*   Enache, Maria Cristina (2019). [Data Analysis with Pandas](https://web.archive.org/web/20191211022945id_/http://www.eia.feaa.ugal.ro/images/eia/2019_2/Enache1.pdf). *Journal of Data Analysis*.  

---
<a id="2"></a>

## üí° **Principales Ideas**

---

"***Data Analytics***" y "***Data Analysis***" son t√©rminos que a menudo se utilizan de manera intercambiable, pero tienen diferencias sutiles en su enfoque y aplicaci√≥n.

---
### **Data Analysis vs Data Analytics**

---



*   **Data Analytics** es el proceso y la metodolog√≠a general para analizar los datos con el fin obtener hallazgos significativos de los mismos. Suele clasificarse en 3 tipos:
  *  Descriptive Analytics
  *  Predictive Analytics
  *  Prescriptive Analytics



*   **Data Analysis** se refiere a los actos individuales de analizar los datos. Implica limpiar y transformar los datos con el objetivo de descubrir informaci√≥n √∫til.



---
### **Big Data vs Data Analytics**

---



*   **Big Data**: Se centra en los desaf√≠os asociados con el manejo de datos "grandes" no tradicionales. El Big Data aborda problemas como la velocidad, variedad y volumen de los datos, buscando maneras de gestionar y obtener valor de conjuntos de datos masivos y a menudo desestructurados.

*   **Data Analytics**: Se enfoca en obtener informaci√≥n significativa de los datos, independientemente del tama√±o de estos. Utiliza t√©cnicas estad√≠sticas, algoritmos y herramientas anal√≠ticas para interpretar, descubrir patrones y extraer conocimientos √∫tiles de los datos, ya sean grandes o peque√±os.



En lo sucesivo, se replicar√°n y explicar√°n los ejemplos expuestos por la autora Enache, se har√°n las observaciones que se consideren pertinentes y si fuese el caso, se aportar√°n mejoras al c√≥digo.

---
<a id="3"></a>

## ‚öôÔ∏è **Settings**

---

In [None]:
# import pandas package
import pandas as pd

üë©‚Äçüíª **La Autora Enache**



```
# C√≥digo Original de la Autora

# import pandas package
import pandas as pd

# Define a dictionary containing data
data = {'Nume':['Ion', 'Silviu', 'Maria', 'Vasile', 'Marin', 'Petru'],
 'Sex':[ 'M', 'M', 'F', 'M', 'M', 'M'],
 Management':['False', 'True', 'False','False', 'True', 'False']
 Echipa':['Mk','Finante,'Mk', 'Productie','Resurse Umane','Juridic']}

# create DataFrame
df = pd.DataFrame(data)

# select two columns
print(df[['Nume', 'Sex']])



```



En este fragmento, se importa el paquete Pandas, se define un diccionario con datos y se crea un DataFrame a partir de este diccionario. Luego, se seleccionan y muestran dos columnas del DataFrame, '**`Nume`**' (Nombres) y '**`Sex`**' (Sexo).


‚ö†Ô∏è **Warning!**

Hay un error de sintaxis en la definici√≥n del diccionario data, falta una coma entre los valores de '**`Management`**' y '**`Echipa`**'. Adem√°s, '**`Finante`**' en la lista de '**`Echipa`**' deber√≠a estar entre comillas para ser consistente.

In [None]:
# C√≥digo Corregido

# Define a dictionary containing data
data = {'Nume':['Ion', 'Silviu', 'Maria', 'Vasile', 'Marin', 'Petru'],
 'Sex':[ 'M', 'M', 'F', 'M', 'M', 'M'],
 'Management':['False', 'True', 'False','False', 'True', 'False'],
 'Echipa':['Mk','Finante','Mk', 'Productie','Resurse Umane','Juridic']}


# create DataFrame
df = pd.DataFrame(data)

# Backup del Original
original = df.copy()

# select two columns
print(df[['Nume', 'Sex']])


     Nume Sex
0     Ion   M
1  Silviu   M
2   Maria   F
3  Vasile   M
4   Marin   M
5   Petru   M


---
<a id="4"></a>

## **Comparaci√≥n de Datos**

---

üë©‚Äçüíª **La Autora Enache**

El primer ejemplo proporcionado por la autora, tiene que ver con la ***Comparaci√≥n de Datos*** usando Pandas.

Se crea una serie booleana mediante la comparaci√≥n de cada elemento en la columna '**`Sex`**' con el valor "**`M`**". Esta serie booleana se a√±ade como una nueva columna al DataFrame.



```
# C√≥digo Original de la Autora

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("angajat.csv")

# storing boolean series in new
new = data["Sex"] == "M"

# inserting new series in data frame
data["New"]= new

# display
data


```



‚ö†Ô∏è **Warning!**

El dataset citado por la autora, **`angajat.csv`**, no est√° disponible. Por lo que, se asume que se utilizar√° el DataFrame (**`df`**) definido anteriormente.

In [None]:
# C√≥digo Corregido

# Se est√° suponiendo que data = df

# storing boolean series in new
new = data["Sex"] == "M"

# inserting new series in data frame
data["New"]= new

# display
data

{'Nume': ['Ion', 'Silviu', 'Maria', 'Vasile', 'Marin', 'Petru'],
 'Sex': ['M', 'M', 'F', 'M', 'M', 'M'],
 'Management': ['False', 'True', 'False', 'False', 'True', 'False'],
 'Echipa': ['Mk', 'Finante', 'Mk', 'Productie', 'Resurse Umane', 'Juridic'],
 'New': False}

**Comentarios Propios**

*  El concepto de ***comparar valores y almacenar el resultado*** en una nueva columna es una pr√°ctica com√∫n en el an√°lisis de datos.

*  Sin embargo, el c√≥digo podr√≠a mejorarse en t√©rminos de eficiencia y claridad. Por ejemplo, en lugar de almacenar el resultado en una nueva columna, se podr√≠a utilizar directamente dicha ***columna para filtrar*** el DataFrame si ese fuera el objetivo final.

*  Adem√°s, ser√≠a √∫til incluir un ***manejo de errores*** en caso de que el archivo CSV no exista o tenga un formato incorrecto.

---
<a id="5"></a>

## **Selecci√≥n de Datos**

---

üë©‚Äçüíª **La Autora Enache**

El siguiente Ejemplo de la autora, pretende demostrar c√≥mo ***seleccionar datos*** de un DataFrame en Pandas bas√°ndose en una condici√≥n espec√≠fica.  

El c√≥digo crea una serie booleana (new) donde cada valor es True si el valor correspondiente en la columna '**`Sex`**' del DataFrame data no es "**`Female`**".

Esta serie booleana se a√±ade como una nueva columna '**`New`**' al DataFrame.

Finalmente, se muestran solamente aquellas filas del DataFrame donde la condici√≥n de la columna '**`New`**' es **`True`**, es decir, donde '**`Sex`**' no es "**`Female`**".







```
# C√≥digo Original de la Autora

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("angajat.csv")
storing boolean series in new
new = data["Sex"] != "Female"

# inserting new series in data frame
data["New"]= new

# display
data[new]


```



‚ö†Ô∏è **Warning!**

*  El dataset citado por la autora, **`angajat.csv`**, no est√° disponible. Por lo que, se asume que se utilizar√° el DataFrame (**`df`**) definido anteriormente.

*  Adicionalmente, hay un error en la l√≠nea que deber√≠a ser un comentario: `#storing boolean series in new`

In [None]:
# C√≥digo Corregido

# Se est√° suponiendo que data = df

data = df

#storing boolean series in new
new = data["Sex"] != "Female"

# inserting new series in data frame
data["New"]= new

# display
data[new]

Unnamed: 0,Nume,Sex,Management,Echipa,New
0,Ion,M,False,Mk,True
1,Silviu,M,True,Finante,True
2,Maria,F,False,Mk,True
3,Vasile,M,False,Productie,True
4,Marin,M,True,Resurse Umane,True
5,Petru,M,False,Juridic,True


**Comentarios Propios**



*   La creaci√≥n de una nueva columna '**`New`**' podr√≠a no ser necesaria si el √∫nico prop√≥sito es filtrar el DataFrame. Se puede filtrar directamente usando la ***serie booleana***, lo cual es m√°s eficiente y claro.

*   La comparaci√≥n se hace con el string "**`Female`**", pero en el DataFrame original, los valores de '**`Sex`**' son "**`M`**" y "**`F`**". Esta inconsistencia har√° que el c√≥digo no funcione correctamente.





In [None]:
# Mejoras

# Crear serie booleana para filtrar por 'M'
new = df["Sex"] == "M"

# Mostrar filas donde 'Sex' es 'M'
print(df[new])


     Nume Sex Management         Echipa   New
0     Ion   M      False             Mk  True
1  Silviu   M       True        Finante  True
3  Vasile   M      False      Productie  True
4   Marin   M       True  Resurse Umane  True
5   Petru   M      False        Juridic  True


---
<a id="6"></a>

## **Filtrado de Datos con Condici√≥n Simple**

---

üë©‚Äçüíª **La Autora Enache**

El tercer ejemplo de la autora, ilustra c√≥mo ***filtrar*** un DataFrame en Pandas utilizando una ***√∫nica condici√≥n*** y el m√©todo **`query()`**.

El c√≥digo realiza los siguientes pasos:


1.   Reemplaza los espacios en blanco en los nombres de las columnas con guiones bajos (`'_'`).

2.   Utiliza el m√©todo **`query()`** para filtrar las filas del DataFrame donde la columna '**`Management`**' es igual a **`True`**.

3. Muestra el DataFrame filtrado.









```
# C√≥digo Original de la Autora

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("angajat.csv")

# replacing blank spaces with '_'
data.columns =[column.replace(" ", "_") for column in data.columns]

# filtering with query method
data.query('Management == True', inplace = True)

# display
data



```



‚ö†Ô∏è **Warning!**

*  El dataset citado por la autora, **`angajat.csv`**, no est√° disponible. Por lo que, se asume que se utilizar√° el DataFrame (**`df`**) definido anteriormente.

*  Adicionalmente, el c√≥digo original de la autora est√° considerando "**`True`**" como booleano, pero debe ser string.

In [None]:
# C√≥digo Corregido

# Se est√° suponiendo que data = df

data = df

# replacing blank spaces with '_'
data.columns =[column.replace(" ", "_") for column in data.columns]

# filtering with query method
data.query('Management == "True"', inplace = True)

# display
data

Unnamed: 0,Nume,Sex,Management,Echipa,New
1,Silviu,M,True,Finante,True
4,Marin,M,True,Resurse Umane,True


**Comentarios Propios**



*   En el DataFrame original **`df`**, los nombres de las columnas no contienen espacios, por lo que este paso es innecesario.

*   En el DataFrame original, los valores de la columna '**`Management`**' son strings ('**`True`**' o '**`False`**'), no booleanos. Por lo tanto, la consulta debe ajustarse para coincidir con estos valores.

In [None]:
# Mejoras

df = original

# replacing blank spaces with '_'
df.columns =[column.replace(" ", "_") for column in df.columns]

# Ajustar la consulta para que coincida con los valores de tipo string
filtered_df = df.query('Management == "True"')

# Mostrar el DataFrame filtrado
print(filtered_df)


     Nume Sex Management         Echipa
1  Silviu   M       True        Finante
4   Marin   M       True  Resurse Umane


---
<a id="7"></a>

## **Filtrado de Datos con Condiciones M√∫ltiples**

---

üë©‚Äçüíª **La Autora Enache**

Este ejemplo muestra c√≥mo aplicar un ***filtro basado en m√∫ltiples condiciones*** en un DataFrame usando el m√©todo **`query()`**.

El proceso es el siguiente:



1.   Se reemplazan los espacios en blanco en los nombres de las columnas por guiones bajos (`'_'`).

2.   Se filtra el DataFrame usando m√∫ltiples condiciones: '**`Management`**' igual a **`True`**, '**`Sex`**' igual a "**`M`**", '**`Echipa`**' igual a "**`Marketing`**", y '**`Nume`**' igual a "**`Ion`**".

3. Se muestra el DataFrame filtrado.





```
# C√≥digo Original de la Autora

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("angajat.csv")

# replacing blank spaces with '_'
data.columns =[column.replace(" ", "_") for column in data.columns]

# filtering with query method
data.query('Management == True
and Sex =="M" and Echipa=="Marketing"
and Nume =="Ion"', inplace = True)

# display
data


```



‚ö†Ô∏è **Warning!**

*  El dataset citado por la autora, **`angajat.csv`**, no est√° disponible. Por lo que, se asume que se utilizar√° el DataFrame (**`df`**) definido anteriormente.

*  El c√≥digo original de la autora est√° considerando "**`True`**" para "**`Management`**" como booleano, pero debe ser string.

*  Adicionalmente, para poder encontrar coincidencias en la Query, es necesario modificar "**`Marketing`**" por "**`Mk`**" y consultar "**`Management`**" cuando sea "**`False`**".

In [None]:
# C√≥digo Corregido

# Se est√° suponiendo que dataset es el "original"

data2 = original

# replacing blank spaces with '_'
data2.columns =[column.replace(" ", "_") for column in data2.columns]

# filtering with query method
data2.query('Management == "False" and Sex =="M" and Echipa=="Mk" and Nume =="Ion"', inplace = True)

# display
data2

Unnamed: 0,Nume,Sex,Management,Echipa
0,Ion,M,False,Mk


**Comentarios Propios**

*   En el DataFrame **`df`**, los nombres de las columnas no contienen espacios, por lo que este paso es innecesario.

*   En el DataFrame original, los valores de la columna '**`Management`**' son strings ('**`True`**' o '**`False`**'), no booleanos. Por lo tanto, la consulta debe ajustarse para coincidir con estos valores.

*  Es recomendable evitar el uso de **`inplace=True`** para mantener el DataFrame original intacto y trabajar con una copia del DataFrame filtrado.

In [None]:
# Mejoras

df = original

# Ajustar la consulta con las condiciones correctas
filtered_df2 = df.query('Management == "False" and Sex == "M" and Echipa == "Mk" and Nume == "Ion"')

# Mostrar el DataFrame filtrado
print(filtered_df2)


  Nume Sex Management Echipa
0  Ion   M      False     Mk


---
<a id="8"></a>

## üìú **Conclusiones**

---

Los ejemplos presentados en el paper "***Data Analysis with Pandas***" de Maria Cristina Enache ofrecen una visi√≥n valiosa sobre las capacidades fundamentales de **Pandas** en el an√°lisis de datos.

A trav√©s de estos ejemplos, se demuestra c√≥mo realizar tareas esenciales como la selecci√≥n y filtrado de datos en un DataFrame, tanto en condiciones simples como m√∫ltiples. Sin embargo, los ejemplos tambi√©n revelaron ciertas ***√°reas de mejora*** en t√©rminos de precisi√≥n, eficiencia y pr√°cticas recomendadas en la manipulaci√≥n de datos con Pandas.



Las correcciones y mejoras propuestas enfatizan la importancia de la consistencia de datos y la claridad en el c√≥digo. Por ejemplo, ***ajustar las consultas*** para que coincidan con los tipos de datos reales en el DataFrame y evitar la creaci√≥n innecesaria de columnas adicionales son pr√°cticas que mejoran la eficiencia y la legibilidad del c√≥digo.

Adem√°s, se destac√≥ la conveniencia de ***evitar modificar el DataFrame original***, una pr√°ctica recomendada en el an√°lisis de datos para preservar la integridad de los datos originales. Estas mejoras no s√≥lo reflejan un uso m√°s eficiente de Pandas, sino que tambi√©n facilitan la mantenibilidad y comprensi√≥n del c√≥digo, aspectos cruciales en cualquier proyecto de an√°lisis de datos.

---
<a id="9"></a>

## üìö **Bibliograf√≠a**

---



* Chen, D. Y. (2022). **Pandas for Everyone: Python Data Analysis** (2nd ed.). Addison-Wesley Professional.


*   Enache, Maria Cristina (2019). [Data Analysis with Pandas](https://web.archive.org/web/20191211022945id_/http://www.eia.feaa.ugal.ro/images/eia/2019_2/Enache1.pdf). *Journal of Data Analysis*.


*  McKinney, W. (2017). **Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython** (2nd ed.). O'Reilly Media.




*  Petrou, T. (2017). **Pandas Cookbook: Recipes for Scientific Computing, Time Series Analysis and Data Visualization using Python**. Packt Publishing





*  VanderPlas, J. (2016). **Python Data Science Handbook: Essential Tools for Working with Data**. O'Reilly Media.

