# **Fase 02: Entendimeinto de los Datos**
La fase de Entendimiento de los Datos es la segunda etapa de la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) y juega un papel fundamental en el éxito de cualquier proyecto de minería de datos.

Esta fase se centra en la recopilación, exploración y comprensión de los datos disponibles para garantizar que sean adecuados para cumplir con los objetivos definidos en la fase anterior (Entendimiento del Negocio).



---



## **Libreria Pandas (Análisis datos)**
Pandas es una biblioteca de Python de código abierto que se utiliza principalmente para el análisis de datos y la manipulación de datos estructurados. La biblioteca proporciona estructuras de datos flexibles y de alto rendimiento diseñadas para facilitar la manipulación de datos y el análisis estadístico en Python.

* Las estructuras de datos principales en Pandas son los objetos Series y DataFrame. Un **Series** es un arreglo unidimensional etiquetado de datos, mientras que un **DataFrame** es una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes. Estos objetos permiten trabajar con datos estructurados y realizar operaciones como selección, filtrado, agrupamiento, fusión y pivote.

* Además, Pandas también proporciona funciones para leer y escribir datos desde y hacia varios formatos, incluyendo archivos CSV, Excel, SQL, JSON, HTML y más.

# **Instalación**

In [None]:
#Instalación de la libreria pandas en colab
# !pip install pandas

#Instalación de la libreria pandas en VSCode
# pip install pandas

#:::::::::::::::::::::::::::::::::::::::::::::::::

#Importación de la libreria pandas con alias de pd
import pandas as pd

#NOTA: No ejecutar los comandos al tiempo

# **Atributos**

Pandas tiene varios atributos útiles que proporcionan información sobre las estructuras de datos que estamos trabajando. Algunos de los atributos más comunes de Pandas son:

* **`shape`**: devuelve una tupla que representa la forma (número de filas y columnas) del DataFrame.
* **` index`**: devuelve la etiqueta de índice de las filas del DataFrame.
* **`columns`**: devuelve la etiqueta de las columnas del DataFrame.
* **`dtypes`**: devuelve los tipos de datos de las columnas del DataFrame.
* **`values`**: devuelve los valores del DataFrame como un ndarray.
* **`empty`**: devuelve True si el DataFrame está vacío, False en caso contrario.
* **`size`**: devuelve el número total de elementos en el DataFrame.
* **`ndim`**: devuelve la cantidad de dimensiones del DataFrame (1 para Series, 2 para DataFrame).

In [None]:
import pandas as pd

# Crear un DataFrame
datos = pd.DataFrame ({
   'Nombre': ['Juan', 'Ana', 'Pedro', 'Lucia'],
   'Edad': [25, 30, 28, 22],
   'estado': [True, False, True, True]
    })



# Imprimir la forma del DataFrame
print(datos.shape)

# # Imprimir las etiquetas de índice
print(datos.index)

# # Imprimir las etiquetas de columnas
print(datos.columns)

# # Imprimir los tipos de datos de las columnas
print(datos.dtypes)

# # Imprimir los valores del DataFrame
print(datos.values)

# # Imprimir si el DataFrame está vacío
print(datos.empty)

# # Imprimir el número total de elementos en el DataFrame
print(datos.size)

# # Imprimir la cantidad de dimensiones del DataFrame
print(datos.ndim)

# **Métodos**
Algunos de los métodos más comunes de Pandas son los siguientes:

* **`pd.read_csv()`**: lee un archivo CSV y lo convierte en un DataFrame de Pandas.
* **`df.head()`**: devuelve las primeras filas de un DataFrame.
* **`df.tail()`**: devuelve las últimas filas de un DataFrame.
* **`df.info()`**: muestra información sobre un DataFrame, incluyendo su tamaño y tipo de datos.
* **`df.describe()`**: proporciona estadísticas descriptivas para un DataFrame, como la media, la desviación estándar, el mínimo y el máximo.
* **`df.dropna()`**: elimina las filas que contienen valores nulos o faltantes de un DataFrame.
* **`df.fillna()`**: rellena los valores nulos o faltantes de un DataFrame con un valor especificado.
* **`df.groupby()`**: agrupa las filas de un DataFrame según los valores de una o más columnas y realiza operaciones agregadas en cada grupo.
* **`df.merge()`**: combina dos DataFrames en uno solo mediante una columna común.
* **`df.pivot_table()`**: crea una tabla dinámica a partir de un DataFrame.
* **`df.plot()`**: crea un gráfico a partir de los datos de un DataFrame.
* **`df.to_csv()`**: guarda un DataFrame como un archivo CSV.

# **Gestion de archivos**

In [None]:
# Importar la Libreria para el Analisis de Datos
import pandas as pd

# Archivos Planos

`import pandas as pd`

`dataframe = pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, dtype=None)`

**Parametros:**

* **`filepath_or_buffer`**: es la ruta del archivo CSV que se desea leer. Puede ser una ruta absoluta o relativa.
* **`sep:`** es el delimitador que se utiliza para separar los campos en el archivo CSV. Por defecto es ','.
* **`delimiter`**: también es un delimitador que se utiliza para separar los campos en el archivo CSV. Si se especifica, anula el valor de sep.
* **`header`**: indica la fila del archivo CSV que se utilizará como encabezado de la tabla. Por defecto es 'infer', lo que significa que Pandas utiliza la primera fila del archivo CSV como encabezado.
* **`names`**: es una lista de nombres que se utilizarán como encabezados de la tabla. Si se especifica, anula el valor de header.
* **`index_col`**: indica la columna que se utilizará como índice de la tabla. Por defecto es None, lo que significa que no se utiliza ninguna columna como índice.
* **`usecols`**: es una lista de nombres de columnas o índices de columnas que se desean leer del archivo CSV.

In [None]:
# Gestion de archivos planos
datasetCSV = pd.read_csv('ejemploCalificacionesCSV.csv', sep=',', header=0,
                         index_col=0)

datasetCSV.head()

# Archivos de Excel
`import pandas as pd`
`data = pd.read_excel('ruta/archivo.xlsx', sheet_name='nombre_hoja', header=0, index_col=0)`

Parametros: **texto en negrita**
* **`'ruta/archivo.xlsx'`**: es la ruta y nombre del archivo Excel que se desea leer.
* **`'nombre_hoja'`**: es el nombre de la hoja dentro del archivo que se desea leer. Si no se especifica este argumento, se leerá la primera hoja por defecto.
* **`header=0`**: indica que la primera fila del archivo contiene los nombres de las columnas.
* **`index_col=0`**: indica que la primera columna del archivo contiene los índices de las filas.


In [None]:
# Gestion de archivos excel
datasetExcel = pd.read_excel('ejemploCalificacionesExcel.xlsx', sheet_name='Hoja1',
                             header=0, index_col=0)

datasetExcel.head()

# URLs de GitHub


In [None]:
# URL de archivo plano en cualquier host - Github
url = 'https://raw.githubusercontent.com/aperezn298/CienciaDatosSENA/refs/heads/main/03AnalisisDatos/04EntendimientoDatos/ejemploCalificacionesCSV.csv'

datasetURL = pd.read_csv(url, sep=',', header=0, index_col=0)

datasetURL.head()

# Base de Datos - Relacionales

In [None]:
import mysql.connector
from tabulate import tabulate

conexion = mysql.connector.connect(host='localhost',
                                   database='tienda',
                                   user='root',
                                   password='')
if conexion.is_connected():
    cursor = conexion.cursor()
    cursor.execute ("SELECT * FROM categorias")
    result = cursor.fetchall()
    print(tabulate(result, tablefmt="fancy_grid"))
conexion.close()

In [None]:
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
import pandas as pd
from modelos import Categoria

DATABASE_URL = "mysql+mysqlconnector://root:@localhost/tienda"
engine = create_engine(DATABASE_URL)

Session = sessionmaker(bind=engine)
session = Session()

categorias = session.query(Categoria).all()

df = pd.DataFrame([{
    "ID": c.id,
    "Nombre": c.nombre,
    "Descripción": c.descripcion
} for c in categorias])

print(df)

session.close()

# Base de Datos - No Relacionales

In [None]:
import pymongo

client = pymongo.MongoClient(
    'mongodb+srv://tienda:JjN3m7raTBF5QI45@clustermsc.kshrc2k.mongodb.net/')

db = client['tienda']
categorias_collection = db['categorias']

data = list(categorias_collection.find())
dataset = pd.json_normalize(data)
dataset

db.close()

# **Ejemplo Práctico**

In [None]:
# Gestion de archivos excel
datasetExcel = pd.read_excel('ejemploCalificacionesExcel.xlsx', sheet_name='Hoja1',
                             header=0, index_col=0)

datasetExcel.head()

In [None]:
# Devuelve las ultimas filas de un DataFrame.
datasetExcel.tail()

In [None]:
# Muestra información sobre un DataFrame, incluyendo su tamaño y tipo de datos.
datasetExcel.info()

In [None]:
# Proporciona estadísticas descriptivas para un DataFrame, como la media,
# la desviación estándar, el mínimo y el máximo.
datasetExcel.describe()

In [None]:
# Elimina las filas que contienen valores nulos o faltantes de un DataFrame.

datasetExcel.dropna(inplace=True)
datasetExcel.info()

In [None]:
# Rellena los valores nulos o faltantes de un DataFrame con un valor especificado.

datasetExcel.fillna(0, inplace=True)
datasetExcel.info()

---

# **Métodos de Agrupación**

**df.groupby()** es un método de pandas que se utiliza para agrupar filas de un DataFrame según los valores de una o varias columnas y realizar operaciones en cada grupo.

La sintaxis básica del método es la siguiente:
```
dataframe.groupby('columna_a_agrupar').metodo_agregado()
```

Donde `'columna_a_agrupar'` es el nombre de la columna que se va a utilizar para agrupar las filas del DataFrame y metodo_agregado() es un método de agregación que se va a aplicar sobre los grupos. Algunos de los métodos de agregación más comunes son **`sum()`, `count()`, `mean()`, `min()`, `max()`**.

In [None]:
# Copiar un dataset Nuevo
datasetgby = datasetExcel.copy()

* Agrupación del número de estudiantes por cada programa academico.

In [None]:
# PRIMERA OPCION
est_programa = datasetgby.groupby('Programa').count()
est_programa

In [None]:
# SEGUNDA OPCION
est_programa_uno = datasetgby.groupby('Programa').agg({'Programa': 'count'})
est_programa_uno

In [None]:
# TERCERA OPCION
est_programa_dos = datasetgby.groupby('Programa')
est_programa_dos.size()

* Agrupación del número de estudiantes por cada programa academico y genero.

In [None]:
# Cantidad de estudiantes por programa y genero
est_programa_genero = datasetgby.groupby(['Genero','Programa']).agg({'Programa': 'count'})
est_programa_genero

## **Tabla dinámica**

**pivot_table()** es un método de pandas que permite crear una tabla dinámica a partir de un DataFrame. Permite reorganizar y resumir los datos de un DataFrame de manera más conveniente.

La sintaxis básica es la siguiente:

```
df.pivot_table(
  values=None, # Columna(s) para aplicar la operación
  index=None, # Columna(s) a utilizar como índice (filas)
  columns=None, # Columna(s) a utilizar como columnas
  aggfunc='mean', # Función de agregación a aplicar a los valores
  fill_value=None, # Valor a reemplazar los valores faltantes
  margins=False, # Agregar totales en los bordes
  margins_name='All' # Nombre de los totales del borde
)
```

In [None]:
# Tablas de resumen o tablas dinamicas
tabla_dinamica = datasetgby.pivot_table(
    values=['Matematicas', 'Español', 'Ciencias', 'Idiomas'],
    index=['Programa', 'Genero'],
    aggfunc='count',
)

print(tabla_dinamica)

## **Graficas de Plot**

Pandas integra una capa de visualización basada en Matplotlib, lo que permite crear gráficos directamente desde un DataFrame o una Series con solo una línea de código.

### Tipos de graficos

| Tipo (`kind`) | Descripción                                        |
| ------------- | -------------------------------------------------- |
| `'line'`      | Línea (por defecto)                                |
| `'bar'`       | Barras verticales                                  |
| `'barh'`      | Barras horizontales                                |
| `'pie'`       | Gráfico de pastel (requiere `y` o `subplots=True`) |
| `'hist'`      | Histograma                                         |
| `'box'`       | Diagrama de caja                                   |
| `'scatter'`   | Dispersión (requiere `x` y `y`)                    |


### Elementos de un grafico

| **Función** | **Descripción**                                                                                                           | **Sintaxis básica**                                 |
| ----------- | ------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------- |
| `plot()`    | Genera el gráfico a partir de un `DataFrame` o `Series`. Permite definir el tipo de gráfico (`line`, `bar`, `pie`, etc.). | `df.plot(kind='bar', x='columna_x', y='columna_y')` |
| `title()`   | Asigna un título al gráfico.                                                                                              | `plt.title('Título del gráfico')`                   |
| `xlabel()`  | Etiqueta el eje **X** (horizontal).                                                                                       | `plt.xlabel('Etiqueta eje X')`                      |
| `ylabel()`  | Etiqueta el eje **Y** (vertical).                                                                                         | `plt.ylabel('Etiqueta eje Y')`                      |
| `show()`    | Muestra el gráfico en pantalla (necesario en scripts `.py`).                                                              | `plt.show()`                                        |


In [None]:
# Generar el método de agrupación
est_programa_gb = datasetgby.groupby('Programa')
est_programa_gb.size()

# Generar la grafica segun el método de agrupación
est_programa_gb.size().plot(kind='bar')

In [None]:
# Generar la grafica segun el método de agrupación
est_programa_gb.size().plot(kind='pie')

## **Acciones adicionales**

In [None]:
# Concatenar dos dataset como uno solo
datasetConcat = pd.concat([datasetExcel, datasetgby])
datasetConcat.head()

# datasetConcat.info()

In [None]:
# Unir los datos basados en la columna "Documento", especificando qué columnas incluir
datasetNuevo = pd.merge(datasetExcel, datasetgby, on='ITEM', how='inner')
datasetNuevo.head()

In [None]:
# Exportar el dataset procesado a un archivo

# Exportar como un archivo de Excel
datasetNuevo.to_excel('AnalisisDatos.xlsx', index=False)

# Exportar como un archivo de CSV
datasetNuevo.to_csv('AnalisisDatos.csv', index=False)

In [None]:
#Crear un reporte HTML del dataset para conocer valores nulos, repetidos, etc.
# !pip install -U ydata-profiling

from ydata_profiling import ProfileReport

In [None]:
# Generación del reporte estadistico
reporte = ProfileReport(datasetExcel, title="Perfil de datos")
reporte.to_file('reporte.html')