<p align="center">
<img src="https://numpy.org/images/logo.svg" width="80" height="">
</p>


https://numpy.org

 # **<font color="RoyalBlue">An√°lisis de datos con Numpy</font>**

<p align="justify">
üîé El an√°lisis de datos con <code>NumPy</code> implica el extraer informaci√≥n valiosa de los conjuntos de datos. <code>NumPy</code> proporciona herramientas eficientes para manipular y analizar grandes cantidades de datos num√©ricos, lo que lo hace facilita el an√°lisis de datos.
<br><br>
Con <code>NumPy</code>, se pueden realizar operaciones matem√°ticas y estad√≠sticas avanzadas, como c√°lculos de promedios, desviaciones est√°ndar, correlaciones y an√°lisis de tendencias, que son fundamentales para comprender  rendimientos y tendencias del mercado. Adem√°s, <code>NumPy</code> permite la manipulaci√≥n de arrays multidimensionales, lo que facilita la visualizaci√≥n y el procesamiento de datos complejos, como datos de ventas, finanzas, inventario y comportamiento del cliente.

<p align="justify"> üëÄ Por convenci√≥n, de esta manera se importa <code>Numpy</code>:  </p>

In [None]:
import numpy as np

 # **<font color="RoyalBlue">Carga de datos en NumPy</font>**

<p align="justify">
La carga de datos es el primer paso en cualquier an√°lisis de datos. NumPy proporciona varias funciones para cargar datos desde diferentes fuentes, como archivos CSV, TSV, TXT u otros formatos.
<br><br>
Estas son algunas de las formas comunes de cargar datos en NumPy:

 ## **<font color="RoyalBlue">Carga de datos desde archivos CSV</font>**

<p align="justify">
‚úÖ La funci√≥n <code>numpy.loadtxt()</code> se utiliza para cargar datos desde archivos CSV.
<br><br>
Por ejemplo, supongamos que tenemos un archivo llamado "DatosNumpy2.csv" con datos separados por comas:

```
 450.  343.  1200.  7876.  2887.
3837.  220.  3746.   897.  3487.
 987.  483.  9874.  6473.  8662.
5837.  614.  6846.  5239.  5958.
```

üëÄPodemos cargar estos datos en un array NumPy de la siguiente manera:



In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/"
archivo = "DatosNumPy2.csv"

In [None]:
data = np.loadtxt(url+archivo, delimiter=";")
data

array([[ 450.,  343., 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897., 3487.],
       [ 987.,  483., 9874., 6473., 8662.],
       [5837.,  614., 6846., 5239., 5958.]])

<p align="justify">
‚úÖ Se crea un array NumPy bidimensional donde cada fila representa una observaci√≥n y cada columna representa una variable.

 ## **<font color="RoyalBlue">Carga de datos desde archivos TSV o TXT</font>**

<p align="justify">
‚úÖ La funci√≥n <code>numpy.loadtxt()</code> tambi√©n se puede utilizar para cargar datos desde archivos de texto con diferentes delimitadores.
<br><br>
Por ejemplo, si tenemos un archivo llamado "DatosNumPy.tsv" con datos separados por tabulaciones:

```
 450.  343.  1200.  7876.  2887.
3837.  220.  3746.   897.  3487.
 987.  483.  9874.  6473.  8662.
5837.  614.  6846.  5239.  5958.
```

üëÄ Podemos cargar los datos de la misma manera que con un archivo CSV:


In [None]:
url_tsv = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/"
archivo_tsv = "DatosNumPy.tsv"

In [None]:
data = np.loadtxt(url_tsv+archivo_tsv)
data

array([[ 450.,  343., 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897., 3487.],
       [ 987.,  483., 9874., 6473., 8662.],
       [5837.,  614., 6846., 5239., 5958.]])

 ## **<font color="RoyalBlue">Manejo de datos faltantes</font>**

<p align="justify">
En algunos casos, los datos pueden tener valores faltantes representados por un valor especial, como "nan" (Not a Number) o "-999". NumPy proporciona opciones para manejar estos valores faltantes durante la carga de datos.
<br>

```
 450.        1200.  7876.  2887.
3837.  220.  3746.   897.  
 987.               6473.  8662.
       614.  6846.  5239.  5958.
```



üëÄ Por ejemplo, podemos especificar un valor de relleno utilizando el par√°metro <code>filling_values</code>:

```python
data_with_missing = np.genfromtxt(url+archivo, delimiter=';', filling_values=-999)
```

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/"
archivo = "DatosFaltantesNumPy.csv"

In [None]:
data_with_missing = np.genfromtxt(url+archivo, delimiter=';', filling_values=-999)
data_with_missing

array([[ 450., -999., 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897., -999.],
       [ 987., -999., -999., 6473., 8662.],
       [-999.,  614., 6846., 5239., 5958.]])

In [None]:
data_with_missing = np.genfromtxt(url+archivo, delimiter=';', filling_values=np.nan)
data_with_missing

array([[ 450.,   nan, 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897.,   nan],
       [ 987.,   nan,   nan, 6473., 8662.],
       [  nan,  614., 6846., 5239., 5958.]])

In [None]:
data_with_missing = np.genfromtxt(url+archivo, delimiter=';', filling_values="NaN")
data_with_missing

array([[ 450.,   nan, 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897.,   nan],
       [ 987.,   nan,   nan, 6473., 8662.],
       [  nan,  614., 6846., 5239., 5958.]])

In [None]:
data_with_missing = np.genfromtxt(url+archivo, delimiter=';', filling_values=None)
data_with_missing

array([[ 450.,   nan, 1200., 7876., 2887.],
       [3837.,  220., 3746.,  897.,   nan],
       [ 987.,   nan,   nan, 6473., 8662.],
       [  nan,  614., 6846., 5239., 5958.]])

 # **<font color="RoyalBlue">Filtrado y selecci√≥n de datos</font>**

<p align="justify">
üëÄ Una vez que hemos cargado nuestros datos en arrays NumPy, a menudo necesitamos filtrar y seleccionar subconjuntos de datos basados en ciertas condiciones. NumPy proporciona varias formas de realizar esta tarea de manera eficiente.
<br><br>
A continuaci√≥n, se presentan algunos ejemplos de filtrado y selecci√≥n de datos:



 ## **<font color="RoyalBlue">Filtrado con expresiones booleanas</font>**

<p align="justify">
‚úÖ Podemos utilizar expresiones booleanas para filtrar elementos de un array NumPy basados en ciertas condiciones. Por ejemplo, supongamos que tenemos un array de datos de cantidades de unidades de botellas estibadas en una bodega y queremos filtrar las distintas producciones que est√©n estibadas por encima de 30 d√≠as:
<br><br>
üç∑ Este c√≥digo muestra los productos estibados en una bodega que est√°n por encima de 30 d√≠as de estiba.



In [None]:
dias_estiba_productos = np.array([25, 31, 28, 35, 29, 33, 27])
dias_estiba_productos

array([25, 31, 28, 35, 29, 33, 27])

In [None]:
mas_30_dias = dias_estiba_productos[dias_estiba_productos > 30]
mas_30_dias

array([31, 35, 33])

 ## **<font color="RoyalBlue">Filtrado con la funci√≥n numpy.where()</font>**

<p align="justify">
‚úÖ La funci√≥n <code>numpy.where()</code> se puede utilizar para realizar filtrados m√°s complejos. Por ejemplo, supongamos que queremos clasificar las diferentes cantidades de estibas en tres categor√≠as:
<br><br>

- "joven" para cantidad de meses por debajo de 4,
- "crianza" para meses entre 4 y 36 meses, y
- "reserva" para meses por encima de 36.

<p align="justify">
<br>
üç∑ Este c√≥digo clasificar√° en las categor√≠as correspondientes.



In [None]:
meses_estiba_productos = np.array([2, 3, 5, 14, 2, 37, 54, 33, 22, 18, 4, 54])
meses_estiba_productos

array([ 2,  3,  5, 14,  2, 37, 54, 33, 22, 18,  4, 54])

In [None]:
categorias = np.where(meses_estiba_productos <= 4, 'joven', np.where(meses_estiba_productos <= 36, 'crianza', 'reserva'))

In [None]:
categorias

array(['joven', 'joven', 'crianza', 'crianza', 'joven', 'reserva',
       'reserva', 'crianza', 'crianza', 'crianza', 'joven', 'reserva'],
      dtype='<U7')

 ## **<font color="RoyalBlue">Selecci√≥n de datos por √≠ndices</font>**

<p align="justify">
Tambi√©n podemos seleccionar subconjuntos de datos utilizando √≠ndices espec√≠ficos.
<br><br>
üëÄ Por ejemplo, supongamos que queremos seleccionar los primeros tres elementos del array

In [None]:
primeros_tres = categorias[:3]
primeros_tres

array(['joven', 'joven', 'crianza'], dtype='<U7')

üëÄ O queremos seleccionar los ultimos seis elementos del array

In [None]:
ultimos_seis = meses_estiba_productos[-6:]
ultimos_seis

array([54, 33, 22, 18,  4, 54])

 # **<font color="RoyalBlue">Transformaciones de datos</font>**

<p align="justify">
Las transformaciones de datos son esenciales en el an√°lisis de datos para preparar los datos de manera adecuada antes de realizar an√°lisis estad√≠sticos o entrenar modelos de aprendizaje autom√°tico.
<br><br>
A continuaci√≥n, se presentan algunas transformaciones comunes de datos orientadas a negocios, junto con ejemplos espec√≠ficos:

 ## **<font color="RoyalBlue">Normalizaci√≥n de datos</font>**

<p align="justify">
‚úÖ La normalizaci√≥n es √∫til en casos donde queremos comparar variables que est√°n en diferentes escalas. Por ejemplo, supongamos que tenemos datos de ventas y gastos mensuales en dos arrays separados y queremos comparar su rendimiento relativo:

```python
import numpy as np

# Datos de ventas mensuales en miles de d√≥lares
ventas = np.array([100, 120, 110, 130, 140])

# Datos de gastos mensuales en miles de d√≥lares
gastos = np.array([50, 60, 55, 65, 70])

# Normalizaci√≥n de datos
ventas_normalizadas = (ventas - np.min(ventas)) / (np.max(ventas) - np.min(ventas))
gastos_normalizados = (gastos - np.min(gastos)) / (np.max(gastos) - np.min(gastos))

print("Ventas normalizadas:", ventas_normalizadas)
print("Gastos normalizados:", gastos_normalizados)
```



In [None]:
# Datos de ventas mensuales en miles de d√≥lares
ventas = np.array([100, 120, 110, 130, 140])
ventas

array([100, 120, 110, 130, 140])

In [None]:
# Datos de gastos mensuales en miles de d√≥lares
gastos = np.array([50, 60, 55, 65, 70])
gastos

array([50, 60, 55, 65, 70])

In [None]:
# Normalizaci√≥n de datos
ventas_normalizadas = (ventas - np.min(ventas)) / (np.max(ventas) - np.min(ventas))
gastos_normalizados = (gastos - np.min(gastos)) / (np.max(gastos) - np.min(gastos))

In [None]:
ventas_normalizadas

array([0.  , 0.5 , 0.25, 0.75, 1.  ])

In [None]:
gastos_normalizados

array([0.  , 0.5 , 0.25, 0.75, 1.  ])

 ## **<font color="RoyalBlue">Estandarizaci√≥n de datos</font>**

<p align="justify">
‚úÖ La estandarizaci√≥n es √∫til cuando queremos comparar variables que tienen diferentes distribuciones. Por ejemplo, supongamos que tenemos datos de puntajes de satisfacci√≥n del cliente en una escala del 1 al 10 y queremos estandarizarlos para compararlos con otros indicadores:

```python
# Datos de puntajes de satisfacci√≥n del cliente
satisfaccion_cliente = np.array([7, 8, 6, 9, 7])

# Estandarizaci√≥n de datos
satisfaccion_estandarizada = (satisfaccion_cliente - np.mean(satisfaccion_cliente)) / np.std(satisfaccion_cliente)

print("Satisfacci√≥n del cliente estandarizada:", satisfaccion_estandarizada)
```



In [None]:
# Datos de puntajes de satisfacci√≥n del cliente
satisfaccion_cliente = np.array([7, 8, 6, 9, 7])
satisfaccion_cliente

array([7, 8, 6, 9, 7])

In [None]:
# Estandarizaci√≥n de datos
satisfaccion_estandarizada = (satisfaccion_cliente - np.mean(satisfaccion_cliente)) / np.std(satisfaccion_cliente)
satisfaccion_estandarizada

array([-0.39223227,  0.58834841, -1.37281295,  1.56892908, -0.39223227])

 ## **<font color="RoyalBlue">Discretizaci√≥n de datos</font>**

<p align="justify">
‚úÖ La discretizaci√≥n es √∫til cuando queremos agrupar datos continuos en categor√≠as discretas. Por ejemplo, supongamos que tenemos datos de ingresos anuales y queremos discretizarlos en categor√≠as de ingresos:

```python
# Datos de ingresos anuales en miles de d√≥lares
ingresos = np.array([250, 300, 200, 350, 400])

# Discretizaci√≥n de datos
categorias_ingresos = np.digitize(ingresos, bins=[0, 200, 300, np.inf], right=True)
categorias_label = ['Bajo', 'Medio', 'Alto']

ingresos_categorizados = [categorias_label[i-1] for i in categorias_ingresos]

print("Ingresos categorizados:", ingresos_categorizados)
```


In [None]:
# Datos de ingresos anuales en miles de d√≥lares
ingresos = np.array([250, 300, 200, 350, 400])
ingresos

array([250, 300, 200, 350, 400])

In [None]:
# Discretizaci√≥n de datos
categorias_ingresos = np.digitize(ingresos, bins=[0, 200, 300, np.inf], right=True)
categorias_label = ['Bajo', 'Medio', 'Alto']

In [None]:
ingresos_categorizados = [categorias_label[i-1] for i in categorias_ingresos]
ingresos_categorizados

['Medio', 'Medio', 'Bajo', 'Alto', 'Alto']

 # **<font color="RoyalBlue">Ejercicios pr√°cticos</font>**

<p align="justify">
‚úÖ A continuaci√≥n, se presentan algunos ejercicios pr√°cticos para aplicar los conceptos de este colab:
<br><br>


üè∑ **a. Ejercicio 1: Normalizaci√≥n de Datos de Ventas y Gastos:**
   - Supongamos que tenemos datos de ventas mensuales en miles de d√≥lares y datos de gastos mensuales en miles de d√≥lares para una empresa. Normaliza ambos conjuntos de datos y calcula el margen de beneficio (ventas - gastos) para cada mes.

```python
# Datos de ventas mensuales en miles de d√≥lares
ventas = np.array([100, 120, 110, 130, 140])

# Datos de gastos mensuales en miles de d√≥lares
gastos = np.array([50, 60, 55, 65, 70])
```

üè∑ **b. Ejercicio 2: Estandarizaci√≥n de Datos de Satisfacci√≥n del Cliente:**
   - Supongamos que tenemos datos de puntajes de satisfacci√≥n del cliente en una escala del 1 al 10 para una empresa. Estandariza estos datos y calcula el promedio de satisfacci√≥n del cliente.

```python
# Datos de puntajes de satisfacci√≥n del cliente
satisfaccion_cliente = np.array([7, 8, 6, 9, 7])
```

üè∑ **c. Ejercicio 3: Discretizaci√≥n de Datos de Ingresos Anuales:**
   - Supongamos que tenemos datos de ingresos anuales en miles de d√≥lares para una empresa. Discretiza estos datos en tres categor√≠as: "bajo", "medio" y "alto" ingresos.

```python
# Datos de ingresos anuales en miles de d√≥lares
ingresos = np.array([250, 300, 200, 350, 400])

```



<p align="justify">
<br>
‚úÖ A continuaci√≥n, las soluciones sugeridas:
<br><br>


üè∑ **a. Ejercicio 1: Normalizaci√≥n de Datos de Ventas y Gastos:**
   - Supongamos que tenemos datos de ventas mensuales en miles de d√≥lares y datos de gastos mensuales en miles de d√≥lares para una empresa. Normaliza ambos conjuntos de datos y calcula el margen de beneficio (ventas - gastos) para cada mes.

```python
# Datos de ventas mensuales en miles de d√≥lares
ventas = np.array([100, 120, 110, 130, 140])

# Datos de gastos mensuales en miles de d√≥lares
gastos = np.array([50, 60, 55, 65, 70])

# Normalizaci√≥n de datos
ventas_normalizadas = (ventas - np.min(ventas)) / (np.max(ventas) - np.min(ventas))
gastos_normalizados = (gastos - np.min(gastos)) / (np.max(gastos) - np.min(gastos))

# C√°lculo del margen de beneficio
margen_beneficio = ventas_normalizadas - gastos_normalizadas

print("Margen de beneficio:", margen_beneficio)
```

üè∑ **b. Ejercicio 2: Estandarizaci√≥n de Datos de Satisfacci√≥n del Cliente:**
   - Supongamos que tenemos datos de puntajes de satisfacci√≥n del cliente en una escala del 1 al 10 para una empresa. Estandariza estos datos y calcula el promedio de satisfacci√≥n del cliente.

```python
# Datos de puntajes de satisfacci√≥n del cliente
satisfaccion_cliente = np.array([7, 8, 6, 9, 7])

# Estandarizaci√≥n de datos
satisfaccion_estandarizada = (satisfaccion_cliente - np.mean(satisfaccion_cliente)) / np.std(satisfaccion_cliente)

# C√°lculo del promedio de satisfacci√≥n del cliente
promedio_satisfaccion = np.mean(satisfaccion_estandarizada)

print("Promedio de satisfacci√≥n del cliente:", promedio_satisfaccion)
```

üè∑ **c. Ejercicio 3: Discretizaci√≥n de Datos de Ingresos Anuales:**
   - Supongamos que tenemos datos de ingresos anuales en miles de d√≥lares para una empresa. Discretiza estos datos en tres categor√≠as: "bajo", "medio" y "alto" ingresos.

```python
# Datos de ingresos anuales en miles de d√≥lares
ingresos = np.array([250, 300, 200, 350, 400])

# Discretizaci√≥n de datos
categorias_ingresos = np.digitize(ingresos, bins=[0, 200, 300, np.inf], right=True)
categorias_label = ['Bajo', 'Medio', 'Alto']

ingresos_categorizados = [categorias_label[i-1] for i in categorias_ingresos]

print("Ingresos categorizados:", ingresos_categorizados)
```

<br>
<br>
<p align="center"><b>
üíó
<font color="RoyalBlue">
Hemos llegado al final de nuestro colab, a seguir codeando en NumPy...
</font>
</p>
