# **FUNDAMENTOS DE LA IA**




### **Herramientas para el análisis de datos: Parte I**
1. Numpy.
2. Pandas.





# **1) Numpy**

NumPy (Numerical Python) es una biblioteca fundamental en Python para computación numérica y científica. Proporciona un soporte eficiente para arreglos multidimensionales (arrays) y funciones matemáticas para operaciones en estos arreglos.

##**1.1. Instalación de NumPy**

Antes de usar NumPy, debes asegurarte de tenerlo instalado en tu entorno Python. Puedes instalarlo utilizando el siguiente comando en la terminal:

**pip install numpy**

In [88]:
# !pip install numpy

##**1.2. Creación de Arreglos NumPy**

Un arreglo NumPy es una estructura que contiene elementos del mismo tipo y se define utilizando la función numpy.array(). Puedes crear arreglos unidimensionales, bidimensionales y de mayor dimensión.

In [89]:
import numpy as np

In [90]:
# Crear un arreglo unidimensional
arr1D = np.array([1, 2, 3, 4, 5])
print(arr1D)

[1 2 3 4 5]


In [91]:
# Crear un arreglo bidimensional
arr2D = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2D)

[[1 2 3]
 [4 5 6]]


In [92]:
# Crear un arreglo de ceros de tamaño 3x3
arr_zeros = np.zeros((3, 3))
print(arr_zeros)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [93]:
# Crear un arreglo de unos de tamaño 2x4
arr_ones = np.ones((2, 5))
print(arr_ones)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [94]:
# Crear un arreglo con valores espaciados
arr_linspace = np.linspace(0, 10, 5)
print(arr_linspace)

[ 0.   2.5  5.   7.5 10. ]


##**1.3. Operaciones en Arreglos NumPy**

In [95]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)

[1 2 3 4 5]


In [96]:
# Operaciones matemáticas
arr_square = arr ** 2
arr_sqrt = np.sqrt(arr)
arr_sum = arr + 10

print(arr_square)
print(arr_sqrt)
print(arr_sum)

[ 1  4  9 16 25]
[1.         1.41421356 1.73205081 2.         2.23606798]
[11 12 13 14 15]


In [97]:
# Operaciones lógicas
arr_greater_than_3 = arr > 3
print(arr_greater_than_3)

[False False False  True  True]


##**1.4. Indexación y Rebanado (Slicing)**

In [98]:
arr = np.array([10, 20, 30, 40, 50])
# indices       0   1    2  3   4

In [99]:
# Acceder a un elemento por índice
elemento = arr[2]  # 30
print(elemento)

30


In [100]:
# Realizar rebanado
rebanado = arr[1:4]  # [20, 30, 40]
print(rebanado)

[20 30 40]


##**1.5. Funciones Estadísticas**

La media es una medida estadística que representa el valor central o típico de un conjunto de datos.



In [101]:
arr = np.array([10, 20, 30, 40, 50])

In [102]:
# Calcular la media
media = np.mean(arr)  # 30.0
print(media)

30.0


La desviación estándar es una medida de dispersión que indica cuánto se desvían los valores de un conjunto de datos respecto a la media.

In [103]:
# Calcular la desviación estándar
std_dev = np.std(arr)  # 14.1421356237
print(std_dev)

14.142135623730951


# **2) Pandas**

##**2.1. Instalación de Pandas**

Antes de usar Pandas, debes asegurarte de tenerlo instalado en tu entorno Python. Puedes instalarlo utilizando el siguiente comando en la terminal:

**pip install pandas**

In [104]:
# !pip install pandas

##**2.2. Estructuras de Datos en pandas**

Pandas ofrece dos estructuras de datos principales: Series y DataFrames.

* **Series**: Una serie es un objeto unidimensional similar a una columna en una hoja de cálculo. Contiene un conjunto de datos y un índice que etiqueta cada dato.

* **DataFrame**: Un DataFrame es una estructura bidimensional similar a una tabla en una base de datos. Consiste en una colección de series que comparten el mismo índice.

##**2.3. Creación de Series y DataFrames**

In [105]:
import pandas as pd

In [106]:
# Crear una Serie
serie = pd.Series([10, 20, 30, 40, 50], name="Valores")

print(serie)

0    10
1    20
2    30
3    40
4    50
Name: Valores, dtype: int64


In [107]:
# Crear un DataFrame
data = {
    "Nombre": ["Juan", "María", "Carlos"],
    "Edad": [25, 30, 28],
    "Calificacion": [10,9,6.5]
}

dataframe = pd.DataFrame(data)
print(dataframe)

   Nombre  Edad  Calificacion
0    Juan    25          10.0
1   María    30           9.0
2  Carlos    28           6.5


##**2.4. Lectura y Escritura de Datos**

Pandas permite leer y escribir datos desde/hacia varios formatos, como CSV, Excel, bases de datos, etc.

In [108]:
# Leer un archivo CSV y crear un DataFrame
dataframe = pd.read_csv("datos.csv")
print(dataframe)

      Nombre  Edad
0       Juan    25
1      María    30
2     Carlos    28
3      Luisa    22
4     Andrés    35
..       ...   ...
90     Carla    24
91  Santiago    31
92    Renata    27
93    Carlos    30
94  Gabriela    25

[95 rows x 2 columns]


In [109]:
# Escribir un DataFrame en un archivo CSV
dataframe.to_csv("copia.csv", index=False)

##**2.5. Manipulación de Datos**

In [110]:
# Filtrar filas basado en una condición
personas_mayores = dataframe[dataframe["Edad"] > 25]

print(personas_mayores)

       Nombre  Edad
1       María    30
2      Carlos    28
4      Andrés    35
5       Sofía    29
6      Miguel    26
..        ...   ...
88  Ana Sofía    26
89      David    29
91   Santiago    31
92     Renata    27
93     Carlos    30

[78 rows x 2 columns]


In [111]:
# Calcular la media de una columna
media_edad = dataframe["Edad"].mean()

print(media_edad)

28.33684210526316


In [112]:
# Agregar una nueva columna calculada
dataframe["Duplicado_Edad"] = dataframe["Edad"] * 2
print(dataframe)

      Nombre  Edad  Duplicado_Edad
0       Juan    25              50
1      María    30              60
2     Carlos    28              56
3      Luisa    22              44
4     Andrés    35              70
..       ...   ...             ...
90     Carla    24              48
91  Santiago    31              62
92    Renata    27              54
93    Carlos    30              60
94  Gabriela    25              50

[95 rows x 3 columns]


### 2.5.1. Usando .loc de Pandas
Nos permite seleccionar datos de un DataFrame o Series basándose en las etiquetas de los índices (filas) y columnas.

Su sintaxis sería la siguiente:
`dataframe.loc[fila, columna]`

Veamoslo con un ejemplito sencillito y con pokemones :D


In [113]:
import pandas as pd
data = {
    'Nombre': ['Pikachu', 'Charmander', 'Bulbasaur', 'Squirtle'],
    'Tipo': ['Eléctrico', 'Fuego', 'Planta', 'Agua'],
    'Poder': [55, 52, 49, 44],
    'HP': [35, 39, 45, 44]
}

# Crear el DataFrame con índices personalizados
df = pd.DataFrame(data, index=['p1', 'p2', 'p3', 'p4'])
print(df)
df.loc['p2'] # Seleccionando una fila por su etiqueta :o

        Nombre       Tipo  Poder  HP
p1     Pikachu  Eléctrico     55  35
p2  Charmander      Fuego     52  39
p3   Bulbasaur     Planta     49  45
p4    Squirtle       Agua     44  44


Nombre    Charmander
Tipo           Fuego
Poder             52
HP                39
Name: p2, dtype: object

In [114]:
df.loc[['p1', 'p3']]

Unnamed: 0,Nombre,Tipo,Poder,HP
p1,Pikachu,Eléctrico,55,35
p3,Bulbasaur,Planta,49,45


In [115]:
# Seleccionando el 'Poder' del Pokémon en la fila 'p3' (osease Bulbasaur :D)
df.loc['p3', 'Poder']

np.int64(49)

In [116]:
# Seleccionando el 'Nombre' y 'HP' para los Pokémon 'p1' y 'p4'
df.loc[['p1', 'p4'], ['Nombre', 'HP']]

Unnamed: 0,Nombre,HP
p1,Pikachu,35
p4,Squirtle,44


Resumiendo entonces, **.loc** selecciona por **etiquetas** de índice y columnas (no posiciones)

### **2.5.2. Usando .idxmax de Pandas**
Nos devuelve la **etiqueta** del índice de la fila o columna que contiene el valor máximo de un **Dataframa** o **Series**, entonces nos sirve para encontrar la **posición del valor más alto** en lugar del valor en sí.

Veamoslo aplicado siguiendo con nuestros datos de pokémones:

In [117]:
print(df)
indice_max_poder = df['Poder'].idxmax()
print(f"\nLa etiqueta del pokemon con el poder maximo: {indice_max_poder}")

        Nombre       Tipo  Poder  HP
p1     Pikachu  Eléctrico     55  35
p2  Charmander      Fuego     52  39
p3   Bulbasaur     Planta     49  45
p4    Squirtle       Agua     44  44

La etiqueta del pokemon con el poder maximo: p1


In [118]:
indice_max_hp = df['HP'].idxmax()
print(indice_max_hp)

p3


In [119]:
indices_maximos = df[['Poder', 'HP']].idxmax()
print(indices_maximos)

Poder    p1
HP       p3
dtype: object


##**2.6. Ejercicio: Análisis de ventas del primer semestre del 2023**

In [120]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Cargar los datos desde el archivo CSV
data = pd.read_csv("ventas.csv")
print(data)

       Mes  Ventas
0    Enero     100
1  Febrero     150
2    Marzo     200
3    Abril     180
4     Mayo     220
5    Junio     250


In [121]:
# Obteniendo el promedio de ventas
print(data["Ventas"].mean())
print(data["Ventas"])
promedio_ventas = np.mean(data["Ventas"])
print(promedio_ventas)

183.33333333333334
0    100
1    150
2    200
3    180
4    220
5    250
Name: Ventas, dtype: int64
183.33333333333334


In [122]:
print(f"Promedio de Ventas: {promedio_ventas:.3f}")

Promedio de Ventas: 183.333


In [123]:
data["Ventas"].idxmax()

5

In [124]:
# Encontrar el mes con las ventas más altas
# loc sirve para "ubicar" por medio de un indice algún dato del dataframe
# idxmax es una función que obtiene el número más grande
# Se selecciona el campo ["Mes"] para mostrar solo el mes, no el número de ventas
mes_max_ventas = data.loc[data["Ventas"].idxmax()]["Mes"]

print(f"El mes con más ventas es {mes_max_ventas}")

El mes con más ventas es Junio


# **3) DATOS ABIERTOS**

##**3.1. DATOS ABIERTOS DE MÉXICO**

https://datos.gob.mx/

**¿Qué es el sitio de datos abiertos de México?**

Esta plataforma proporciona acceso público a una amplia variedad de conjuntos de datos recolectados y mantenidos por diversas entidades gubernamentales mexicanas. Estos datos están disponibles en formatos abiertos y se utilizan para fomentar la transparencia gubernamental, facilitar la toma de decisiones informadas y promover la innovación cívica



##**3.2. WORLD BANK OPEN DATA**

https://www.kaggle.com/




**¿Qué es Kaggle?**

Kaggle es una plataforma en línea que reúne a una comunidad global de científicos de datos, analistas y entusiastas del aprendizaje automático. Fundada en 2010, Kaggle se ha convertido en un lugar central para la colaboración y la competición en el campo de la ciencia de datos e inteligencia artificial.