# **FUNDAMENTOS DE LA IA**




### **Herramientas para el análisis de datos: Parte I**
1. Numpy.
2. Pandas.





# **1) Numpy**

NumPy (Numerical Python) es una biblioteca fundamental en Python para computación numérica y científica. Proporciona un soporte eficiente para arreglos multidimensionales (arrays) y funciones matemáticas para operaciones en estos arreglos.

##**1.1. Instalación de NumPy**

Antes de usar NumPy, debes asegurarte de tenerlo instalado en tu entorno Python. Puedes instalarlo utilizando el siguiente comando en la terminal:

**pip install numpy**

In [1]:
# !pip install numpy

##**1.2. Creación de Arreglos NumPy**

Un arreglo NumPy es una estructura que contiene elementos del mismo tipo y se define utilizando la función numpy.array(). Puedes crear arreglos unidimensionales, bidimensionales y de mayor dimensión.

In [2]:
import numpy as np

In [3]:
# Crear un arreglo unidimensional
arr1D = np.array([1, 2, 3, 4, 5])
print(arr1D)

[1 2 3 4 5]


In [4]:
# Crear un arreglo bidimensional
arr2D = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2D)

[[1 2 3]
 [4 5 6]]


In [5]:
# Crear un arreglo de ceros de tamaño 3x3
arr_zeros = np.zeros((3, 3))
print(arr_zeros)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [6]:
# Crear un arreglo de unos de tamaño 2x4
arr_ones = np.ones((2, 5))
print(arr_ones)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [7]:
# Crear un arreglo con valores espaciados
arr_linspace = np.linspace(0, 10, 5)
print(arr_linspace)

[ 0.   2.5  5.   7.5 10. ]


##**1.3. Operaciones en Arreglos NumPy**

In [8]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)

[1 2 3 4 5]


In [9]:
# Operaciones matemáticas
arr_square = arr ** 2
arr_sqrt = np.sqrt(arr)
arr_sum = arr + 10

print(arr_square)
print(arr_sqrt)
print(arr_sum)

[ 1  4  9 16 25]
[1.         1.41421356 1.73205081 2.         2.23606798]
[11 12 13 14 15]


In [10]:
# Operaciones lógicas
arr_greater_than_3 = arr > 3
print(arr_greater_than_3)

[False False False  True  True]


##**1.4. Indexación y Rebanado (Slicing)**

In [11]:
arr = np.array([10, 20, 30, 40, 50])
# indices       0   1    2  3   4

In [12]:
# Acceder a un elemento por índice
elemento = arr[2]  # 30
print(elemento)

30


In [13]:
# Realizar rebanado
rebanado = arr[1:4]  # [20, 30, 40]
print(rebanado)

[20 30 40]


##**1.5. Funciones Estadísticas**

La media es una medida estadística que representa el valor central o típico de un conjunto de datos.



In [14]:
arr = np.array([10, 20, 30, 40, 50])

In [15]:
# Calcular la media
media = np.mean(arr)  # 30.0
print(media)

30.0


La desviación estándar es una medida de dispersión que indica cuánto se desvían los valores de un conjunto de datos respecto a la media.

In [16]:
# Calcular la desviación estándar
std_dev = np.std(arr)  # 14.1421356237
print(std_dev)

14.142135623730951


# **2) Pandas**

##**2.1. Instalación de Pandas**

Antes de usar Pandas, debes asegurarte de tenerlo instalado en tu entorno Python. Puedes instalarlo utilizando el siguiente comando en la terminal:

**pip install pandas**

In [17]:
# !pip install pandas

##**2.2. Estructuras de Datos en pandas**

Pandas ofrece dos estructuras de datos principales: Series y DataFrames.

* **Series**: Una serie es un objeto unidimensional similar a una columna en una hoja de cálculo. Contiene un conjunto de datos y un índice que etiqueta cada dato.

* **DataFrame**: Un DataFrame es una estructura bidimensional similar a una tabla en una base de datos. Consiste en una colección de series que comparten el mismo índice.

##**2.3. Creación de Series y DataFrames**

In [18]:
import pandas as pd

In [19]:
# Crear una Serie
serie = pd.Series([10, 20, 30, 40, 50], name="Valores")

print(serie)

0    10
1    20
2    30
3    40
4    50
Name: Valores, dtype: int64


In [20]:
# Crear un DataFrame
data = {
    "Nombre": ["Juan", "María", "Carlos"],
    "Edad": [25, 30, 28],
    "Calificacion": [10,9,6.5]
}

dataframe = pd.DataFrame(data)
print(dataframe)

   Nombre  Edad  Calificacion
0    Juan    25          10.0
1   María    30           9.0
2  Carlos    28           6.5


##**2.4. Lectura y Escritura de Datos**

Pandas permite leer y escribir datos desde/hacia varios formatos, como CSV, Excel, bases de datos, etc.

In [21]:
# Leer un archivo CSV y crear un DataFrame
dataframe = pd.read_csv("datos.csv")
print(dataframe)

FileNotFoundError: [Errno 2] No such file or directory: 'datos.csv'

In [None]:
# Escribir un DataFrame en un archivo CSV
dataframe.to_csv("copia.csv", index=False)

##**2.5. Manipulación de Datos**

In [None]:
# Filtrar filas basado en una condición
personas_mayores = dataframe[dataframe["Edad"] > 25]

print(personas_mayores)

       Nombre  Edad
1       María    30
2      Carlos    28
4      Andrés    35
5       Sofía    29
6      Miguel    26
..        ...   ...
88  Ana Sofía    26
89      David    29
91   Santiago    31
92     Renata    27
93     Carlos    30

[78 rows x 2 columns]


In [None]:
# Calcular la media de una columna
media_edad = dataframe["Edad"].mean()

print(media_edad)

28.33684210526316


In [None]:
# Agregar una nueva columna calculada
dataframe["Duplicado_Edad"] = dataframe["Edad"] * 2
print(dataframe)

      Nombre  Edad  Duplicado_Edad
0       Juan    25              50
1      María    30              60
2     Carlos    28              56
3      Luisa    22              44
4     Andrés    35              70
..       ...   ...             ...
90     Carla    24              48
91  Santiago    31              62
92    Renata    27              54
93    Carlos    30              60
94  Gabriela    25              50

[95 rows x 3 columns]


### 2.5.1. Usando .loc de Pandas
Nos permite seleccionar datos de un DataFrame o Series basándose en las etiquetas de los índices (filas) y columnas.

Su sintaxis sería la siguiente:
`dataframe.loc[fila, columna]`

Veamoslo con un ejemplito sencillito y con pokemones :D


In [None]:
import pandas as pd
data = {
    'Nombre': ['Pikachu', 'Charmander', 'Bulbasaur', 'Squirtle'],
    'Tipo': ['Eléctrico', 'Fuego', 'Planta', 'Agua'],
    'Poder': [55, 52, 49, 44],
    'HP': [35, 39, 45, 44]
}

# Crear el DataFrame con índices personalizados
df = pd.DataFrame(data, index=['p1', 'p2', 'p3', 'p4'])
print(df)
df.loc['p2'] # Seleccionando una fila por su etiqueta :o

        Nombre       Tipo  Poder  HP
p1     Pikachu  Eléctrico     55  35
p2  Charmander      Fuego     52  39
p3   Bulbasaur     Planta     49  45
p4    Squirtle       Agua     44  44


Unnamed: 0,p2
Nombre,Charmander
Tipo,Fuego
Poder,52
HP,39


In [None]:
df.loc[['p1', 'p3']]

Unnamed: 0,Nombre,Tipo,Poder,HP
p1,Pikachu,Eléctrico,55,35
p3,Bulbasaur,Planta,49,45


In [None]:
# Seleccionando el 'Poder' del Pokémon en la fila 'p3' (osease Bulbasaur :D)
df.loc['p3', 'Poder']

49

In [None]:
# Seleccionando el 'Nombre' y 'HP' para los Pokémon 'p1' y 'p4'
df.loc[['p1', 'p4'], ['Nombre', 'HP']]

Unnamed: 0,Nombre,HP
p1,Pikachu,35
p4,Squirtle,44


Resumiendo entonces, **.loc** selecciona por **etiquetas** de índice y columnas (no posiciones)

### **2.5.2. Usando .idxmax de Pandas**
Nos devuelve la **etiqueta** del índice de la fila o columna que contiene el valor máximo de un **Dataframa** o **Series**, entonces nos sirve para encontrar la **posición del valor más alto** en lugar del valor en sí.

Veamoslo aplicado siguiendo con nuestros datos de pokémones:

In [None]:
print(df)
indice_max_poder = df['Poder'].idxmax()
print(f"\nLa etiqueta del pokemon con el poder maximo: {indice_max_poder}")

        Nombre       Tipo  Poder  HP
p1     Pikachu  Eléctrico     55  35
p2  Charmander      Fuego     52  39
p3   Bulbasaur     Planta     49  45
p4    Squirtle       Agua     44  44

La etiqueta del pokemon con el poder maximo: p1


In [None]:
indice_max_hp = df['HP'].idxmax()
print(indice_max_hp)

p3


In [None]:
indices_maximos = df[['Poder', 'HP']].idxmax()
print(indices_maximos)

Poder    p1
HP       p3
dtype: object


##**2.6. Ejercicio: Análisis de ventas del primer semestre del 2023**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Cargar los datos desde el archivo CSV
data = pd.read_csv("ventas.csv")
print(data)

       Mes  Ventas
0    Enero     100
1  Febrero     150
2    Marzo     200
3    Abril     180
4     Mayo     220
5    Junio     250


In [None]:
# Obteniendo el promedio de ventas
print(data["Ventas"].mean())
print(data["Ventas"])
promedio_ventas = np.mean(data["Ventas"])
print(promedio_ventas)

183.33333333333334
0    100
1    150
2    200
3    180
4    220
5    250
Name: Ventas, dtype: int64
183.33333333333334


In [None]:
print(f"Promedio de Ventas: {promedio_ventas:.3f}")

Promedio de Ventas: 183.333


In [None]:
data["Ventas"].idxmax()

5

In [None]:
# Encontrar el mes con las ventas más altas
# loc sirve para "ubicar" por medio de un indice algún dato del dataframe
# idxmax es una función que obtiene el número más grande
# Se selecciona el campo ["Mes"] para mostrar solo el mes, no el número de ventas
mes_max_ventas = data.loc[data["Ventas"].idxmax()]["Mes"]

print(f"El mes con más ventas es {mes_max_ventas}")

El mes con más ventas es Junio


# **3) DATOS ABIERTOS**

##**3.1. DATOS ABIERTOS DE MÉXICO**

https://datos.gob.mx/

**¿Qué es el sitio de datos abiertos de México?**

Esta plataforma proporciona acceso público a una amplia variedad de conjuntos de datos recolectados y mantenidos por diversas entidades gubernamentales mexicanas. Estos datos están disponibles en formatos abiertos y se utilizan para fomentar la transparencia gubernamental, facilitar la toma de decisiones informadas y promover la innovación cívica



##**3.2. WORLD BANK OPEN DATA**

https://www.kaggle.com/




**¿Qué es Kaggle?**

Kaggle es una plataforma en línea que reúne a una comunidad global de científicos de datos, analistas y entusiastas del aprendizaje automático. Fundada en 2010, Kaggle se ha convertido en un lugar central para la colaboración y la competición en el campo de la ciencia de datos e inteligencia artificial.

# **4) TAREA**

*   Tener un bonito día y disfrutar del convivio de al ratito 🙂
*   Tratar de resolver el siguiente ejercicio y subirlo a la asignación de classroom :).

### EJERCICIO

**ANÁLISIS DE PELÍCULAS MÁS VISTAS**


---

**Fuente del dataset:**

https://www.kaggle.com/datasets/khalidalam980/top-rated-movies-data-set

---

### **Actividad**
Este conjunto de datos contiene una vasta variedad de 10,000 películas excepcionales. Además abarca un amplio espectro de géneros, tramas cautivadoras e inolvidables personajes que han dejado una marca indeleble en el panorama cinematográfico global.

Cada entrada en este conjunto de datos revela información esencial, incluyendo el ID único de la película, los IDs de género asociados, el título, una sinopsis, la popularidad, la fecha de lanzamiento, el promedio de votos y la apreciación colectiva medida por el recuento de votos.

Utilizando tus conocimientos adquiridos en esta sesión obten lo siguiente:


*   El nombre de la película con mayor promedio de votos (vote_average)
*   El nombre de la película con menor promedio de votos (vote_average)
*   El promedio de votos de todas las películas (vote_count)
*   El nombre de la película más reciente del dataset (release_date)
*   El nombre de la película más popular de los años 90s (popularity, release_date).

---


**TIPS**
- Emplea las funciones de Numpy.
- Recuerda utilizar los operados OR (|) y AND (&) para las condiciones múltiples.
- Utiliza la función loc para ubicar un dato usando indices que puedes obtener con idxmax() y idxmin() junto a los corchetes para ubicar las columnas del dataframe.
- Para obtener el año de una fecha utiliza dt.year después del campo con tipo de dato datetime

Por ejemplo obtener las películas de los años 80s
```
movies_80s = movies[(movies["Year"] >= 1980) & (movies["Year"] <= 1989)]
```

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Cargar los datos desde el archivo CSV
df = pd.read_csv("MoviesTopRated.csv")
df

Unnamed: 0.1,Unnamed: 0,id,genre_ids,title,overview,popularity,release_date,vote_average,vote_count
0,0,238,"[18, 80]",The Godfather,"Spanning the years 1945 to 1955, a chronicle o...",119.438,1972-03-14,8.7,18448
1,1,278,"[18, 80]",The Shawshank Redemption,Framed in the 1940s for the double murder of h...,90.415,1994-09-23,8.7,24376
2,2,240,"[18, 80]",The Godfather Part II,In the continuing saga of the Corleone crime f...,70.637,1974-12-20,8.6,11144
3,3,424,"[18, 36, 10752]",Schindler's List,The true story of how businessman Oskar Schind...,48.096,1993-12-15,8.6,14421
4,4,19404,"[35, 18, 10749]",Dilwale Dulhania Le Jayenge,"Raj is a rich, carefree, happy-go-lucky second...",26.588,1995-10-20,8.6,4225
...,...,...,...,...,...,...,...,...,...
9995,9995,604563,"[35, 12, 28]",OSS 117: From Africa with Love,"1981. Hubert Bonisseur de la Bath, aka OSS 117...",9.245,2021-08-04,5.7,664
9996,9996,193687,"[878, 18]",Z for Zachariah,"In the wake of a nuclear war, a young woman su...",11.309,2015-08-13,5.7,856
9997,9997,14423,"[35, 28]",First Sunday,Durell and LeeJohn are best friends and bumbli...,8.188,2008-01-11,5.7,215
9998,9998,10154,"[35, 80, 10749]",Mickey Blue Eyes,An English auctioneer proposes to the daughter...,9.401,1999-08-16,5.7,502


In [6]:
# Eliminamos la columna "Unnamed: 0"
df = df.drop("Unnamed: 0", axis=1)
df

Unnamed: 0,id,genre_ids,title,overview,popularity,release_date,vote_average,vote_count
0,238,"[18, 80]",The Godfather,"Spanning the years 1945 to 1955, a chronicle o...",119.438,1972-03-14,8.7,18448
1,278,"[18, 80]",The Shawshank Redemption,Framed in the 1940s for the double murder of h...,90.415,1994-09-23,8.7,24376
2,240,"[18, 80]",The Godfather Part II,In the continuing saga of the Corleone crime f...,70.637,1974-12-20,8.6,11144
3,424,"[18, 36, 10752]",Schindler's List,The true story of how businessman Oskar Schind...,48.096,1993-12-15,8.6,14421
4,19404,"[35, 18, 10749]",Dilwale Dulhania Le Jayenge,"Raj is a rich, carefree, happy-go-lucky second...",26.588,1995-10-20,8.6,4225
...,...,...,...,...,...,...,...,...
9995,604563,"[35, 12, 28]",OSS 117: From Africa with Love,"1981. Hubert Bonisseur de la Bath, aka OSS 117...",9.245,2021-08-04,5.7,664
9996,193687,"[878, 18]",Z for Zachariah,"In the wake of a nuclear war, a young woman su...",11.309,2015-08-13,5.7,856
9997,14423,"[35, 28]",First Sunday,Durell and LeeJohn are best friends and bumbli...,8.188,2008-01-11,5.7,215
9998,10154,"[35, 80, 10749]",Mickey Blue Eyes,An English auctioneer proposes to the daughter...,9.401,1999-08-16,5.7,502


In [7]:
# Convertir la columna "release_date" a tipo datetime
df["release_date"] = pd.to_datetime(df["release_date"])
df

Unnamed: 0,id,genre_ids,title,overview,popularity,release_date,vote_average,vote_count
0,238,"[18, 80]",The Godfather,"Spanning the years 1945 to 1955, a chronicle o...",119.438,1972-03-14,8.7,18448
1,278,"[18, 80]",The Shawshank Redemption,Framed in the 1940s for the double murder of h...,90.415,1994-09-23,8.7,24376
2,240,"[18, 80]",The Godfather Part II,In the continuing saga of the Corleone crime f...,70.637,1974-12-20,8.6,11144
3,424,"[18, 36, 10752]",Schindler's List,The true story of how businessman Oskar Schind...,48.096,1993-12-15,8.6,14421
4,19404,"[35, 18, 10749]",Dilwale Dulhania Le Jayenge,"Raj is a rich, carefree, happy-go-lucky second...",26.588,1995-10-20,8.6,4225
...,...,...,...,...,...,...,...,...
9995,604563,"[35, 12, 28]",OSS 117: From Africa with Love,"1981. Hubert Bonisseur de la Bath, aka OSS 117...",9.245,2021-08-04,5.7,664
9996,193687,"[878, 18]",Z for Zachariah,"In the wake of a nuclear war, a young woman su...",11.309,2015-08-13,5.7,856
9997,14423,"[35, 28]",First Sunday,Durell and LeeJohn are best friends and bumbli...,8.188,2008-01-11,5.7,215
9998,10154,"[35, 80, 10749]",Mickey Blue Eyes,An English auctioneer proposes to the daughter...,9.401,1999-08-16,5.7,502
