# Google Colab y Python - Introducción al Machine Learning
Este notebook está diseñado para que aprendas los conceptos básicos necesarios
para el procesamiento de datos en proyectos de machine learning.

## 1. Sintaxis básica de Python
En esta celda, aprenderemos los fundamentos de Python:
- Cómo imprimir texto en la pantalla
- Cómo crear variables y asignarles valores
- Diferentes tipos de datos: números enteros, decimales y texto

In [5]:
# 1. Sintaxis básico
print("¡Hola, Colab!")
x = 10
y = 3.14
nombre = "Juan"
print("el valor de X es: "+ str(y))

¡Hola, Colab!
el valor de X es: 3.14


## 2. Tipos de datos en Python
Aquí veremos cómo identificar el tipo de datos de una variable:
- Usamos la función `type()` para conocer el tipo de dato
- Veremos tipos como `int` (entero), `float` (decimal) y `str` (texto)

**Resumen**:
- Escalares: Valores individuales, utilizados para representar características o medidas simples.
- Listas: Colecciones de datos, flexibles y modificables, útiles para almacenar series de datos.
- Tuplas: Colecciones de datos inmutables, usadas para datos constantes.
- Vectores: Estructuras unidimensionales que representan características o puntos en el espacio.
- Matrices: Tablas bidimensionales, esenciales para cálculos matriciales.
- Tensores: Extensiones de matrices a múltiples dimensiones, útiles en machine learning.
- DataFrames: Tablas etiquetadas, el formato más utilizado para el análisis de datos.

In [6]:
# 2. Tipos de datos
print(type(x))
print(type(y))
print(type(nombre))

<class 'int'>
<class 'float'>
<class 'str'>


### 2. 1 Estructuras de Datos en Python para Data Science
Esta lección cubre la creación y uso de las estructuras de datos más comunes en Python que son fundamentales para el análisis y procesamiento de datos en ciencia de datos: escalares, listas, tuplas, vectores, matrices y dataframes.

## 2.1.1. Escalares
Un escalar es una variable que almacena un solo valor. En Data Science, los escalares pueden representar características individuales como el precio de un producto o el valor de una medida.

In [7]:
# Ejemplo de un escalar
escalar = 5
print("Escalar:", escalar)

Escalar: 5


##2.1.2. Listas
Las listas en Python son colecciones ordenadas de elementos. Se usan en Data Science para almacenar conjuntos de datos simples o series de valores.

**Aplicación en Data Science:** Las listas se utilizan para almacenar muestras de datos o características individuales de un conjunto de datos.

In [None]:
# Ejemplo de una lista
lista = [1, 2, 3, 4, 5]
print("Lista:", lista)
lista[2]="Seis"
lista[2]=6
print("Lista Modificada:", lista)
# Acceder a un elemento de la lista
print("Primer elemento:", lista[4])


Lista: [1, 2, 3, 4, 5]
Lista Modificada: [1, 2, 6, 4, 5]
Primer elemento: 5


##2.1.3. Tuplas
Las tuplas son similares a las listas, pero son inmutables, es decir, no se pueden modificar una vez creadas. En Data Science, se utilizan para almacenar datos que no deben cambiar, como coordenadas o parámetros de un modelo.

In [None]:
# Ejemplo de una tupla
tupla = (1, 2, 3)
print("Tupla:", tupla)

# Acceder a un elemento de la tupla
print("Segundo elemento de la tupla:", tupla[1])

Tupla: (1, 2, 3)
Segundo elemento de la tupla: 2


##2.1.4. Vectores
Un vector es una estructura de datos que contiene una secuencia de números. En Data Science, los vectores se usan para representar características de un conjunto de datos o puntos en el espacio.

Vamos a crear un vector usando NumPy, una librería muy popular en Data Science.

In [None]:
import numpy as np

# Ejemplo de un vector (array de una dimensión)
vector = np.array([1, 2, 3, 4, 5])
print("Vector:", vector)

Vector: [1 2 3 4 5]


##2.1.5. Matrices
Una matriz es una estructura bidimensional, es decir, contiene filas y columnas. En Data Science, las matrices se utilizan para representar conjuntos de datos tabulares o transformaciones matemáticas.

**Aplicación en Data Science**: Las matrices son esenciales para cálculos matriciales en machine learning y álgebra lineal.

In [None]:
# Ejemplo de una matriz (array de dos dimensiones)
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Matriz:\n", matriz)

Matriz:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


##2.1.6. Matrices de diferentes dimensiones
Además de matrices 2D, puedes trabajar con matrices de más dimensiones, llamadas tensores.

**Aplicación en Data Science**: Los tensores son comunes en redes neuronales y otras aplicaciones de machine learning de alta dimensión.



In [None]:
# Ejemplo de una matriz 3D (tensor)
tensor = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("Matriz 3D (Tensor):\n", tensor)

Matriz 3D (Tensor):
 [[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


##2.1.7. DataFrames
Un DataFrame es una estructura de datos similar a una tabla en pandas, con etiquetas para las filas y columnas. Es el formato más utilizado para manipular y analizar datos en Data Science.

**Aplicación en Data Science**: Los DataFrames permiten la manipulación eficiente de datos tabulares, como limpieza de datos, transformación y análisis estadístico.

In [None]:
import pandas as pd

# Crear un DataFrame simple
datos = {'Nombre': ['Ana', 'Luis', 'Pedro'],
         'Edad': [23, 30, 25],
         'Ciudad': ['Madrid', 'Barcelona', 'Sevilla']}

df = pd.DataFrame(datos)
print("DataFrame:\n", df)

DataFrame:
   Nombre  Edad     Ciudad
0    Ana    23     Madrid
1   Luis    30  Barcelona
2  Pedro    25    Sevilla


## 3. Navegación de Datos en DataFrames
En esta sección, aprenderemos a manejar DataFrames, una de las estructuras más importantes para trabajar con datos en ciencia de datos. Veremos cómo crear DataFrames a partir de diferentes fuentes de datos (Excel, JSON, TXT, SQL), cómo acceder a elementos específicos dentro de ellos, y cómo extraer secciones para crear listas y diccionarios.

En esta lección, aprenderemos:

- Cómo crear DataFrames a partir de distintas fuentes de datos.
- Cómo acceder a elementos específicos dentro de un DataFrame.
- Cómo extraer secciones de un DataFrame para crear listas y diccionarios.

¡Sigue practicando con tus propios datasets para dominar la manipulación de datos con DataFrames!

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


##3.1. Crear un DataFrame a partir de diferentes fuentes de datos
Los DataFrames pueden crearse a partir de diversas fuentes de datos, como archivos de Excel, JSON, TXT y bases de datos SQL. Usaremos la librería pandas para ello.

**Aplicación en Data Science**: Los DataFrames nos permiten importar y manipular grandes cantidades de datos desde diferentes formatos para analizarlos de manera eficiente.

In [None]:
import pandas as pd

# Ejemplo: Crear un DataFrame desde un archivo Excel
#df_excel = pd.read_excel('Productividad.csv')

# Ejemplo: Crear un DataFrame desde un archivo JSON
#df_json = pd.read_json('archivo.json')

# Ejemplo: Crear un DataFrame desde un archivo TXT (archivo delimitado por comas o tabulaciones)
df_txt = pd.read_csv('/Productividad.csv')
print(df_txt)
type(df_txt)


     AÑO         COL        EA19   EU27_2020         KOR         MEX  \
0   2005   92.166092  145.516381  138.769636   70.494390  113.390317   
1   2006   98.096402  147.592492  141.078690   73.429329  115.600117   
2   2007  102.210352  148.946321  142.418323   78.075747  116.942833   
3   2008  102.328402  148.642103  142.064119   82.473976  116.237698   
4   2009   99.655900  147.033243  140.426377   85.326469  109.327697   
5   2010  100.118519  150.670174  144.499922   90.409766  113.237347   
6   2011  103.559709  152.936951  147.141967  125.876870  115.242915   
7   2012  104.751943  153.846029  147.951763  127.704986  116.170932   
8   2013  108.567259  155.268120  149.233188  130.754201  116.132398   
9   2014  111.435028  156.417419  150.271892  133.731370  119.069843   
10  2015  112.488134  158.120096  152.363846  135.557786  119.841226   
11  2016  114.620605  158.552261  152.984348  139.333111  122.108716   
12  2017  115.859394  160.943930  155.678440  145.556664  122.79

In [None]:
# Ejemplo: Crear un DataFrame desde una consulta SQL
#import sqlite3
#conn = sqlite3.connect('database.db')
#df_sql = pd.read_sql_query("SELECT * FROM tabla", conn)

In [None]:
# Ejemplo: Crear un DataFrame desde una consulta web (no es webscrapping)
import pandas as pd
import requests
import zipfile

# URL donde esta el archivo CSV
url = 'https://www.inegi.org.mx/contenidos/programas/enoe/datosabiertos/enoe.zip'
zip_filename = '/content/file.zip'

# Bajar el archivo a la sesion de colab
response = requests.get(url)
with open(zip_filename, 'wb') as f:
    f.write(response.content)

# Extract the ZIP file
with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
    # Extract all the contents into the /content directory
    zip_ref.extractall('/content')

# Información guardada en un dataframe
data =  pd.read_csv(url)

KeyboardInterrupt: 

##3.2. Acceder a elementos específicos en un DataFrame
Un DataFrame es como una tabla, y podemos acceder a sus filas, columnas o celdas de forma específica.

**Aplicación en Data Science**: Acceder a elementos específicos en un DataFrame permite examinar detalles de los datos o realizar transformaciones en partes concretas del conjunto de datos.

In [None]:
# Creamos un DataFrame simple para los ejemplos
datos = {'Nombre': ['Ana', 'Luis', 'Pedro'],
         'Edad': [23, 30, 25],
         'Ciudad': ['Madrid', 'Barcelona', 'Sevilla']}

df = pd.DataFrame(datos)

# Acceder a una columna
print("Columna 'Nombre':\n", df['Nombre'])

# Acceder a una fila por su índice
print("Fila con índice 1:\n", df.iloc[1])

# Acceder a una celda específica (fila 0, columna 'Ciudad')
print("Celda en fila 0, columna 'Ciudad':", df.at[0, 'Ciudad'])

Columna 'Nombre':
 0      Ana
1     Luis
2    Pedro
Name: Nombre, dtype: object
Fila con índice 1:
 Nombre         Luis
Edad             30
Ciudad    Barcelona
Name: 1, dtype: object
Celda en fila 0, columna 'Ciudad': Madrid


##3.3. Tomar secciones de un DataFrame para crear listas y diccionarios
A menudo, en Data Science, necesitamos extraer subconjuntos de datos para realizar análisis específicos o convertirlos en otros formatos.

**Aplicación en Data Science:** Extraer listas o diccionarios de un DataFrame nos permite manipular o analizar partes específicas de los datos de manera más flexible.

In [None]:
# Extraer una columna como lista
nombres = df['Nombre'].tolist()
print("Columna 'Nombre' como lista:", nombres)

# Extraer una fila como diccionario
fila_como_diccionario = df.iloc[1].to_dict()
print("Fila 1 como diccionario:", fila_como_diccionario)

Columna 'Nombre' como lista: ['Ana', 'Luis', 'Pedro']
Fila 1 como diccionario: {'Nombre': 'Luis', 'Edad': 30, 'Ciudad': 'Barcelona'}


## 4. Entendimiento de los datos en matrices
Aquí aprenderemos a obtener información básica sobre nuestros datos:
- Usaremos `info()` para conocer la estructura de nuestra DataFrame
- Usaremos `describe()` para obtener estadísticas descriptivas
- Verificaremos si hay valores nulos en nuestro DataFrame

In [None]:
# 4. Entendimiento de los datos en matrices
print(df.info())
print(df.describe(include='all'))
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
None
       Nombre       Edad  Ciudad
count       3   3.000000       3
unique      3        NaN       3
top       Ana        NaN  Madrid
freq        1        NaN       1
mean      NaN  26.000000     NaN
std       NaN   3.605551     NaN
min       NaN  23.000000     NaN
25%       NaN  24.000000     NaN
50%       NaN  25.000000     NaN
75%       NaN  27.500000     NaN
max       NaN  30.000000     NaN
Nombre    0
Edad      0
Ciudad    0
dtype: int64


## 5. Limpieza de datos
En esta sección, aprenderemos a manejar valores faltantes:
- Crearemos un DataFrame con valores nulos
- Usaremos `fillna()` para reemplazar los valores nulos con la media de cada columna

In [None]:
# 5. Limpieza de datos
import numpy as np
df_con_nulos = pd.DataFrame({'A': [1, 2, np.nan], 'B': [4, np.nan, 6], 'C': [np.nan, 8, 9]})
df_con_nulos.fillna(df_con_nulos.mean(), inplace=True)
print(df_con_nulos)

     A    B    C
0  1.0  4.0  8.5
1  2.0  5.0  8.0
2  1.5  6.0  9.0


## 6. Escalado de características
Aquí aprenderemos a escalar nuestros datos:
- Usaremos MinMaxScaler para transformar nuestros datos
- Veremos cómo los datos se escalan al rango [0, 1]

In [None]:
# 6. Escalado de características
from sklearn.preprocessing import MinMaxScaler
datos = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])
scaler = MinMaxScaler()
datos_escalados = scaler.fit_transform(datos)
print("Datos originales:\n", datos)
print("Datos escalados:\n", datos_escalados)

Datos originales:
 [[1 2]
 [2 4]
 [3 6]
 [4 8]]
Datos escalados:
 [[0.         0.        ]
 [0.33333333 0.33333333]
 [0.66666667 0.66666667]
 [1.         1.        ]]


## 7. Codificación de variables categóricas
En esta sección, aprenderemos a manejar datos categóricos:
- Crearemos un DataFrame con variables categóricas
- Usaremos `get_dummies()` para convertir estas variables en formato numérico

In [None]:
# 7. Codificación de variables categóricas
df_categorico = pd.DataFrame({'Color': ['Rojo', 'Verde', 'Azul'], 'Tamaño': ['Grande', 'Pequeño', 'Mediano']})
print(df_categorico)
df_codificado = pd.get_dummies(df_categorico)
print(df_codificado)

   Color   Tamaño
0   Rojo   Grande
1  Verde  Pequeño
2   Azul  Mediano
   Color_Azul  Color_Rojo  Color_Verde  Tamaño_Grande  Tamaño_Mediano  \
0       False        True        False           True           False   
1       False       False         True          False           False   
2        True       False        False          False            True   

   Tamaño_Pequeño  
0           False  
1            True  
2           False  


## 8. División de datos
Aquí aprenderemos a dividir nuestros datos en conjuntos de entrenamiento y prueba:
- Usaremos `train_test_split` para dividir nuestros datos
- Veremos cómo se separan los datos en características (X) y etiquetas (y)

In [None]:
# 8. División de datos
from sklearn.model_selection import train_test_split
X = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])
y = np.array([0, 1, 0, 1])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento:\n", X_train)
print("Datos de prueba:\n", X_test)

Datos de entrenamiento:
 [[4 8]
 [1 2]
 [3 6]]
Datos de prueba:
 [[2 4]]


## 9. Estructuras de control
En esta sección, aprenderemos sobre estructuras de control básicas en Python:
- Usaremos una declaración `if-else` para tomar decisiones basadas en condiciones
- Utilizaremos un bucle `for` para repetir acciones

In [None]:
# 9. Estructuras de control
x = 4.99
if x > 5:
    print(f"{x} es mayor que 5")
else:
    print(f"{x} es menor o igual que 5")

for i in range(5):
    print(f"Iteración: {i}")

4.99 es menor o igual que 5
Iteración: 0
Iteración: 1
Iteración: 2
Iteración: 3
Iteración: 4


## 10. Funciones
Finalmente, aprenderemos sobre funciones en Python:
- Definiremos una función simple que suma dos números
- Llamaremos a la función y imprimiremos el resultado

In [None]:
# 10. Funciones
def sumar(a, b):
    return a + b
resultado = sumar(10, 5)
print("La suma es:", resultado)

La suma es: 15


##11.1. Convertir Texto, Audio e Imágenes a DataFrames para Modelos de Machine Learning
En esta sección, aprenderemos cómo convertir diferentes tipos de datos, como texto, audio e imágenes, en un formato que pueda ser utilizado por modelos de machine learning. Utilizaremos pandas para trabajar con DataFrames, así como bibliotecas adicionales según sea necesario para procesar cada tipo de dato.

**En esta lección, aprendemos**:

- Cómo convertir texto a DataFrames utilizando técnicas de vectorización.
- Cómo convertir audio a DataFrames extrayendo características.
- Cómo convertir imágenes a DataFrames utilizando la representación de píxeles.

Estos pasos son esenciales para preparar datos no estructurados para su uso en modelos de machine learning. ¡Sigue explorando y experimentando con diferentes tipos de datos!

##11.1. Convertir Texto a DataFrames
El texto puede ser procesado y convertido en un DataFrame para su uso en modelos de machine learning. Para ello, utilizaremos técnicas como la tokenización y la creación de características.

**Aplicación en Data Science:** La conversión de texto a un formato numérico permite que los modelos de machine learning comprendan el contenido textual y realicen tareas como clasificación o análisis de sentimientos.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Ejemplo de datos de texto
documentos = [
    "El aprendizaje automático es fascinante.",
    "Los modelos de machine learning son poderosos.",
    "La ciencia de datos combina estadística y programación."
]

# Convertir el texto en un DataFrame
df_texto = pd.DataFrame(documentos, columns=['Texto'])

# Vectorización: convertir texto a vectores numéricos
vectorizer = CountVectorizer()
X_texto = vectorizer.fit_transform(df_texto['Texto']).toarray()

# Crear un nuevo DataFrame con las características
df_vectorizado_texto = pd.DataFrame(X_texto, columns=vectorizer.get_feature_names_out())
print("DataFrame de texto vectorizado:\n", df_vectorizado_texto)

DataFrame de texto vectorizado:
    aprendizaje  automático  ciencia  combina  datos  de  el  es  estadística  \
0            1           1        0        0      0   0   1   1            0   
1            0           0        0        0      0   1   0   0            0   
2            0           0        1        1      1   1   0   0            1   

   fascinante  la  learning  los  machine  modelos  poderosos  programación  \
0           1   0         0    0        0        0          0             0   
1           0   0         1    1        1        1          1             0   
2           0   1         0    0        0        0          0             1   

   son  
0    0  
1    1  
2    0  


##11.2. Convertir Audio a DataFrames
El audio también puede ser convertido a un formato adecuado para machine learning. Normalmente, esto implica extraer características del audio, como espectrogramas o MFCC (coeficientes cepstrales en las frecuencias Mel).

**Aplicación en Data Science**: Al convertir audio en características, podemos entrenar modelos para tareas como reconocimiento de voz o clasificación de sonidos.

In [None]:
import pandas as pd
import numpy as np
import librosa

# Cargar un archivo de audio y extraer características
# audio_path = 'archivo_audio.wav'
# y, sr = librosa.load(audio_path, sr=None)

# Para este ejemplo, generamos un array de características ficticias
# características = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
# características = características.T  # Transponer para que cada fila sea una observación

# Ejemplo de características ficticias (por ejemplo, 5 muestras de 13 coeficientes)
caracteristicas = np.random.rand(5, 13)  # Simulación de 5 muestras de características

# Crear un DataFrame con las características de audio
df_audio = pd.DataFrame(caracteristicas, columns=[f'MFCC_{i+1}' for i in range(caracteristicas.shape[1])])
print("DataFrame de características de audio:\n", df_audio)

DataFrame de características de audio:
      MFCC_1    MFCC_2    MFCC_3    MFCC_4    MFCC_5    MFCC_6    MFCC_7  \
0  0.441599  0.802052  0.866199  0.264139  0.086676  0.412221  0.431434   
1  0.632802  0.485790  0.649118  0.958909  0.810847  0.642078  0.049967   
2  0.751675  0.843779  0.870630  0.258675  0.367389  0.995523  0.675483   
3  0.055854  0.637960  0.723058  0.517526  0.074149  0.135113  0.004027   
4  0.151325  0.435007  0.776324  0.554546  0.845341  0.224051  0.748653   

     MFCC_8    MFCC_9   MFCC_10   MFCC_11   MFCC_12   MFCC_13  
0  0.672691  0.413058  0.300433  0.488690  0.045054  0.160449  
1  0.830797  0.526211  0.743074  0.763848  0.917990  0.528824  
2  0.233135  0.400254  0.374289  0.532985  0.342411  0.512792  
3  0.389388  0.544879  0.489665  0.432596  0.027781  0.162355  
4  0.600320  0.628686  0.751578  0.004200  0.227740  0.178368  


##11.3. Convertir Imágenes a DataFrames
Las imágenes se pueden convertir en DataFrames extrayendo características, como los píxeles o utilizando técnicas de extracción de características como SIFT o HOG.

**Aplicación en Data Science**: La conversión de imágenes a un formato tabular permite que los modelos de machine learning puedan realizar tareas como clasificación de imágenes, detección de objetos o segmentación.

In [None]:
import pandas as pd
from sklearn.datasets import load_sample_image
import numpy as np

# Cargar una imagen de muestra
china = load_sample_image("china.jpg")

# Redimensionar la imagen usando Pillow (PIL) en lugar de NumPy
from PIL import Image
china_resized = np.array(Image.fromarray(china).resize((100, 100)))

# Aplanar la imagen en un array
pixels = china_resized.reshape(-1, 3)  # Convertir a un array 2D

# Crear un DataFrame a partir de los píxeles de la imagen
df_imagen = pd.DataFrame(pixels, columns=['Rojo', 'Verde', 'Azul'])
print("DataFrame de píxeles de la imagen:\n", df_imagen)

DataFrame de píxeles de la imagen:
       Rojo  Verde  Azul
0      174    201   231
1      174    202   232
2      174    203   232
3      177    204   234
4      177    204   234
...    ...    ...   ...
9995     3      7     3
9996     4      6     2
9997     4      6     1
9998     5      6     3
9999    16     18    13

[10000 rows x 3 columns]




```
# This is formatted as code
```

