---

# Tabla de formatos de texto legibles en Jupyter

| Formato | Extensión | Estructura | Ejemplo de lectura en Jupyter (Python) |
|---------|-----------|------------|----------------------------------------|
| **CSV (Comma-Separated Values)** | `.csv` | Valores separados por comas | `pd.read_csv("datos.csv")` |
| **TSV (Tab-Separated Values)** | `.tsv` | Valores separados por tabuladores | `pd.read_csv("datos.tsv", sep="\t")` |
| **TXT (Plain Text con delimitadores)** | `.txt` | Texto plano con separadores definidos | `pd.read_csv("datos.txt", sep=";")` |
| **JSON (JavaScript Object Notation)** | `.json` | Datos estructurados en clave-valor | `pd.read_json("datos.json")` |
| **Excel (texto tabular embebido)** | `.xlsx` / `.xls` | Hojas de cálculo con celdas | `pd.read_excel("datos.xlsx")` |
| **HTML (tablas en páginas web)** | `.html` | Tablas dentro de documentos HTML | `pd.read_html("tabla.html")[0]` |

---


# Ejemplo práctico: archivo CSV

Tienes un archivo `datos.csv` con este contenido anexo este documento:

```csv
Nombre,Edad,Carrera
Erik,22,Ingeniería
Ana,21,Física
Luis,23,Matemáticas
```
En Jupyter puedes leerlo así:

In [1]:
import pandas as pd

# Leer archivo CSV

In [2]:
df = pd.read_csv("datos.csv")

# Mostrar el DataFrame

In [3]:
print(df)

  Nombre   Edad       Carrera
0    Erik     22   Ingenieria
1     Ana     21       Fisica
2   Luis      23  Matematicas


# Para manipular los datos dentro de la tabla:

## Tabla de comandos en JupyterLab (Pandas)

| Acción | Comando | Explicación |
|--------|---------|-------------|
| **Ver primeras filas** | `df.head()` | Muestra las primeras 5 filas. |
| **Ver últimas filas** | `df.tail()` | Muestra las últimas 5 filas. |
| **Seleccionar columna** | `df["columna"]` | Devuelve una columna específica. |
| **Seleccionar varias columnas** | `df[["col1", "col2"]]` | Devuelve varias columnas. |
| **Seleccionar fila por índice** | `df.iloc[0]` | Devuelve la primera fila (por posición). |
| **Seleccionar fila por etiqueta** | `df.loc[3]` | Devuelve la fila con índice 3. |
| **Filtrar filas** | `df[df["columna"] > 100]` | Filtra filas según condición. |
| **Agregar nueva columna** | `df["nueva"] = df["col1"] + df["col2"]` | Crea una columna derivada. |
| **Eliminar columna** | `df.drop("columna", axis=1, inplace=True)` | Elimina una columna. |
| **Eliminar fila** | `df.drop(0, axis=0, inplace=True)` | Elimina la fila con índice 0. |
| **Renombrar columnas** | `df.rename(columns={"old":"new"}, inplace=True)` | Cambia nombres de columnas. |
| **Ordenar valores** | `df.sort_values("columna")` | Ordena filas según una columna. |
| **Describir datos** | `df.describe()` | Estadísticas básicas (media, min, max, etc.). |
| **Guardar en CSV** | `df.to_csv("nuevo.csv", index=False)` | Exporta el DataFrame a un archivo CSV. |

## Tabla de operadores de columna (Pandas)

| Operación | Comando | Explicación |
|-----------|---------|-------------|
| **Sumar columna** | `df["nueva"] = df["columna"] + 10` | Suma un valor constante a cada fila de la columna. |
| **Restar columna** | `df["nueva"] = df["columna"] - 5` | Resta un valor constante a cada fila. |
| **Multiplicar columna** | `df["nueva"] = df["columna"] * 2` | Multiplica cada valor por un número. |
| **Dividir columna** | `df["nueva"] = df["columna"] / 3` | Divide cada valor de la columna. |
| **Operar entre columnas** | `df["total"] = df["col1"] + df["col2"]` | Combina valores de dos columnas. |
| **Potencia** | `df["cuadrado"] = df["columna"] ** 2` | Eleva cada valor al cuadrado. |
| **Módulo (resto)** | `df["mod"] = df["columna"] % 2` | Calcula el resto de dividir cada valor por 2. |
| **Operación condicional** | `df["flag"] = df["columna"] > 100` | Devuelve `True/False` según condición. |

## Operaciones básicas sobre columnas en Pandas

| Acción | Comando | Explicación |
|--------|---------|-------------|
| **Sumatoria de una columna** | `df["columna"].sum()` | Devuelve la suma de todos los valores de la columna. |
| **Número total de datos en una columna** | `df["columna"].count()` | Devuelve el número de valores no nulos en la columna. |
| **Número total de filas en el DataFrame** | `len(df)` | Devuelve la cantidad total de registros (filas). |
| **Número total de columnas en el DataFrame** | `len(df.columns)` | Devuelve la cantidad de columnas. |
| **Conteo de valores únicos** | `df["columna"].nunique()` | Devuelve cuántos valores distintos existen en la columna. |
| **Frecuencia de cada valor** | `df["columna"].value_counts()` | Devuelve cuántas veces aparece cada valor en la columna. |

## Tabla de resultados de `df.describe()`

El método `df.describe()` genera estadísticas descriptivas de las columnas numéricas (por defecto).  

| Estadístico | Significado |
|-------------|-------------|
| **count** | Número de valores no nulos en la columna. |
| **mean** | Media aritmética de los valores. |
| **std** | Desviación estándar (medida de dispersión). |
| **min** | Valor mínimo encontrado. |
| **25%** | Primer cuartil (percentil 25). |
| **50%** | Mediana (percentil 50). |
| **75%** | Tercer cuartil (percentil 75). |
| **max** | Valor máximo encontrado. |

Si usas `df.describe(include="all")`, también muestra estadísticas de columnas **categóricas** (objetos tipo string), como:
- **unique** → número de valores únicos.  
- **top** → valor más frecuente.  
- **freq** → frecuencia del valor más frecuente.  


---

## Tabla de operaciones de manipulación de filas

| Operación | Función / Método | Ejemplo |
|-----------|------------------|---------|
| Seleccionar fila por índice | `df.loc[]` | `df.loc[2]` |
| Multiplicar valores de una fila | Operación aritmética | `df.loc[2] * 2` |
| Crear nueva columna con suma de fila | `df.sum(axis=1)` | `df["SumaFila"] = df.sum(axis=1)` |
| Filtrar filas por condición | `df.query()` | `df.query("Edad > 30")` |
| Eliminar filas | `df.drop()` | `df.drop([0,1], axis=0)` |

---

## Notas útiles
- `axis=1` indica que la operación se hace **por fila** (horizontal).  
- `axis=0` sería por **columna** (vertical).  
- Puedes usar `df.iloc[]` si prefieres seleccionar filas por posición numérica en lugar de etiqueta.  

---

## Ejemplos

Toma el valor de una fila (Por defecto lo muestra de la siguiente manera):

In [4]:
df.loc[0]

Nombre           Erik
Edad               22
Carrera    Ingenieria
Name: 0, dtype: object

Ingresar el valor de la fila dentro de una nueva variable

In [5]:
filaCero=df.iloc[0]

Tomar un valor de la fila:

In [6]:
valorNuevo=filaCero.iloc[1]

Manipulación de el dato de la fila

In [7]:
valorNuevo/10

np.float64(2.2)

In [8]:
valorNuevo-10

np.int64(12)

In [9]:
valorNuevo*20

np.int64(440)

In [10]:
print(df.columns)

Index(['Nombre ', 'Edad ', 'Carrera'], dtype='object')


Selección de columna:

In [11]:
columnaEdad=df.iloc[:,1]

In [12]:
print(columnaEdad)

0    22
1    21
2    23
Name: Edad , dtype: int64


Para seleccionar una matriz de columnas se usa la expresión:

In [13]:
matrizEdad2=df.iloc[:,[1,1,1]]
print(matrizEdad2)

   Edad   Edad   Edad 
0     22     22     22
1     21     21     21
2     23     23     23


Otras funciones para manipulación de datos:

In [14]:
promedio=(matrizEdad2.sum(axis=1))/3
print(promedio)

0    22.0
1    21.0
2    23.0
dtype: float64


In [15]:
promedioMean=matrizEdad2.mean(axis=1)
print(promedioMean)

0    22.0
1    21.0
2    23.0
dtype: float64


In [16]:
print(matrizEdad2.std(axis=1))

0    0.0
1    0.0
2    0.0
dtype: float64


In [17]:
dfNew=promedio+promedioMean
print(dfNew)

0    44.0
1    42.0
2    46.0
dtype: float64


## Nueva matriz con los valores de la tabla principal de el documento .csv y los valores de los datos calculados

Creamos una variable tabla y usamos un bloque compuesto para el formato que se busca dar a la siguiente tabla.

[variable1]= list ( zip([ matriz de variables / nuevo formato ]))

for [variable2] in [variable1]

[Espacio]print ([variable2])

In [18]:
tabla=list(zip(df,promedio,dfNew,promedioMean))
for fila in tabla:
    print(fila)

('Nombre ', 22.0, 44.0, 22.0)
('Edad ', 21.0, 42.0, 21.0)
('Carrera', 23.0, 46.0, 23.0)


Convertimos los datos de nuesta [variable1] a datos DataFrame como se muestra en el código:

In [19]:
df_tabla=pd.DataFrame(tabla, columns=["df","promedio","dfNew","promedioMean"])
print(df_tabla)

        df  promedio  dfNew  promedioMean
0  Nombre       22.0   44.0          22.0
1    Edad       21.0   42.0          21.0
2  Carrera      23.0   46.0          23.0


Exportamos la [variable_exportada] a formato csv, esto creara un nuevo documento resultante con una nueva tabla de datos

## Datos DataFrame

Debes convertir tu lista en un `DataFrame` antes de exportarla:

#### Forma 1: lista de listas
```python
import pandas as pd

tabla = [[1, "A"], [2, "B"], [3, "C"]]

# Convertir en DataFrame con nombres de columnas
df = pd.DataFrame(tabla, columns=["Número", "Letra"])

# Exportar a CSV
df.to_csv("nuevo.csv", index=False)
```

#### Forma 2: lista de diccionarios
>```python
>import pandas as pd

>tabla = [
>    {"id": 1, "nombre": "Ana"},
    {"id": 2, "nombre": "Luis"}
]

df = pd.DataFrame(tabla)
df.to_csv("nuevo.csv", index=False)


#### Forma 3: lista simple (en el ejercicio se utilizó este método)
Si tu lista es algo como `[1,2,3,4]`, pandas lo convierte en una sola columna:
>```python
>import pandas as pd

>tabla = [1, 2, 3, 4]

>df = pd.DataFrame(tabla, columns=["Valores"])
df.to_csv("nuevo.csv", index=False)

---
Se utiliza este formato de generación de nuevos documentos para renombrar las columnas e identificar cada una de ellas en el caso de la variable principal del formato original [df] esta mestra la fila 1 de la tabla principal, por lo que es necesario para la presentación de el nuevo formato identificar un formato independiente de el modelo principal.

### Corrección de Formato:

Creamos una variable para cada columna:

In [20]:
columnaNombre=df.iloc[:,0]
print(columnaNombre)

0     Erik
1      Ana
2    Luis 
Name: Nombre , dtype: object


In [21]:
columnaEdad=df.iloc[:,1]
columnaCarrera=df.iloc[:,2]

Generamos una nueva matriz o tabla con las variable de datos calculados o de referencia

In [22]:
tabla=list(zip(columnaNombre,columnaEdad, columnaCarrera,promedio,promedioMean,dfNew))
for fila in tabla:
    print(fila)

('Erik', 22, 'Ingenieria', 22.0, 22.0, 44.0)
('Ana', 21, 'Fisica', 21.0, 21.0, 42.0)
('Luis ', 23, 'Matematicas', 23.0, 23.0, 46.0)


Se da nombre a cada columna para el nuevo formato

In [23]:
df_tabla=pd.DataFrame(tabla, columns=["columanNombre","columanEdad","columnaCarrera","promedio","promedioMean","dfNew"])
print(df_tabla)

  columanNombre  columanEdad columnaCarrera  promedio  promedioMean  dfNew
0          Erik           22     Ingenieria      22.0          22.0   44.0
1           Ana           21         Fisica      21.0          21.0   42.0
2         Luis            23    Matematicas      23.0          23.0   46.0


Exportamos el nuevo formato con la relación de calculosrealizados para la entrega de valores

In [24]:
df_tabla.to_csv("nuevo.csv",index=False)

# Métodología:

## 1. Declaración de librería:

`import pandas as pd`:

| Elemento | Descripción | Ejemplo/Notas |
|----------|-------------|---------------|
| **Palabra clave `import`** | Indica que se va a importar una librería o módulo externo para usar sus funciones en el programa. | `import math` carga el módulo de matemáticas. |
| **Librería `pandas`** | Es una biblioteca de Python especializada en el manejo y análisis de datos. Permite trabajar con estructuras como **Series** y **DataFrames**. | Se usa para leer archivos CSV, Excel, bases de datos, etc. |
| **Alias `as pd`** | Permite asignar un nombre corto o abreviado a la librería para facilitar su uso en el código. | En lugar de escribir `pandas.DataFrame()`, se usa `pd.DataFrame()`. |
| **Función principal del código** | Habilita el uso de todas las funciones y clases de la librería `pandas` bajo el alias `pd`. | Ejemplo: `df = pd.read_csv("archivo.csv")`. |
| **Ventaja de usar alias** | Reduce la escritura y mejora la legibilidad del código, especialmente en proyectos grandes. | Convención estándar en la comunidad Python. |

## 2. Lectura de documento:

`df = pd.read_csv("datos.csv")`

Esta línea de código asigna la matriz de datos de texto a una variable con la cual podemos manipiular los datos dentro de la tabla de datos de el documento .cvs, .txt, .xml etc.
Mantiene el formato 

`[variable documento]=[variable libreria].read_[extención doc]("nombre de el documento. extención de documento")`

para mantener este formato se debe contar con el documento en la misma carpeta donde se encuentra el código de machine learning

## 3. Creación de variables:

Se utilizan nuevas variables para desarrollo de datos dependiendo si se busca un modelo matemático (Función: lineal, logarítmico, exponencial), se busca un análisis estadístico (promedios, desviación, regresiones). Para facilitar la lectura se utiliza una declaración de variable descriptiva con el formato letra minúsculas al inicio y mayúsculas (en caso de ser identificable) ejemplo:

`variable=n` identifica una variable identifica a un número "n" 

`variableMatematica=[1,2,3,4,...,n]` identifica una variable matemática como una matriz de n datos

`variableMedica=[función]` identifica una variable médica en una función

Al nombrar una variable como descriptiva dicta que esta sea fácilmente entendible al lector que tiene acceso al código en caso matemático se pueden asignar variables como promedio, promedioTotal, promedioBimestral, suma, sumaEnero, sumaEnteros.  

## 4. Cálculos de columnas y filas

se asignan cálculos de suma de columnas, promedios etc. con las variables declaradas anteriormente y legibles como identificables para el usuario.

## 5. Nuevo formato

se asigna un nuevo formato de documento, posición de columnas y resultados importantes de análisis de documentos, por medio de las siguientes líneas de código:

`tabla=list(zip(columnaNombre,columnaEdad, columnaCarrera,promedio,promedioMean,dfNew))
for fila in tabla:
    print(fila)`


| Elemento | Descripción | Ejemplo/Notas |
|----------|-------------|---------------|
| **Función `zip()`** | Combina elementos de varias secuencias (listas, arrays, series, etc.) en tuplas, agrupando por posición. | Si `zip([1,2],[‘a’,‘b’])` → `[(1,'a'), (2,'b')]`. |
| **Conversión `list()`** | Convierte el objeto `zip` (que es un iterador) en una lista explícita de tuplas. | Permite indexar y recorrer fácilmente. |
| **Parámetros dentro de `zip()`** | Son las colecciones que se van a combinar. Cada posición de estas listas/series se agrupa en una tupla. | Ejemplo: `(columnaNombre[i], columnaEdad[i], columnaCarrera[i], promedio[i], promedioMean[i], dfNew[i])`. |

`
for fila in tabla
`

| Elemento | Descripción | Ejemplo/Notas |
|----------|-------------|---------------|
| **Palabra clave `for`** | Inicia un bucle en Python. Permite iterar sobre los elementos de una colección (lista, tupla, diccionario, etc.). | `for x in [1,2,3]: print(x)` recorre la lista. |
| **Variable `fila`** | Es la **variable iteradora** que toma, en cada ciclo, el valor de un elemento dentro de `tabla`. | Si `tabla = [(“Ana”,20),(“Luis”,22)]`, entonces `fila` será primero `("Ana",20)` y luego `("Luis",22)`. |
| **Colección `tabla`** | Es la estructura de datos sobre la que se está iterando. Puede ser una lista de tuplas, filas de un DataFrame convertido en lista, etc. | Ejemplo: `tabla = [(“Ana”,20,“Ingeniería”), (“Luis”,22,“Medicina”)]`. |
| **Uso principal** | Permite recorrer cada registro de `tabla` para aplicar operaciones, imprimir valores o procesar datos fila por fila. | Ejemplo: `for fila in tabla: print(fila[0])` imprimiría los nombres. |

`
df_tabla=pd.DataFrame(tabla, columns=["columanNombre","columanEdad","columnaCarrera","promedio","promedioMean","dfNew"])
`

| Elemento de la instrucción | Descripción |
|----------------------------|-------------|
| `df_tabla` | Nombre de la variable donde se almacenará el nuevo DataFrame. |
| `pd.DataFrame(...)` | Constructor de pandas para crear un DataFrame a partir de datos estructurados (listas, diccionarios, arrays, etc.). |
| `tabla` | Fuente de datos. En este caso, una lista de tuplas generada previamente con `zip`. Cada tupla corresponde a una fila del DataFrame. |
| `columns=[...]` | Lista de nombres de columnas que se asignan al DataFrame. Debe tener la misma longitud que el número de elementos en cada tupla de `tabla`. |

## 6. Exportación de formato

Se utiliza la siguiente línea de código explicáda anteriormente:

`df_tabla.to_csv("nuevo.csv",index=False)`

