<a href="https://colab.research.google.com/github/julianVelandia/RedesNeuronalesConPyTorch/blob/master/conocimientos-previos/1_5_Introducci%C3%B3n_a_Pandas_FULL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas


`pandas` es una librería de Python especializada en la manipulación y el análisis de datos. Es ampliamente utilizada en ciencia de datos, finanzas, estadística, entre otros campos. En este curso, exploraremos las funcionalidades clave de `pandas` desde lo más básico hasta técnicas más avanzadas.


In [None]:
!pip install pandas



## Estructuras de Datos en Pandas

### Series

Una `Series` es una estructura unidimensional que puede contener cualquier tipo de dato.

| Índice | Valor |
|--------|-------|
|   0    |   10  |
|   1    |   20  |
|   2    |   30  |
|   3    |   40  |
|   4    |   50  |

In [None]:
import pandas as pd

serie = pd.Series([10, 20, 30, 40, 50])
print("Serie de pandas con valores 10, 20, 30, 40, 50 y un índice que va de 0 a 4:\n", serie)

Serie de pandas con valores 10, 20, 30, 40, 50 y un índice que va de 0 a 4:
 0    10
1    20
2    30
3    40
4    50
dtype: int64


### DataFrame

Un `DataFrame` es una estructura bidimensional similar a una tabla en una base de datos o una hoja de cálculo.

| Nombre | Edad | Ciudad    |
|--------|------|-----------|
| Ana    |  23  | Madrid    |
| Luis   |  34  | Barcelona |
| Carlos |  45  | Valencia  |

In [None]:
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 34, 45],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)
print("DataFrame con columnas 'Nombre', 'Edad' y 'Ciudad':\n", df)

DataFrame con columnas 'Nombre', 'Edad' y 'Ciudad':
    Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    34  Barcelona
2  Carlos    45   Valencia


## Operaciones Básicas

### Acceso a los Datos

Puedes acceder a los datos de un `DataFrame` utilizando los nombres de las columnas.

In [None]:
print("Columna 'Nombre' del DataFrame:\n", df['Nombre'])

Columna 'Nombre' del DataFrame:
 0       Ana
1      Luis
2    Carlos
Name: Nombre, dtype: object


### Filtrado de Datos

Puedes filtrar los datos según condiciones específicas.

In [None]:
print("DataFrame filtrado donde la edad es mayor a 30:\n", df[df['Edad'] > 30])

DataFrame filtrado donde la edad es mayor a 30:
    Nombre  Edad     Ciudad
1    Luis    34  Barcelona
2  Carlos    45   Valencia


### Adición y Eliminación de Columnas

Puedes agregar y eliminar columnas fácilmente.

In [None]:
df['Salario'] = [50000, 60000, 70000]
print("DataFrame con nueva columna 'Salario':\n", df)

df.drop('Salario', axis=1, inplace=True)
print("DataFrame después de eliminar la columna 'Salario':\n", df)

DataFrame con nueva columna 'Salario':
    Nombre  Edad     Ciudad  Salario
0     Ana    23     Madrid    50000
1    Luis    34  Barcelona    60000
2  Carlos    45   Valencia    70000
DataFrame después de eliminar la columna 'Salario':
    Nombre  Edad     Ciudad
0     Ana    23     Madrid
1    Luis    34  Barcelona
2  Carlos    45   Valencia


## Operaciones con Datos Faltantes

### Identificación de Datos Faltantes

Es importante identificar datos faltantes para manejarlos adecuadamente.

In [None]:
df['Salario'] = [50000, 60000, None]
print("DataFrame de valores booleanos (True o False) que indican la presencia de datos faltantes (NaN) en el DataFrame:\n", df.isnull())

DataFrame de valores booleanos (True o False) que indican la presencia de datos faltantes (NaN) en el DataFrame:
    Nombre   Edad  Ciudad  Salario
0   False  False   False    False
1   False  False   False    False
2   False  False   False     True


### Manejo de Datos Faltantes

Puedes rellenar o eliminar datos faltantes.

In [None]:
df.fillna(0, inplace=True)
print("DataFrame después de reemplazar los valores faltantes por 0:\n", df)

df['Salario'] = [50000, 60000, None]
print(df)

df.dropna(inplace=True)
print("DataFrame después de eliminar cualquier fila con valores faltantes:\n", df)

DataFrame después de reemplazar los valores faltantes por 0:
    Nombre  Edad     Ciudad  Salario
0     Ana    23     Madrid  50000.0
1    Luis    34  Barcelona  60000.0
2  Carlos    45   Valencia      0.0
   Nombre  Edad     Ciudad  Salario
0     Ana    23     Madrid  50000.0
1    Luis    34  Barcelona  60000.0
2  Carlos    45   Valencia      NaN
DataFrame después de eliminar cualquier fila con valores faltantes:
   Nombre  Edad     Ciudad  Salario
0    Ana    23     Madrid  50000.0
1   Luis    34  Barcelona  60000.0


In [None]:
def incrementar(x):
    return x + 1

df['Edad'] = df['Edad'].apply(incrementar)
print("DataFrame después de incrementar en 1 la columna 'Edad' para cada fila:\n", df)

DataFrame después de incrementar en 1 la columna 'Edad' para cada fila:
             Nombre  Edad     Ciudad
Fecha                              
2023-01-01     Ana    24     Madrid
2023-02-01    Luis    35  Barcelona
2023-03-01  Carlos    46   Valencia
2023-04-01     Ana    24     Madrid
