# Introducción a Pandas

****************************************************************
### <span style="color:darksalmon"> DATAFRAME </span> 
****************************************************************

## ¿Qué es un DataFrame en Pandas?
Un DataFrame es una estructura de datos fundamental en la biblioteca Pandas (usada en Python), que se parece a una tabla de datos, como las que usamos en hojas de cálculo o bases de datos. Un DataFrame organiza los datos en filas y columnas, lo que lo hace ideal para manejar grandes conjuntos de datos de forma fácil y eficiente.

Cada columna en un DataFrame puede tener un tipo de dato diferente (por ejemplo, una columna puede ser de números, otra de texto), lo que lo hace muy flexible. Además, incluye funciones y métodos que permiten manipular, analizar y procesar los datos de forma sencilla.

### Características de un DataFrame:
**Su estructura:**<br>
Un DataFrame está organizado en ``filas`` y ``columnas``. Cada fila representa una entrada u observación (como un registro o fila en una base de datos), y cada columna representa una característica o campo (como una columna en una tabla de Excel).

**Etiquetas (o índices)**:
Los DataFrames tienen índices que sirven para identificar cada fila. Estos índices son similares a los nombres de las filas en una hoja de cálculo y pueden ser números o etiquetas personalizadas.
También puedes personalizar las etiquetas de las columnas, lo que permite referirse a las columnas por su nombre.

* Columnas heterogéneas:<br>
Las columnas pueden contener tipos de datos diferentes. Por ejemplo, una columna puede tener números enteros (int), otra puede tener textos (str), y otra puede tener fechas (datetime).

* Operaciones vectorizadas: <br>
Pandas permite realizar operaciones matemáticas y estadísticas sobre columnas enteras de datos, sin necesidad de recorrer cada fila de forma manual. Esto es mucho más eficiente y rápido.

* Fácil manejo de datos faltantes (NaN):<br>
Pandas tiene funciones que permiten identificar, manejar y eliminar valores faltantes (NaN, Not a Number) de los datos de forma sencilla, lo que es muy útil en situaciones de datos incompletos o sucios.

* Filtrado y selección eficiente:<br>
Puedes filtrar datos específicos basados en ciertas condiciones (por ejemplo, todas las filas donde una columna tenga valores mayores a 100) o seleccionar solo algunas columnas que necesites.

* Compatibilidad con otras fuentes de datos:<br>
Los DataFrames son compatibles con varios tipos de datos externos. Puedes crear un DataFrame importando datos desde un archivo CSV, Excel, SQL, o incluso desde fuentes de datos en línea como APIs.

Ejemplos básicos de DataFrame en Pandas
1. <span style="color:aqua"> Crear un DataFrame </span> <br>
Un DataFrame es una tabla que contiene varias Series (columnas) juntas.

In [1]:
import pandas as pd

# Crear un DataFrame simple
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 30, 25],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

data


{'Nombre': ['Ana', 'Luis', 'Carlos'],
 'Edad': [23, 30, 25],
 'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}

In [2]:
df = pd.DataFrame(data)
df# Mostrar el DataFrame

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,30,Barcelona
2,Carlos,25,Valencia


In [3]:
# Información general de nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [46]:
df.describe(include='object')

ValueError: No objects to concatenate

2. <span style="color:aqua"> Acceder a columnas y filas</span>

Para acceder a una columna:

In [4]:
# Acceder a la columna "Nombre"
df['Nombre']

0       Ana
1      Luis
2    Carlos
Name: Nombre, dtype: object

Para acceder a una fila específica por su índice:

In [5]:
# Acceder a la primera fila
print(df.iloc[0])

Nombre       Ana
Edad          23
Ciudad    Madrid
Name: 0, dtype: object


3. <span style="color:aqua"> Operaciones Básicas con Pandas </span>

3.1. Inspección de Datos <br>
Una vez que cargamos los datos en un DataFrame, podemos inspeccionarlos rápidamente:

In [6]:
df.head() # Muestra las primeras 5 filas

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,30,Barcelona
2,Carlos,25,Valencia


In [7]:
#Ver las últimas filas:

df.tail() # Muestra las últimas 5 filas

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,30,Barcelona
2,Carlos,25,Valencia


In [8]:
# Resumen estadístico de los datos numéricos

df.describe()

#Este comando te dará información como el promedio, la desviación estándar, el mínimo, máximo, etc.

Unnamed: 0,Edad
count,3.0
mean,26.0
std,3.605551
min,23.0
25%,24.0
50%,25.0
75%,27.5
max,30.0


3.2.  Selección de Datos <br>
Seleccionar una columna:

In [9]:
df['Nombre'] # Selecciona la columna 'Nombre'

0       Ana
1      Luis
2    Carlos
Name: Nombre, dtype: object

In [10]:
# Seleccionar varias columnas:

df[['Ciudad', 'Nombre']]

Unnamed: 0,Ciudad,Nombre
0,Madrid,Ana
1,Barcelona,Luis
2,Valencia,Carlos


In [11]:
# Seleccionar una fila por índice:

df.loc[1] # Selecciona la segunda fila (índice 1)

Nombre         Luis
Edad             30
Ciudad    Barcelona
Name: 1, dtype: object

In [12]:
# Seleccionar por etiqueta de fila y columna:
df.loc[0, 'Nombre']  # Nombre en la primera fila

'Ana'

3.3 Filtrado de Datos
Filtrar datos en un DataFrame es muy útil para extraer subconjuntos específicos. Aquí algunos ejemplos:

In [13]:
# Filtrar filas según una condición:
# Filtrar las personas que tienen más de 30 años
filtro = df[df['Edad'] >25]
filtro

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,30,Barcelona


In [14]:
# Filtrar por múltiples condiciones:

# Filtrar personas mayores de 30 años y de Madrid
filtro = df[(df['Edad'] >= 23) & (df['Ciudad'] == 'Barcelona')]
filtro

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,30,Barcelona


In [15]:
filtro = df[(df['Edad'] >= 23) | (df['Ciudad'] == 'Barcelona')]
filtro

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,30,Barcelona
2,Carlos,25,Valencia


3.4 Añadir, Modificar y Eliminar Datos

In [16]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Luis,30,Barcelona
2,Carlos,25,Valencia


In [17]:

# Añadir una nueva columna:
df['Salario'] = [30000, 40000, 50000]  # Nueva columna 'Salario'
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Madrid,30000
1,Luis,30,Barcelona,40000
2,Carlos,25,Valencia,50000


In [18]:
# Modificar una columna existente:
df['Edad'] = df['Edad'] + 10  # Incrementar la edad en 1
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,33,Madrid,30000
1,Luis,40,Barcelona,40000
2,Carlos,35,Valencia,50000


In [19]:
#Eliminar columnas o filas:

# Eliminar una columna
df_sin_edad = df.drop(columns=['Edad'])
df_sin_edad

Unnamed: 0,Nombre,Ciudad,Salario
0,Ana,Madrid,30000
1,Luis,Barcelona,40000
2,Carlos,Valencia,50000


In [20]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,33,Madrid,30000
1,Luis,40,Barcelona,40000
2,Carlos,35,Valencia,50000


In [21]:
# Eliminar una fila por su índice
df_sin_fila = df.drop(index=2)  # Elimina la fila con índice 2
df_sin_fila

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,33,Madrid,30000
1,Luis,40,Barcelona,40000


In [22]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,33,Madrid,30000
1,Luis,40,Barcelona,40000
2,Carlos,35,Valencia,50000


3.5 Agrupación de Datos
Una de las características más potentes de Pandas es la capacidad de agrupar datos y realizar agregaciones.

In [23]:
# Agrupar por 'Ciudad' y obtener la media de las edades
agrupado = df.groupby('Ciudad')['Edad'].mean()
agrupado

Ciudad
Barcelona    40.0
Madrid       33.0
Valencia     35.0
Name: Edad, dtype: float64

3.6 Ordenar Datos <br>
Ordenar un DataFrame por una o varias columnas.

In [24]:
# Ordenar por la columna 'Edad'
df_ordenado = df.sort_values(by='Ciudad' , ascending=True)
df_ordenado

Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Luis,40,Barcelona,40000
0,Ana,33,Madrid,30000
2,Carlos,35,Valencia,50000


3.7 Manejo de Datos Nulos <br>
Es común encontrar valores nulos en conjuntos de datos. Pandas proporciona herramientas para manejar estos casos.

In [25]:
# Detectar valores nulos:
df.isnull()  # Devuelve un DataFrame con True en posiciones nulas


Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False


In [26]:
# Eliminar filas con valores nulos:
df_sin_nulos = df.dropna()  # Elimina las filas que contienen valores nulos
df_sin_nulos

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,33,Madrid,30000
1,Luis,40,Barcelona,40000
2,Carlos,35,Valencia,50000


In [27]:
# Rellenar valores nulos:
df_relleno = df.fillna(0)  # Reemplaza los valores nulos con 0

3.8 Operaciones con Archivos <br>
Pandas también es muy útil para leer y escribir datos desde/para diferentes formatos de archivos.
Cómo ejemplo sólo lo haremos en csv. Pero más adelante veremos todos los tipo de archivos que pandas permite

In [28]:
# Leer un archivo CSV:
df = pd.read_csv('president_heights.csv') 
df.head()

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183


In [29]:
# Escribir un DataFrame a CSV:
df.to_csv('nuevo_fichero.csv', index=False) 

4. <span style="color:aqua"> Otras Funcionalidades de Pandas </span> <br>
Concatenar y Unir DataFrames <br>
Pandas permite unir o concatenar varios DataFrames.

In [30]:
# Concatenar DataFrames:

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})



In [31]:
df1

Unnamed: 0,A,B
0,1,3
1,2,4


In [32]:
df2 

Unnamed: 0,A,B
0,5,7
1,6,8


In [33]:
df_concatenado = pd.concat([df2, df1])
df_concatenado

Unnamed: 0,A,B
0,5,7
1,6,8
0,1,3
1,2,4


In [34]:
df_concatenado = pd.concat([df1, df2])
df_concatenado

Unnamed: 0,A,B
0,1,3
1,2,4
0,5,7
1,6,8


In [35]:
# Unir DataFrames (Merge):

df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Pedro']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Salario': [50000, 60000, 70000]})

df1





Unnamed: 0,ID,Nombre
0,1,Ana
1,2,Luis
2,3,Pedro


In [36]:
df2

Unnamed: 0,ID,Salario
0,1,50000
1,2,60000
2,4,70000


In [37]:
df_unido = pd.merge(df1, df2, on='ID', how='inner')  # Unión por 'ID'
df_unido

Unnamed: 0,ID,Nombre,Salario
0,1,Ana,50000
1,2,Luis,60000


In [38]:
df_unido_R = pd.merge(df1, df2, on='ID', how='right')  # Unión por 'ID'
df_unido_R

Unnamed: 0,ID,Nombre,Salario
0,1,Ana,50000
1,2,Luis,60000
2,4,,70000


In [39]:
df_unido_l = pd.merge(df1, df2, on='ID', how='left')  # Unión por 'ID'
df_unido_l

Unnamed: 0,ID,Nombre,Salario
0,1,Ana,50000.0
1,2,Luis,60000.0
2,3,Pedro,


In [40]:
df_unido_o = pd.merge(df1, df2, on='ID', how='outer')  # Unión por 'ID'
df_unido_o

Unnamed: 0,ID,Nombre,Salario
0,1,Ana,50000.0
1,2,Luis,60000.0
2,3,Pedro,
3,4,,70000.0


In [41]:
# Podemos trasponer una matriz
df_unido.transpose()

Unnamed: 0,0,1
ID,1,2
Nombre,Ana,Luis
Salario,50000,60000


In [42]:
# get_dummies transforman variables categóricas en variables numéricas
data = {'Género': ['Masculino', 'Femenino', 'Masculino', 'Otro']}
df = pd.DataFrame(data)
df

Unnamed: 0,Género
0,Masculino
1,Femenino
2,Masculino
3,Otro


In [43]:
# Al aplicar get_dummies, creamos nuevas columnas para cada género:
df = pd.get_dummies(df)
df

Unnamed: 0,Género_Femenino,Género_Masculino,Género_Otro
0,False,True,False
1,True,False,False
2,False,True,False
3,False,False,True


5. <span style="color:aqua">Guardar un DataFrame en un archivo CSV </span>

In [44]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('archivo_salida.csv', index=False)

``Conclusión`` <br>
Pandas es una herramienta increíblemente versátil para la manipulación y análisis de datos en Python. Te permite hacer desde operaciones simples como seleccionar datos, hasta análisis más avanzados como agrupaciones, filtrado y manejo de grandes volúmenes de datos. Los ejemplos que hemos visto te darán una base sólida para empezar a explorar más en profundidad esta potente biblioteca.