<a href="https://colab.research.google.com/github/veruizr/ML_Doc/blob/main/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas
Pandas es una biblioteca de Python utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos flexibles y herramientas para trabajar con datos tabulares de manera eficiente.

Para instalar Pandas



In [3]:
#!pip install pandas
import pandas as pd

## Estructuras de Datos Principales
### Series
Una Series es una estructura unidimensional similar a un arreglo o lista, pero con etiquetas (índices).

In [4]:
# Crear una Series
serie = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(serie)

a    10
b    20
c    30
dtype: int64


## DataFrame
Un DataFrame es una estructura bidimensional, como una tabla, con filas y columnas etiquetadas.

In [5]:
# Crear un DataFrame
datos = {'Nombre': ['Ana', 'Luis', 'María'], 'Edad': [25, 30, 22]}
df = pd.DataFrame(datos)
print(df)

  Nombre  Edad
0    Ana    25
1   Luis    30
2  María    22


##Operaciones Básicas
#### Cargar Datos
Pandas permite leer datos desde múltiples formatos como CSV, Excel, JSON, etc.


In [None]:
# Leer un archivo CSV (ejemplo)
# df = pd.read_csv('archivo.csv')

##Inspeccionar Datos
Métodos útiles para explorar un DataFrame:

df.head(): Muestra las primeras 5 filas.\
df.info(): Resumen de los tipos de datos y valores no nulos.\
df.describe(): Estadísticas básicas de las columnas numéricas.\

### Selección de Datos
```python
Por columna:
df['Nombre']\
Por fila:
df.loc[0] (usando índice) o df.iloc[0] (usando posición).\
Condicional:
df[df['Edad'] > 25]
```

In [6]:
# Ejemplo de selección
print(df[df['Edad'] > 25])

  Nombre  Edad
1   Luis    30


## Manipulación de Datos


In [7]:
#Agregar Columnas
df['Ciudad'] = ['Madrid', 'Lima', 'Bogotá']
print(df)

  Nombre  Edad  Ciudad
0    Ana    25  Madrid
1   Luis    30    Lima
2  María    22  Bogotá


In [None]:
#Eliminar Columnas o Filas
#df.drop('Ciudad', axis=1) #Elimina la columna 'Ciudad'.

#df.drop(0, axis=0): #Elimina la fila con índice 0


```python
#Manejo de Valores Nulos
df.isnull(): #Detecta valores nulos.
df.fillna(0): #Rellena nulos con un valor.
df.dropna(): #Elimina filas con nulos.
```

## Análisis de Datos
### Agrupaciones
El método groupby permite agrupar datos y aplicar funciones como suma, promedio, etc.

In [11]:
# Agrupar por una columna y calcular el promedio
df.groupby('Ciudad')['Edad'].mean()

Unnamed: 0_level_0,Edad
Ciudad,Unnamed: 1_level_1
Bogotá,22.0
Lima,30.0
Madrid,25.0


### Combinación de DataFrames
```python
pd.concat([df1, df2]): #Une DataFrames vertical u horizontalmente.
df.merge(df2, on='columna'): #Combina usando una columna común.
```

In [2]:
import pandas as pd
#Combinación de dataframes
# DataFrame 1: Información de estudiantes
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nombre': ['Ana', 'Luis', 'María'],
    'Edad': [20, 22, 19]
})

# DataFrame 2: Notas de estudiantes
df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Materia': ['Matemáticas', 'Historia', 'Física'],
    'Nota': [85, 90, 78]
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

DataFrame 1:
   ID Nombre  Edad
0   1    Ana    20
1   2   Luis    22
2   3  María    19

DataFrame 2:
   ID      Materia  Nota
0   1  Matemáticas    85
1   2     Historia    90
2   4       Física    78


In [3]:
# Concatenar verticalmente
df_concat_vertical = pd.concat([df1, df2], axis=0, ignore_index=True)
print(df_concat_vertical)
#Las columnas que no coinciden se rellenan con NaN

   ID Nombre  Edad      Materia  Nota
0   1    Ana  20.0          NaN   NaN
1   2   Luis  22.0          NaN   NaN
2   3  María  19.0          NaN   NaN
3   1    NaN   NaN  Matemáticas  85.0
4   2    NaN   NaN     Historia  90.0
5   4    NaN   NaN       Física  78.0


In [4]:
# Concatenar horizontalmente
df_concat_horizontal = pd.concat([df1, df2], axis=1)
print(df_concat_horizontal)

   ID Nombre  Edad  ID      Materia  Nota
0   1    Ana    20   1  Matemáticas    85
1   2   Luis    22   2     Historia    90
2   3  María    19   4       Física    78


In [5]:
# merge() combina DataFrames basándose en una columna común (como una llave en bases de datos).
#Admite varios tipos de uniones: inner, outer, left, right.
# Inner merge (intersección)
#Solo incluye filas donde el 'ID' está presente en ambos DataFrames.
df_inner = df1.merge(df2, on='ID', how='inner')
print(df_inner)

   ID Nombre  Edad      Materia  Nota
0   1    Ana    20  Matemáticas    85
1   2   Luis    22     Historia    90


In [None]:
# Left merge
#Incluye todas las filas de df1, añadiendo datos de df2 cuando hay coincidencia
df_left = df1.merge(df2, on='ID', how='left')
print(df_left)

In [6]:
#join() combina DataFrames usando sus índices.
#Es útil cuando los DataFrames tienen índices alineados.
# Establecer 'ID' como índice
df1_indexed = df1.set_index('ID')
df2_indexed = df2.set_index('ID')

# Unir con join
df_joined = df1_indexed.join(df2_indexed, how='inner')
print(df_joined)

   Nombre  Edad      Materia  Nota
ID                                
1     Ana    20  Matemáticas    85
2    Luis    22     Historia    90
