## 📘 Domina tus datos con Pandas: Fundamentos esenciales para todo Analista 🐼

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars


In [1]:
# Instalar librería: pip install pandas
# Importamos la librería
import pandas as pd

### 📌 Series en Pandas: El poder de una columna con alma de array

#### ✅ DEFINICIÓN DE UNA SERIE EN PANDAS 🐼

Sintaxis: 

serie=pd.Series(elementos_serie,index=IndicesPreviamenteDefinidos) ⬅️ El parámetro "index", es opcional!.

**Importante: Al definir los indices para las series establecidas, debemos tener la misma cantidad de elementos 
              para el indice y para la información. En caso, no establezcamos la propiedad index=,
              Pandas mostrará para el indice de los datos una serie de números basado en la cantidad de datos (empezando en 0).

In [None]:
# Serie - Ejemplo 1 (Con índices establecidos):
data_1=[1,2,3,4,5]
serie_1=pd.Series(data=data_1,index=["A","B","C","D","E"]) 
print("==== SERIE 1 - ÍNDICES ESTABLECIDOS:")
print(serie_1)
# Serie - Ejemplo 2 (Sin índices establecidos):
data_2=[1,2,3,4,5]
serie_2=pd.Series(data=data_2)
print("==== SERIE 1 - ÍNDICES NO ESTABLECIDOS") 
print(serie_2)
# Serie - Ejemplo 3 (Diversos tipos de datos en la Serie):
data_2=[1,2.5,3,"Hola",True]
serie_2=pd.Series(data=data_2)
print("==== SERIE 1 - ÍNDICES NO ESTABLECIDOS") 
print(serie_2)

==== SERIE 1 - ÍNDICES ESTABLECIDOS:
A    1
B    2
C    3
D    4
E    5
dtype: int64
==== SERIE 1 - ÍNDICES NO ESTABLECIDOS
0    1
1    2
2    3
3    4
4    5
dtype: int64
==== SERIE 1 - ÍNDICES NO ESTABLECIDOS
0       1
1     2.5
2       3
3    Hola
4    True
dtype: object


#### ✅ Operaciones con Series en Pandas

In [14]:
serie_example = pd.Series(data=[10,15,35,2,82,15,13]) # ⬅️ Trabajaré sin índices en esta serie de ejemplo
serie_example

0    10
1    15
2    35
3     2
4    82
5    15
6    13
dtype: int64

In [15]:
# a). Obtener un valor por el índice establecido
print(serie_example[5]) # ⬅️ Accedemos el elemento del índice 5



15


In [16]:
# b). Filtrar valores: Para realizar el filtrado debemos llamar a la serie y luego entre [] llamar a la serie y aplicar la condicion.
# Sintaxis: print(nombre_serie[nombre_serie + condición]) ⬅️ condiciones usando operadores lógicos: > | < | = | >= | <= | !=
# Ejemplo : 
print(serie_example[serie_example>18]) # ( Valores de la serie mayores a 18 )


2    35
4    82
dtype: int64


In [17]:
# c). Realizar operaciones aritméticas básicas:
# Sintaxis: print(nombre_serie + | - | * | / | Valor)
# Ejemplo : 
print(serie_example + 10) # ⬅️ Aumentar +10 cada elemento de la serie

0    20
1    25
2    45
3    12
4    92
5    25
6    23
dtype: int64


In [29]:
# d). Reemplazar valores por condiciones (.mask(), .where(), .apply())
# 💡Objetivo: Reemplazamos valores mayores a 30, por 100.
# Sintaxis: 

# serie = nombre_serie.mask(condición_serie,valor_reemplazar) # ⬅️ Usando .mask() (llamamos a la serie y reemplaza donde el valor es True)
# serie = serie.where(condición_serie_inversa,valor_reemplazar_condicion) # ⬅️ Usando .where() (Funciona inversamente al requerimiento)
# serie = serie.apply(lambda x: valor_cumple if condicion else valor_no_cumple ) # Usando .apply() mediante lambda function.

# Ejemplo:

serie_1 = serie_example.mask(serie_example>30,100) # ⬅️ Usando .mask() (llamamos a la serie y condicionamos los valores mayor a 100)
print("========== SERIE 1")
print(serie_1)
serie_2 = serie_example.where(serie_example<30,100) # Usando .where() Los valores menor a 30 no cambian, los demás sí (100).
print("========== SERIE 2")
print(serie_2)
serie_3 = serie_example.apply(lambda x: 100 if x>30 else x ) # Usando .apply() El x, es cada elemento de la serie y se evalua.
print("========== SERIE 3")
print(serie_3)

0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64
0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64
0     10
1     15
2    100
3      2
4    100
5     15
6     13
dtype: int64


### 📌 Dataframes en Pandas: ...

#### ✅ DEFINICIÓN DE UN DATAFRAME EN PANDAS 🐼

Son estructuras de datos bidimensionales, que permiten almacenar información en forma de una matriz (FilasxColumnas),
las cuáles, deben estar de acorde al tipo de dato definido en la columna. Además, es una de las estructuras de datos
más utilizadas en Análisis, Ingeniería y Ciencia de datos debido que permite la manipulación de información.

SINTAXIS:

        dataframe_nombre = pd.DataFrame(data=DatosDataframe,columns=NombreColumnasPreviamenteDefinidas,index=[Opcional])

        data: Información que contedrá el dataframe
        columns: Las columas que presentará el dataframe
        index: Indices opcionales que podemos asignarle

In [None]:
# DEFINIR UN DATAFRAME MEDIANTE UN DICCIONARIO
"""
📝 Nota: Si queremos definir un dataframe desde un diccionario, las claves del diccionario se convertirán
         en las columnas del dataframe y los valores serán la información almacenada bidireccionalmente
         por cada columna del dataframe.
"""
diccionario_example = {
    "Nombre":["Brayan","Rafael","Pepito"],
    "Edad": [25,27,20],
    "Nota":[15,10,16]
}
dict_to_df = pd.DataFrame(diccionario_example)
dict_to_df.head() # ⬅️ Función básica que permite ver los 5 primeros registros de un dataframe. 


Unnamed: 0,Nombre,Edad,Nota
0,Brayan,25,15
1,Rafael,27,10
2,Pepito,20,16


In [None]:
# DEFINIR UN DATAFRAME DESDE CERO
dataframe = pd.DataFrame(data=[["Brayan",25,15],["Rafael",27,10],["Pepito",20,16]],
                         columns=["Nombre","Edad","Nota"]) # ⬅️ Sin establecer índice
# dataframe.head()
dataframe_indice = pd.DataFrame(data=[["Brayan",25,15],["Rafael",27,10],["Pepito",20,16]],
                                columns=["Nombre","Edad","Nota"],index=["A","B","C"]) #⬅️ Estableciendo índice
# dataframe_indice.head()

"""
💡 Importante: Al definir las columnas para el Dataframe debemos tener en cuenta que
               si un solo registro tiene la misma cantidad de elementos de acuerdo a la cantidad de columnas,
               por defecto, se asignará el valor NaN a los valores faltantes. Caso contrario, si genera error,
               porque ninguna de sus filas, tiene la misma cantidad de elementos que la de sus columnas.
               Por otro lado, la propiedad index en los dataframe será opcional y si es llamada 
               se realizará lo mismo que en las series.
"""

dataframe_valores_faltantes = pd.DataFrame(data=[["Brayan",15],["Rafael",10,15],["Pepito",20]],
                                columns=["Nombre","Edad","Nota"])
dataframe_valores_faltantes.head() # ✅ Los valores faltantes se vuelven NaN sin generar error.


# dataframe_valores_faltantes = pd.DataFrame(data=[["Brayan",15],["Rafael",15],["Pepito",20]],
#                                 columns=["Nombre","Edad","Nota"])
# dataframe_valores_faltantes.head() # ❌ Genera error porque los datos solo tiene 2 elementos y el dataframe presenta 3 columnas.


Unnamed: 0,Nombre,Edad,Nota
0,Brayan,15,
1,Rafael,10,15.0
2,Pepito,20,


In [None]:
# DEFINIR UN DATAFRAME COLUMNA POR COLUMNA

dataframe_columna_a_columna = pd.DataFrame() # ⬅️ Inicializamos un dataframe vacío (Así como cuando inicializamos un objeto vacío en programación)
# dataframe_columna_a_columna.head()

"""
    📝Nota: Para definir una nueva columna en un dataframe, debemos llamar al dataframe y
            entre corchetes ["NombreColumna"] definimos la columna. Asimismo, cada columna que
            se crea, Pandas internamente le asigna un tipo de dato (int,float,bool,etc), sin embargo,
            si se definen diferentes tipos de datos Pandas asigna un tipo objeto.
"""

dataframe_columna_a_columna["ColumnaEdad"] = [10,16,18,20] 
dataframe_columna_a_columna["ColumnaObjeto"] = ["Brayan",15,45.5,10]
# dataframe_columna_a_columna.head()

"""
    💡Importante: Al definir columna por columna un dataframe en Pandas debemos si o sí colocar
                  la misma cantidad de datos entre cada columna.                  
"""
# dataframe_columna_a_columna["ColumnaError"] = [23,True] # ❌ Esto genera un error.
# dataframe_columna_a_columna.head() 


Unnamed: 0,ColumnaEdad,ColumnaObjeto,ColumnaError
0,10,Brayan,23
1,16,15,True
2,18,45.5,
3,20,10,
