##
 Repaso Python 

# 7. Nan & null treatment
En pandas, los valores faltantes suelen representarse como: 
-   NaN (para datos numéricos) 
-   None (para datos de tipo objeto).  <br>

Puedes usar las funciones isna() o isnull() para identificarlos

In [2]:
import pandas as pd
import numpy as np

#DataFrame con valores faltantes
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [np.nan, 2, 3, 4],
    'C': [1, 2, 3, None]
})

# Identificar valores faltantes
print(df)
print("----")
print(df.isna())
print("----")
print(df.isnull())

     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN
----
       A      B      C
0  False   True  False
1  False  False  False
2   True  False  False
3  False  False   True
----
       A      B      C
0  False   True  False
1  False  False  False
2   True  False  False
3  False  False   True


## Relleno de Valores Faltantes con Fillna()


fillna() es una función clave para rellenar valores faltantes te permite rellenar con un valor específico con todo tipo de datos
-   media -> Saca el promedio de la columna
-   mediana, -> saca el promedio de la columna
-   usar métodos de interpolación. -> estimar valores desconocidos entre un conjunto de datos conocidos. Exsite 
-               Lineal, spline y Temporar(para tiempo)       


In [48]:
data_filled = df.fillna(0)

# Rellenar con la media de cada columna
data_filled_mean = df.fillna(df.mean())

print("Data Frame original")
print(df)
print("Relleno con ceros")
print(data_filled)
print("Relleno con el promedio")
print(data_filled_mean)

Data Frame original
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  NaN
Relleno con ceros
     A    B    C
0  1.0  0.0  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  0.0
Relleno con el promedio
     A    B    C
0  1.0  3.0  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  2.0


In [49]:
# Interpolación lineal para rellenar valores faltantes
data_interpolated = df.interpolate()
data_interpolated_polinomial = df.interpolate(method='polynomial', order=2)

print("Data Frame original")
print(df)
print("Interpolacion lineal, Sin valores anteriores para calcular la interpolación, pandas no puede estimar el valor de B en el índice 0 y deja el NaN.")
print(data_interpolated)
print("Interpolacion polinomial")
print(data_interpolated_polinomial)


Data Frame original
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  NaN
Interpolacion lineal, Sin valores anteriores para calcular la interpolación, pandas no puede estimar el valor de B en el índice 0 y deja el NaN.
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  3.0
Interpolacion polinomial
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  NaN


## Eliminación de Valores Faltantes con Dropna()
Sirve para eliminar filas o columnas que contienen calores faltantes

In [30]:
# Eliminar filas con cualquier valor faltante
data_dropped_rows = df.dropna()

# Eliminar columnas con cualquier valor faltante
data_dropped_columns = df.dropna(axis=1)

# Eliminar solo si toda la fila está faltante
data_dropped_all = df.dropna(how='all')

print("DataFrame original")
print(df)
print("Eliminar filas con Nan")
print(data_dropped_rows)
print("Eliminar columnas con Nan")
print(data_dropped_columns)
print("Eliminar si toda la fila tiene datos faltantes")
print(data_dropped_all)

DataFrame original
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN
Eliminar filas con Nan
     A    B    C
1  2.0  2.0  2.0
Eliminar columnas con Nan
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]
Eliminar si toda la fila tiene datos faltantes
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN


## Reemplazo Condicional de Valores Faltantes (apply() y lambda)
se usar apply() junto con lambda para aplicar funciones personalizadas que manejen valores faltantes según condiciones específicas

In [31]:
# Reemplazar NaN en la columna 'A' con un valor condicional
df_2 = df
df_2['A'] = df_2['A'].apply(lambda x: 0 if pd.isna(x) else x)
print(df)
print(df_2)

     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  NaN
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  NaN


## Práctica 
Dado el data frame valores faltantes y rellena esos valores con la mediana de cada columna.

In [33]:
df_practica = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [np.nan, 2, 3, 4],
    'C': [1, 2, 3, None]
})

print(df_practica)

Fillet_data_mean= df_practica.fillna(df_practica.mean())
print(Fillet_data_mean)

     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN
          A    B    C
0  1.000000  3.0  1.0
1  2.000000  2.0  2.0
2  2.333333  3.0  3.0
3  4.000000  4.0  2.0


# 9. Merge
El concepto de merge en pandas es similar a la operación de "JOIN" en SQL. Se utiliza para combinar dos DataFrames en uno solo, basándose en una o más claves comunes entre ellos. Pandas te permite hacer diferente tipos de combinaciones
-   inner join (union interna)
-   outer join (union externa)
-   Left join (union izquierda)
-   right join (union derecha)

<div style="text-align: center;">
  <img src="./imagenes/merge_join.png" alt="Descripción de la imagen" width="400"/>
</div>



## Data Frame

In [36]:
# DataFrame 1
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value_df1': [1, 2, 3, 4]
})

# DataFrame 2
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value_df2': [5, 6, 7, 8]
})

print(df1)
print (df2)

  key  value_df1
0   A          1
1   B          2
2   C          3
3   D          4
  key  value_df2
0   B          5
1   D          6
2   E          7
3   F          8


In [47]:
result_inner = pd.merge(df1, df2, on='key')
print("df 1")
print(df1)
print("df 2")
print(df2)
print("resultado merge inner")
print(result_inner)

df 1
  key  value_df1
0   A          1
1   B          2
2   C          3
3   D          4
df 2
  key  value_df2
0   B          5
1   D          6
2   E          7
3   F          8
resultado merge inner
  key  value_df1  value_df2
0   B          2          5
1   D          4          6


## Inner merge (union interna)
Retorna solo las filas que tienen coincidencias en ambas tablas. Este es el comportamiento por defecto.


## Outer merge (Union externa)
Retorna todas las filas de ambos DataFrames, llenando con NaN donde no hay coincidencias.


In [40]:
result_outer = pd.merge(df1, df2, on='key', how='outer')

print("df 1")
print(df1)
print("df 2")
print(df2)
print("resultado merge outer")
print(result_outer)


df 1
  key  value_df1
0   A          1
1   B          2
2   C          3
3   D          4
df 2
  key  value_df2
0   B          5
1   D          6
2   E          7
3   F          8
resultado merge outer
  key  value_df1  value_df2
0   A        1.0        NaN
1   B        2.0        5.0
2   C        3.0        NaN
3   D        4.0        6.0
4   E        NaN        7.0
5   F        NaN        8.0


## Left merge (union izquierda)
Retorna todas las filas del DataFrame izquierdo, y solo las coincidencias del DataFrame derecho. Las filas no coincidentes en el DataFrame derecho se rellenan con NaN.


In [42]:
result_left = pd.merge(df1, df2, on='key', how='left')

print("df 1")
print(df1)
print("df 2")
print(df2)
print("resultado merge outer")
print(result_left)

df 1
  key  value_df1
0   A          1
1   B          2
2   C          3
3   D          4
df 2
  key  value_df2
0   B          5
1   D          6
2   E          7
3   F          8
resultado merge outer
  key  value_df1  value_df2
0   A          1        NaN
1   B          2        5.0
2   C          3        NaN
3   D          4        6.0


## Right merge (union derecha)
Retorna todas las filas del DataFrame derecho, y solo las coincidencias del DataFrame izquierdo. Las filas no coincidentes en el DataFrame izquierdo se rellenan con NaN.


In [46]:
result_right = pd.merge(df1, df2, on='key', how='right')
print("df 1")
print(df1)
print("df 2")
print(df2)
print("resultado Right join")
print(result_right)

df 1
  key  value_df1
0   A          1
1   B          2
2   C          3
3   D          4
df 2
  key  value_df2
0   B          5
1   D          6
2   E          7
3   F          8
resultado Right join
  key  value_df1  value_df2
0   B        2.0          5
1   D        4.0          6
2   E        NaN          7
3   F        NaN          8


# 10. Join
En pandas, el método join() se utiliza para combinar dos DataFrames basados en el índice (o en un índice y una columna). Aunque el concepto es similar al de merge, join() es especialmente útil cuando deseas combinar DataFrames que comparten el mismo índice o cuando estás trabajando con un índice en particular.


## DataFrame

In [53]:

# DataFrame 1
df1_join = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['a', 'b', 'c'])

# DataFrame 2
df2_join = pd.DataFrame({
    'C': [7, 8, 9],
    'D': [10, 11, 12]
}, index=['b', 'c', 'd'])

#print(df1)

## Outer Join (Unión externa):
Retiene todas las filas de ambos DataFrames, rellenando con NaN donde no hay coincidencias en los índices.

In [58]:
result_JoinOuter = df1.join(df2, how='outer')

print("df 1")
print(df1_join)
print("df 2")
print(df2_join)
print("resultado Join inner")
print(result_JoinOuter)

df 1
   A  B
a  1  4
b  2  5
c  3  6
df 2
   C   D
b  7  10
c  8  11
d  9  12
resultado Join inner
     A    B    C     D
a  1.0  4.0  NaN   NaN
b  2.0  5.0  7.0  10.0
c  3.0  6.0  8.0  11.0
d  NaN  NaN  9.0  12.0


## Inner Join (Unión interna)
Retiene solo las filas donde hay coincidencias en los índices de ambos DataFrames.




In [57]:
result_joinInner = df1.join(df2, how='inner')

print("df 1")
print(df1_join)
print("df 2")
print(df2_join)
print("resultado Join Inner")
print(result_joinInner)

df 1
   A  B
a  1  4
b  2  5
c  3  6
df 2
   C   D
b  7  10
c  8  11
d  9  12
resultado Join Inner
   A  B  C   D
b  2  5  7  10
c  3  6  8  11


## Left join 
Combina todas las filas del DataFrame original (left), añadiendo columnas del DataFrame que estás uniendo (right) donde los índices coinciden. Las filas no coincidentes en el right son rellenas con NaN.


In [62]:
result_JoinLeft = df1.join(df2)

print("df 1")
print(df1_join)
print("df 2")
print(df2_join)
print("resultado Join Inner")
print(result_JoinLeft)

df 1
   A  B
a  1  4
b  2  5
c  3  6
df 2
   C   D
b  7  10
c  8  11
d  9  12
resultado Join Inner
   A  B    C     D
a  1  4  NaN   NaN
b  2  5  7.0  10.0
c  3  6  8.0  11.0


## Right Join 
Retiene todas las filas del DataFrame derecho, y rellena con NaN donde no hay coincidencias en el DataFrame izquierdo.



In [59]:
result_JoinRight = df1.join(df2, how='right')

print("df 1")
print(df1_join)
print("df 2")
print(df2_join)
print("resultado Join Inner")
print(result_JoinRight)


df 1
   A  B
a  1  4
b  2  5
c  3  6
df 2
   C   D
b  7  10
c  8  11
d  9  12
resultado Join Inner
     A    B  C   D
b  2.0  5.0  7  10
c  3.0  6.0  8  11
d  NaN  NaN  9  12


## Practica
Dado los DataFrames con datos de tiempo (fechas como índice) y usa join() para combinarlos, explorando las diferencias entre left, right, inner y outer joins.

# 11. Concat

El método concat() en pandas se utiliza para **concatenar o unir DataFrames y Series**. A diferencia de merge o join, que combinan datos basándose en claves o índices, **concat une los datos de manera directa**, ya sea por filas (verticalmente) o por columnas (horizontalmente). Este método es útil cuando deseas unir varios DataFrames que **tienen la misma estructura** o cuando necesitas agregar nuevos datos a un conjunto de datos existente.

## DataFrame

In [5]:
# DataFrame 1
import pandas
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=[0, 1, 2])

# DataFrame 2
df2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5']
}, index=[3, 4, 5])

#print(df1)
#print(df2)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
5  A5  B5


## Concatenar por filas (Verticalmente)
Se apilan los DataFrames uno sobre otro.


In [8]:
result_row = pd.concat([df1, df2])
print (result_row)


    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5


## Concatenar por Columnas (Horizontalmente):
Se combinan los DataFrames uno al lado del otro, creando un único DataFrame con el doble de columnas. Los índices de df1 y df2 se mantienen, y si los índices no coinciden, se rellenan con NaN.




In [21]:
result_column = pd.concat([df1, df2], axis=1)
print (result_column)


     A    B    A    B
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
2   A2   B2  NaN  NaN
3  NaN  NaN   A3   B3
4  NaN  NaN   A4   B4
5  NaN  NaN   A5   B5


## Agregar Índices o Llaves:
Puedes añadir un nuevo índice a los datos concatenados para distinguir entre las diferentes fuentes. Esto añade un nuevo nivel de índice (df1 y df2) para indicar la procedencia de los datos.



In [22]:
result_key = pd.concat([df1, df2], keys=['df1', 'df2'])

print(result_key)


        A   B
df1 0  A0  B0
    1  A1  B1
    2  A2  B2
df2 3  A3  B3
    4  A4  B4
    5  A5  B5


## Practica
Con los datas frames con datos de ventas trimestrales. Únelos usando concat para crear un único DataFrame con las ventas anuales.

In [14]:
# Ventas del primer trimestre
df_q1 = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [150, 200, 130],
    'Trimestre': ['Q1', 'Q1', 'Q1']
})

# Ventas del segundo trimestre
df_q2 = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [180, 210, 160],
    'Trimestre': ['Q2', 'Q2', 'Q2']
})

# Ventas del tercer trimestre
df_q3 = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [200, 230, 170],
    'Trimestre': ['Q3', 'Q3', 'Q3']
})
print(df_q1)

  Producto  Ventas Trimestre
0        A     150        Q1
1        B     200        Q1
2        C     130        Q1


In [20]:
Answer = pd.concat([df_q1,df_q2,df_q3],keys=['First','Second','Third '])
print (Answer)

         Producto  Ventas Trimestre
First  0        A     150        Q1
       1        B     200        Q1
       2        C     130        Q1
Second 0        A     180        Q2
       1        B     210        Q2
       2        C     160        Q2
Third  0        A     200        Q3
       1        B     230        Q3
       2        C     170        Q3


# 12 Time manipulation
La manipulación de datos temporales es fundamental en ciencia de datos, especialmente cuando trabajas con series temporales, análisis de tendencias, o cualquier dato que dependa del tiempo.



## Conversion de fechas
Convierte cadenas de texto a objetos datetime usando pd.to_datetime(). Para esto existe varios formatos en los que puede venir el texto como:
-   Formato de Fecha simple (YYYY-MM-DD)
-   Formato de Fecha y hora (YYYY-MM-DD-HH:MM)
-   Formato con diferentes separadores (DD/MM/YYYY)
-   Fecha con Año, Mes y Día en diferentes columnas 


### Formato de Fecha simple (YYYY-MM-DD)
Este es el formato de fecha ISO estándar. pandas lo reconoce automáticamente.

In [43]:
df = pd.DataFrame({'Fecha': ['2024-01-01', '2024-02-15', '2024-03-30']})
print(f'Tipo de dato inicial de fecha ',df.dtypes["Fecha"])

df['Fecha'] = pd.to_datetime(df['Fecha'])
print(f'Tipo de dato final de fecha ',df.dtypes["Fecha"])
df.head()

Tipo de dato inicial de fecha  object
Tipo de dato final de fecha  datetime64[ns]


Unnamed: 0,Fecha
0,2024-01-01
1,2024-02-15
2,2024-03-30


### Formato de Fecha y Hora (YYYY-MM-DD HH:MM)
Cuando la fecha y hora están incluidas en una sola cadena, pandas también puede manejarlo directamente.



In [53]:
df = pd.DataFrame({'Fecha': ['2024-01-01 10:00:00', '2024-02-15 15:30:00', '2024-03-30 08:45:00']})

In [52]:
df['Fecha'] = pd.to_datetime(df['Fecha'])
df.head()

Unnamed: 0,Fecha
0,2024-01-01 10:00:00
1,2024-02-15 15:30:00
2,2024-03-30 08:45:00


### Fechas con Diferentes Separadores (DD/MM/YYYY)
Si las fechas usan un formato distinto como DD/MM/YYYY, es necesario especificar el parámetro dayfirst=True para que pandas las interprete correctamente.



In [54]:
df = pd.DataFrame({'Fecha': ['01/01/2024', '15/02/2024', '30/03/2024']})
df.head()

Unnamed: 0,Fecha
0,01/01/2024
1,15/02/2024
2,30/03/2024


In [55]:
df['Fecha'] = pd.to_datetime(df['Fecha'], dayfirst=True)
df.head()


Unnamed: 0,Fecha
0,2024-01-01
1,2024-02-15
2,2024-03-30


### Fechas con Año, Mes y Día en Diferentes Columnas
Si tienes las fechas divididas en varias columnas (por ejemplo, Año, Mes, Día), puedes combinarlas primero y luego convertirlas.

In [60]:
df = pd.DataFrame({'Year': [2024, 2024, 2024],
                   'Month': [1, 2, 3],
                   'Day': [1, 15, 30]})
df.head()


Unnamed: 0,Year,Month,Day
0,2024,1,1
1,2024,2,15
2,2024,3,30


In [62]:
df['Fecha'] = pd.to_datetime(df[['Year', 'Month', 'Day']])
df.head()



Unnamed: 0,Year,Month,Day,Fecha
0,2024,1,1,2024-01-01
1,2024,2,15,2024-02-15
2,2024,3,30,2024-03-30


## Indexación y selección con fechas
Puedes usar fechas como índices para seleccionar y filtrar datos.


In [66]:
fechas = pd.date_range(start='2024-01-01', periods=100, freq='D')
ventas = [i * 100 for i in range(1, 101)]
df = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
df.head()

Unnamed: 0,Fecha,Ventas
0,2024-01-01,100
1,2024-01-02,200
2,2024-01-03,300
3,2024-01-04,400
4,2024-01-05,500


In [67]:
df.set_index('Fecha', inplace=True)
df.head()
#df.loc['2024-01-01']  # Selecciona datos del 1 de enero de 2024

Unnamed: 0_level_0,Ventas
Fecha,Unnamed: 1_level_1
2024-01-01,100
2024-01-02,200
2024-01-03,300
2024-01-04,400
2024-01-05,500


## Extracción de Componentes Temporales:
Extrae partes de las fechas, como año, mes, día, etc.


In [69]:
fechas = pd.date_range(start='2024-01-01', periods=100, freq='D')
ventas = [i * 100 for i in range(1, 101)]
df_2 = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})
df_2.head()

Unnamed: 0,Fecha,Ventas
0,2024-01-01,100
1,2024-01-02,200
2,2024-01-03,300
3,2024-01-04,400
4,2024-01-05,500


In [71]:
df_2['Año'] = df_2['Fecha'].dt.year
df_2['Mes'] = df_2['Fecha'].dt.month
df_2['Día de la Semana'] = df_2['Fecha'].dt.day_name()
df_2.head()

Unnamed: 0,Fecha,Ventas,Año,Mes,Día de la Semana
0,2024-01-01,100,2024,1,Monday
1,2024-01-02,200,2024,1,Tuesday
2,2024-01-03,300,2024,1,Wednesday
3,2024-01-04,400,2024,1,Thursday
4,2024-01-05,500,2024,1,Friday


## Resampling (Remuestreo):
Cambia la frecuencia temporal de los datos, por ejemplo, de diarios a mensuales. Esto puede permitir hacer una suma total de las ventas por mes


Nota: la fecha debe ser índice



In [81]:
fechas = pd.date_range(start='2024-01-01', periods=100, freq='D')
ventas = [i * 100 for i in range(1, 101)]
df_3 = pd.DataFrame({'Fecha': fechas, 'Ventas': ventas})

df_3.set_index('Fecha', inplace=True)
df_resampled = df_3.resample('M').sum()  # Suma ventas mensuales

df_resampled.head()


Unnamed: 0_level_0,Ventas
Fecha,Unnamed: 1_level_1
2024-01-31,49600
2024-02-29,133400
2024-03-31,235600
2024-04-30,86400
