# Funciones vectorizadas y limpieza de datos
## Vectorización en Python
La vectorización es una técnica en la que podemos realizar operaciones matemáticas o lógicas a conjuntos completos de datos (vectores, matrices)

#### Ejemplo de suma de arrays sin vectorización

In [1]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.array([6, 7, 8, 9, 10])

suma = []
for i in range(len(a)):
    suma.append(a[i] + b[i])

print(suma)

[np.int64(7), np.int64(9), np.int64(11), np.int64(13), np.int64(15)]


### Ejemplo de suma de arrays con vectorización

In [2]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.array([6, 7, 8, 9, 10])

suma = a + b

print(suma)

[ 7  9 11 13 15]


### Ejemplo con una función a cada elemento de un array sin vectorización

In [3]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])
cuadrados = []

for i in a:
    cuadrados.append(i ** 2)

print(cuadrados)

[np.int64(1), np.int64(4), np.int64(9), np.int64(16), np.int64(25)]


### Ejemplo con una función a cada elemento de un array con vectorización

In [5]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])
cuadrados = a ** 2

print(cuadrados)

[ 1  4  9 16 25]


## Limpieza de datos


In [6]:
import pandas as pd

data = { "Nombre": ["Juan", "Ana", "Luis", None], "Edad": [25, None, 35, 28] }
df = pd.DataFrame(data)

print("DataFrame original")
print(df)

df_limpio = df.dropna()

print("DataFrame después de remover valores nulos")
print(df_limpio)

DataFrame original
  Nombre  Edad
0   Juan  25.0
1    Ana   NaN
2   Luis  35.0
3   None  28.0
DataFrame después de remover valores nulos
  Nombre  Edad
0   Juan  25.0
2   Luis  35.0


### Rellenar valores nulos

In [7]:
import pandas as pd

data = { "Nombre": ["Juan", "Ana", "Luis", None], "Edad": [25, None, 35, 28] }
df = pd.DataFrame(data)

print("DataFrame original")
print(df)

df_rellenado = df.fillna({ "Nombre": "Desconocido", "Edad": df["Edad"].mean() })

print("DataFrame después de rellenar valores nulos")
print(df_rellenado)

DataFrame original
  Nombre  Edad
0   Juan  25.0
1    Ana   NaN
2   Luis  35.0
3   None  28.0
DataFrame después de rellenar valores nulos
        Nombre       Edad
0         Juan  25.000000
1          Ana  29.333333
2         Luis  35.000000
3  Desconocido  28.000000


In [9]:
pip install Scikit-Learn

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.1 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
# pip install seaborn
import seaborn as sns

In [11]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [13]:
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [15]:
titanic_cliean = titanic.dropna()

print(titanic_cliean.head())

    survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
1          1       1  female  38.0      1      0  71.2833        C  First   
3          1       1  female  35.0      1      0  53.1000        S  First   
6          0       1    male  54.0      0      0  51.8625        S  First   
10         1       3  female   4.0      1      1  16.7000        S  Third   
11         1       1  female  58.0      0      0  26.5500        S  First   

      who  adult_male deck  embark_town alive  alone  
1   woman       False    C    Cherbourg   yes  False  
3   woman       False    C  Southampton   yes  False  
6     man        True    E  Southampton    no   True  
10  child       False    G  Southampton   yes  False  
11  woman       False    C  Southampton   yes   True  


In [17]:
import pandas as pd
import numpy as np
ventas = pd.DataFrame({"ropa mujer": [15, 35, 44, 71],
                       "ropa hombre": [31, 24, 11, np.nan],
                       "ropa bebé": [32, 75, 29, 41],
                       "ropa infante": [np.nan, 20, 92, 35],
                        }, index=["2020", "2021", "2022", "2023"])

# DataFrame original
print(ventas)

ventas = ventas.fillna(0.00)

# DataFrame resultante
print(ventas)

      ropa mujer  ropa hombre  ropa bebé  ropa infante
2020          15         31.0         32           NaN
2021          35         24.0         75          20.0
2022          44         11.0         29          92.0
2023          71          NaN         41          35.0
      ropa mujer  ropa hombre  ropa bebé  ropa infante
2020          15         31.0         32           0.0
2021          35         24.0         75          20.0
2022          44         11.0         29          92.0
2023          71          0.0         41          35.0


## Reindexación


In [20]:
import pandas as pd
import numpy as np

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['a', 'b', 'c'])
# DataFrame original
print(df)

# Reindexar filas
new_index = ['a', 'b', 'c', 'd'] # Define un nuevo índice que añade una fila 'd', que tendrá valores NaN
df_reindexed = df.reindex(new_index)

print("\nDataFrame despues de reindexar filas:")
print(df_reindexed)

# Reindexar columnas
new_columns = ['A', 'B', 'C', 'D'] # Definir nuevas columnas, añadiendo 'D', que tendrá valores NaN
df_reindexed_columns = df_reindexed.reindex(columns=new_columns)

print("\nDataFrame despues de reindexar columnas:")
print(df_reindexed_columns)

df_filled = df_reindexed_columns.fillna(0)
print(df_filled)

   A  B  C
a  1  4  7
b  2  5  8
c  3  6  9

DataFrame despues de reindexar filas:
     A    B    C
a  1.0  4.0  7.0
b  2.0  5.0  8.0
c  3.0  6.0  9.0
d  NaN  NaN  NaN

DataFrame despues de reindexar columnas:
     A    B    C   D
a  1.0  4.0  7.0 NaN
b  2.0  5.0  8.0 NaN
c  3.0  6.0  9.0 NaN
d  NaN  NaN  NaN NaN
     A    B    C    D
a  1.0  4.0  7.0  0.0
b  2.0  5.0  8.0  0.0
c  3.0  6.0  9.0  0.0
d  0.0  0.0  0.0  0.0
