In [33]:
import pandas as pd

In [49]:
df = pd.DataFrame(
    {'nombres':['Juan', 'Ronald', 'Carla', 'Nuria', 'Jose', 'Deni', None],
    'edades':[35, 36, 28, 19, 25, 'No te lo digo', None],
    'dinero':[1000, 5000, 500, 1000000, 'no quiero', 'casi un millón', None],
    'soy Nuria':[False, False, False, True, False, False, None],
    'id': [1, 2, 3, 4, 5, 6, 7]}
    )
df

Unnamed: 0,nombres,edades,dinero,soy Nuria,id
0,Juan,35,1000,False,1
1,Ronald,36,5000,False,2
2,Carla,28,500,False,3
3,Nuria,19,1000000,True,4
4,Jose,25,no quiero,False,5
5,Deni,No te lo digo,casi un millón,False,6
6,,,,,7


# Analizar datos

In [35]:
df.size

35

In [36]:
df.shape

(7, 5)

In [37]:
df.columns

Index(['nombres', 'edades', 'diner', 'soy Nuria', 'id'], dtype='object')

In [38]:
df.info() # Tipo de dato

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombres    6 non-null      object
 1   edades     6 non-null      object
 2   diner      6 non-null      object
 3   soy Nuria  6 non-null      object
 4   id         7 non-null      int64 
dtypes: int64(1), object(4)
memory usage: 408.0+ bytes


In [39]:
df.describe() # Devuelve solo los numericos

Unnamed: 0,id
count,7.0
mean,4.0
std,2.160247
min,1.0
25%,2.5
50%,4.0
75%,5.5
max,7.0


In [40]:
df.describe(include = 'object') # Devuelve solo los tipo object

Unnamed: 0,nombres,edades,diner,soy Nuria
count,6,6,6,6
unique,6,6,6,2
top,Juan,35,1000,False
freq,1,1,1,5


In [41]:
df.describe(include = 'all') # Devuelve la media de los dos (object y numerico) pero no es muy visual 

Unnamed: 0,nombres,edades,diner,soy Nuria,id
count,6,6.0,6.0,6,7.0
unique,6,6.0,6.0,2,
top,Juan,35.0,1000.0,False,
freq,1,1.0,1.0,5,
mean,,,,,4.0
std,,,,,2.160247
min,,,,,1.0
25%,,,,,2.5
50%,,,,,4.0
75%,,,,,5.5


In [42]:
df['id'] = df['id'].astype('string')

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombres    6 non-null      object
 1   edades     6 non-null      object
 2   diner      6 non-null      object
 3   soy Nuria  6 non-null      object
 4   id         7 non-null      string
dtypes: object(4), string(1)
memory usage: 408.0+ bytes


In [44]:
df['edades'] = df['edades']

In [45]:
# astype sirva para transformal los tipos de datos de las columnas
#df['soy Nuria'] = df['soy Nuria'].astype('bool') 

In [46]:
#df['soy Nuria'] = df['soy Nuria'].astype('Int32') # Int con mayúscula

In [47]:
df

Unnamed: 0,nombres,edades,diner,soy Nuria,id
0,Juan,35,1000,False,1
1,Ronald,36,5000,False,2
2,Carla,28,500,False,3
3,Nuria,19,1000000,True,4
4,Jose,25,no quiero,False,5
5,Deni,No te lo digo,casi un millón,False,6
6,,,,,7


## Solventar y cambiar el tipo de dato

#### Haciendo una función

In [55]:
def solventar_dinero(x):
    if isinstance(x, (str, int)) or x == None:
        return pd.NA
    return x

In [57]:
solventar_dinero(None)

<NA>

In [59]:
df['dinero'] = df['dinero'].apply(solventar_dinero)
df

Unnamed: 0,nombres,edades,dinero,soy Nuria,id
0,Juan,35,1000.0,False,1
1,Ronald,36,5000.0,False,2
2,Carla,28,500.0,False,3
3,Nuria,19,1000000.0,True,4
4,Jose,25,,False,5
5,Deni,No te lo digo,999999.0,False,6
6,,,,,7


### Añadiendo directamente un lambda

In [51]:
df['dinero'] = df['dinero'].apply(lambda x: 999_999 if x == 'casi un millón' else(np.nan if x == 'no quiero' else x))
df

Unnamed: 0,nombres,edades,dinero,soy Nuria,id
0,Juan,35,1000.0,False,1
1,Ronald,36,5000.0,False,2
2,Carla,28,500.0,False,3
3,Nuria,19,1000000.0,True,4
4,Jose,25,,False,5
5,Deni,No te lo digo,999999.0,False,6
6,,,,,7


In [61]:
import numpy as np
df.loc[4, "dinero"] = np.nan

In [62]:
df.loc[5, "dinero"] = 999_999

In [63]:
df

Unnamed: 0,nombres,edades,dinero,soy Nuria,id
0,Juan,35,1000.0,False,1
1,Ronald,36,5000.0,False,2
2,Carla,28,500.0,False,3
3,Nuria,19,1000000.0,True,4
4,Jose,25,,False,5
5,Deni,No te lo digo,999999.0,False,6
6,,,,,7


In [65]:
df['edades'].replace('No te lo digo', np.nan, inplace = True) # El replace lo van a quitar pronto

  df['edades'].replace('No te lo digo', np.nan, inplace = True) # El replace lo van a quitar pronto


In [66]:
df

Unnamed: 0,nombres,edades,dinero,soy Nuria,id
0,Juan,35.0,1000.0,False,1
1,Ronald,36.0,5000.0,False,2
2,Carla,28.0,500.0,False,3
3,Nuria,19.0,1000000.0,True,4
4,Jose,25.0,,False,5
5,Deni,,999999.0,False,6
6,,,,,7


In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   nombres    6 non-null      object 
 1   edades     5 non-null      float64
 2   dinero     5 non-null      float64
 3   soy Nuria  6 non-null      object 
 4   id         7 non-null      int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 408.0+ bytes


In [None]:
# Al haber muchos nulos, los datos carecen de sentido por eso hay que saber que cantidad de nulos hay
(df.isnull().sum()/len(df))*100 # Porcentaje de nulos por columna

nombres      14.285714
edades       28.571429
dinero       28.571429
soy Nuria    14.285714
id            0.000000
dtype: float64

## Cardinalidad
##### El numero que hay de cada elemento

In [71]:
# Total de elementos /entre/ los elementos únicos
(len(df['edades'].unique())/len(df)*100)

85.71428571428571

In [72]:
for i in df:
    print(i)
    print(len(df['edades'].unique())/len(df)*100)

nombres
85.71428571428571
edades
85.71428571428571
dinero
85.71428571428571
soy Nuria
85.71428571428571
id
85.71428571428571
