## Creacion de un DataFrame

In [6]:
# Librerias
import pandas as pd
import numpy as np

In [3]:
#Diccionario con informacion
datos = {'Nombre':['Jose', 'Miguel', 'Javier', 'Jimena'],
         'Calificaciones':['100', '90', '100', '80'],
         'Deportes':['Futbol', 'Natacion', 'Basquetball', 'Beisbol'],
         'Materias':['Calculo', 'Metodos Numericos', 'Cocina', 'Religion']}

In [5]:
# Pasar el diccionario a un DataFrame
df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,Calculo
1,Miguel,90,Natacion,Metodos Numericos
2,Javier,100,Basquetball,Cocina
3,Jimena,80,Beisbol,Religion


### Datos no validos

In [7]:
datos_2 = {'Nombre':['Jose', 'Miguel', 'N/A', 'Jimena'],
         'Calificaciones':['100', np.nan, '100', '80'],
         'Deportes':['Futbol', 'Natacion', 'Basquetball', 'N/A'],
         'Materias':['N/A', 'Metodos Numericos', 'Cocina', 'Religion']}

In [10]:
df_2 = pd.DataFrame(datos_2)
df_2

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100.0,Futbol,
1,Miguel,,Natacion,Metodos Numericos
2,,100.0,Basquetball,Cocina
3,Jimena,80.0,,Religion


In [11]:
# obtener informacion basica del dataframe
# los N/A son tomado como objetos de tipo string y no como valores faltantes
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Nombre          4 non-null      object
 1   Calificaciones  3 non-null      object
 2   Deportes        4 non-null      object
 3   Materias        4 non-null      object
dtypes: object(4)
memory usage: 256.0+ bytes


### Estadisticas Basicas

In [12]:
df_2.describe()

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
count,4,3,4,4.0
unique,4,2,4,4.0
top,Jose,100,Futbol,
freq,1,2,1,1.0


### Cambiar valores de datos faltantes

In [13]:
df_3 = pd.DataFrame(df_2)

In [14]:
# reemplazar np.nan por 0
df_3 = df_3.replace(np.nan, '0')
df_3

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,
1,Miguel,0,Natacion,Metodos Numericos
2,,100,Basquetball,Cocina
3,Jimena,80,,Religion


In [26]:
# Forma alternativa de reemplazar valores faltantes
df_3 = pd.DataFrame(df_2)

df_3.fillna(0, inplace=True)
df_3

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,
1,Miguel,0,Natacion,Metodos Numericos
2,,100,Basquetball,Cocina
3,Jimena,80,,Religion


### Eliminar registros con valores faltantes

In [20]:
df_4 = pd.DataFrame(df_2)

In [21]:
# eliminar registros con np.NaN
# any indica cualquier registro
# inplace indica que se ejecute el cambio en el dataframe
df_4.dropna(how='any', inplace=True) 
df_4

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,
2,,100,Basquetball,Cocina
3,Jimena,80,,Religion


### Eliminar un resgistro buscando por Columnas

In [22]:
# elimina los registros con nombres que tengan N/A
df_4 = df_4[df_4['Nombre'] != 'N/A']
df_4 

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,
3,Jimena,80,,Religion


### Convertir columnas de texo en numericas

In [27]:
df_4 = pd.DataFrame(df_2)

df_4['Calificaciones'] = df_4.Calificaciones.astype(int)
df_4

Unnamed: 0,Nombre,Calificaciones,Deportes,Materias
0,Jose,100,Futbol,
1,Miguel,0,Natacion,Metodos Numericos
2,,100,Basquetball,Cocina
3,Jimena,80,,Religion


In [28]:
# Obtener estadistica basica del dataframe con valores numericos
df_4.describe()

Unnamed: 0,Calificaciones
count,4.0
mean,70.0
std,47.609523
min,0.0
25%,60.0
50%,90.0
75%,100.0
max,100.0
