## Indice
<!-- TABLE OF CONTENTS -->
<details>
  <summary>Tabla de contenido</summary>
  <ol>
    <li><a href="#Análisis y limpieza de datos">Análisis y limpieza de datos</a></li>
    <li><a href="#Objetivo">Objetivo</a></li>
    <li><a href="#Alcance">Alcance</a></li>
    <li><a href="#Tecnologías">Tecnologías Utilizadas</a></li>
    <li><a href="#Conclusiones relevantes">Conclusiones relevantes</a></li>
    <li><a href="#Desarrollador">Desarrollador</a></li>
  </ol>
</details>

# *Análisis y limpieza de datos*

### Librerias necesarias

In [26]:
import pandas as pd

### Lectura del archivo como un dataframe

In [27]:
df = pd.read_excel('Datos de alumnos y padres.xlsx')

### 

### Dimension

In [28]:
print("Cantidad de filas: " + str(df.shape[0]) + " | Cantidad de columnas: " + str(df.shape[1]))

Cantidad de filas: 431 | Cantidad de columnas: 52


### Columnas

In [29]:
print(df.columns)

Index(['clave', 'digito', 'digban', 'nombrea', 'sexo', 'domal', 'coloa',
       'pobla', 'cpa', 'fecnaca', 'naciona', 'tela', 'nivel', 'grado', 'grupo',
       'escpro', 'porcol', 'porins', 'codigo', 'madre', 'ocupam', 'emprem',
       'celularm', 'telofm', 'emailm', 'padre', 'ocupap', 'emprep', 'celularp',
       'telofp', 'emailp', 'pedi', 'telpedi', 'transporta', 'factura',
       'factura1', 'ciclo', 'fechains', 'fechbaja', 'plan', 'apellidos',
       'apellidop', 'apellidom', 'nombres', 'snombre', 'matricula',
       'nombrecort', 'credito', 'cuenta', 'inscribe', 'edad', 'capturado'],
      dtype='object')


### Informacion y tipos de datos

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 431 entries, 0 to 430
Data columns (total 52 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   clave       431 non-null    int64         
 1   digito      431 non-null    int64         
 2   digban      431 non-null    int64         
 3   nombrea     431 non-null    object        
 4   sexo        431 non-null    object        
 5   domal       427 non-null    object        
 6   coloa       427 non-null    object        
 7   pobla       424 non-null    object        
 8   cpa         417 non-null    float64       
 9   fecnaca     431 non-null    object        
 10  naciona     428 non-null    object        
 11  tela        399 non-null    object        
 12  nivel       431 non-null    int64         
 13  grado       431 non-null    int64         
 14  grupo       431 non-null    object        
 15  escpro      417 non-null    object        
 16  porcol      431 non-null  

**Observacion :** Hay columnas donde el nombre no tiene sentido con el tipo de dato al que corresponde, se hara una revision mas exhaustiva a cada columna.

### Primeros 5 registros

In [31]:
df.head()

Unnamed: 0,clave,digito,digban,nombrea,sexo,domal,coloa,pobla,cpa,fecnaca,...,apellidom,nombres,snombre,matricula,nombrecort,credito,cuenta,inscribe,edad,capturado
0,3807,0,28,TRUJANO MIRANDA JONAS,M,5 DE MAYO No. 106,ZARAGOZA,"TEXCOCO, E",56110.0,2018-02-12 00:00:00,...,,,,,,,,,0,False
1,3752,0,87,SAN NICOLAS BUSTAMANTE SANTIAGO,M,LEON SALINAS NO. 62,XOCOTLAN,TEXCOCO. M,56236.0,2007-04-19 00:00:00,...,,,,,,,,,0,False
2,3751,0,27,SAN NICOLAS BUSTAMANTE ESTEFANIA,F,LEON SALINAS No. 62,FRACC. MOLINO DE FL,"XOCOTLAN,T",56236.0,2013-03-27 00:00:00,...,,,,,,,,,0,False
3,3723,0,46,VIZUET GOMEZ DIEGO EMILIANO,M,CIRCUITO MILTENCO No. 4,CABERA MUNICIPAL,CHICOLOAPA,56370.0,2013-07-15 00:00:00,...,,,,,,,,,0,False
4,3811,0,25,AGUILAR VAZQUEZ VICTORIA ALEJANDRA,F,FRAY PEDRO DE GANTE No.238 INT,SAN PEDRO,TEXCOCO,56105.0,2018-01-12 00:00:00,...,,,,,,,,,0,False


**Observacion :**  Tenemos varias columnas sin informacion, se hara una revision mas exhaustiva a cada columna para poder determinar si eliminarlas o no.

### Valores faltantes

In [32]:
df.isnull().sum()

clave           0
digito          0
digban          0
nombrea         0
sexo            0
domal           4
coloa           4
pobla           7
cpa            14
fecnaca         0
naciona         3
tela           32
nivel           0
grado           0
grupo           0
escpro         14
porcol          0
porins          0
codigo        431
madre           4
ocupam         13
emprem        119
celularm       59
telofm        259
emailm         94
padre          22
ocupap         29
emprep        112
celularp       96
telofp        223
emailp        154
pedi           79
telpedi       115
transporta    431
factura       410
factura1      431
ciclo         431
fechains        0
fechbaja        0
plan            0
apellidos     431
apellidop     431
apellidom     431
nombres       431
snombre       431
matricula     431
nombrecort    431
credito       431
cuenta        431
inscribe      431
edad            0
capturado       0
dtype: int64

**Observacion :**  Teniendo en cuenta que la cantidad de filas del dataframe es de 431 y tenemos columnas con la misma cantidad de valores nulos, podriamos confirmar que son columnas sin informacion, por lo que podrian ser eliminadas.

**Procediemiento :** Se eliminará las columnas donde la cantidad de filas vacias sean igual a la cantidad de filas del dataframe mediante una funcion que irá recorriendo cada columna.

In [33]:
# Determinamos el limite de nulos para eliminar la columna
total_filas = len(df)

# Recorremos cada columna para ir verificando si son columnas vacias
for columna in df.columns:
    # Guardamos la cantidad de nulos en la variable
    nulos_en_columna = df[columna].isnull().sum()
    
    # Verificamos si la cantidad de nulos es igual a la cantidad total de filas de la columna
    if nulos_en_columna == total_filas:
        # Eliminamos columna
        df.drop(columns=columna, inplace=True)
        #Mostramos el mensaje de que columnas fueron eliminadas
        print(f"Columna '{columna}' eliminada (todos los valores son nulos).")

Columna 'codigo' eliminada (todos los valores son nulos).
Columna 'transporta' eliminada (todos los valores son nulos).
Columna 'factura1' eliminada (todos los valores son nulos).
Columna 'ciclo' eliminada (todos los valores son nulos).
Columna 'apellidos' eliminada (todos los valores son nulos).
Columna 'apellidop' eliminada (todos los valores son nulos).
Columna 'apellidom' eliminada (todos los valores son nulos).
Columna 'nombres' eliminada (todos los valores son nulos).
Columna 'snombre' eliminada (todos los valores son nulos).
Columna 'matricula' eliminada (todos los valores son nulos).
Columna 'nombrecort' eliminada (todos los valores son nulos).
Columna 'credito' eliminada (todos los valores son nulos).
Columna 'cuenta' eliminada (todos los valores son nulos).
Columna 'inscribe' eliminada (todos los valores son nulos).


**Resultado**

In [34]:
df.head()

Unnamed: 0,clave,digito,digban,nombrea,sexo,domal,coloa,pobla,cpa,fecnaca,...,telofp,emailp,pedi,telpedi,factura,fechains,fechbaja,plan,edad,capturado
0,3807,0,28,TRUJANO MIRANDA JONAS,M,5 DE MAYO No. 106,ZARAGOZA,"TEXCOCO, E",56110.0,2018-02-12 00:00:00,...,,,DRA. VERONICA DELADO,5959547699.0,,2022-02-11,- -,B,0,False
1,3752,0,87,SAN NICOLAS BUSTAMANTE SANTIAGO,M,LEON SALINAS NO. 62,XOCOTLAN,TEXCOCO. M,56236.0,2007-04-19 00:00:00,...,5519882072.0,rosamaria-rmbo@gmail.com,DRA. ALEJANDRA MUENCH,5959252210.0,,2022-02-11,- -,B,0,False
2,3751,0,27,SAN NICOLAS BUSTAMANTE ESTEFANIA,F,LEON SALINAS No. 62,FRACC. MOLINO DE FL,"XOCOTLAN,T",56236.0,2013-03-27 00:00:00,...,5519882072.0,rosamaria.rmbo@gmail.com,DRA. ALEJANDRA MUENCH,5959252210.0,,2022-02-11,- -,B,0,False
3,3723,0,46,VIZUET GOMEZ DIEGO EMILIANO,M,CIRCUITO MILTENCO No. 4,CABERA MUNICIPAL,CHICOLOAPA,56370.0,2013-07-15 00:00:00,...,,,,,FACTURAR A NOMBRE DE: CATERIN LIZBETH GOMEZ TI...,2022-02-11,- -,B,0,False
4,3811,0,25,AGUILAR VAZQUEZ VICTORIA ALEJANDRA,F,FRAY PEDRO DE GANTE No.238 INT,SAN PEDRO,TEXCOCO,56105.0,2018-01-12 00:00:00,...,,harrohari@gmail.com,DR. GO0NGORA,5959555296.0,,2022-02-14,- -,B,0,False


**Observacion :** Se eliminaron las columnas que no tenian informacion, en el caso de necesitar una nueva columna se podra crear una.

### Duplicados

In [35]:
duplicados = df.duplicated().sum()
print(f"Tenemos {duplicados} registros duplicados.")

Tenemos 0 registros duplicados.


## *Analisis de columnas*

### Codigo