## Laboratorio de implementacion - Usuarios app

In [None]:
import pandas as pd #importo la librería para trabajar con datos
import numpy as np #importo la librería para procesar matrices
from matplotlib import pyplot as plt #importo las librerías para graficar

### Primer paso: cargamos el archivo y lo exploramos un poco
En el repositorio <a href="https://github.com/andresdambrosio/DMA_LABO_Austral_2021_rosario" title="DMA_LABO_Austral_2021_Rosario">DMA_LABO_Austral_2021_Rosario</a> existe una carpeta `data`. Adentro hay un archivo `usuarioapp.csv`. Cargarlo en la siguiente linea en un file de pandas directamente desde el REPO (no lo descargues)

In [None]:
path='https://raw.githubusercontent.com/andresdambrosio/DMA_LABO_Austral_2021_rosario/main/Data/usuariosapp.csv'
usuarios=pd.read_csv(path,sep=';') #cargo un pandas dataframe con la info del archivo

In [None]:
#veo que hay en los primeros 5 registros del dataframe
usuarios.head()

In [None]:
#Largo del dataset
len(usuarios)

In [None]:
#Cantidad de valores no nulos por columna
usuarios.count()

In [None]:
#veo los tipos de cada columna
usuarios.dtypes

In [None]:
#veo que hay en status
usuarios.Status.unique()

In [None]:
#veo que hay en Sexo
usuarios.Sexo.unique()

In [None]:
#veo que valores hay en DNI
usuarios.DNI.head(20)

In [None]:
#Veamos el tipo de datos del primer registro
print(usuarios.DNI[0])
print('El tipo de datos es ' , type(usuarios.DNI[0]))

In [None]:
#Intento transforma la columna DNI a números
pd.to_numeric(usuarios.DNI)

In [None]:
#veamos que hay en la posición 64
usuarios.iloc[64]

In [None]:
#Veamos cuántos registros contienen alguna letra
np.sum(usuarios['DNI'].str.contains('[a-zA-Z]').dropna())

In [None]:
#Veamos que hay en las columnas nulas
usuarios[usuarios['DNI'].str.contains('[a-zA-Z]').fillna(False)]

### ¿Qué hacemos con los nulos?

In [None]:
#Nos quedamos con los que no tienen texto en DNI
usuarios_tf=usuarios[~usuarios['DNI'].str.contains('[a-zA-Z]').fillna(False)]

In [None]:
#Me quedo con los que no tienen nulos en DNI
usuarios_tf=usuarios_tf.dropna(subset=['DNI'])

In [None]:
usuarios_tf.DNI=pd.to_numeric(usuarios_tf.DNI) #convierto DNI a número
usuarios_tf.Status=usuarios_tf.Status.convert_dtypes() #convierto Status a string
usuarios_tf.Sexo=usuarios_tf.Sexo.convert_dtypes() #convierto Sexo a string

In [None]:
#Verifico los tipos de datos
usuarios_tf.dtypes

In [None]:
#Conteo por columnas, veo que en Sexo hay varios nulos
usuarios_tf.count()

In [None]:
#Elimino la columna sexo porque el tp no requiere nada con esa variable
usuarios_tf.drop('Sexo',axis=1,inplace=True)

In [None]:
usuarios_tf.count()

In [None]:
#¿Quedaron nulos?
np.sum(usuarios_tf.isna())

In [None]:
#¿cuántos DNI mayores a 90 millones hay?
np.sum(usuarios_tf.DNI>90000000)

In [None]:
usuarios_tf.DNI.hist()

### ¿Qué hacemos con los outliers en este caso?

In [None]:
#Nos quedamos con los usuarios que no tienen DNI extranjero y con aquellos usuarios que están activos
usuarios_tf=usuarios_tf[usuarios_tf.DNI<90000000]
usuarios_tf=usuarios_tf[usuarios_tf.Status=='A']

In [None]:
#Vemos como nos quedo la base de datos
usuarios_tf.count()

In [None]:
#Calculamos edades
usuarios_tf['Edades']=-0.0000014545*usuarios_tf.DNI+81.3217765310

In [None]:
#Redondeamos a 0 decimales
usuarios_tf.Edades=usuarios_tf.Edades.round(decimals=0)

In [None]:
#Convertimos la columna a enteros
usuarios_tf['Edades']=usuarios_tf['Edades'].astype(np.int64)

In [None]:
#Veamos como quedaron los tipos de las columnas
usuarios_tf.dtypes

In [None]:
usuarios_tf.describe()

In [None]:
#Armamos rangos de edad
usuarios_tf['rango_edad']=np.select(
    [
        usuarios_tf['Edades'].between(0, 19, inclusive=True), 
        usuarios_tf['Edades'].between(20, 24, inclusive=True),
        usuarios_tf['Edades'].between(25, 29, inclusive=True),
        usuarios_tf['Edades'].between(30, 34, inclusive=True),
        usuarios_tf['Edades'].between(35, 39, inclusive=True),
        usuarios_tf['Edades'].between(40, 44, inclusive=True),
        usuarios_tf['Edades'].between(45, 49, inclusive=True),
        usuarios_tf['Edades'].between(50, 54, inclusive=True),
        usuarios_tf['Edades'].between(55, 59, inclusive=True),
        usuarios_tf['Edades'].between(60, 64, inclusive=True),
        usuarios_tf['Edades'].between(65, 69, inclusive=True),
        usuarios_tf['Edades'].between(70, 74, inclusive=True),
        usuarios_tf['Edades'].between(76, 2000, inclusive=True)
    ],
    [
        '0-20', 
        '20-25',
        '25-30',
        '30-35',
        '35-40',
        '40-45',
        '45-50',
        '50-55',
        '55-60',
        '60-65',
        '65-70',
        '70-75',
        '75'        
    ], 
    default='Unknown'
)

In [None]:
#Armamos una tabla pivot
pd.pivot_table(usuarios_tf,values='Edades',index=['rango_edad'],aggfunc='count').sort_values(by='rango_edad')

In [None]:
#Exportamos los resultados a un excel para graficar
usuarios_tf.to_excel('test.xlsx')

In [None]:
#Armamos una tabla pivot
pd.pivot_table(usuarios_tf,values='Edades',index=['rango_edad'],aggfunc='count').plot(kind='bar')