![Verne](https://www.vernegroup.com/wp-content/uploads/2020/07/LOGO-VERNE-TECHNOLOGY-GROUP-3.png) 

# Estadística Descriptiva para variables continuas

In [1]:
import sqlite3
import pandas as pd 
import matplotlib.pyplot as plt 

In [12]:
conn = sqlite3.connect('Tiendas24H.sqlite')
query = "select c.CodCliente, FechaNacimiento,  round((julianday('now') - julianday(FechaNacimiento))/365) as Edad,EstadoCivil, Sexo,IngresosAnuales, HijosACargo, N.NivelAcademico, O.Ocupacion from clientes c inner join NivelAcademico N    on c.NivelAcademico = N.Codigo     inner join Ocupacion O on c.Ocupacion = o.Codigo"


In [13]:
TM = pd.read_sql_query(query,conn)

In [14]:
TM

Unnamed: 0,CodCliente,FechaNacimiento,Edad,EstadoCivil,Sexo,IngresosAnuales,HijosACargo,NivelAcademico,Ocupacion
0,000020,1976-04-08,44.0,M,M,90000.0,0.0,Licenciatura,Profesional especializado
1,000026,1975-05-14,45.0,S,M,60000.0,3.0,Licenciatura,Profesional especializado
2,000029,1975-08-12,45.0,M,M,60000.0,3.0,Licenciatura,Profesional especializado
3,000046,1978-02-15,43.0,S,F,70000.0,0.0,Licenciatura,Profesional especializado
4,000047,1978-08-08,42.0,S,F,80000.0,5.0,Licenciatura,Profesional especializado
...,...,...,...,...,...,...,...,...,...
2436,Y1795344R,1944-09-17,76.0,M,F,70000.0,0.0,Estudios de postgrado,Mando intermedio
2437,Y2404085R,1973-01-04,48.0,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado
2438,Y2544794L,1973-08-26,47.0,M,M,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado
2439,Y2671043K,1973-10-23,47.0,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado


In [22]:
TM["Edad"].describe()

count    2441.000000
mean       49.351905
std        11.590745
min        21.000000
25%        40.000000
50%        48.000000
75%        57.000000
max       100.000000
Name: Edad, dtype: float64

In [25]:
TM["Edad"].mean()


49.35190495698484

In [26]:
TM["Edad"].median()

48.0

In [27]:
#Midiendo la dispersión
#La forma más sencilla, es midiendo el rango
TM["Edad"].max()-TM["Edad"].min()

79.0

In [29]:
#Coeficiente de variación
TM["Edad"].std() /TM["Edad"].mean()

0.23485912482332208

In [None]:
#Skweness mide la asimetría en la distribución de probabilidad. Si es positiva la disitribución tiene un "long tail" a la derecha de la media
TM["Edad"].skew()

In [None]:
#Si la distribución tiene "long tails" en ambas partes - Kurtosis. Si es negativa indica que los tails son cortos
TM["Edad"].kurt()

# Discretizando variables continuas

In [34]:
#Con el mismdo ancho. Abiertas por laizquierda
TM["RangoEdad"] = pd.cut(TM["Edad"],5)


In [36]:
#Si queremos hacerlos de igual alto
TM["RangoEdad2"] = pd.qcut(TM["Edad"],5)


In [38]:
#Personalizado
custombins = [16,22,29,39,54,88]
TM["RangoEdad3"] = pd.cut(TM["Edad"],custombins)


In [39]:
TM

Unnamed: 0,CodCliente,FechaNacimiento,Edad,EstadoCivil,Sexo,IngresosAnuales,HijosACargo,NivelAcademico,Ocupacion,RangoEda,RangoEdad,RangoEdad2,RangoEdad3
0,000020,1976-04-08,44.0,M,M,90000.0,0.0,Licenciatura,Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(39.0, 45.0]","(39, 54]"
1,000026,1975-05-14,45.0,S,M,60000.0,3.0,Licenciatura,Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(39.0, 45.0]","(39, 54]"
2,000029,1975-08-12,45.0,M,M,60000.0,3.0,Licenciatura,Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(39.0, 45.0]","(39, 54]"
3,000046,1978-02-15,43.0,S,F,70000.0,0.0,Licenciatura,Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(39.0, 45.0]","(39, 54]"
4,000047,1978-08-08,42.0,S,F,80000.0,5.0,Licenciatura,Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(39.0, 45.0]","(39, 54]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2436,Y1795344R,1944-09-17,76.0,M,F,70000.0,0.0,Estudios de postgrado,Mando intermedio,"(68.4, 84.2]","(68.4, 84.2]","(60.0, 100.0]","(54, 88]"
2437,Y2404085R,1973-01-04,48.0,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(45.0, 51.0]","(39, 54]"
2438,Y2544794L,1973-08-26,47.0,M,M,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(45.0, 51.0]","(39, 54]"
2439,Y2671043K,1973-10-23,47.0,S,F,90000.0,0.0,Estudios universitarios (en curso),Profesional especializado,"(36.8, 52.6]","(36.8, 52.6]","(45.0, 51.0]","(39, 54]"


# Variables discretas

In [30]:
TM['NivelAcademico'].value_counts()

Licenciatura                          754
Estudios universitarios (en curso)    701
Estudios de postgrado                 467
Educación Secundaria                  389
Educación Secundaria (en curso)       129
Name: NivelAcademico, dtype: int64

In [31]:
#Definirlo como ordinal
df[NivelAcademicon'] = df[NivelAcademicon'].astype('category')
dfNivelAcademicoon'].cat.reorder_categories(["Educación secundaria (en curso)","Educación secundaria","Estudios universitarios (en curso)","Licenciatura","Estudios de postgrado"],inplace=True)
dNivelAcademicoIntInt'] = df['Education'].cat.codes
NivelAcademicotion'].value_counts().sort_index()

SyntaxError: invalid syntax (<ipython-input-31-c78635eaf06a>, line 2)

In [None]:
edu=df['NivelAcademico'].value_counts().sort_index()
ax=edu.plot(kind='bar',color=('b'),fontsize=14, legend=False,use_index=True,rot=1)
ax.set_xlabel('Education',fontsize=16)
ax.set_ylabeCuentaunt',fontsize=16)
plt.show()