# Centros educativos en New York
Nueva York es una de las ciudades más pobladas de EEUU y cuenta con una población de lo más plural y heterogénea, donde conviven habitantes de naciones de todo el mundo. Por supuesto, los centros educativos no se quedan al margen de esto y las aulas se componen de alumnos latinos, asiáticos, afroamericanos...

**El objetivo de este ejecicio es realizar un análisis exploratorio de datos para determinar el estado de las ayudas y necesidades de los colegios de Nueva York, y con ello poder tomar decisiones BASADAS EN LOS DATOS. Para el análisis utilizarás datos como las localizaciones geográficas de los colegios, pertenencia comunitaria, raza de los estudiantes y nivel académico.**

Por tanto, consideraremos las siguientes hipótesis que habrá que razonar con los datos disponibles:
1. Si un colegio pertenece o no a una comunidad tiene impacto en las ayudas económicas recibidas.
2. Hay centros con mayoría de estudiantes hispanos o negros que tienen más necesidades económicas que los centros con mayoría de raza blanca.
3. La localización de los colegios está afectando a las ayudas.
4. Los centros con mayores necesidades tienen un % de asistencia a clase más bajo.

Para contrastar estas hipótesis, tendrás que llevar a cabo los siguientes pasos en la analítica:
1. Analizar geográficamente las zonas de NY, en función de las necesidades económicas y las estimaciones de ingresos de los colegios.
2. ¿Cómo se reparten geográficamente los colegios en función de la raza de sus estudiantes?

    2.1 ¿En qué zonas de NY se encuentran la mayor parte de colegios con estudiantes de raza negra?
    
    2.2 Lo mismo para raza hispana
    
    2.3 Raza blanca
    
    2.4 Asiática
    
3. Analiza las distribuciones de los % de cada raza. ¿Qué raza o razas dirías que predomina en los colegios de NY?

4. ¿Hay alguna relación entre las necesidades económicas de los colegios y la raza de sus estudiantes? ¿Y entre los ingresos y sus razas?

5. Analicemos ahora la asistencia a clase. Supongamos que hay colegios con alta tasa de ausencia (>=30%) y baja tasa de asistencia (<=11%).

    5.1 ¿Dónde se situan los de alta y baja tasa?
    
    5.2 ¿Qué % mayoritario de razas tienen ambos grupos?
    
    5.3 Necesidades económicas y estimación de ingresos de esos colegios.
    
6. Vamos a analizar el rendimiento académico de los alumnos. Para ello, tendremos que dividir el dataset en colegios donde predominan latinos y negros (>= 70%) vs predominio de asiáticos y blancos. Saca algunos estadísticos y compara en una gráfica las funciones de densidad de ambos grupos, para los scores de matemáticas y ELA (English Language Arts).

7. Comprobaremos ahora la influencia de si un colegio pertenezca o no a una comunidad

    7.1 ¿En qué afecta que el colegio pertenezca a una comunidad? Raza, necesidades económicas, ingresos...
    
    7.2 Compara mediante funciones de densidad si los colegios comunitarios tienen mayores ingresos.
    
    7.3 Compara mediante funciones de densidad si los colegios comunitarios tienen mayores necesidades económicas.
    
8. ¿Existe aguna relación entre las necesidades económicas de los colegios y las estimaciones de ingresos?

9. Conclusiones

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/3/3d/Map_of_New_York_Economic_Regions.svg/2000px-Map_of_New_York_Economic_Regions.svg.png'/>

In [1]:
import pandas as pd

In [4]:
df = pd.read_csv('./data/2016 School Explorer.csv', sep=',')
df.head()

Unnamed: 0,Adjusted Grade,New?,Other Location Code in LCGMS,School Name,SED Code,Location Code,District,Latitude,Longitude,Address (Full),...,Grade 8 Math - All Students Tested,Grade 8 Math 4s - All Students,Grade 8 Math 4s - American Indian or Alaska Native,Grade 8 Math 4s - Black or African American,Grade 8 Math 4s - Hispanic or Latino,Grade 8 Math 4s - Asian or Pacific Islander,Grade 8 Math 4s - White,Grade 8 Math 4s - Multiracial,Grade 8 Math 4s - Limited English Proficient,Grade 8 Math 4s - Economically Disadvantaged
0,,,,P.S. 015 ROBERTO CLEMENTE,310100010015,01M015,1,40.721834,-73.978766,"333 E 4TH ST NEW YORK, NY 10009",...,0,0,0,0,0,0,0,0,0,0
1,,,,P.S. 019 ASHER LEVY,310100010019,01M019,1,40.729892,-73.984231,"185 1ST AVE NEW YORK, NY 10003",...,0,0,0,0,0,0,0,0,0,0
2,,,,P.S. 020 ANNA SILVER,310100010020,01M020,1,40.721274,-73.986315,"166 ESSEX ST NEW YORK, NY 10002",...,0,0,0,0,0,0,0,0,0,0
3,,,,P.S. 034 FRANKLIN D. ROOSEVELT,310100010034,01M034,1,40.726147,-73.975043,"730 E 12TH ST NEW YORK, NY 10009",...,48,1,0,0,0,0,0,0,0,0
4,,,,THE STAR ACADEMY - P.S.63,310100010063,01M063,1,40.724404,-73.98636,"121 E 3RD ST NEW YORK, NY 10009",...,0,0,0,0,0,0,0,0,0,0


# Limpieza de los datos

In [10]:
#Eliminamos las primeras tres columnas
df = df.drop(['Adjusted Grade', 'New?', 'Other Location Code in LCGMS'], axis=1)

In [11]:
df.head()

Unnamed: 0,School Name,SED Code,Location Code,District,Latitude,Longitude,Address (Full),City,Zip,Grades,...,Grade 8 Math - All Students Tested,Grade 8 Math 4s - All Students,Grade 8 Math 4s - American Indian or Alaska Native,Grade 8 Math 4s - Black or African American,Grade 8 Math 4s - Hispanic or Latino,Grade 8 Math 4s - Asian or Pacific Islander,Grade 8 Math 4s - White,Grade 8 Math 4s - Multiracial,Grade 8 Math 4s - Limited English Proficient,Grade 8 Math 4s - Economically Disadvantaged
0,P.S. 015 ROBERTO CLEMENTE,310100010015,01M015,1,40.721834,-73.978766,"333 E 4TH ST NEW YORK, NY 10009",NEW YORK,10009,"PK,0K,01,02,03,04,05",...,0,0,0,0,0,0,0,0,0,0
1,P.S. 019 ASHER LEVY,310100010019,01M019,1,40.729892,-73.984231,"185 1ST AVE NEW YORK, NY 10003",NEW YORK,10003,"PK,0K,01,02,03,04,05",...,0,0,0,0,0,0,0,0,0,0
2,P.S. 020 ANNA SILVER,310100010020,01M020,1,40.721274,-73.986315,"166 ESSEX ST NEW YORK, NY 10002",NEW YORK,10002,"PK,0K,01,02,03,04,05",...,0,0,0,0,0,0,0,0,0,0
3,P.S. 034 FRANKLIN D. ROOSEVELT,310100010034,01M034,1,40.726147,-73.975043,"730 E 12TH ST NEW YORK, NY 10009",NEW YORK,10009,"PK,0K,01,02,03,04,05,06,07,08",...,48,1,0,0,0,0,0,0,0,0
4,THE STAR ACADEMY - P.S.63,310100010063,01M063,1,40.724404,-73.98636,"121 E 3RD ST NEW YORK, NY 10009",NEW YORK,10009,"PK,0K,01,02,03,04,05",...,0,0,0,0,0,0,0,0,0,0


In [18]:
df.dtypes.to_dict()

{'School Name': dtype('O'),
 'SED Code': dtype('int64'),
 'Location Code': dtype('O'),
 'District': dtype('int64'),
 'Latitude': dtype('float64'),
 'Longitude': dtype('float64'),
 'Address (Full)': dtype('O'),
 'City': dtype('O'),
 'Zip': dtype('int64'),
 'Grades': dtype('O'),
 'Grade Low': dtype('O'),
 'Grade High': dtype('O'),
 'Community School?': dtype('O'),
 'Economic Need Index': dtype('float64'),
 'School Income Estimate': dtype('O'),
 'Percent ELL': dtype('O'),
 'Percent Asian': dtype('O'),
 'Percent Black': dtype('O'),
 'Percent Hispanic': dtype('O'),
 'Percent Black / Hispanic': dtype('O'),
 'Percent White': dtype('O'),
 'Student Attendance Rate': dtype('O'),
 'Percent of Students Chronically Absent': dtype('O'),
 'Rigorous Instruction %': dtype('O'),
 'Rigorous Instruction Rating': dtype('O'),
 'Collaborative Teachers %': dtype('O'),
 'Collaborative Teachers Rating': dtype('O'),
 'Supportive Environment %': dtype('O'),
 'Supportive Environment Rating': dtype('O'),
 'Effectiv

In [19]:
df['Percent Asian']

0        5%
1       10%
2       35%
3        5%
4        4%
       ... 
1267     0%
1268     0%
1269     0%
1270     2%
1271     1%
Name: Percent Asian, Length: 1272, dtype: object

# 1.Analizar geográficamente las zonas de NY, en función de las necesidades económicas y las estimaciones de ingresos de los colegios. 

In [23]:
#Dataframe con longitud y latitud de cada colegio
latlng = df[['Latitude', 'Longitude']]

In [31]:
#Series con los nombres de los colegios
school_name = df['School Name']

In [43]:
#Dataframe con las columnas de necesidades económicas y estimaciones de ingresos
money = df[['Economic Need Index','School Income Estimate']]

### Modificaremos la columna de estimacion de ingresos

In [44]:
money['School Income Estimate'] = money['School Income Estimate'].replace('\$', '', regex=True)
money['School Income Estimate'] = money['School Income Estimate'].replace('\,', '', regex=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  money['School Income Estimate'] = money['School Income Estimate'].replace('\$', '', regex=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  money['School Income Estimate'] = money['School Income Estimate'].replace('\,', '', regex=True)


In [49]:
money['School Income Estimate'] = pd.to_numeric(money['School Income Estimate'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  money['School Income Estimate'] = pd.to_numeric(money['School Income Estimate'])


In [50]:
money.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1272 entries, 0 to 1271
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Economic Need Index     1247 non-null   float64
 1   School Income Estimate  876 non-null    float64
dtypes: float64(2)
memory usage: 20.0 KB


### Seleccionamos los datos que no tienen un School Income Estimate de 0

In [55]:
money = money[money['School Income Estimate'] > 0]
money.shape

(876, 2)

### Creamos el mapa

In [None]:
import folium
from folium import plugins

heat_map = folium.Map(location=[40, -2], tiles='CartoDB Dark_Matter', zoom_start=6)

plugins.HeatMap(large_cities).add_to(map_heatmap)